一次喂饱,又是蛋白质泛素化!
引子
大家好,我是风。上回大家已经见识到了来自Science实验室大佬——弘毅 的实力了吧?这回来的是“数据库双雄”的另一位老师——火,很熟悉了吧?看过“酸谈”公众号的人都知道火火老师曾经奋笔疾书,在3天高强度投入情况下写完了一篇SCI文章并且完成投稿,这篇文章也在一个月内予以接收,实在是太佩服了!关于火火老师的优秀,就留给大家在推文中去体会吧。今天,他将给大家带来另一个泛素化研究的数据库。
Hello,小伙伴们,大家好,我是火,这次跟大家聊一聊蛋白质泛素化 (ubiquitin conjugation) 研究的神器----iUUCD数据库。iUUCD数据库全称为integrated annotations for Ubiquitin and Ubiquitin-like Conjugation Database,主要聚焦于蛋白质泛素化及类泛素化数据的整合,目前对所有用户免费使用。精神小火双手为大家呈上网址:http://iuucd.biocuckoo.org/。
如果大家在文章中使用了iuuCD数据库记得引用相关参考文献哟~:
[1] UUCD: a family-based database of ubiquitin and ubiquitin-like conjugation
 Tianshun Gao, Zexian Liu, Yongbo Wang, Han Cheng, Qing Yang, Anyuan Guo,  
Jian Ren and Yu Xue. Nucleic Acids Research. 2013, 41:D445-D451.
[2] iUUCD 2.0: an integrated database of regulators for ubiquitin and ubiquitin-like conjugation
 Jiaqi Zhou, Yang Xu, Shaofeng Lin, Yaping Guo, Wankun Deng, Ying Zhang, Anyuan Guo and Yu Xue. Nucleic Acids Research. 2017, 10.1093/nar/gkx1041.
一、蛋白质的翻译后修饰及蛋白质的泛素化
说到蛋白质泛素化就不得不提到蛋白质的翻译后修饰(Post translational modification, PTM)了。酸菜老师最早在36策第6策通路圆满的时候就已经讲过蛋白质磷酸化的问题,老谈老师在24型中也专门用了两个章节来讨论蛋白质的泛素化,弘毅在介绍PTMD数据库的时候也详细介绍了蛋白质的翻译后修饰,有需要的小伙伴可以找到相应的内容进行更深一步的了解,这里就不做过多介绍了。
蛋白质的翻译后修饰对蛋白质的结构和功能起着重要的调节作用,通过改变蛋白质的功能特性或空间结构影响各种生物学进程。蛋白质的修饰类型是最多的,有几十上百种,酸菜老师在讲横纵嵌套的时候重点要求大家掌握两种修饰类型,即蛋白质的磷酸化和泛素化。磷酸化主要导致蛋白质活性的变化,而泛素化主要介导蛋白质的降解。如果大家在实验过程当中发现了某些蛋白水平的下降,不妨考虑一下是否有泛素化修饰的发生。
在进一步学习泛素化相关的数库之前,各位小伙伴们再来一起复习一下参与泛素化修饰的几种关键的酶吧。泛素化的过程通常是经由泛素—蛋白酶体系统(ubiquitin-proteasome system,UPS)进行介导,UPS中含有多个关键的组分,包括泛素分子、泛素激活酶(ubiquitin-activating enzymes, E1s)、泛素结合酶(ubiquitin-conjugating enzymes, E2s)、泛素蛋白连接酶(ubiquitin-protein ligases, E3s)、去泛素化酶(deubiquitinating enzymes, DUBs)以及蛋白酶体。泛素激活酶E1s在泛素化反应的起始步骤发挥作用,它可以结合并激活泛素分子泛素结合酶E2s是泛素化反应的中间酶,被E1s酶激活的泛素分子可以与E2s上的半胱氨酸位点结合并形成硫酯键,随后与泛素蛋白连接酶E3s相互结合并将结合在自身的泛素分子转移到底物蛋白上,完成底物蛋白的泛素标记。在整个泛素化过程中,泛素蛋白连接酶E3s发挥着最关键的作用,它可以特异性地识别靶蛋白质,将泛素分子转移到底物蛋白上。说到这里是不是有小伙伴已经感觉到眼花缭乱了呢?总而言之,大家认识到泛素化是一个沿着E1s--E2s--E3s酶发挥作用的过程就好了,而去泛素化酶DUBs则可以移除蛋白质上的泛素化修饰,进而改变蛋白质被降解的命运。
学习了泛素化之后,大家还需要了解一个生物学过程,即类泛素化过程 (ubiquitin-like conjugation),它在细胞内的反应过程与泛素化非常相似,只是参与反应的是其他的小肽分子(非泛素分子),通过类似的E1s/E2s/E3s 被修饰到靶蛋白上,其中就包括大家所熟知的sumo分子、NEDD8分子等。类泛素化由于与泛素化的反应过程相似,将在iUUCD数据库的使用介绍中一并说明。泛素和类泛素化(UB/UBL)调控多种细胞反应,包括蛋白质的降解和转运、细胞间的信号转导、细胞周期以及DNA的损伤修复。泛素化的功能失调则会引起多种机体病理变化,包括肿瘤发生、神经退行性病变以及心脏疾病等。在这些过程中,除了前文介绍的这些酶和效应蛋白,许多带有UB/UBL结合结构域(UB/UBL binding domains, UBDs)或类泛素结构域(ubiquitin-like domains, ULDs)的蛋白质也发挥着重要作用。
二、iUUCD数据库介绍
iUUCD数据库由华中科技大学薛宇教授课题组构建,早在2013年他们就开发了iUUCD数据库的前身----UUCD 1.0,其中包含了70种真核生物738个E1s, 2937个E2s,46, 631个E3s以及6647个DUBs。几乎同一时间,Hutchins等人构建了DUDEdb数据库,从50个基因组中鉴定了35, 228个泛素化酶(ubiquiti-
nating enzymes,UBEs)和DUBs,并分析了真核生物体内泛素化系统的进化史。但是UBDs和ULDs蛋白并未囊括在其中。哈里森等人于2016年首先构建了UbSRD数据库,包含了509个含有UBL结构域蛋白质的3D结构,而UBDs和ULDs蛋白同样未纳入其中。因此,更新后的iUUCD数据库提供了更全面的资源,包括已知文献报道的27个E1s、109个E2s、1153个E3s、164个DUBs、396个UBDs以及183个ULDs,并将其分别分为了1,4,23,8,27以及11个家族。值得一提的是,iUUCD数据库额外从其他68个公共数据库中整合了这些蛋白的详细注释,包括:
(1)癌症相关数据库,如ICGC,COSMIC,TCGA,CGAP和IntOGen等
(2)单核苷酸多态性(SNP)相关数据库,如dbSNP等
(3)mRNA相关数据库,如GEO,ArrayExpress,GXD,FFGED,TCGA,ICGC,COSMIC, HUMAN PROTEOME MAP以及The Human Protein Atlas等;
(4)DNA&RNA相关数据库,如UTRdb,AREsite,JASPAR CORE,circBase,circRNADb,CircNet,Circ2Traits,miRTarBase,microRNA.org,TRANSFAC,miRWalk,TargetScan,miRecords,RepTar,miRNAMap,SomamiR DB 2.0,miRcode,RAID v2.0以及LncRNADisease等;
(5)蛋白—蛋白相互作用数据库,如IID,iRefIndex,PINA,HINT,Mentha,SZDB以及InWeb_IM等;
(6)蛋白质3D结构数据库,如PDB,MMDB以及SCOP;
(7)疾病变异相关的数据库,如ClinVar,OMIM,GWASdb以及GWAS CENTRAL;
(8)药物靶标相关数据库,如DrugBank, TTD, KPID, CARLSBAD, SuperTarget, GRAC以及PDTD等;
(9)翻译后修饰相关数据库,如CPLM,dbPAF,dbPPT,phosSNP,PhosphositePlus,Phospho.ELM,dbPTM,PHOSIDA,BioGRID,HPRD,UniProt,O-GlycBase,PhosphoBase以及mUbiSiDa等;
(10)DNA甲基化相关数据库,如MethyCancer, TCGA, ICGC以及COSMIC等;
(11)蛋白质组学相关数据库,如The Human Protein Atlas, Human Proteome Map 以及GPMDB等;
三、iUUCD数据库使用说明
1
输入网址打开iUUCD数据库,进入主页面,导航栏中点击HOME, BROWSE, SEARCH, LINK, DOWNLOAD, USER GUIDE即可进入相应的界面,将在下文进行逐一介绍;侧边栏结构类似于PTMD数据库,提供了PTM相关的数据库以及一些工具包的下载。其中IBS工具适用于绘制基因结构图,参考Genecards单元课,Heml适用于无代码绘制热图,感兴趣的小伙伴可以尝试一下。主体内容则是对iUUCD数据库内容的介绍。
页面下拉可以见到简单的检索框以及需要引用的参考文献信息:
2
点击BROWSE进入相应界面。iUUCD将所有E1s,E2s,E3s,DUBs,UBDs以及ULDs分为来自68种动物(Ensembl),39种植物(Ensembl Plants)和41种真菌(Ensembl Fungi)的74个科。此外,iUUCD还为数据库中所有这些蛋白质提供了注释信息,包括上文提及的11种数据库。使用者可以通过点击“By species”或“By classifications”两种方式进行检索。
为了更好地说明iUUCD 2.0的用法,我们接下来以人E3泛素蛋白连接酶MDM2为例进行演示。点击进入“By species”中的“Animals”,显示如下界面,左侧显示Ensemble分类类别,右侧显示Ensemble中真核生物的系统发育关系。点击左侧的条目或者右侧图片上的标识即可浏览相应的科或种属。
点击“Homo sapiens”后点击E3按钮即可显示人类E3泛素蛋白连接酶的详细家族分类。
点击“E3 activity/RING/RING family”后点击“IUUC-Hsa-046376”即可查看人MDM2蛋白的基本信息。
与此同时,通过点击“By classifications”下的“Enzymes”进入如下界面后,点击左侧家族树下的“RING”或者右侧结构图中的“RING”后,选择“Homo sapiens”以及“IUUC-Hsa-046376”同样可以检索到MDM2蛋白的基本信息。
点击“IUUC-Hsa-046376”进入新的页面,使用者可以查看MDM2蛋白基本信息,包括Ensemble基因/转录本/蛋白质ID,Uniprot链接入口,蛋白家族分类信息,结构域概况,蛋白质功能描述以及蛋白质/核苷酸序列信息等。使用者可以单击导航栏上的“Integrated Annotations”或“Annotation”按钮获得更详细的注释信息。
3

点击SEARCH按钮进入iUUCD的检索页面,iUUCD提供了多种检索选项,包括:
(1)简单检索:
使用者可以输入一个或多个关键字(以空格分隔)进行检索。检索选项包括iUUCD ID,UUCD1 ID,UniProt ID,Ensembl Protein ID,Ensembl Gene ID,Ensembl Transcript ID,Protein Name,Gene Name以及Family。
(2)批量检索:
使用者可以输入一个关键字在iUUCD中检索多种蛋白质。检索选项包括iUUCD ID,UUCD1 ID,UniProt ID,Ensembl Protein ID,Ensembl Gene ID,Ensembl Transcript ID,Protein Name,Gene Name以及Family。以示例数据举例,单击“提交”按钮,将显示所有包含如“ENSG00000182866; ENSG00000169967; ENSG00000163558”等Ensemble ID的物种。
(3)高级检索:
使用者最多可以输入三个检索词来检索更具体的信息,检索词之间以AND,OR或者NOT进行连接。
(4)HMM检索:
使用者可以通过HMM算法找到蛋白质序列的特定结构域或基序。该检索项可以帮助使用者准确找到所查询结构域的详细位置,而每次仅允许查询一个FASTA格式的蛋白质序列。对于所有基于结构域的HMM配置文件,没有相同的E值阈值,每个E值阈值都对应于特定的结构域模型。例如,Cullin结构域的得分阈值为196.1,而HECT结构域的得分阈值为95.8。单击“Example”按钮加载包含人F-box / WD重复序列的蛋白1A的序列信息,单击“提交”按钮后即可在HMM检索结果中找到相关的结构域信息。
(5)BLAST检索:
研究者可以通过输入蛋白序列进行比对以找到特定的蛋白质和/或相关的同源物。该检索选项有助于快速找到所需查询的蛋白质,但每次仅允许查询一个FASTA格式的蛋白质序列。E值阈值可以由使用者自行定义,而物种信息则可以指定。E值和种类的默认参数分别为0.01和H. Sapiens。
4

点击LINK,可以链接到iUUCD额外整合的11类数据库(详情见前文所述):
5
点击DOWNLOAD,可以下载iUUCD数据库所使用的序列,注释信息以及HMM文件:
6

点击USER GUIDE,可以看到iUUCD数据库与前身UUCD数据库的区别,页面下拉有针对数据库使用说明的信息。
好了,iUUCD数据库的使用介绍就到这里了,各位小伙伴们我们下个数据库再见啦~
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文