circRNA研究神器！circRNA编码蛋白研究必备！我藏不住了！真香！

一文学会circRNA编码蛋白探究神器circRNADb数据库

各位小伙伴们，大家好~我是火，欢迎大家来到火火的数据库安利专栏。前几期我们说到过circRNA研究领域里面比较热门的两个数据库：circbank与circinteractome（指路链接👉circRNA查询？用这个就可以了；circRNA研究神器，国自然申请你一定能用上！你一定能用上！ ）。
前者为circRNA提供了一套新的命名体系，并且可以预测circRNA与miRNA的交互作用；后者不仅可以预测circRNA与miRNA的互作，同时预测了某一个circRNA可能结合的RBP蛋白（RNA binding protein）。
今天我们再来聊聊circRNA研究领域常见研究思路中最后一个，也是最难做的一个方向—circRNA编码蛋白。今天我们的主角circRNADb数据库在这一方面就发挥着重要的作用。

circRNA作为非编码RNA，在20世纪70年代才首次被人们发现，之后几十年内一直被断断续续地进行研究，探索其在基因表达调控中发挥的作用。1995年，中国科学家首次在Science上报道了一个人工合成的circRNA，包含IRES序列元件，使得该circRNA得以招募核糖体与之结合，从而启动翻译。不含IRES序列原件的circRNA则无法行使该功能。虽然这个circRNA是纯人工合成的产物，但是引起了circRNA编码蛋白的研究热潮。科学家们开始致力于研究人体内天然存在的circRNA是否同样存在IRES序列元件，即是否存在编码蛋白质的可能性。

在这里给大家画个重点，经典的基于核糖体的翻译过程是要求mRNA存在5‘端帽子结构。而在真核生物体内还存在一种启动翻译的机制就是RNA内部存在允许核糖体结合的位点，即IRES序列元件。IRES序列元件是一段核苷酸序列，允许核糖体直接在一段RNA序列中间启动翻译，而不要求从5’端到3‘端进行阅读。circRNA是由头尾相连的闭合环状结构，缺少5’端帽子以及3‘端polyA的尾巴，因此只能采取第二种形式来启动翻译。如果一个circRNA包含至少一个IRES序列元件，它就有可能编码蛋白质。除此之外，还有一个重要的概念就是ORF（Open Reading Frame，开放阅读框）。它是一段对应于蛋白质氨基酸序列的密码子序列，从起始密码子ATG开始，到终止密码子TAA/ TAG/TGA结束。ORF与上游的核糖体募集、组装以及IRES等翻译调控元件一起完成RNA的翻译过程。换言之，预测circRNA能否编码蛋白，最重要的一点就是预测其是否包含IRES序列元件以及ORF序列。

好了，背景知识介绍的差不多啦，我们正式开始circRNADb数据库的介绍。数据库网址是http://reprod.njmu.edu.cn/circrnadb，大家在使用的时候不要忘记引用参考文献哟~

Chen, X., Han, P., Zhou, T. et al. circRNADb: A comprehensive database for human circular RNAs with protein-coding annotations. Sci Rep 6, 34985 (2016).

一、数据库基本介绍

circRNADb是一个综合性的circRNA信息查询数据库，收集文献中报道的circRNA相关数据集加以分析。由于原始数据集可能存在假阳性(circRNA两端的序列来自不同基因)和信息冗余，开发者使用GTF文件对其进行了筛选，共得到32,914个人类外显子circRNA，并列出了其详细的基因组信息，包括最匹配的转录本和相应的外显子剪接信息、基因组序列，以及所有可能的剪接异构体和相应的外显子剪接信息。开发者还注释了具有蛋白质编码潜力的circRNA的IRES序列元件以及开放阅读框(ORF)，并提供了其蛋白质表达的质谱学证据。此外，circRNA翻译的蛋白质的特性，包括结构域、N-糖基化位点、粘蛋白O-糖基化位点以及磷酸化位点也在数据库中有所展示。

circRNADb数据来源结构及分析流程

输入网址http://reprod.njmu.edu.cn/circrnadb，进入数据库主页面。整个页面清爽整洁，一目了然，傻瓜式操作对初学者使用十分友好。网页右上角有一个检索框，用户可以根据需要在其中输入关键词，包括染色体名称、gene symbol，转录本信息等来查询circRNA，结果页面会列出与关键词匹配的结果，这里不过多赘述。下方导航栏中的“Home”即为当前主页面，展示了circRNADb数据库以及circRNA的基本介绍。点击“View All RNAs”可以查看数据库收录的所有circRNA的信息。点击“Resources”可以下载circRNADb数据库中所有的circRNA数据集。为了维护和更新数据库，circRNADb数据库设计了“Submission”与“Feedback”页面（点击“Interaction”即可看到），供用户向circRNADb提交自己的数据、报告问题或提出建议。点击“Tutorial”可以查看数据库的使用帮助。

二、circRNADb数据库信息检索

circRNADb数据库的检索方式一共提供了“Advanced Search”，“Browse by Gene Symbol”，“Browse by Cell Type”,“Browse by PubMedID”以及“Browse by Protein-coding Potential”等5种检索选项。

在“Advanced Search”页面中，可以使用多达6个“AND”、“OR”以及“NOT”相结合的字段来检索特定的circRNA。

在“Browse by Gene Symbol”页面中，所有宿主基因的gene symbol以及其所能产生的所有circRNA转录本均以表格形式列出。注意，由于circRNADb也是基于已有文献报道的数据集进行的整理，所以信息相对不够完善，在circbase以及circbank数据库中针对某一特定宿主基因所能产生的circRNA信息更为全面。

用户可以通过点击右侧的“Counts”查看每个宿主基因的详细信息以及所能形成的所有circRNA。

circRNADb数据库同时支持按细胞(或组织)类型进行检索。所有数据按细胞(或组织)类型进行分组，共包含11种细胞和组织。每个细胞或组织的circRNA总数同时在一旁列出，用户可以单击“Counts”下的数字查看该细胞或组织类型中所有circRNA的详细列表。这一功能对于检索在特定细胞或组织中表达的circRNA非常有用。

“Browse by PubMedID”以及“Browse by Protein-coding Potential”允许用户按Pubmed ID以及蛋白质编码潜能进行检索。由于circRNADb数据库包含32,914个circRNA，其中11,423个circRNA包含IRES序列元件，16,328个circRNA包含ORF，仅7,010个circRNA同时包含IRES序列元件以及ORF（拥有编码潜能），占据所有circRNA的21.3%。因此，“Browse by Protein-coding Potential”可以帮助用户直接聚焦到可能编码蛋白的circRNA上。

三、页面结果解读

点击进入“View All RNAs”页面，以第一条circRNA“hsa_circ_00001”为例进行结果解读。点击红色链接，进入该circRNA的详细页面。

页面刷新后可以发现页面分为上下两部分，“General Information”以及“Detail Information”。基本信息部分显示了每个circRNA的ID、基因组位置、正/反义链、宿主基因的Gene Symbol、基因组长度、样本名称以及物种信息。

页面下拉，“Detail Information”提供了circRNA转录本的外显子数量、来源、大小、长度等组成信息以及整个circRNA的全长序列。其次，为了研究circRNA的蛋白质编码潜能，数据库预测了每个circRNA中的IRES序列元件和超过300bp长度的开放阅读框(ORF)，并提供了得分最高的两个IRES序列元件，包括位置、参数指标(R得分以及是否存在伪结点)。如果R得分低于1.6分，或不存在ORF，则该circRNA被认为不编码蛋白。如果circRNA具有编码蛋白质的潜能，数据库则提供包括结构域、翻译后修饰位点以及半衰期预测等在内的蛋白质特征。页面最下方还提供了该circRNA的文献来源，包括PubMed ID和详细的参考文献。

好了，关于circRNADb数据库的介绍我们就到这里结束啦。circRNA编码蛋白目前还是一个很大的研究方向，因此该数据库的重要性不言而喻。但是读者应同时认识到它的局限性，如该数据库所引用的文献尚未完全涵盖所有的circRNA，所以信息并不全面；其次在检索过程中，circRNA的ID也是使用上的一个痛点。该数据库进行检索时使用的是五位数circRNA ID，而主流数据库如circbase则采用的是7位数ID，因此在匹配上会带来一定的麻烦。火火推荐使用gene symbol在circRNADb中进行检索，或者使用染色体序列位置在circbase中进行检索，可以避开这种尴尬的情况~

欢迎大家关注解螺旋生信频道-挑圈联靠公号~

继续阅读

阅读原文