各位小伙伴们,大家好~这里是火火的数据库专栏。经过前几期推文的介绍,我们大概说完了circRNA研究领域三个主流研究方向的常用数据库,包括circbank, circinteractome以及circRNADb数据库。
但是circRNA的数据库显然并不只有这几个,目前可供选择使用的circRNA数据库多达20几个。
那么就会有小伙伴问,那么多数据库我该如何选择呢?我的回答是,小孩子才做选择,大人全都要哈哈哈。circRNA目前还是比较新兴的分子,众多circRNA数据库基于高通量数据集的分析,或多或少都存在信息收录不全的问题。因此,建议大家在使用数据库的时候尽可能多个数据库进行交叉验证,提高准确性,查漏补缺。
接下来几期推文,我将会为大家介绍几款其他活好不粘人的circRNA数据库/软件,以供大家选择,欢迎大家持续关注~
今天要介绍的这款数据库可就厉害了,来自风老师的倾情推荐----CSCD数据库。
划重点:
今天说的CSCD数据库可不是中国科学引文数据库,CSCD数据库全称为cancer-specific circRNA database,看字说话就知道,这款circRNA数据库主打癌症特异性的亮点,从ENCODE官网共收集了19种癌症类型的87个癌细胞系样本和141个正常细胞系样本,并筛选出只在肿瘤患者中表达的circRNA。
CSCD数据库网址为:
http://gb.whu.edu.cn/CSCD/
大家在使用的时候请同样不要忘记引用参考文献:
Xia S*, Feng J*, Chen K*, Ma Y, Gong J, Cai F, Jin Y, Gao Y, Xia L, Chang H, Wei L, Han L#, He C#. CSCD: A database for cancer-specific circular RNAs. Nucleic Acids Research. 2017. doi: 10.1093/nar/gkx863.
一、数据库基本介绍
为明确癌症特异性的circRNAs(cancer-specific circRNAs, CS-circRNAs),CSCD数据库使用了四种算法来识别circRNA的反向剪切位点,其中任意一种算法检测到反向剪切位点即被纳入到数据库中:
1. CIRI2

2. find circ
3. circRNA_finder
4. Circexplorer
CSCD数据库相较于其他circRNA数据库有一个较为明显的改进,就是同时提供了GRCh37(hg19)及GRCh38(hg38)的基因注释信息,避免了用户另外再进行转换的麻烦,毕竟目前大多数数据库使用的都是hg19,而测序公司给的数据以hg38居多。CSCD数据库从癌症细胞系中共收录了443 061条circRNA,并进一步将其与正常细胞系中鉴定的1 121 871条circRNA进行比较,最后得到272 152条肿瘤特异性circRNA。这些CS-circRNA中,共有119 887条位于外显子区域,105 398条位于内含子区域,31 575位于基因间区域。CSCD数据库同时发现了许多其他数据库尚未收录的circRNA。例如,CDR1-AS1在CSCD数据库中共鉴定出可以转录17个circRNA,而circBase数据库中仅收录了其一条circRNA,进一步说明了构建癌症特异性的circRNA数据库的重要性。
如上表所示,MRE,RBP,ORF分别为CSCD数据库所预测的circRNA可以结合的miRNA,蛋白质以及开放阅读框,分别采用Targetscan,Starbase以及ORF Finder算法进行预测。CSCD数据库同时就样本量、收录的circRNA数量以及预测RBP等方面与circinteractome数据库进行了对比,说明CSCD数据库信息收录更为全面,尤其是肿瘤相关样本信息。
Table S2. Comparison between CircInteractome and CSCD.
CircInteractome
CSCD
Number of sample types
34
86
Number of circRNAs
65,535
1,394,023
Number of MREs
809,014
76,439,955
Number of RBPs
3,081,441
103,927,037
二、数据库实操
输入网址http://gb.whu.edu.cn/CSCD/进入数据库主页面。可以看到CSCD数据库主页面简洁大方,所有内容一目了然,大致一共分为三个部分,左侧的检索栏,以及右侧上下两部分的结果展示栏。最上方的导航栏点击“GRCh37”,“GRCh38”,可以在hg19/hg38两个版本中切换,依次点击“TUTORIAL”,“CONTACT US”,“DOWNLOAD”可以看到数据库的使用说明,作者的联系方式,以及数据库所使用的肿瘤特异性circRNA的完整文件。
左侧检索栏
在这个版块中,用户可以通过选择样本类型(点击“Cancer-specific”处可以选择Cancer-specific/Normal/Common),样本名称(点击“All Samples”处可以选择不同的细胞系),Gene symbol(点击“All Genes”处下拉可以选择不同的gene symbol),亚细胞定位(点击“All Cellular Location”处下拉可以选择细胞核、细胞膜、细胞质等不同的定位)以及在搜索框中搜索circRNA在染色体上的序列位置(如chrX:18928998 | 18938303)等来检索想要的circRNA。下方的输出列表显示了每个circRNA的基本信息,包括其宿主基因,样本类型,circRNA ID,USCS链接(单击此处可以链接到UCSC浏览器链接至此circRNA),样本来源,circRNA结构构成,lncRNA / mRNA注释,circRNA/线性转录本的比例,剪接外显子,circBase ID,亚细胞定位,所使用的鉴定circRNA的算法及其相应的junction reads数,log2SRPTM。温馨提示,最下方还有一个可以左右横拉的滑块,大家不要以为信息只有当前页面所展示的这些喔~
右侧检索栏
在左侧检索栏任意点击一行或者点击gene symbol可以在右侧栏显示相应的结果。注意在左侧点击任意一行显示的是其对应的circRNA,点击gene symbol可以显示该宿主基因所能转录出的所有circRNA。以A1BG为例,点击该gene symbol,上方图片即可看到这段序列能够转录出的所有circRNA,下方则展示了其线性转录本,彩色方块表示外显子,黑色线条代表内含子,最下方同时展示了潜在的可变剪切,结果一目了然,便于理解。点击上方导航栏的“Gene”,“Transcript”,“CircRNA”,“Splice”可以进一步查看更详细的信息。
针对某一特定的circRNA,如点击上方circRNA两个成环处的线,在页面下方即可展示其对应的circRNA,包括MRE,RBP,ORF等信息。此处以A2M基因的一个circRNA转录本为例进行说明。可以发现环状序列上一共有三种颜色的标注说明,红色表示MRE,即miRNA可以结合的地方,蓝色表示RBP,即蛋白质可以结合的地方,绿色表示ORF,即潜在的翻译区。最上方导航栏点击“CircRNA”,“MRE”,“RBP”以及“ORF”可以进一步查看更详细的信息。
CSCD数据库所能展示的信息就这么多啦~正如我开头所说,circRNA的数据库普遍做的都并不深入,都有这样那样的问题,所以大家在使用的时候要抓住每个数据库的亮点,进行交叉比对和选择,例如今天的CSCD数据库就方便各位搞肿瘤的宝宝们,可以在里面挖掘肿瘤特异性的circRNA~
欢迎大家关注解螺旋生信频道-挑圈联靠公号~

继续阅读
阅读原文