一文学会集美貌与实力于一身的TANRIC数据库

嗨,小伙伴们大家好!这里是弘毅专栏~每周一给大家分享一个数据库实操教程!
这次弘毅给大家带来的是一款集lncRNA注释和表达信息、可视化和临床相关分析等多种功能~啊~不~是才华与美貌于一身的TANRIC数据库使用方法,不要走开哦~!
TANRIC数据库

TANRIC全称为The Atlas of non-coding RNA in Cancer,即肿瘤非编码RNA地图集,由MDAnderson团队开发并于2015年发表在Cancer Research杂志。
该数据库对来自TCGA(The Cancer Genome Atlas)和CCLE(Cancer Cell Line Encyclopedia)等数据库的20种癌症超过8000个样品的RNA-seq数据集进行整合和深度分析,包含三大类数据,分别为lncRNA注释信息,RNA-Seq数据和profiling数据。
TANRIC提供查询和分析两大功能,提供每个样品lncRNA表达量信息,可供分析表达量与临床指标、耐药性和预后相关性,可以针对候选lncRNA(已注释或任何用户自定义lncRNA)与功能基因mRNA或miRNA之间的相关性进行预测,还提供不同肿瘤中lncRNA表达谱的Heatmap可视化结果。
关于TANRIC数据库前戏结束,接下来,点击网址https://bioinformatics.mdanderson.org/public-software/tanric/,进入正餐时刻。
小贴士:推荐Chrome和火狐浏览器,弘毅亲测这两款浏览器访问比较顺利,另外还可以试试360浏览器
进入MDAnderson官网主页,首先映入眼帘的是该数据库的基本信息,可以看到上次更新时间是在2019年12月,目前为2.0版本,截止2020年8月份被引次数为297次,本着投桃报李的感恩心情,小伙伴们使用TANRIC时别忘记引用图中的参考文献哦!~
常见问题需要注意的一点是,TANRIC是基于BAM文件并使用RPKM值来量化lncRNA表达水平的。
TANRIC数据库功能及操作演示

点击https://www.tanric.org,进入TANRIC数据库主页,左边栏:Help为数据库基本功能视频演示;About为当前版本信息和更新时间;News为历史版本信息;FAQ常见问题;Resources为外部数据库链接(TCGA和CCLE);Credits和Contact为数据库维护和开发团队信息。在使用TANRIC数据库之前,小伙伴们可以点击Help查看使用方法演示,当然,也可以选择跟着弘毅的脚步,一起寻幽探密哈~
一、数据概览与下载
点击Home进入TANRIC功能页面,点击Summary进入数据库概览,可以看到全部的肿瘤数据集正常组和肿瘤组各自的样本数目,点击Show查看详细信息。
点击Download进入数据库下载页面,在感兴趣的肿瘤数据集前面打勾,然后点击Download可以下载得到压缩文件,解压可见lnRNA表达谱文件TCGA-BLCA-rnaexpr.tsv和数据描述信息TCGA-BLVA-rnaexpr-META.tsv文件。
二、查询与分析功能
1、My lncRNA功能模块
点击My lncRNA进入功能页面,依次选择肿瘤类型、输入感兴趣的lncRNA名称、样本类型、临床数据和组学数据关联分析,然后点击Submit提交,该页面各项设置具体含义可参看下图。
说明:对于很多新的lncRNA暂时未被NCBI等数据库收录和注释,TANRIC提供针对lncRNA外显子位置信息进行查询的方式,以HOTAIR为例:可以下拉菜单选择Query by Annotation,检索已注释lncRNA,输入内容为“HOTAIR”;也可以在下拉菜单选择Query by position,检索lncRNA外显子位置信息,输入内容为HOTAIR的4个外显子区域信息“chr12:54356092-54357908; 54359748-54359867; 54360060-54360161; 54362401-54362698”。两种方式查询结果一致。
以乳腺癌为例,查询HOTAIR信息,选择所有样本,勾选全部的临床数据和组学数据分析,点击Submit,进度条走到100%,可以查看检索结果。
结果栏中第1项lncRNA expr.,展示lncRNA在不同样本中表达量的log2转换值,可根据Position/Annotation和Sample ID检索感兴趣的条目,可根据Sample ID将所有样本分组,再将对应的表达量值输入Graphpad Prism或其他软件进行绘图。
结果栏第2项Diff.subtype,展示根据不同临床特征或基因组特征的分层分析结果,提供P值,点击“+”可展示箱图,鼠标悬停可看具体统计信息。如图,第一行为HOTAIR在不同AJCC病理分型的乳腺癌组织中表达情况,P值0.456,表示组间无显著性差异。
结果栏第3项Survival,生存分析结果,展示lncRNA表达水平与患者总生存期的相关性,提供基于单变量Cox比例风险模型的P值和通过Kaplan-Meier图进行对数秩检验的P值两种结果。
结果栏第4~6和8项,分别是lncRNA表达与SCNA(基因拷贝数变异)、mRNA、蛋白和miRNA表达水平之间的相关性,提供P值,点击“+”可展示相关性点图。以mRNA为例,根据Correlation或P-value排序,相关性系数最高为0.864,P<0.05,表示lncRNA表达水平与HOXC11 mRNA呈较强正相关关系。
说明:随着RNA调控机制研究的深入,ceRNA(competing endogenous RNAs)假说逐渐被广泛认可,即micRNA通过结合mRNA导致编码基因表达抑制,而ceRNA可以竞争性结合micRNA来调节编码基因表达。文献报道显示,大量lncRNA可以发挥ceRNA功能。TANRIC这部分数据提供lncRNA与每个micRNA或mRNA之间的相关性结果,可据此推断潜在的与lncRNA直接作用的RNA,作为ceRNA调控机制研究的候选分子。
结果栏第7项,展示不同基因突变型和野生型组织中lncRNA表达水平,提供P值,点击“+”可展示箱图。如图,第一行,P<0.05,表示PCNT基因突变型患者组织中HOTAIR表达水平显著高于PCNT野生型患者。
2、LncRNAs in cell lines功能模块
该模块与My LncRNA类似,区别在于CCLE数据库仅提供细胞系数据,没有临床预后等相关信息,在此不做赘述。
3、Analyze all lncRNAs功能模块
点击Analyze all lncRNAs进入功能页面,Genomic/Proteomic Data Analysis栏可输入感性趣的基因和miRNA,其余设置基本同前,选择感兴趣的肿瘤类型,然后点击Submit提交。
以乳腺癌为例,查询该数据集中与A1BG和has-let-7a-1表达相关的lncRNA信息,勾选全部的临床数据和组学数据分析,点击Submit,进度条走到100%,可以查看检索结果。
结果栏第1项lncRNA expr.,展示该数据集中不同lncRNA表达量的log2转换值,可根据Position/Annotation检索感兴趣的结果;第2~3项Diff.subtype,分别展示不同lncRNA在各种临床特征或基因组特征的分层分析和生存分析结果,基本同前。如下图,生存分析结果的第一行,可见Cox P-value和Log-Rank P-value均小于0.05,表示该lncRNA高表达与乳腺癌预后差相关。
第4项Corr.SCNA,说明该数据集查询到2条lncRNA的表达水平与A1BG基因拷贝数变异存在较弱的正相关关系;第5项Corr.mRNA,说明该数据集查到5条lncRNA的表达水平与A1BG基因mRNA表达存在较弱的正相关关系;
第6~8项无返回结果,说明该数据集中没有查询到与A1BG蛋白表达和基因突变存在相关性的lncRNA,也没查到与has-let-7a-1表达存在相关性的lncRNA;
4、Visualization功能模块
选择感兴趣的肿瘤数据集,可以得到该数据集差异表达前100、200和500的lnRNA的热图,K=2,3,4,5分别代表分2,3,4,5个cluster。选择其中一个点击进入,点击最上栏可进行个性化设置,右上角Misc可下载PDF格式图片。
文献单图复现

文献案例一:PMID: 32437068,IF=4.966分

文章Figure1B展示的是,通过TANRIC数据库分析The Cancer Genome Atlas中不同病理分型的乳腺癌患者组织中TMPO-AS1表达差异。
单图复现如下:进入TANRIC数据库主页,点击My lncRNA进入功能页面,肿瘤类型选择乳腺癌,输入TMPO-AS1,样本类型选择ALL,临床关联分析全选,然后点击Submit提交,进度到100%,查看结果栏第2项Diff.subtype,其中第二行即为本文结果。
这张图看着极其不美,毕竟我们解螺旋的小伙伴都要培养高taste,那么,返回My lncRNA功能页面,样本类型选择Normal_like,其余设置不变,然后点击Submit提交。
首先,查看结果第1项lncRNA expr.,展示lncRNA TMPO-AS1在Normal_like样本中表达量的log2转换值,同样的方法可以得到LumA、LumB、Basalt和Her2组各自所含样本的TMPO-AS1表达量log2转换值,全部复制粘贴进Graphpad如下。
Graphpad Prism绘制箱图,首先进行细节修缮,然后做差异统计分析,再添加差异性标签结果如下。
文献案例二:PMID: PMID: 29941860,IF=4.556分
文章Figure1D~F通过TANRIC数据库分析TCGA中ER-positive/ER-negative,PR-positive/PR-negative和5种病理类型乳腺癌患者组织中ITGB2-AS1的表达差异,方法同前不再赘述。
本文论证的是ITGB2-AS1通过互补配对的方式上调ITGB2 mRNA表达进而促进表型。Figure4B展示了通过TANRIC数据库分析ITGB2-AS1和ITGB2 mRNA表达相关性结果。
单图复现如下:点击Analyze all lncRNAs进入功能页面,Genomic/Proteomic Data Analysis栏输ITGB2,选择乳腺癌,其余设置基本同前,然后点击Submit提交,查看检索结果栏第5项Corr.mRNA,可见该数据集查到与ITGB2基因mRNA表达存在相关关系的234条lncRNA。
ITGB2-AS1编号为ENSG00000227039.2,检索可知该lncRNA正是234条lncRNA其中一条,相关系数为0.434,P值<0.05,二者具有较弱的正相关关系,点击“+”查看相关性点图。
好啦,关于TANRIC数据库加餐就到这里啦!欲知更多生信知识,我们相约“挑圈联靠”公众号~下期再见了~~!
欢迎大家关注解螺旋生信频道-挑圈联靠公号~

END
苦逼的2020年,
我们需要更多运气!
11月11日——19日
我们在寻找解螺旋锦鲤!
期盼天降鸿运,砸中你!
详细咨询,请务必扫码下图二维码,
入群参与!
我们,等你来!
继续阅读
阅读原文