一文学会cBioPortal数据库使用方法

大家好,我是弘毅。上回说到,TCGA家族好兄弟TCIA(The Cancer Immunome Atlas)数据库的使用方法,想必不少小伙伴已是摩拳擦掌跃跃欲试,甚至于已经SCI论文成稿触手可及了,能在大家伙儿SCI发表之路上略尽绵薄之力,弘毅表示与有荣焉。这回我们继续聚焦TCGA数据挖掘相关的cBioPortal数据库介绍,小伙伴们不要走开,精彩之处值得期待哦~!
关于cBioPortal数据库
cBioPortal数据库网址https://www.cbioportal.org/,由Ceramic等在2012年和Gao等在2013年两篇文章(PMID: 22588877、23550210)所报道。cBioPortal提供来自多个平台肿瘤基因组学数据的在线交互式探索、可视化和临床相关性分析。该网站在基因水平整合多种数据类型,针对不同生物学过程,如体细胞基因突变和基因纯和删除,DNA拷贝数,mRNA或miRNA和蛋白表达等信息分别呈现给用户,具有方便无门槛、高效便捷等特点。
cBioPortal功能及操作演示
进入cBioPortal主页面,最上栏分别是:Data sets,提供数据集来源及参考文献链接;Web API,提供与在线可视化过程相同的API用于对数据进行编程访问,用户可通过连接到API构建个性化报告,感兴趣的小伙伴可以点击进入查看具体指南;R/MATLAB,是基于此两款语言的功能板块;Tutorials and Webinars提供网站使用指南相关视频;Visualize Your Data提供两款针对用户个人数据的可视化软件OncoPrinter和MutationMapper。
主页检索栏提供Query和Quick Search Beta两种方式,分别介绍如下。
一、Query检索功能
左侧栏显示各肿瘤名称,数字表示该肿瘤相关研究数目,并在中间栏显示,比如点击左侧栏Pediatric Cancer Studies,数据库中该肿瘤相关研究共有13个,显示在中间栏,每个研究可看到其包含的样本数,点击i标签可看到该研究简介,书本样标签提供Pubmed链接,饼图标签与Explore Selected Studies按键功能相同,点击可查看该研究临床信息和基因组学数据。最右侧栏是数据库中293个肿瘤研究项目统计结果,显示前20个,鼠标悬停在某个柱子可查看该肿瘤相关所有研究,点击details可查看全部肿瘤研究。
1
Explore Selected Studies功能
选中感兴趣的肿瘤的某个研究项目,点击Explore Selected Studies按键进入结果页面,点击右上角下载按钮,可下载该数据集临床信息TSV格式文件。Summary显示该数据集多种可视化结果,右上角Charts下拉菜单可选择需要显示的条目。
页面下拉,可看到该数据集更多统计信息,如基因突变、基因拷贝数信息的表格和散点图等。
Clinical Data展示该数据集临床信息,右上角Columns下拉菜单可选择需要显示的临床信息条目。
CN Segments提供该数据集DNA拷贝数信息,下拉菜单可选择感兴趣的染色体,旁边的设置按钮可选择热图展示方式。
2
Query By Gene功能
选中感兴趣的肿瘤的某个研究项目,点击Query By Gene按键,进入设置界面,第一栏显示已选择的肿瘤数据集;第二栏设置需要检索的数据集组学类型,其中mRNA和蛋白表达数据可以设置z-score阈值,即平均数加减多少个标准差;
第三栏,选择包含特定类型数据的样本;
第四栏,选择需要检索的基因集,可以选择不同通路或生物学过程基因集,可以输入以空格分隔的自定义基因ID列表,系统会检验输入基因名称是否正确或者选择的数据集是否存在该基因的表达数据,出现绿色标签All gene symbols are valid说明输入基因正确。

设置好参数,点击Submit Query进入结果界面。
(1)
OncoPrint是该组肿瘤样品中目标基因集的组学变化特征,行代表基因,列代表样本,图形和颜色代表不同的基因组变化,包括不同突变类型、CAN(扩增和纯合缺失)以及基因表达或蛋白质表达丰度变化。鼠标悬停在某个小竖条上可获得对应样本ID链接、突变信息、mRNA或蛋白表达信息等。
不同小竖条代表含义如下。
自定义可视化结果,可进行缩小放大,反选view下show unaltered cases移除无改变cases,反选view下show whitespace between columns移除samples之间空白,再通过Sort更改结果排序。
可删除或添加部分基因保留感兴趣基因,获得简洁美观的Figure,比如RB1基因突变信息。
(2)
Cancer Types Summary是该组肿瘤样品中各个基因不同组学改变类型所占比例的统计结果,可点击不同基因查看。
(3)
Mutual Exclusivity展示该组肿瘤数据集中不同基因之间相互排斥或共现的可能性,提供p值及校正后p值(q值),可下载或复制表格。
(4)
Plot提供可视化结果,可选择不同数据类型,选择目标基因,左边栏可设置横、纵坐标轴参数,如图显示选中的361肿瘤样本中RB1不同突变类型的mRNA表达水平,鼠标悬停在散点可显示该样本ID链接,右上角提供SVG、PNG或PDF格式图片,以及Data表格下载。
(5)
Mutation提供各个基因突变位点和频率信息,最上一栏可选择感兴趣基因,右侧栏显示Refseq、Ensembl、CCDS和Uniprot数据库链接。
Add annotation tracks可自定义表格,显示肿瘤相关热门位点(Cancer Hotspots)和蛋白翻译后修饰位点(PTM sites)信息。
点击3D Structure可查看蛋白三维结构图,PDB Chains可选择想要查看的肽链三维结构和具体信息。
下方表格显示所有非同义突变详细信息,Columns菜单提供以下信息:样本ID链接,氨基酸变化,突变类型(错义突变,无义突变,剪接位点,移码,插入或缺失等);预测的错义突变功能;链接到突出显示突变的3D结构;突变状态;验证状态;肿瘤等位基因突变频率;匹配正常样本等位基因突变频率;确切基因组位置信息(染色体,起始和终止位点等);受影响的同工型信息等,可以根据需要进行排序和过滤。
(6)
Co-expression提供该肿瘤数据集中目标基因与其他基因共表达情况,上方栏选择目标基因,下方列表可选择其他基因,左侧显示相关性点图及统计分析结果。
(7)
Comparison/Survival提供生存分析可视化结果:点击Overlop查看分组信息;点击Survival查看总生存、无病生存和无进展生存分析结果,右上角均提供SVG、PNG或PDF格式图片,以及Data表格下载。
点击Clinical显示临床信息基线资料表,以及对应的点图。
点击Mutations可显示不同基因突变情况,突变率较高的基因以柱状图形式呈现,下面表格显示各个基因在不同分组中突变差异情况,Copy-number、mRNA、Protein和Microbiome Signature结果与之类似。
(8)
CN Segments提供基因拷贝数信息,鼠标悬停可查看染色体位置、起始位点、样本编号等信息。
(9)
Pathways展示选定的基因集中各个基因的组学改变频率,以及富集的相关通路和生物学过程,可复制或下载数据表格。
(10)
Download提供不同类型数据格式下载链接。
二、Quick Search Beta检索功能页面
可输入疾病名称、基因名称或TCGA数据集名称进行检索,以EGFR为例,检索结果基本同前。
点击Expression可查看EGFR在不同肿瘤中的表达情况,以RNA seq结果取log2后作图,标注有各个肿瘤的数据库来源,右上角可下载SVG、PNG或PDF格式图片。
好啦,关于cBioPortal数据库正餐就上到这里,其他小工具小甜点就靠小伙伴们自行挖掘了。欲知更多生信知识,我们相约“挑圈联靠”公众号哈~下期再见了~~!
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文