十分钟学会TCGA的下载技巧
大家好,我是阿琛。用别人的数据,发自己的文章。生信研究,从数据下载,对数据的标准化清洗,到随后的数据可视化分析,最终完成整篇文章的成稿。
烹饪需要食材,分析需要数据。数据出发,整个研究的第一步就是数据的下载。对于大部分的研究者而言,拿公开的高通量数据,进行二次分析,是最佳的选择途径。尽管肿瘤的发病率低于心血管疾病,但是肿瘤数据无疑是最为丰富的。对于肿瘤研究者而言,TCGA和GEO是其中最常见也是最熟悉的两大数据库,囊括了海量的数据信息。
数据库简介
今天,阿琛带大家一起走进TCGA数据库(https://cancergenome.nih.gov/)。TCGA,全称the Cancer Genome Atlas,是在2005年由美国发起的癌症和肿瘤基因图谱,旨在应用基因组分析技术研究癌症中的基因组变化,涉及33种癌症。
那么在TCGA数据库中,主要包括了哪些数据呢?
1) 测序数据:主要采用了RNA-Seq、WES、miRNA-Seq、Genotyping Array、Methylation Array这五种方式的测序数据,为我们提供了DNA甲基化,CNV拷贝数,SNP单核苷酸突变,转录组和非编码RNA等多个层次的数据,这为我们的数据挖掘和生信分析提供了多样的手段和途径;
2) 临床样本信息:Biospecimen、Clinical,包括性别、年龄、TNM分期等,完整的临床和随访信息为临床相关性分析,预后关联提供了途径,这也正是其巨大魅力所在。
基因表达数据的下载
目前对于TCGA数据下载的途径越来越多,包括著名的UCSC Xena网站,但是在这里,阿琛还是建议从官网下载相应的原始数据,毕竟这里数据的更新是最快最全的。TCGA官网提供了专门的数据下载窗口,即TCGA GDC (https://portal.gdc.cancer.gov/)。
1. 登入网站
我们可以总体浏览网站所包含的疾病、样本数等基本信息;点击“repository”按钮,进入下载界面;
温馨提示:在数据下载前,首先确认右上角的Cart已经清空,防止与上次下载的数据混淆
2. 在Files和Cases中选取疾病和数据类型
以胃癌 (STAD)的转录组数据为例:
在Cases栏中Primary Site中选择StomachProgram中选择TCGAProject中选择TCGA-STAD,当然后面也可以对疾病的具体分型,性别,年龄,存活状态等进行选择;
在Files栏中Data Category中选择transcriptome profiling(转录组分析),Data Type中选择Gene Expression Quantification(基因表达量),Workflow Type中选择HTSeq-Counts
温馨提示:
1)在Gene Expression Quantification中包括能编码蛋白的mRNA数据,同时也包含了非编码的lncRNA数据,在后期的数据清洗中可以进一步的分离
2) 对于miRNA的研究数据在miRNA Expression Quantification中选择进行下载,但是注意了,不能同时点击两个一起下载
3) 在Workflow Type中,Counts,FPKM和FPKM-UQ分别代表三个不同的数据呈现形式。对于差异分析我们一般选择下载Counts用于后续的研究分析;而如果对于单基因的研究,我们也可以选择经过标准化处理的FPKM数据形式
3. 在选择好需要的数据集后
点击“Add All Files to Cart”,将所有需要的样品加入到Cart,点击右上角的Cart,进入下载界面:
1) Manifest:解释文件,样本信息
2) Cart:每个样本中的基因表达文件
对于文件较大的Cart文件,我们也可以通过TCGA提供的GDC tool工具包,通过下面的命令,对每个样品分别进行下载;
3) Metadata:提供样本名称对应的TCGA的ID
4) Clinical:样本对应的临床信息;
基因表达数据的清洗
当整个cart数据下载完成后,可以得到样品的表达数据,每一个样品都以独立的文件夹的形式存在,其中存在该样品的基因表达信息。为了得到可以用于后续分析使用的基因表达矩阵,随后需要进行的就是数据的清洗过程。
对于TCGA基因表达数据的清洗,主要包括表达数据的合并样品名字与TCGA id名称的对应,以及基因Ensemble id号与基因名字转换的注释过程三个过程。目前对于数据的清洗过程,比较流行的主要是通过Perl或者R包对样品进行批量的合并与比对。下面,我们简单的介绍一下通过R来进行数据的整合分析。
在下载完成Cart文件后,通过在cart文件中新建一个文件夹,将所有样品的表达压缩文件整理到同一个文件夹中,并进行批量的解压;
之后,读取下载好的metadata文件,提取其中提供的每个样品的基本信息,与TCGA的id进行对应,构建基因的表达矩阵。
同时,通过在Ensemble数据库中下载基因名称的对应关系,最终完成整个转换过程。
临床信息的下载
对于TCGA数据库一大特色的临床数据,可以在选择完疾病信息后,在Files中选择clinical,在Data Format中选择bcr xml格式,随后加入Cart中,即可进行相应的下载。
对于病人的临床信息,TCGA数据库提供了患者的性别,年龄,TNM分期,肿瘤分级,以及患者的预后信息。除了通过Perl提取外,也可以使用R的rJSON包进行分析提取。
当然,秉持解螺旋一贯的原则,提供大家最好的体验,解螺旋也为各位准备了直观的视频操作解析,清晰直观,是不是已经有些蠢蠢欲动了呢;话不多说,大家可以移步解螺旋生信全书段位1中“测序数据来源与下载”中的第三章,这可是一本练了就可以无敌的秘籍啊!
同时,阿琛下载并整理好了常见的23种肿瘤的mRNA表达文件,直接就可用于后续的分析了。
回复“TCGA mRNA”,即可获得疾病对应的表达和临床信息。
快,关注这个公众号,一起涨姿势~

继续阅读
阅读原文