解读高分纯生信文章,带你挖掘TCGA数据库
小伙伴们大家好,我是菠小萝。这里是菠小萝的高分生信SCI解读专栏,带你体验不一样的生信旅程~今天给大家带来的是2020年3月发表在《Cancer Cell》上的文章,最新影响因子:26.602。题目是“Comprehensive Analysis of Genetic Ancestry and Its Molecular Correlates in Cancer”,是全面研究遗传谱系在泛癌种中分子相关性的一篇纯生信文章,继上一期《Cell》正刊文献“Comprehensive characterization of cancer driver genes and mutations”之后,填补了TCGA数据库泛癌研究中遗传谱系的突变率、基因和miRNA表达以及DNA甲基化等数据的空缺!学习这篇文献可能会在5-10分钟,小伙伴们认真学习一定会有收获哒~
期刊信息
文献背景介绍
先前有研究报道过几十个非肿瘤性组织样本的mRNA表达谱分析发现,AFR和EUR之间的差异主要体现在不同类型上。并且已有研究报道不同祖先的人表现出不同的遗传谱系,会因种系不同会倾向遇到不同的暴露,导致不同的分子特性、癌症发病率和预后。然而,在癌症甚至非肿瘤性组织中,还没有对家族相关的分子特征差异进行全面的统计。此外,对祖先相关性的分析很少能解释不同祖先间癌症亚型患病率的差异。因此,在泛癌种和正常组织中的遗传谱系的分子特征的综合分析是非常有必要的。
作者在癌症基因组图谱(TCGA)数据库使用规模最大、最全面的多组肿瘤学队列,同时评估33种癌症类型的mRNA和miRNA表达以及DNA甲基化和突变的遗传谱系相关性。该项研究至少可以从四个方面提高人类对祖先的分子特征和细胞效应的理解:①通过检测新的祖先相关的分子特征和癌症类型;②通过确定祖先效应是癌症或组织类型特异性的,还是跨类型的普遍效应;③通过使用不同癌症类型的综合数据,增强检测共同效应的能力;④整合跨平台分析。丰富的分子数据还有助于精确的癌症亚型分类,从而能够精确计算癌症亚型在种族之间的关联。通过该项研究能够利用这些优势提高跨种族的组织或癌症类型的分子和细胞效应的理解。
结果分析
1

遗传谱系测定

作者使用五种独立的分类方法分析了每个TCGA数据库样本的SNP阵列和/或外显子组测序数据,从而确定他们的祖先(Fig.1A)。在至少三种方法中存在交集的9,257例患者中,9,090例(98.1%)表现出完全一致,99.7%的非混合患者表现出与既往血统分配一致。混杂样本中不同的部分主要是在血统分配的相对程度的不同。最终的数据涵盖了10,678个人,主要包括欧洲人(EUR;n = 8,836),东亚(EAS;n = 669),非洲(AFR;(n = 651),土著/拉丁美洲(n = 41),南亚(n = 27),或至少20%的混合血统(n = 454)(Fig.1B)和33种癌症类型,其中13种被划分为预定义的亚型。在Fig.1B上图中代表每种疾病类型的祖先,中图显示混杂个体中每种祖先的总分数和Top10癌症类型(黑点)。
接下来,作者分析种族和分子数据之间的联系。对于每种数据类型(体细胞改变、甲基化、mRNA和miRNA表达以及跨平台数据),根据癌种和泛癌的组织特异性亚型等分层,进行多变量回归分析,结果发现在一些情况下,祖先与不同的亚型相关(Fig.1C)。由于大多数样本为EUR,作者将其作为比较EAS或AFR数据的参考。
随后,混杂样本进一步根据他们的原始祖先来区分:非洲-混合(n = 343)、欧洲-混合(n = 68)、南亚-混合(n = 24)、东亚-混合(n = 7)和未确定(n = 12)。并以总结富集评分确定了所有样本中70,748个基因组位点,评估了相对于其全基因组掺合水平,单个基因位点是否为AFR或EUR血统富集。在对多个假设因素控制后,没有一个基因座达到具有统计学意义的富集水平(Fig.1D)。
2

遗传谱系各类型数据挖掘分析

接下来就是对TCGA数据库中各种类型的数据分别进行分析,包括体细胞肿瘤突变负荷
01体细胞改变
关于体细胞改变的总负荷,最初在泛癌分析中观察到的结果是AFR和非整倍体之间的显著相关性(p = 0.004),EAS与肿瘤突变负荷显著相关(p = 0.02)。然后在基因水平上评估体细胞突变(单核苷酸变异/indel)和复制数改变(SCNA)频率,在AFR个体中发现了三个基因的显著差异,在EAS中发现了一个基因与EUR的显著差异(Fig.2A)。
对于观察到的4个突变率不同的基因,在单一癌症类型中有2个:肾透明细胞癌(KIRCs)中AFR样本缺乏VHL和PBRM1突变(或分别为0.37和0.25;FDR q = 0.06和0.04)。EAS膀胱癌和食管癌存在HRAS富集(OR = 6.6;q = 0.03)和NFE2L2 (OR = 11.6, q = 0.07)突变((Fig.2B)。只有泛癌症分析发现了FBXW7的差异突变率,这一发现表明,这些差异跨越了不止一种癌症类型。
然而,尽管样本量较小、效力较弱,但大多数祖先关联仅在个别癌症类型中被确定,这表明这些祖先效应往往是癌症类型特异性的。在随后的在外部队列中,作者继续验证了VHL、PBRM1、HRAS和NFE2L2突变和祖先之间的关联。在FMI队列中观察到AFR KIRC样本中VHL和PBRM1突变较少,且AFR(4/10)比EUR(62/125)样本中检测到更少的PBRM1突变,但相关性不显著,可能是由于AFR样本数量较少。在FMI队列和另外两个数据集中,同样观察到EAS(5/89)相对于EUR(64/2,482)膀胱癌的HRAS突变富集。
于是,作者假设观察到这些突变的比率与欧洲血统的基因组比例成正比。在TCGA和FMI组群中验证后发现,VHL的确是如此(Wilcoxon p = 0.02和p < 0.001;Fig.2C-D)。
接下来就是寻找FBXW7、VHL和PBRM1位点的种系遗传对癌症形成有影响的证据。为此,在控制了EUR和AFR血统率之后,作者分析了这些基因位点是否为AFR或EUR血统的局部丰富(Fig.1D),然而结果并不具有统计学意义。因此作者认为这些基因座的种系特征可能与癌症无关。
作者继续测试了血统与染色体臂级SCNAs的关系。在全血细胞分析中没有观察到这样的关联,但在癌症类型特异性分析中发现了两个。包括VHL和PBRM1在内的3p损失在EUR中比AFR KIRC样本中更频繁(q = 0.02;Fig.2E)。这和我们之前在EUR KIRC样本中发现的VHL和PBRM1突变富集表明,这些基因在EUR KIRC样本中更经常被双等位基因灭活。
02血统差异DNA甲基化的区域分析
在泛癌分析中,作者发现482,421个HM450阵列CpG位点中的94,012个位点的甲基化差异具有统计学意义(Ftest, p < 0.05),并发现了更多的泛癌谱系相关性。然而,这些关联往往效应量较小,因此不太可能具有生物学意义。更加可能的是由于庞大的数据集的统计能力,而不是谱系间的实质性差异。于是,作者限制到那些显著且大到足以具有生物学意义的差异(甲基化改变>=0.1),发现几乎没有基因在不同的谱系中发生甲基化差异(Fig.3A) 。而在泛肿瘤分析中显著的位点在大多数癌症特异性分析中表现出相似的关联(Fig.3B),但在癌症类型特异性分析中最显著的位点没有表现出相似的关联。
在甲基化数据分析中至少两个探针支持41个基因,至少四个探针支持10个基因。因此,作者还认为与多个祖先差异甲基化位点相关的基因对祖先效应的支持最大(Fig.3C)。这10个甲基化数量性状位点(meQTLs),如已被报道的SPATC1L、PM20D1,以及尚未被报道发生甲基化变化的基因,如FLJ26850、PACS2和FAAP20(图3D)。在这10个基因中的9个中,所有相关的探针显示出相似的祖先效应。例如,AFR样本中所有四个FAAP20位点的甲基化频率更高,而所有四个HOOK2位点的甲基化频率更低。顶基因SPATC1L在其相关探针中表现出截然相反的血统关联(图3B)。这些与不同的功能元件有关,包括聚集在基因启动子或转录终止位点(TTS)的探针(Fig.3C-D)。
在四个谱系分组中,SPATC1L启动子甲基化(cg12016809显示)与SPARC1L mRNA水平呈负相关(Fig.3E)。并且多个邻近基因座呈现协调的DNA甲基化模式的观察表明,它们的祖先相关差异并不是由于技术伪迹。于是,作者试图进一步验证这374个谱系差异位点。在TCGA的149份造血样本中,作者观察到的血统的差异甲基化区域再次作为包含多个一致甲基化CpGs的更大的可变甲基化区域(VMRs,与血统相关差异甲基化区域A-DMRs一致)的组成部分出现(Fig.3F)。另外,还有许多只有一个差异甲基化探针的基因座在WGBS验证数据中显示了类似的模式,如S100A14(Fig.3G)。
03mRNA表达谱
根据大样本组织类型和癌症亚型的泛癌分析,发现AFR和EUR样本中327个基因的mRNA表达显著差异,EAS和EUR样本中654个基因的mRNA表达显著差异(Fig.4A-B),取交集得到85个基因。其中44个基因与之前报道的与AFR祖先相关的221个蛋白编码基因重叠,并表现出相似的效应量(Fig.4C-D)。4个AFR相关基因(CRYBB2、NOTCH2NL、LOC90784和PPIL3)和9个EAS相关基因(POM121L10P、TSPAN10、THOC3、XKR9、LOC162632、SIRPB2、MGC23270、DDX11L2和TGOLN2)在至少33%的癌症类型中具有显著性(Fig.4A-B、4E-F)。为了验证mRNA结果,研究还比较了ICGC PCAWG日本肝癌(LIHC)队列与TCGA EUR LIHC样本的EAS数据。作者认为人类的祖先联系很大程度上是有效的。Fig.4A&E中的基因在不同的组织类型中表现出一致的祖先关联。
04miRNA表达谱
在跨种族谱系的miRNA分析中,一个重要的考虑是与种系变异相关的人工制品的可能性。作者提出其中有个需要注意的问题:在产生miRNA成熟链(miR)表达数据时,TCGA只考虑了精确匹配读取比对,而如果一个祖先在miR中富集了一个变体,那么该成熟链的序列读值将被低估。为了减轻这种影响,研究剔除了41个包含祖先特异性snp的miRs。在剩余的miRs中,有149个miRs在泛癌分析中表现出了血统差异表达,并通过了显著性阈值FDR q < 0.001(Fig.5A-B)。在71个差异表达miRs中,有66个(93%)被宿主,相比之下,只有74%的miRs被宿主(p = 0.0004,比例检验)。然而,在这66个宿主miRs中,大约有一半没有通过TCGA评估宿主基因的表达。这其中有可能因为宿主miRs和宿主基因之间的大多数相关性是中等的,这是由于miRNAs发生在不同的基因组环境中,以及许多因素可以影响宿主基因表达和宿主miR(s)之间的相关性(Fig.5C-E)。综上所述,在miRNA表达中具有大效应量的族谱相关差异,与甲基化和mRNA的情况一样,在很大程度上是特定于个体癌症类型的。
3

血统组合与种系遗传学的关系

作者在DNA甲基化和RNA表达谱中观察到的血统关联提出了两个问题:
①这些与种系遗传差异有何关联?
②这些差异与癌症有关吗?
接下来的研究通过鉴定与mRNA差异相关的家谱相关表达数量性状位点(eQTLs)解决第一个问题。通过确定基因座是否编码种族谱系解决第二个问题。
mRNA表达谱的种族关联可能是由于潜在遗传或不同祖先群体所经历的环境的差异。研究评估了cis-和trans-EQTLs在多大程度上可能解释了mRNA的遗传差异表达。通过TCGA肿瘤样本匹配正常样本(n = 10,678),检测SNP基因型比例和祖先之间的相关性,首先确定了血统相关的遗传多态性。大约85%的被检测的snp与血统有关。然后,作者将这些数据与一个癌症顺式和跨式PancanQTL进行整合。发现顺式- eQTL中,有64%-90%的基因变异支持了家谱相关的遗传变异(图6A-C),而跨式- eQTL之间的这种关联较少。于是,作者认为种系遗传变异可以解释部分不同人群及癌症类型的mRNA表达差异特异性。
为了评估在甲基化和mRNA表达中发现的遗传关联是否可能与癌症的发生有关,研究评估了在混杂血统的TCGA受试者中,是否存在一个血统在每个涉及的基因组位点富集。在之前的研究(Fig.1)中考虑所有基因座作为独立假设时,没有一个基因座在AFR或EUR祖先中显著富集。因此在这里,作者考虑了是否关注在甲基化或表达上具有血统相关差异的基因座可能提供更大的解决方案。随后的研究结果支持了泛癌差异的假说,即泛癌基因甲基化和mRNA表达在欧洲祖先之间促进了癌症的发生。
为了证实这一发现,必须对其他组群进行评价。
4

与祖先相关的途径和细胞状态的整合

对于刚才提出的第一个问题,研究结果发现在具有至少10个下游靶点的“关键”调控节点上,只有BRCA具有显著差异(Fig.7A-B)。同样,在7种肿瘤类型中均观察到明显的差异特征,但仅在BLCA、BRCA和ESCA中发现了关键的调节节点(Fig.7C)。在亚类分析中,这些因素都不显著。
研究还评估了已知的癌症通路和驱动基因的超几何检验,发现BRCA AFR-EUR中显著富集的通路包括DNA修复、HIPPO、RTK-RAS、p53、NRF2和Notch通路,BLCA easo - eur中显著富集的通路包括WNT通路(Fig.7D)。这些分析表明祖先对癌症相关途径活性的贡献。在EAS中,在控制了年龄、性别、亚型、TMB和非整倍体后,根据mRNA表达估计,BLCA样本被用于免疫渗透(Fig.7E)。与EUR和AFR样本相比,EAS中编码PD-L1的CD274的mRNA表达量也显著降低(Fig.7F)。总之,这些结果与之前的正交分析一致,并建议在评估免疫治疗反应时应考虑血统因素。
小结
本项研究评估了来自癌症基因组图谱的33种癌症类型的10,678名患者的祖先对突变率、DNA甲基化、mRNA和miRNA表达的影响。证明了癌症亚型和与系谱相关的技术人为因素是重要的混杂因素。研究中涉及到的族谱相关的差异横跨所有的分子特征和数百基因,在生物学上具有显著组织特异性差异,但在癌症类型间不具有特异性。然而,功能和通路富集分析表明,其中一些差异与癌症存在因果关系。比如,非洲源性患者FBXW7突变增加,非洲源性肾癌患者VHL和pbrm1突变减少,东亚源性膀胱癌患者免疫活性下降等。特别是,非洲、欧洲和东亚人群在肾癌和膀胱癌方面的差异表明,在疾病和免疫疗法的反应方面,同样表现出组织特异性的祖先效应,FBXW7、VHL和PBRM1突变率和免疫活性因祖先不同而存在差异,因此在免疫治疗中同样应考虑血统。
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文