挑圈联靠解读2020年CELL正刊生信数据挖掘文章
小伙伴们大家好,我是菠小萝。这里是菠小的高分生信SCI解读专栏。今天给大家带来一篇CNS顶级期刊的纯生信文章。题目是“
Comprehensive Characterization

of Cancer Driver Genes and Mutations”,于2018年4月发表在《CELL》期刊上。本项研究是由华盛顿大学,约翰霍普金斯大学,巴塞罗那超算中心等组成的团队联合分析。
期刊信息
研究背景及思路
识别分子癌症驱动因素是精确肿瘤学的关键,目前已有多种先进的算法来识别肿瘤驱动因素,但在大样本数据上的组合和优化却很少。作者基于此报道了一项横跨9,423个肿瘤外显体(包括全部33个癌症基因组图谱项目)的泛癌和泛软件分析,并使用26种计算工具对驱动基因和突变进行编目。由此鉴定出299个驱动基因,并对肿瘤解剖位置和癌症/细胞类型进行了分析。基于序列和结构的分析确定了3400余个有多种证据支持的错义驱动突变。实验验证证实60%-85%的预测突变可能是驱动因素。结果发现>300 MSI的肿瘤与高PD-1/PD-L1相关,结果57%的肿瘤拥有潜在的可靶向治疗的致癌事件。该研究是一项TCGA数据库对癌症基因和突变景观研究的最全面的代表作,这也是小编推荐这篇文章的理由。
数据&图表精析
1

驱动基因识别策略与效能

本项研究在选择数据样本时,为了降低驱动基因发现的假阳性率,本项研究首先通过三种策略来优化驱动检测和数据质量(Fig.1A & Fig.S1A)。基于常见的高突变率的选择偏倚,样本外显子组数据特征不同,病理标记不一致等因素剔除不符合筛选标准的样本,以及所有通过MC3筛选标准的突变。在这里研究根据以下6个步骤对数据及样本进行逐步筛选:数据处理、工具开发、异常值调整(校正离群值)、手动管理(人工筛选)、下游工具分析和功能验证。最终纳入由9,079个样本组成,共有1,457,702个突变的驱动检测数据集。
在确定了数据及样本之后,作者展示了每个癌症的样本突变分布及碱基转换、颠换情况。其中突变被分为snv(蓝色)和indels(绿色),每个癌症的超突变体截断值显示为红色(Fig.1B)。通过增加转换/转位分数排序的堆叠柱状图,显示了六种核苷酸变化的转移和转位比例(Fig.1C)。
对于单一癌症类型,同样分析检测出比背景突变率中值高6.1%的基因突变(Fig.1D)。与kandoes等人的TCGA PanCancer研究相比,结果发现在分析的12种个体癌症的统计效力基础上,本项研究有一定程度的提高。
2

癌症驱动基因景观

在作者获得的驱动基因列表中,已知被报道过的基因占80%,另外还发现59个报道过但未进行功能验证的,或是未报道的基因。预测出的已知驱动基因在新的癌种中的包括肾上腺皮质癌的ATRX,膀胱癌的KMT2C,PTEN等等。其次,不同癌症种类的驱动基因数量也有很大差别,从肾嫌色细胞癌的2个到子宫内膜癌的55个基因。并且抑癌基因和致癌基因的比例也大不相同。
随后时癌症突变负荷与驱动基因的相关性分析。通过皮尔森相关系数计算,癌种的平均突变负荷与驱动基因数目显著正相关。87个驱动基因与两个以上癌种有关,142个仅与一种癌种相关,在所有样本综合分析中发现29个基因。与预期相符的是,TP53基因是最经常发生的驱动原因(27个癌种),PIK3CA,KRAS,PTEN,ARID1A紧随其后,都与15种以上癌种有关(Fig.2A)。
PS:上面这个图可能大家看了详解也不是很懂,小编再来为大家深入讲解。首先这张Figure时将癌症种类根据与相关驱动基因的一致性分数进行聚类,其中标明了一些癌症根据组织起源聚类,而另一些根据细胞起源聚类。颜色代表显著性,最显著的是按照细胞起源聚类的,包含了所有的鳞癌。这一类的驱动基因包括了几种转录因子、染色质和组蛋白修饰因子,和不同的PI3K通路基因。另外两类分别是妇产科类癌症和胃肠道癌症,也就是Fig.2A右上角放大的一块内容。
随后,作者将一致性驱动基因根据生物过程和相关通路进一步聚类。目的是什么呢?就是去挖掘更多显著相关的致癌机制,也是生信思维框架中的“圈”——功能富集结果包含转录因子(36个基因),RTK信号(16个基因)等多个过程。对于任意一种癌症而言,几乎都有至少一个驱动基因是属于基因组完整性相关(33种癌症类型中的28种)或者MAPK(33种癌症类型中的24种),PI3K(33种癌症类型中的22种)信号通路的。另一个显著结果是,相对于其他病理类型的癌症,鳞癌具有更高比例的染色质组蛋白修饰基因和络氨酸激酶受体、免疫信号相关基因。这些都在Fig.2B中有体现。
3

识别驱动突变的方法

作者通过预测的致癌效应对299个驱动基因中751876个错义突变分类。并将三类不同的工具组合在一起:第一类是使用序列区分良性和恶性突变的工具(CTAT populaton);第二类是使用序列区分驱动和乘客突变的工具(CTATcancer);第三类是基于结构模式将错义突变三维聚类的(structural clustering)。并分别检测出10098,4595,1469的氨基酸替换(Fig.3A)。
作者都使用了至少2种工具预测这9919个驱动突变,结果发现这些错义驱动突变更多分布在致癌基因而不是抑癌基因上。在抑癌基因中,大部分突变都是阅读框易位或是被截断。其中CDH1基因,在BRCA中表现出截断或阅读框易位,但在STAD中却表现出集中的错义驱动突变。这说明了其在这两种癌症类型中所扮演的不同角色(Fig.3B)。
4

功能验证的突变证实了基于结构的分析

作者选取了一个包含1049个实验检测的体细胞突变的独立数据集,用于验证预测的驱动突变。这些突变被引入Ba/F3和MCF10A两个肿瘤细胞系,并基于生存和生长评估致瘤性。最终有19个基因的160个突变被验证。三类工具验证的突变率分别是60%,61%,78%。这些结果支持了预测算法和结合多工具方法的可行性(Fig.4A)。基于结构检测到的突变被聚类在66种蛋白质中,包括了之前未被泛癌症研究检测到的KLF5(Fig.4B)。
分析证明了基于结构和基于序列两种方法的互补性,许多突变都只能用其中一种方法找到,并展示了它们的三维结构图(Fig.4C-H)。
5

超突变表型和免疫浸润分析

由于多种因素都会导致肿瘤的超突变,研究人员对这部分超突变样本的基因和表型关系进行了探究。从突变特征分析来看,约90%的超突变样本主特征为MSI,UV,POLE,或者吸烟。其中MSI和POLE是最突出的,在超突变样本中占比56%(Fig.5A)。
随后,作者使用MSIsensor软件进一步评估每个样品的MSI状态,发现经典MSI癌种如UCEC等在所有样本中有着最高的MSI分数。但同时某些非经典的如CESC,OV等癌种有较高的MSI分数(Fig.5B)。
MSI分析对免疫检查点治疗有参考意义。因此,研究人员测试了是否所有含有高MSIsensor分数的样本有着相似的免疫浸润模式(这些样本与更好免疫治疗的效果有关联)。通过使用RNA丰度数据,计算PD-L1,PD-L2,PD-1,CD8A,CD8B在高MSI和稳定微卫星(MSS)样本中的表达量来确认。他们发现某些癌症如COADREAD,STAD中高MSI分数和低MSI分数样本之间在免疫浸润之间有重要的区别(Fig.5C)。
其他的表型组(烟草,UV,APOBEC)同样存在免疫浸润区别,其中,只有APOBEC组别中的BLCA超突变样本被发现PD-1具有显著差异表达(Fig.5D)。
总之,这些发现证实了已知的总突变负荷和免疫调节剂表达之间的关系,但提示MSI可能特别具有免疫原性在BRCA、CESC和LUSC中都有发现,超突变样本中至少有一个MSI相关基因的突变与高甲基化和PD-L1/PD-L2/CD8A表达增加相关(Fig.S6),说明了在驱动基因分析中经常被忽视的一个子集中潜在的驱动机制。
6

分子事件的治疗

最后,作者使用PHIAL(基因水平)和DEPO(突变水平)两数据库来评估分子事件对治疗的影响(包含基于FDA批准疗法,临床试验,出版的临床证据)。与PHIAL比较,发现52%的样本包含至少一个可靶向治疗突变或是TARGET收录的生物学相关改变(Fig.6A)。与DEPO比较,30%的样本至少有一个临床可靶向治疗突变(Fig.6B)。
小结
TCGA数据库通过多中心鉴定突变多癌症网络(MC3)统一分析外显子数据,本项研究对TCGA样本库33种癌症中9000多份肿瘤样本进行了一次全面的致癌驱动基因和突变的分析。使用本文主要介绍使用26种不同生信工具的MC3体细胞突变分析方法,并从细胞系的功能验证了共约3400个驱动突变。结果57%的肿瘤拥有潜在的可靶向治疗的致癌事件。8种工具和一种新开发的算法所完成的突变分类和表型有最强的一致性;4种工具使用蛋白结果数据来阐释了三维空间的突变聚类;5种工具使用机器学习,数据库挖掘算法揭示拷贝数变异,RNA丰度和临床相关性,能够进一步证实突变水平的结果。其中使用PanSoftware对泛癌症数据鉴定出299个驱动基因,并发现在相同细胞类型和解剖起源中共享这些驱动突变。
基于结构的预测方法比基于序列的有更好的特异性,但在敏感性上稍弱。两种方法能在提高预测效果上有效互补。
通过预测对某些治疗策略的敏感性,抗性或者是否合适临床试验发现,约10000例TCGA中,约57%都含有至少一个潜在的临床靶点。
简言之,本项研究中研究团队使用了泛癌和PanSoftware方法分析确定了299种癌症驱动基因,代表了最全面的驱动基因景观研究。研究结果为泛癌分子研究和临床治疗提供了重要一句。同时提出了对多达26种驱动变异检测工具的整合方案,填补了驱动检测工具大数据整合分析的空缺。研究主要集中于点突变和短indel,对拷贝数变异、基因融合、甲基化事件等暂未考虑。并且突变时序性、不同癌种中的驱动基因集相似性,突变之间关系,同一突变的不同突变效应等许多重要的问题仍有待解决,这也是今后TCGA数据库泛癌研究的方向哦。
好啦今天的文献就分享到这里啦,小伙伴们还想听那片文献讲解请在下方留言哦~
今天的文献和补充材料可以在后台回复“汇然Cell”可以获得!我们下期再见吧,拜拜!
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文