领略高端套路,发表高分文章!
小伙伴们大家好,我是菠小萝。这里是菠小萝的高分生信SCI解读专栏。感谢作者为我们提供了很好的学习典范!今天带给大家的是一篇套路,于2020年12月发表在老牌肿瘤学杂志《Cancers》上,题目是“Tumors Widely Express Hundreds of Embryonic Germline Genes”。
期刊简介
“挑圈联靠”题目要素拆解
疾病:Tumors
目的基因:Embryonic Germline Genes
数据来源:Unknown
机制:Unknown
研究目的(文章类型):由题目中“Tumors”猜测,应该是胚胎生殖基因的泛癌分析。
知识背景
因为目前比较普遍的癌症治疗靶点不明确,同样会以健康细胞为目标,导致严重的副作用,包括不孕症。如果能够寻找到在任何健康组织中都不表达的其他癌症特异性靶点,将导致更少的副作用。为此,作者作者着眼于胚胎生殖细胞上的Biomarkers,期望这些结果能够提供多种新的靶点,减少副作用。作者鉴定了数百个癌细胞表达的基因,这些基因通常只在生殖细胞的胚胎发育过程中表达。因为这些基因在任何健康的成人组织中都没有表达,包括睾丸或卵巢,它们可能的靶向很可能没有任何副作用。此外,许多生殖细胞基因似乎有助于典型的癌细胞特征,如基因组不稳定性和转移。有研究表明在肺癌中,生殖细胞基因的数量相对较高会导致预后不良。作者查阅文献得知,有研究针对一组癌症/睾丸(CT)基因,并已经通过选择在睾丸和癌症中高表达,在有限数量的健康体细胞组织中表达的基因能够得以识别。迄今为止,该方法已鉴定出1128个CT基因(图1A)。
然而,CT基因包括在睾丸体细胞中表达的基因,排除了检测真正的生殖细胞特异性基因。于是,作者通过分离成年男性生殖细胞的转录组,并且,在本项研究之前,作者已经有了部分前期基础。他们描述了在癌症中广泛表达的一类756个基因集合。这一基因集通常仅限于成年生殖细胞,称为生殖细胞癌症基因(GC基因)。其中630个(83%)是新鉴定的基因(图1B)。
(图1)
数据来源 & 思路框架
癌症的起始和早期发展(癌变)涉及通常局限于生殖细胞发育的生物分子过程和调控机制。为了研究这一点,作者寻求对原始生殖细胞(PGCs)的分子调控的致癌潜力,原始生殖细胞是成人生殖细胞的胚胎前体,这尚未被研究过。人类PGCs通过转录因子SOX17的表达在第2周胚胎中被指定,导致整体低甲基化和潜在的多能性。此外,这一过程可以通过使用人类多能干细胞在体外重演。特定的PGCs在胚胎中广泛繁殖,并在人类发育的第3周至第5周从其起源位置的近端上皮细胞,通过发育中的后肠,迁移到性腺嵴。因此,PGCs的生理学过程也被认为是癌症的标志,包括通过端粒延长的持续复制潜能,导致对细胞能量的调节作用降低,并影响细胞的侵袭和转移能力。
此外,DNA低甲基化本身是PGCs的一个特征,也被认为是肿瘤中影响生殖细胞特异性基因活性的因素。由于这些过程有利于癌细胞的发育和生存,研究PGCs和癌症特异性基因在肿瘤生物学中具有很大的潜力。当治疗的靶点是癌症和成人生殖细胞时,在癌症治疗过程中靶向这些基因产物的副作用将仅限于不孕症(到目前为止)。然而,靶向PGCs的特定基因甚至可能不会导致任何副作用,因为这些基因产物在成年生殖细胞中是不存在的。
基于以上的研究背景,作者在本项研究中假设癌变会涉及生物分子过程和调节机制的重新激活,在正常情况下,应该仅限于生殖细胞的发育。这可能意味着癌细胞与原始生殖细胞(PGCs)共享基因表达谱。因此,作者将人类PGCs (hPGCs)和PGCs样细胞(PGCLCs)的转录组与54个健康体细胞组织(GTEx)的17382个样本和33种肿瘤类型(TCGA)的11003个样本进行了比较,鉴定出672个GC基因,使已知的GC基因库扩大了387个(51%)基因。结果发现GC基因在多种肿瘤类型中经常表达的集群中表达。此外,肺腺癌患者中GC基因表达量与生存预后较差相关。由于特定于胚胎生殖系的GC基因在任何成人组织中都不表达,在癌症靶向治疗中,这些基因可能会存在较少的副作用,并可能保留繁殖能力。由此,作者推断它们扩展的GC数据集可能为癌症治疗的发展提供多个新的靶点。
为了能够进行选择,作者再选择数据集上也是非常用心,他将几个公开访问的RNA表达数据集(转录组)合并到一个文件。作者这里使用了多个数据集,其中包括我们熟悉的TCGA联合GTEx数据库,以及作者搜集的a.传统培养基培养的ESCs;b.原位包围hPGCs的胚胎体细胞组织;c.精子形成的不同阶段的成年男性生殖细胞的转录组数据集。总共包含来自54个健康组织的17,382个样本。
数据精析
作者通过TCGA & GTEx两数据库联合,以及一个原始生殖细胞数据集,确定了672个原始生殖细胞相关基因表达。由于它们在胚胎种系中表达,作者将这些基因称为“胚胎”GC基因。其中,348个基因(51%)也在成熟的生殖细胞或睾丸组织中表达,并且已经被鉴定为GC或CT基因(图1B)。由此可知,作者扩大了已知的CT/GC基因库,增加了324个局限于生殖系和癌症的新基因(图1C)。
PS:作者将他自定义的纳入标准,这些限定条件如何影响分析结果,以及其与其他研究的重叠部分等内容可视化。这里作者是将这些内容上传到了一个GC基因库中(https://venn.lodder.dev/)。小伙伴们如果也鉴定了一部分新基因,也可以尝试这样做哦~。
随后的GO功能富集分析表明,PGCs和癌细胞中表达的672个基因在一些独特的过程中发挥作用,包括减数分裂细胞周期、核酸代谢过程、核分裂、链移位、基因调控和干细胞群体维持(表S1)。
一、“”&“圈”——聚类筛选基因
可能大家都会觉得“挑”这一步只有差异分析,那就有些片面了哈~酸菜校长SCI思路框架总是万能的。作者这里用到了很多数据集,从这些标准不一的数据信息中找到适合自己研究的数据,同样是“挑”的应用范围。这里我们需要重点学习的就是作者如何通过聚类方法,在众多不同类别的数据库中获得自己需要的整合数据!
1
分层聚类分析
通过比较不同分布的多个来源的基因表达水平时,不能简单地在数据集之间比较这些值。因此,作者很巧妙的为每个数据集限定了阈值(图S1)。
(图S1)
由于作者研究的是生殖细胞,分组当然是性别啦~为了确定基因在hPGCs中高表达,作者将女性和男性hPGCs中各基因在各阶段的最低表达量进行比较,然后将两者的最大值作为纳入标准。对于PGCLCs,纳入标准是基于两个样本的平均值。考虑表达hPGC表达> 0.72或PGCLC表达> 0.50的基因(三分位数)(图S1A)。其他纳入标准适用于所有组织/肿瘤类型中每个基因的最大RNA表达水平。也就是说,在任何正常组织中都不表达的基因(GTEx < 3.0,图S1B),以及在至少一种肿瘤类型中表达的基因(TCGA > 2.3,图S1C)。随后就是数据标准化。
GC基因的聚类分组
为了研究不同肿瘤类型的胚胎GC基因亚群是否不同,作者对672个胚胎GC基因和33种肿瘤类型进行了无监督层次聚类。这些肿瘤的五个簇中的三个簇,显示出类似的胚胎GC基因表达谱(图2)。GC基因簇1似乎特别表达在低级别神经胶质瘤和胶质母细胞瘤,集群和嗜铬细胞瘤和副神经节瘤,簇1还包含调控RNA代谢过程的基因。基因簇2是肿瘤A群的主要特征,因为它包含许多在急性髓系白血病中表达的基因。这些基因与dna模板化转录相关。簇3中的GC基因似乎包括了大部分在睾丸生殖细胞肿瘤中高表达,而在其他任何肿瘤中均不表达的基因。
(图2)
2
富集分析
这672个基因的主要功能是负责干细胞群体的维持和表观遗传的改变(表S1)。GC基因簇4可以将C组与A、B组区分。其富集分析表明,这些基因富集于与减数分裂和有丝分裂细胞周期相关的很多功能。基因簇5的GO分析未显示明显上调过程。
为了进一步支持GC基因和所描述的基因簇的有效性,作者进行了GSEA基因集富集分析。将其中所有672个胚胎GC基因或5个基因簇被定义为基因集。该分析表明,在这种的数据集中,胚胎GC基因高度富集于癌症和正常组织差异表达的基因中。这也独立地适用于五个集群中的每个集群(图S2)。
(图S2)
在这一部分中,作者通过聚类分层筛选到一部分有功能意义的GC基因。也就是说,这672个在肿瘤中广泛表达的胚胎生殖系/癌症(GC)基因,通过每个肿瘤组平均表达的层次聚类,将肿瘤分为两组。结果发现胚胎GC基因簇4比较关键,其中包含参与有丝分裂和减数分裂细胞周期的基因。
二、“”——基因集合与表型间的关联
1
胚胎期GC基因常在多种T细胞肿瘤中表达
除了以上这些基因簇,在PGCs中表达的672个胚胎GC基因集也同样包含几个关键亚群,比如在不止一种癌症中表达的GC基因。在图2的热图中,即使作者将筛选基因的条件限定了只允许在一种肿瘤类型中表达,结果仍然反应了大多数基因在多种肿瘤类型中表达。35%的胚胎GC基因仅在一种肿瘤类型中表达,138个胚胎GC基因(21%)在所有研究的肿瘤类型中至少有一半(即17个或更多)是表达的。由于它们在不同来源的肿瘤中的表达谱,作者假设这些GC基因参与了癌症的特征,并且肿瘤可能依赖于一个更大的GC基因子集。
随后最终又通过GO富集分析,发现富集于增殖(即细胞周期过程和有丝分裂的正调控)和基因组不稳定性(即染色体分离;DNA修复和辐射反应)。这尤其适用于睾丸生殖细胞肿瘤(TGCTs)中表达的基因,因为它们可能类似于(原始)生殖细胞,或者可以说是起源于(原始)生殖细胞。作者选择了TGCTs中高表达的80个胚胎GC基因(11%),其中70个属于基因簇3。基于这些基因的GO富集分析表明,这部分基因参与细胞芳香化合物代谢过程、生殖过程、DNA (de)甲基化和干细胞的种群维持。其他592个胚胎GC基因(89%)在至少一种体细胞起源的肿瘤类型中表达。
2
GC基因签名评分
为了评估癌症和生殖系之间的共享属性,作者分析了GC基因签名评分。在图2的热图中,作者观察到一些肿瘤比其他肿瘤包含了更多的GC基因,比如从卵巢浆液性囊腺癌和头颈部鳞状细胞癌的84个,到皮肤皮肤黑色素瘤的360个。因此,肿瘤与生殖细胞的相似性在不同肿瘤之间存在很大差异。
为了量化这一相似之处,作者结合672个胚胎GC基因与以前公布的756个GC基因表达的成年男性生殖细胞,并使用R2生物信息学平台获得CCLE数据库中,基于所有已知的1143个GC基因,917个癌细胞系的GC签名得分(图3)。每个点代表一条癌细胞线。签名得分是在每个细胞系中排列的基因表达的平均百分位数,并可用于衡量一个癌细胞系与生殖系的相似性。
(图3)
三、“”——生存意义
1
GC基因的表达与肺癌死亡率升高相关
根据图3在中的结果,作者选择了相关性肺癌中最普遍的肺腺癌(LUAD)亚型,来测试这个肿瘤类型的GC基因表达,是否可能影响患者生存。作者结合了TCGA数据库包含的患者生存数据。结果显示,高GC基因签名评分与LUAD患者死亡率增加相关(图4,p < 0.001)。
(图4)
2
高度特异的PGCs基因促进表观遗传改变
接下来,作者进行了非常关键的一步,就是联系表型。确定哪些胚胎GC基因只在胚胎干细胞(ESCs)和PGCs中表达,而不在生殖系的其他细胞中表达。作者排除了【在GTEx数据库中卵巢及睾丸组织中成年男性生殖细胞表达的GC基因,以及与PGCs相比,在原位性腺组织中环绕PGCs的体细胞中表达水平较低的GC基因】。该分析得到89个胚胎GC基因,这些基因对胚胎种系和癌症高度特异(图5)。对于这些基因的GO分析表明,这些胚胎GC基因参与表观遗传基因表达的调控(表S1)。值得注意的是,这89个胚胎GC基因中有21个仅在TGCT中表达,在体细胞肿瘤中不表达。
(图5)
四、数据库蛋白水平验证
作为诊断和治疗的靶点在细胞表面更容易获得,作者验证了编码表面蛋白的基因亚组。作者使用PANTHER 10.0分类系统分析哪些胚胎GC基因编码细胞表面蛋白。鉴定出672个胚胎GC基因中的13个(ULBP3、GP6SP A17、CCR4、HMMR、GP1BA、KCNH5、ummodl1、WNT7A、NAT1、HYAL4、CRLF2、TNFSF4)。于是作者预测它们编码的细胞表面蛋白。由于RNA的表达不一定反映蛋白质的表达,于是作者将这一结果与人类蛋白图谱(HPA)的病理数据进行了比较,其中包含374个胚胎GC基因的蛋白表达数据(56%)。通过限定不允许蛋白在除卵巢和睾丸的精原小管以外的任何非癌组织中表达,鉴定出37种可能的胚胎GC蛋(数据S2)。
随后,作者继续使用CPTAC和HPA的蛋白水平数据,验证20肿瘤类型的GC蛋白质表达。结果发现,其中201可以验证在蛋白质水平(数据S2A),这些蛋白负责染色体分离,细胞周期检查点,DNA修复,减数分裂和有丝分裂的细胞周期(表S1),这一结果是类似于基因簇4的。事实上,基因簇4中49%的胚胎GC基因在蛋白质水平上得到验证。未被验证的GC基因可能在其他类型的肿瘤中过表达,或者从CPTAC中无法获得蛋白质组。
最后以亚组分析总结全文,作者在多个亚群中寻找胚胎GC基因,这些基因具有一下三个特性:① 高胚胎种系特异性;② 细胞表面表达;③ 作者对以上基因通过HPA或CPTAC数据验证了其蛋白的表达。并且结果显示NAT1存在于所有亚群中,而HYAL4编码一种对胚胎种系高度特异的细胞表面蛋白。另外20个胚胎GC蛋白在蛋白水平和至少一个感兴趣的亚组中被验证(表S2)。
全文总结
综合整篇范文,我们需要了解的思路如下。本篇范文最大的特点就是GO功能富集(“圈”)贯穿始终,筛选到一组基因集合就进行依次富集分析,去探讨功能意义。另一大特点就是筛选基因的方法多种多样,并且限定条件非常到位!有理有据!还有一个需要我们多加学习的,就是作者的多数据库联合应用。
作者在之前鉴定的CT和成人GC基因基础之上,又鉴定出了672个新的生殖细胞癌基因(GC基因)。这些基因通常在人类原始生殖细胞中表达,但在多种肿瘤中都有异常表达,其中大多数是体细胞起源的肿瘤。其中48%以前没有鉴定为CT或GC基因。并且,其中又89个在成年生殖细胞、整个睾丸组织或胚胎体细胞性腺组织中不表达的胚胎GC基因。这些基因似乎参与了基因表达和基因沉默的表观遗传调控,这是PGCs和癌变的关键特征。由于这些基因的表达通常局限于PGCs,因此在体细胞组织和成年生殖细胞中不存在,针对这一GC基因子集的基因可以导致比现有疗法更少的副作用。作者通过巧妙的筛选条件,对纳入的多个数据集进行筛选,找到肿瘤高度特异的且在成人生殖细胞和体细胞组织中不存在,因此靶向这些基因的基因产物在癌症治疗中可能具有较小的副作用。这也是一篇筛选诊断及预后型Biomarkers的生信文章。
然而,胚胎生殖系的基因表达尚未被系统地与癌症进行比较。我们在此表明,癌症和胚胎生殖系之间的相似性是广泛的,包括有利于癌细胞生存的过程。这一发现进一步支持这些基因的上调通过表现生殖细胞样的属性,在“体细胞→胚芽”致癌模型中促进癌细胞增殖(图6)。随后,通过富集分析获得的减数分裂功能可能有助于癌细胞干扰正常的细胞周期调节和DNA修复机制,以逃避免疫检查点的杀伤和细胞凋亡。由此,作者认为GC特征高评分与肿瘤预后不良相关。
(图6)
在接下来的研究中,作者发现许多胚胎GC基因参与了表观遗传改变,可能通过导致一些肿瘤抑制基因的下调介导肿瘤的发生。于是,为了联系表型。仅选择了在肿瘤中高表达的基因,所以不涉及这些肿瘤抑制基因是否特定于癌症和生殖系。这样的选择也可能使作者筛选的基因集中错误地包含一些在特定条件下仅在体细胞中表达的基因。
随后,作者进行了各种基因集合的GO富集分析,然后去讨论富集结果。这些GO分析表明胚胎GC基因可能参与了癌症,而且这种作用机制是可信的。综合来看,作者得到的研究结果可以为未来对(早期)生殖系细胞迁移潜能的研究提供一些理论依据。此外,对转移性肿瘤中GC基因表达的进一步研究可能产生更多可能参与转移过程的治疗靶点。这些GC基因也同样有可能在PGCs中随机表达,这是癌细胞的共同特征。虽然作者试图通过严格的纳入标准来实现肿瘤的特异性,但肿瘤对这些基因的真正依赖性仍有待验证。
好啦小伙伴们,今天的文献分享就到这里啦,后台回复“菠小萝GC”获得范文原文及补充材料吧~喜欢我的文献精读系列推文就关注菠小萝吧~每周六会为大家奉上生信文章套路最新总结!我们下期再见吧,拜拜!
参考文献
【1】Bruggeman JW, Irie N, Lodder P, van Pelt AMM, Koster J, Hamer G. Tumors Widely Express Hundreds of Embryonic Germline Genes. Cancers (Basel). 2020 Dec 17;12(12):3812. doi: 10.3390/cancers12123812. PMID: 33348709; PMCID: PMC7766889.
往期传送门
重磅最新消息!DeepMind首次突破蛋白折叠的历史难题,这项AI技术能否成为生信领域的下一匹黑马?
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨菠小萝
排版丨四金兄
值班 | 阿   琛

主编丨小雪球
长按识别二维码免费包邮领取!

继续阅读
阅读原文