领略高端套路,发表高分文章!
小伙伴们大家好,我是菠小萝。今天为大家复现一篇2021年发表在《Biomed Res Int》(最新影响因子:3.411)上的单基因预后型生信文章。题目是“Study of the G Protein Nucleolar 2 Value in Liver Hepatocellular Carcinoma Treatment and Prognosis.”。感谢作者为我们提供了很好的学习典范!在文章的末尾小编还对文章进行了更加深入的分析,帮助小伙伴们在使用仙桃学术生信工具复现文章,或是自己作图时如何能够使文章更加丰满~如何提升文章质量~相信读到最后的小伙伴们一定会有更多收获的!
期刊简介
“挑圈联靠”题目要素拆解
疾病Liver Hepatocellular Carcinoma (LIHC);
目的基因G Protein Nucleolar 2(GNL2);
数据来源TCGA等多个数据库;
研究目的文章类型):单基因联合免疫浸润的预后套路生信文章。
数据来源 & 思路框架
本篇范文的思路是典型的单基因预后型生信分析套路。“挑、圈、联、靠”四个层面全部涉及到,结构框架布局得当。并且非常可贵的是加入了文章研究的疾病是肝细胞肝癌(LIHC)多发生于慢性肝病患者。它主要是由通常持续数十年的肝损伤、炎症和再生的恶性循环引起的。G蛋白核仁2 (GNL2)作为一种蛋白编码基因,也被称为NGP1、Nog2、Nug2、Ngp-1和HUMAUANTIG。作者通过多个数据库和功能分析,验证了GNL2在LIHC的作用和功能。在对来自TCGA数据库的基因表达谱进行分析后,作者发现GNL2在LIHC中大部分升高,并且其过表达显示与癌症的不同阶段和不良预后密切相关。经过富集分析,数据显示与GNL2共表达的基因可能参与核糖体生物合成,这是肿瘤无限制生长所必需的。细胞功能分析表明,siRNA在LIHC细胞MHCC97-H和SMCC-7721中敲除的GNL2极大地降低了细胞增殖、迁移和侵袭能力。总之,这些发现表明GNL2可能是LIHC一个有前途的治疗靶点和预后生物标志物。
复现任务
▲ 图1. 火山图展示TCGA-LIHC数据集中肝癌样本与正常样本间的DEGs。
▲ 图2. DEGs的PPI分子网络构建。
▲ 图3. GNL2在LIHC中高表达,且与肿瘤分期有关。
▲ 图4. GNL2高表达是LIHC预后不良的因素。
▲ 图5. Kaplan-Meier法生存分析验证GNL2在LIHC的预后价值。
▲ 图6. LIHC与GNL2共表达基因的KEGG和GO分析气泡图。
复现工具
仙桃学术工具
https://www.xiantao.love/products
String数据库
https://string-db.org/
数据精析
一、“”——表达差异
1

火山图展示TCGA-LIHC数据集中肝癌样本与正常样本间的差异分析
图1
首先,在图1中作者通过火山图展示了TCGA-LIHC数据集中肝癌样本与正常样本间的差异分析。我们可以通过仙桃学术工具中“表达差异(挑)-差异分析-[云] 筛选分子”模块进行复现。
选择疾病为“肝细胞肝癌”,系统搜索到TCGA-LIHC数据集。
范文中是直接比较了肿瘤与正常组织间的差异,因此我们需要将下方的分组变量调整为癌旁和癌分析,如下图所示。选项的第二列是参考组,第三列是实验组,其意义即分析比较两组间的差异分子。
直接点击“确认”进行分析,结果需要等待5min左右。
随后,我们进入“历史结果”模块,可以下载差异分析结果。
打开结果列表如下图所示。
接下来就是对以上差异结果进行可视化,作者选择了火山图进行展示。这里可以使用“火山图”模块进行复现。
我们打开火山图的示例数据。第一列是基因名,第二列是差异分析的差异倍数,第三、四列是p值和校正后的p值。
我们将差异分析的结果列表中这几列数据这里到新的输入文件中。
上传数据,等待验证成功。
接下来调整参数,首先设置差异分析可视化的阈值。文章中以∣log2fold change∣>1值和p值< 0.05作为阈值,这里与我们的默认设置一致。
然后设置点的颜色和大小。
点击 “确认”分析结果,出图如下,可以下载PDF、TIFF等格式图片。图1我们就完成啦。
2

主变量GNL2肝脏正常和肿瘤组织中的表达差异
图3a
在图3a中作者以箱式图展示了基于TCGA数据集分析肝脏正常组织和肿瘤组织中GNL2的表达水平。在TCGA-LIHC数据集中比较了50个癌旁样本和374个癌旁样本中GNL2的表达差异。这一部分可以通过仙桃学术生信工具中“表达差异”模块轻松复现。
首先,在“非配对样本”分析模块中,由“选择数据集-输入目的基因-调节分析/图片参数-分析结果”的步骤进行分析。
1)选择数据集
在数据格式的选择上一般建议用TPM格式。我们处理TCGA基因表达谱数据最常用的方法,就是是将FPKM (Fregments Per Kilobase per Million) 格式的RNAseq数据转换成了TPM (transcripts per million reads) 格式,并进行log2转化后进行样本间的表达比较。TCGA数据库中基于不同的平台有不同的格式,RNAseq平台有FPKM和TPM格式;miRNA平台有RPM格式。
2)选择“箱式图”
3)输入目的基因
4)调整颜色
5)分析结果
二、“”——分子互作网络构建
图2.
在图2中作者用到了String数据库(https://string-db.org/)对DEGs进行PPI分子网络构建。String数据库可以通过单个蛋白质名称、多个名称或氨基酸序列等搜索,并随机选择具有中等或更高可信度的至少4个预测链接的蛋白质。由此获得分子间的交互关系。
当然,我们的仙桃学术生信工具可以更快速便捷的进行分析!我们对两种方法均做演示。
1

String数据库(https://string-db.org/
点击“Search”后进入到如下界面,因为我们是对一组分子列表进行分析,选择左侧栏中的“Multiple proteins”。
接下来我们需要输入分子列表,这里需要用到之前的差异分析结果,根据文章中的阈值筛选出DEGs。
将DEGs输入到下图红框中,还需要选择生物体为 “Homo”。
我们得到了下图这样的网络图,但是并不美观。
我们下拉页面下载分子互作结果列表。
2

仙桃学术工具(https://www.xiantao.love/products
仙桃学术工具能够快速便捷的得到分子交互网络结果,可以通过“交互网络(联)-STRING蛋白互作-STRING蛋白互作”模块进行分析。
我们只需要将DEGs分子列表作为输入数据即可。
上传数据,等待验证成功。
等待分析完成,推荐下载excel、csv格式文件。
以上两种方法得到的结果列表是一致的,仙桃学术工具是不是更加快速便捷呢~
随后,我们可以将结果导入Cytoscape软件进行可视化,具体的操作在《零代码入门生信数据挖掘》——3-2-3-1 Cytoscape筛选Hub gene课程中有详细介绍。我们做简单演示。
首先,导入数据到Cytoscape软件中。
在“Style”中可以选择网络图的样式,如下图所示。
选择上图红框中的样式后就得到了范文中的原图啦~当然小伙伴们也可以做更多的调整,在《零代码入门生信数据挖掘》——3-2-3-1 Cytoscape筛选Hub gene课程中有详细介绍。
点击上图箭头所示的选项可以导出PDF格式图片。
三、“”——生存意义
范文在图3b、4、5中分析了GNL2在LIHC中的生存曲线,及其与肿瘤分期有关。
1

生存分析
图4
1
作者在图4中展示了Kaplan-Meier生存曲线,比较GNL2高表达和低表达的生存差异。图4A和B分别展示了高GNL2和低GNL2肝癌患者OS和DFS的生存曲线。我们可以利用仙桃学术“[云] KM曲线图”模块进行分析。我们以总生存OS为例演示复现方法。
2预后参数
选择分析的预后类型,这里以OS为例,我们还可以分别进行分析,展示结果,如同范文。
3分析结果
图5
图5仍然是生存曲线的展示,这里作者是利用了GEPIA数据库和Kaplan-Meier数据库研究了GNL2表达与LIHC患者预后的关系。发现与低表达的GNL2组相比,高表达的GNL2组表现出的OS和DFS较短。此外,鉴于肝细胞癌的高发病率主要是由于肝炎病毒感染的流行,作者通过亚组变量的分层分析进一步验证了GNL2的高表达导致LIHC患者预后不良。作者根据肝炎病毒感染分层进一步评估了LIHC患者的预后。结果显示,肝炎病毒不影响GNL2的预后(图5(b)、5(c)、5(e)、5(f)、5(h)和5(i))。这一步骤可以通过“临床意义(靠)- [云] 亚组KM图”模块来实现。
1)选择数据集-输入分子-调整参数
2)设置临床亚组分层
3)分析结果
2

临床相关性分析
图4b
作者在图4中以小提琴图展示了GNL2表达和临床病理特征的相关性,包括组织学类型,组织学分级,病理分期,TNM分期,TP53状态,残余肿瘤和治疗结果。我们可以利用仙桃学术“[云] 临床相关性”模块进行复现。我们这里以T分期为例展示复现方式。
1)选择数据集
2)选择展示形式
3)输入分子
4)选择临床变量
纳入需要分析的临床变量及需要展示的亚组
5)调整参数
可以设置点、小提琴的大小、颜色、透明度等。
6)分析结果
PS:我们还可以以箱式图来展示结果,将图片展示的更加美观,下面我来演示。基础的步骤仍然是选择数据集,输入分子,然后选择临床变量
大家可以自行调整的主要包括图片类型统计学方法及展示形式,图片的各种参数,以及图注的形式。
在上方的可视化类型中选择我们需要的样式,这里选择箱图/柱状图。
我们可以更改统计学方法及展示形式。
然后根据实际情况调整具体参数。
选择是否展示图注及其位置。
如果做出的图片是下面这样没有标全的情况,可以通过更改图片大小来更正。最终可以调整为如下图所示的样子。小伙伴们可以根据自己数据的实际情况来展示的。
四、“”——富集分析
作者对LIHC肿瘤和正常组织中与GNL2共表达的基因进行了KEGG和GO富集分析,以验证GNL2在肝癌中的作用。图6(a)显示了KEGG途径富集的结果,包括细胞周期、mRNA监测途径、蛋白酶体、核糖体、RNA转运、DNA复制、Fanconi贫血途径、真核生物中的核糖体生物发生、剪接体和同源重组。图6(b)显示了与GNL2共表达的基因的富集生物学过程如下:rRNA加工(GO:0006364)、rRNA代谢过程(GO:0016072)、核糖体生物发生(GO:0042254)、mRNA加工(GO:0006397)、翻译(GO:0006412)、通过与作为亲核体的凸出腺苷的酯交换反应进行RNA剪接(GO:0000377)、通过剪接体进行mRNA剪接3.5.G的细胞功能结果。
作者对差异基因进行了GO/KEGG富集分析。我们可以利用仙桃学术“圈”这一大分析模块进行复现。
首先是需要准备如下格式的文件,就是一列差异基因。
1)输入文件准备
下图是我们差异分析的结果列表,从“历史结果”中可以下载。我们将第一列提取出来整理成一个新的文件。
2)输入整理好的文件
3)分子列表
上传数据后自动识别到其中。
3)类别
4)分析内容设置
我们这里可以选择单独的GO或是KEGG分析。
5)分析结果
这里我们还需要保存结果,后面才可以进行可视化。
接下来是结果可视化
进入分析模块后勾选刚刚的富集分析结果
可视化的样式及颜色等都可以通过参数设置。
分析出结果,可视化结果如下,虽然不太与原文一致,但生信分析由于都诸多因素,并不能完全复现,我们需要掌握的是分析的方法~
范文总结
在这项研究中,作者在筛选出361个DEGs,GNL2是其中一个显著上调的基因。此外,观察到GNL2在PPI网络中具有较高的程度。因此,作者认为GNL2是LIHC的候选生物标志物。
就来自TCGA数据库的基因表达信息而言,与正常样本相比,GNL2在LIHC肿瘤样本中高度表达,这意味着GNL2在LIHC可能是一种致癌基因。在分析了LIHC患者的各种病理癌症分期与GNL2表达之间的关联后,数据显示GNL2的高表达与晚期癌症分期显著相关。基于GEPIA和Kaplan-Meier绘图仪数据集的Kaplan-Meier分析一致证实,GNL2高表达的LIHC患者的生存率更低。此外,体外敲除功能实验表明,siRNA降低GNL2阻碍LIHC细胞增殖,迁移和入侵能力。基于上述发现,GNL2可能被认为是治疗目标和LIHC患者预后的生物标志物。由于不受限制的癌症生长对蛋白质合成的需求增加,核糖体生物发生的改变经常发生在癌细胞中核糖体生物合成是一个复杂的生物过程,需要多种因素的协调和巨大的细胞能量投入。核糖体对蛋白质的产生至关重要,因此对细胞的生存、生长和增殖至关重要。在作者的研究中,通过KEGG和GO富集分析发现GNL2在很大程度上与癌细胞中核糖体生物发生的改变有关。
数据图表升华
本篇范文通过差异分析、富集分析、构建分子交互网络等分析来逐步挖掘GNL2在肝癌中的作用的意义。“圈”为富集分析,包括GO、KEGG、GSEA等多种富集分析,范文中仅对DEGs列表进行了GO、KEGG富集分析。为丰富文章数据还可以利用DEGs及其差异倍数进行GSEA富集分析,以进一步明确主变量基因的共表达基因富集在具有哪些功能意义的数据集中富集。“联”不仅是分析分子间的交互作用,也同样涉及相关性分析,比如免疫浸润分析。我们可以通过仙桃学术“免疫浸润”模块分析。还可以及逆行不同免疫细胞间的相关性分析,并绘制棒棒糖图、散点图以将这种相关性可视化。对于单基因套路而言,分析分子表达高、低分组与免疫细胞的差异性能够很好的丰满文章数据。就可以用到仙桃学术“免疫浸润-[云] 分组比较图&(云] 散点图”这两个模块。
对于单基因套路重 “靠”——生存意义,不仅需要生存曲线和临床相关性分析来体现临床意义,还可以用ROC曲线体现GNL2对于肝癌诊断/预后的预测性能。另外,基线资料表也可以单基因表达量高、低分组进行的列联表分析。我们可以通过仙桃学术“基线资料表”来进行复现。最后,还有构建和评估预后模型,分析临床病理特征与目的基因间的关系。可以用到仙桃学术“[云] 单因素|多因素Cox回归”模块构建预后模型。并可以基于Cox回归模型,从多变量分析中获得的独立预后因素用于建立列线图和校准图,对1年、3年和5年的预测生存概率进行个体化。可以通过仙桃学术的“[云] 预后Nomogram图”和“[云] Calibration分析”模块进行复现。
小编带大家利用仙桃学术的各种分析模块及网络平台复现了全文的生信相关的数据及可视化。感兴趣的小伙伴可以多多关注仙桃学术,挖掘更多的分析方法呢!
后台回复“210808”获取范文全文吧~我们下期再见啦!拜拜!
参考文献
[1] Dong Y, Cai Q, Fu L, Liu H, Ma M, Wu X. Study of the G Protein Nucleolar 2 Value in Liver Hepatocellular Carcinoma Treatment and Prognosis. Biomed Res Int. 2021 Jul 19;2021:4873678. doi: 10.1155/2021/4873678. PMID: 34337013; PMCID: PMC8315868.
往期传送门
重磅最新消息!DeepMind首次突破蛋白折叠的历史难题,这项AI技术能否成为生信领域的下一匹黑马?
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨菠小萝
排版丨四金兄
主编丨小雪球
继续阅读
阅读原文