从小白的角度,一刻钟复现生信套路
各位小伙伴大家好,今天给大家带来的是一篇今年发表在Cancer Management and Research(今年最新影响因子为3.989)上的肿瘤领域生信文章。
PS:这本杂志对生信还算比较友好,且审稿周期也很快,如果想在低分灌灌水的同学可以考虑试一试,但是小心可能会被灌塌方…
在之前两期的文章复现中,给大家讲解了对于单基因套路,我们仙桃工具都可以完成哪些分析。在小编最近查文献的过程中,偶然发现了这样一篇今年刚刚发表的仙桃风格的单基因文章,那么,现在先来让我们一起看一看这篇看起来似乎全部是用仙桃工具完成的文章都做了哪些内容吧。
 往期复现传送门 
期刊简介
复现背景信息
 文章题目 
High Endothelin Receptor Type A Expression as an Independent Prognostic Biomarker and Correlated with Immune Infiltrates in Stomach Adenocarcinoma
 复现内容 
表1:STAD患者EDNRA表达的基线特征资料表
表2:EDNRA 表达与临床病理特征的 logistic回归
表3:使用 Cox 回归分析 STAD 患者临床病理特征的相关性
图1:EDNRA在STAD患者中高表达
图2:EDNRA 表达与临床病理特征分析
图3:EDNRA 表达对STAD患者生存的影响
图4:预测患者 1、3 和 5 年总生存期 (OS) 概率的列线图
图5:STAD患者多变量 Cox分析森林图
图6:GSEA富集结果
图7:EDNRA 在 TCGA-STAD 中的免疫细胞浸润分析
图8:EDNRA在不同类型的肿瘤组织和正常组织中的表达水平
 复现工具 
仙桃学术http://www.xiantao.love
Oncomine数据库:http://www.oncomine.org
Timer数据库:https://cistrome.shinyapps.io/timer/
图1:EDNRA在STAD患者中高表达
作者在图1中分别分析了我们的主变量EDNRA在TCGA-STAD数据集及联合GTEx数据的表达差异。并对TCGA-STAD数据集中的配对样本也进行了表达差异分析。此外,作者还展示了EDNRA的ROC曲线,该基因对于诊断胃癌的AUC值超过了0.7,具有较好的诊断价值。
我们来逐个看一下如何应用仙桃工具复现。
进入仙桃生信工具(https://www.xiantao.love/products),选择高级版(由于高级版功能最为全面,这里统一使用高级版作为示范)
1

Fig.1 A-B
从图1A开始,选择“表达差异(挑)”——“表达差异”——“非配对样本”模块,选择疾病为“胃癌”,选择数据集为TCGA-STAD,数据格式作者选择的是FPKM(在这里可以看到如果我们想要复现图1B就选择第三个数据集:TCGA_GTEx-STAD就可以联合GTEx中的正常样本进行分析啦);输入我们的主变量分子EDNRA,最后点击确认等待出图。
点击保存结果可以将图片结果保存用于后续的拼图,也可以直接对图片进行下载。
可能会有眼尖的小伙伴发现我们得到的结果图片和我们所复现的文献中的图片有一点小不同,在我们的结果中,是以星号展示统计学差异的,而原文中直接展示了p值的具体数值。
这个我们可以在参数位置进行调整:
图1B的复现还是在这个模块,只要更改一下数据集选项就可以啦,我们就不重复讲解了。
2

Fig.1 C
接下来我们来看图1C:选择“表达差异(挑)”——“表达差异”——“配对样本”模块,在这里作者换成了TPM格式的数据,应用TPM或FPKM数据格式其实都可以,但是在大家自己的文章中,建议格式还是要前后统一比较好。修改统计分析参数的显著性显示类型,最后点击确认。
细心的小伙伴可能会发现,这张图的表达差异结果是没有统计学意义的,换句话说,这张图是个阴性结果。如果大家的基因得到的是这样的结果,我个人是不建议大家放进文章中的,尤其是本文中这样非配对样本有意义而配对样本没有意义的情况。因为我们大家都知道,人和人之间是存在个体差异的,患者之间的个体差异只会更大。配对样本选择了同一个患者的样本进行分析,可以减小这种因为个体差异造成的误差,也就是说,其实配对样本的阳性结果其实说服力是更高的。小小建议,仅供大家参考~
3

Fig.1 D
接下来我们来看图1D的ROC曲线绘制:
有持续关注我们复现栏目的小伙伴应该知道,在前面两期我的推文中,我吐槽过那两篇文章都没有加ROC曲线的结果,明明那两个分子的AUC值都非常高的,那么这次我们来复现一下这篇文章中的ROC曲线学习一下吧~
选择“临床意义(靠)”——“ROC曲线”模块,核对疾病、数据集和分子,选择数据中去除重复样本,之后点击确认。
就这样愉快的收获了一张ROC结果的美图啦~
表1:STAD患者EGNRA表达的基线特征资料表
作者在文章的第一个表格中展现了STAD患者的基线资料表,我们来看一下如何利用仙桃工具进行复现。
选择“临床意义(靠)”——“基线资料表”,核对疾病、数据集、分子,数据信息这里需要选择“去除重复样本”。基线资料表选择“列联表-简洁版”。在“分类变量”选项中,选择需要的指标,“数值变量”中,可以选择年龄等,但是由于本文中作者将年龄转化为分类变量了,所以此处我们不需要再选择了。最后,点击确认,就可以收获表1啦。
可以保存结果,也可以直接点击“Word三线表下载”,可以得到直接用于发表级别的表格喔~
图2:EDNRA表达与临床病理特征分析
作者在图2中分析了我们的主变量EDNRA表达与T分期等临床病理特征之间的相关性,我们在这里仅以图2A为例进行复现。
1

Fig.2 A-C
选择“临床意义(靠)”——“临床相关性”,确认疾病类型、数据类型(作者在这里选择的是FPKM格式数据)、分子,数据信息还是选择“去除重复样本”,选择好临床参数的分组,我们这里选择图2A的T分期,最后点击确认。
对比我们原文中的结果调整参数:
作者只展示了T1和T4之间的结果,调整统计分析参数为:
个人觉得不同分期间有差异的结果都应该展示,但是这里作者只展示了T1 vs T4。
图2B和图2C的复现步骤基本和上面一致,大家可以自己实操试一下。
表2:EDNRA表达与临床病理特征的logistic回归
之后作者进行了logistic回归分析:选择“临床意义(靠)”——“单基因logistics回归”模块,核对疾病、数据类型、分子,都没有问题的话,在基本参数中选择我们要纳入分析的临床病理参数,并选择分组,最后点击确认。
设置纳入分析的临床病理参数:
结果可以保存,也提供了多种格式的下载。甚至下面还给了方法学说明,我们仙桃是不是很贴心~
图3:EDNRA表达对STAD患者生存的影响
1

Fig.3 A
首先是图3A:
选择“临床意义(靠)”——“预后分析”——“KM曲线图”模块,核对数据集、数据格式、分子(一定要严谨喔),选择去除重复样本,预后参数选择默认的预后类型“OS”,点击确认。
我们就得到了图3A中对于TCGA数据OS生存分析的结果啦,不要忘记保存和下载结果喔。
2

Fig.3 B-D
图3B-D作者是应用KMplotter在线数据进行分析的,分别分析了该分子对于OS(overall survival)、FP(first progression)、PPS(post progression survival)的生存分析结果。
 Kaplan-Meier Plotter数据库复现 
登入Kaplan-Meier Plotter数据库:https://kmplot.com/analysis/
以图3D中,分子EDNRA在胃癌中与OS的关系为例,我们来看一下,在Kaplan-Meier Plotter数据库中,我们如何实现这张小图的复现。
在右上角肿瘤类型中选择“Gastric Cancer”,在左侧输入我们想分析的分子,选择生存类型,此处我们选择和图3B一致的OS,最后点击左下角的“Draw Kaplan-Meier Plot”按键就可以等待出图啦。
该数据库提供PDF版本的图片可供我们下载。
图4:预测患者1、3和5年总生存期(OS)概率的列线图
在“临床意义(靠)”——“预后分析”——“预后列线图”,确认数据集和分子,设置预测年限为1年、3年、5年(这也是最常用的时间点),选择去除重复样本,设置临床参数。
点击确认后就可以看到结果啦。
查看大图可以看到完整结果:
表3:使用Cox回归分析STAD患者临床病理特征的相关性
图5:STAD患者多变量Cox分析森林图
接下来我们来看一下如何利用仙桃工具进行单基因与临床病理参数的单因素及多因素Cox回归分析以及森林图的绘制。
选择“临床意义(靠)”——“预后分析”——“单因素/多因素Cox回归”模块,确认疾病、数据集及分子。预后参数我们这里选择默认的“OS”,选择去除重复样本。输入我们想要纳入分析的临床病理参数及分子,分别设定分组,最后点击确认。
临床病理学参数设置:
点击“Word三线表下载”即可下载结果(当然也可以下载其它格式的),下载之后,可以看到结果如下:
可以用于文章发表级别的表格。
因为我们还要做多因素Cox分析的森林图,所以在这里小编又下载了Excel格式的表格,我们将多因素的结果简单整理成如下格式:
在“基础绘图”——“森林图”模块,上传我们刚刚整理好的表格结果,点击确认。
点击“查看大图”即可看到完整图片:
图6:GSEA富集结果
图6中,作者按照 EDNRA基因表达值的中位数进行分组,筛选得到差异基因之后进行富集分析,我们现在来看看如何完成这一步吧。
选择“表达差异(挑)”——“差异分析”——“单基因差异分析”模块,确定好数据集、数据类型、分子无误后,就可以点击确认等待后台计算分析了,大概需要一点点时间,可以喝口水歇一歇。
在“历史记录”里看到状态变成完成的时候,下载结果。
打开下载好的结果,选取基因名和logFC两列,整理成一个新的表格,命名为“GSEA数据.xlsx”。
选择“功能聚类(圈)”——“GSEA富集”——“GSEA分析”,输入我们刚刚整理的表格结果,选择参考数据集,根据原文的描述,图6A-C是选择参考数据集c2.cp.v7.2.symbols.gmt 进行分析、图D-F是选择参考数据集 c5.all.v7.2.symbols.gmt进行分析,在这里我们仅以c2.cp.v7.2.symbols.gmt进行分析、以图6A为例进行复现。
后台完成分析之后可以下载结果:
进入“GSEA可视化”模块,可以看到我们刚刚分析的结果,输入通路名称,点击确认就可以看到可视化之后的图片了。
其它几张小图的复现过程和上述过程基本一致,我们就不一一复现啦,大家可以自行操作练习一下。
图7:EDNRA在TCGA-STAD中的免疫细胞浸润分析
接下来我们来看免疫浸润分析部分的复现。
1

Fig.7 A
首先是图7A的棒棒糖图:
选择“交互网络(联)”——“免疫浸润”——“棒棒糖图”模块,确认数据集及分子,之后点击确认。
2

Fig.7 B
接下来是图7B的复现,这是不同免疫细胞的分组比较图,这里作者展示了巨噬细胞和NK细胞两种:
选择“交互网络(联)”——“免疫浸润”——“分组比较图”模块,确认数据集及分子,选择免疫细胞(巨噬细胞及NK细胞),修改统计分析中的显著性显示参数,之后点击确认。
就得到了我们图7B的结果。
接下来作者还分别对EDNRA和两种免疫细胞进行了相关性分析,并且通过散点图形式进行展示:
3

Fig.7 C
我们以图7C为例进行复现:
选择“交互网络(联)”——“免疫浸润”——“分组比较图”模块,确认数据集及分子,选择免疫细胞(巨噬细胞),之后点击确认。
以上分析都是基于ssGSEA算法,目前工具也提供了基于estimate算法进行免疫分析,小伙伴满感兴趣的话也可以试试。
图8:EDNRA在不同类型的肿瘤组织和正常组织中的表达水平
作者分别应用Oncomine数据库和Timer数据库,分析了EDNRA在泛癌的肿瘤组织与正常组织中的表达水平。
1

Fig.8 A
 Oncomine数据库复现 
登陆Oncomine数据库:http://www.oncomine.org
如果没有注册的话,需要先进行注册,需要注意一点,Oncomine数据库要求必须用教育邮箱才能注册成功。
在搜索框中输入“EDNRA”,回车之后就会出现结果。
把这张结果图进行部分截取,就可以得到我们的图8A啦。
2

Fig.8 B
 Timer数据库复现 
登入Timer数据库:https://cistrome.shinyapps.io/timer/
Timer数据库页面非常清晰明了,在登入的页面也显示了不同分析模块的功能。
点击“Diff Exp”,输入分子“EDNRA”,点击“Submit”,即可得到结果。
点击左上角即可下载本张图片的结果。
全文总结
好啦,这篇文章的复现就到这里结束啦,是不是很简单呢?
最后还是总结一下这篇文章还可以补充哪些可以用工具完成的分析:
——单基因差异分析之后的火山图和热图;
——除了GSEA分析,还可以进行GO/KEGG分析;
——PPI蛋白互作网络分析;
——对于列线图,还可以计算Calibration。
那么这次的复现就到这里啦,各位小伙伴我们下次再见~
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨想   想
排版丨四金兄
主编丨小雪球
继续阅读
阅读原文