从小白的角度,一刻钟复现生信套路
各位小伙伴大家好,这一周我们继续我们单基因的旅途,在复现专栏和生信训练营中,也常常会有小伙伴提问,在这个生信文章越来越内卷的时代,像单基因这种套路的生信文章真的还能继续灌水吗?答案当然是还可以啦,你不去灌水会有别人去灌,那为什么去灌水的不能是我们呢哈哈哈哈哈
那么这一期为大家带来的这篇文章是在今年十月刚刚发表于International journal of general medicine,目前的实时影响因子为2.466分,全文无代码,对于生信小白们再友好不过啦。
 往期复现传送门 
期刊简介
复现背景信息
 文章题目 
UHRF1 Could Be a Prognostic Biomarker and Correlated with Immune Cell Infiltration in Hepatocellular Carcinoma
 复现内容 
全文共有5个图,具体复现内容如下:
图1:UHRF1 在 HCC 中的表达
图2:UHRF1 在 HCC 中的生存分析
图3:GO 和 KEGG 的富集分析
图4:TCGA 数据集中免疫细胞的比例与 UHRF1 的表达相关
图5:UHRF1与免疫浸润的相关性分析及预后分析
 复现工具 
仙桃学术:http://www.xiantao.love
GEPIA2数据库:http://gepia2.cancer-pku.cn/#index
KMplotter数据库:https://kmplot.com/analysis/
进入HPA数据库:https://www.proteinatlas.org/
String数据库:https://string-db.org/
TIMER2.0数据库:http://timer.cistrome.org/
全文复现
图1:UHRF1 在 HCC 中的表达
作者在图1中分别用GEPIA、oncomine数据库及在TCGA数据库分析了我们的主变量UHRF1在肝细胞癌中的表达差异,我们来看一下如何应用仙桃工具复现图C。
进入仙桃生信工具(https://www.xiantao.love/products),选择高级版(由于高级版功能最为全面,这里统一使用高级版作为示范)
选择“表达差异(挑)”——“表达差异”——“非配对样本”模块,选择疾病为“肝细胞癌”,选择数据集为TCGA-LIHC,数据格式选择TPM;输入我们的主变量分子UHRF1,最后点击确认等待出图。
得到结果如下:
修改右上角参数类型为点图的时候,可以获得点图结果:
是不是也很精美呀~
我们还可以通过生信工具绘制配对样本的表达差异图:
“表达差异(挑)”——“表达差异”——“配对样本”模块,疾病、数据集、数据格式、分子已经自动填好啦,只需要我们确认一下有没有错误,就可以点击确认等待出图啦。
可以看到该基因在配对样本中表达情况:
也是非常便捷的一键出图~
接下来我们来看如何用GEPIA绘制图1A:
登录GEPIA2数据库:http://gepia2.cancer-pku.cn/#index
数据库的主界面如下:
选择“Single Gene Analysis”模块,在搜索栏中输入“UHRF1”,选择“Boxplots”:
选择肿瘤类型为“LIHC”,点击“Plot”:
即可得到结果图片:
针对GEPIA2数据库,解螺旋已经推出单元课及配套视频,大家感兴趣的话可以去了解更多功能,我们在这里就不做更多介绍啦。
这个数据库的界面也不要关掉啊,我们后续还要用它来绘制生存曲线。
原文中的图1B是用oncomine数据库绘制的,对于oncomine数据库如何使用解螺旋有单元课讲解、之前的复现推文中也讲解过很多次,但是近期有很多小伙伴反映现在oncomine数据库注册比较困难,在这里我们就不进行这张小图的复现了。如果大家觉得只有GEPIA数据库以及TCGA中该基因在肝癌中的表达这样的数据比较单薄的话,还可以利用我们的仙桃工具加入一些其它的内容,比如基因UHRF1在泛癌中的表达、UHRF1在肝癌GEO数据集中的表达差异等等,我们在这里为大家复现一下UHRF1在泛癌中的表达。对于如何整理GEO数据集进行分析在前面推文中讲过,大家可以自行复习一下~
选择“表达差异(挑)”——“表达差异”——“非配对样本”模块,选择疾病为“泛癌”,选择数据集为TCGA联合GTEx,因为部分癌种中所包含的正常样本数量较少,可以联合GTEx的正常样本进行分析。核对分子,点击确认等待结果。
点击查看大图可以得到完整结果:
图2:UHRF1 在 HCC 中的生存分析
作者在Fig2中通过不同数据库分析了UHRF1 在肝细胞癌中的生存分析:
我们先来看一下如何在仙桃工具中复现图B的TCGA-LIHC数据集中,UHRF1 对肝细胞癌生存的影响:
选择“临床意义(靠)”——“预后分析”——“KM曲线图”模块,核对数据集及主变量,选择预后参数中预后类型为OS,之后点击确认。
结果如图:
虽然这张图中,生存分析的p值<0.05,但是两条生存曲线有交叉,这样的生存曲线图,大家在自己的文章中还是要尽量避免一下。
回到GEPIA2数据库,进入“Survival Analysis”模块:
选择“LIHC”后点击“Plot”按钮:
就获得我们的图2A啦
接下来我们看如何用KMplotter数据库绘制图2C:
登录KMplotter数据库:https://kmplot.com/analysis/
选择肝癌“Liver cancer”,输入分子UHRF1:
其余选择默认参数即可,点击左下角的“Draw Kaplan-Meier plot”:
即可得到结果:
图D是利用HPA数据库绘制的生存曲线,如何利用HPA数据库白嫖免疫组化结果在前面的推文中已经讲过好几次啦,这一次我们来看一下如何绘制生存曲线。
进入HPA数据库:https://www.proteinatlas.org/
输入我们主变量分子,点击“Search”:
确定基因:
点击Pathology:
下拉界面可以看到生存曲线,选择“Liver Cancer”:
即可得到生存曲线:
图E是作者应用SurExpress数据库分析完成的,但是这个数据库目前无法登录使用,在这里我们无法进行复现了,但是还可以通过仙桃中其它板块来增加工作量,比如单基因在临床病理学参数中的亚组生存分析,我们一起来看一下吧~
选择“临床意义(靠)”——“预后分析”——“亚组KM图”,确定数据集及分子,选择进行分析的亚组,这里我们以M0组为例进行示范,点击确认。
不知道大家有没有留意到,我们的仙桃工具部分模块中的结果下面多了一个“demo.R”的选项,这是什么呢?
不知道大家最近在投稿生信文章时候有没有遇到过要求附上R代码的要求?有些小伙伴可能会说:可是我是工具做的啊,没有代码怎么办?
现在解决方式来啦,我们工具正在逐步给各个模块添加代码,大家再也不用担心这个问题啦
图3:GO 和 KEGG 的富集分析
在图3中,作者使用 LinkedOmics 和 cBioportal数据库确定UHRF1 共表达基因,我们来看一下如何利用仙桃工具点点点搞定:
选择“交互网络(联)”——“分子相关性分析”——“单基因相关性筛选”模块,确定数据集及分子,点击确认。
在历史记录里,看到状态变为“完成”时,点击下载Excel表格下载:
打开结果表格进行筛选:
筛选分子类型为“protein_coding”,筛选P 值 < 0.05 和 Pearson 相关系数 (r) >|0.5|的分子,共计2998个。
新建一个名为“富集分析”的Excel文件,将基因名复制过来,整理如下:
选择“功能聚类(圈)”——“GO|KEGG”——“GO|KEGG富集分析”模块,上传我们刚刚整理的数据,选择“全部GO条目”,点击确认。
保存结果:
进入“GO|KEGG可视化”模块,选择我们刚刚分析得到的GO分析结果,点击确认:
就得到我们的结果了:
KEGG富集分析的方法和上面差不多,大家可以自行尝试一下喔
接下来作者通过STRING数据库构建了PPI网络,之后用UHRF1及其相关HUB基因进行相关性分析,我们来逐步进行复现:
登入String数据库:https://string-db.org/
数据库的主界面长这样:
点击“SEARCH”即可进入分析界面。
选择“Protein by name”,输入主变量分子,确定物种:人类,点击“SEARCH”。
得到蛋白互作网络图。如果觉得得到的分子过多或过少可以点击右下角的“More”和“Less”进行调整。
下载结果:
可以用Cytoscape软件进行美化,也可以利用我们的仙桃工具进行美化:
打开下载得到的文件:
整理为一个新的文件,命名为“PPI”,如下:
选择“交互网络(联)”——“高级网络图”模块,上传我们刚刚整理的PPI文件,点击确认:
得到PPI互作图:
接下来作者还分析UHRF1的表达与HUB基因相关性,我们也一起用工具来看一下如何进行复现:
我们以DNMT1基因为例进行示范:
在“交互网络(联)”——“分子相关性分析”——“散点图”模块,核对数据集及基因名,输入DNMT1基因。
就可以得到如下图所示的散点图啦:
其它小图的复现大家自己练习一下试试喔
图4
:TCGA 数据集中免疫细胞的比例与 UHRF1 的表达相关

作者分别用CIBERSORT和ssGSEA计算免疫细胞比例,我们来看一下如何利用仙桃工具计算UHRF1与各免疫细胞相关性:
选择“交互网络(联)”——“免疫浸润”——“分组比较图”,核对数据集及分子,算法为“ssGSEA”,选择所有免疫细胞,之后点击确认进行计算:
获得结果如下:
在这里我们计算应用的是ssGSEA算法,CIBERSORT算法目前还在路上,如果大家需要的话可以在评论区push我们的工程师小哥哥更新呀~
图5:UHRF1与免疫浸润的相关性分析及预后分析
在图5中,作者应用TIMER数据库分析了UHRF1及各免疫细胞之间的相关性分析、生存分析。
登录TIMER2.0数据库:http://timer.cistrome.org/
数据库主界面如下:
选择“Immune”——“Gene”模块,输入分子及免疫细胞(这里以中性粒细胞为例进行示范),点击“Submit”提交分析:
选择箭头所示的小方块:
即可得到单基因与免疫细胞浸润分析的结果:
也可以对其它免疫细胞进行分析。
接下来我们来看一下基因联合免疫细胞进行生存分析:
选择“Immune”——“Outcome”,选择免疫细胞(T cell CD4+)和分子UHRF1,点击“Submit”提交。
在搜索栏输入“LIHC”,选择CD4+:
即可得到生存曲线:
接下来我们来看一下在突变基因分组中,单基因的表达差异:
选择“Exploration”——“Gene_mutation”模块,突变基因选择TP53,输入基因名UHRF1,点击“Submit”提交。
搜索栏输入“LIHC”:
点击图中所示的小方块就可以看到结果啦:
总结
好啦,今天的复现就到这里啦,是不是也非常简单呢?
最后来简单总结了一下:作者首先分析了单基因在肿瘤中的表达(——表达差异)、单基因在肿瘤中对生存的影响(——临床意义)、GO及KEGG富集分析(——功能聚类),最后还做了免疫浸润分析(——交互网络)。
那么我们下一期再见啦。
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨银   杏
排版丨四金兄
主编丨小雪球
继续阅读
阅读原文