一文解读非肿瘤纯生信文章
从小白的角度,30分钟复现生信套路。今天为大家带来一篇2020年5月发表于中山大学学报的生信文章《基于生物信息学探讨合并心力衰竭的扩张型心肌病靶基因的预测》的复现。
本文是一篇挖掘GEO数据库的纯生信文章,涉及5个图片,4个表格。用到的数据集是GPL570平台的GSE29819 和GSE21610。
图一:芯片数据集PCA图和差异表达基因火山图
在仙桃学术新上线的数据集检索栏目中可以检索分析GSE数据集。
仙桃学术生信工具网址:https://www.xiantao.love/products
进入主页,进入数据集检索
进入之后的页面是这个样子:
页面左侧是筛选条件和样本汇总信息,可以勾选自己想要检索的物种和数据类型。如果勾选“已收录”就可以检索到能直接在工具中进行下游分析的数据集。数据集检索目前收录了GPL570平台下的6-200个样本量的数据集,大约有4000个数据集,这些都是能直接添加到自己的样本库做后续的分析的。
然后在检索框中输入复现文章中使用的数据集GSE29819和GSE21610。下面以GSE29819为例:
会发现右下角有一个“选择样本”按钮,说明这个数据集是可以进行样本添加的。点开这个“选择样本”,就能选择对应数据集的样本。GSE29819 芯片数据集包括致心律失常性右心室心肌病标本12例(6例病例,左右心室心肌组织各取1例样本),合并心力衰竭的扩张型心肌病标本14例(7例病例,左右心室心肌组织各取1例样本)和正常心脏功能标本12例(6 例病例,左右心室心肌组织各取1 例样本)。我们选择合并心力衰竭的扩张型心肌病标本14例和正常心脏功能标本12例添加到样本库。
选择完样本后,点击右下的“添加到样本库”就能添加到自己的样本库中,然后在页面左侧点击“进入我的样本库”进行分组以及进行下游分析 ~
然后勾选LV_DCM和RV_DCM,加入分组2作为实验组;勾选LV_NF和RV_NF,加入分组1作为对照组。点击“提交分析”。
对于GSE21610芯片数据集也是类似的操作。
GSE21610芯片数据集包括未经心室辅助装置支持治疗前和经过心室辅助装置支持治疗后的合并心力衰竭的扩张型心肌病的心肌组织标本各21例(来源于相同的21例病例),未经心室辅助装置支持治疗前和经过心室辅助装置支持治疗后的合并心力衰竭的缺血性心肌病的心肌组织标本各9例(来源于相同的9例病例),正常心脏功能标本8例。我们选择未经心室辅助装置支持治疗的合并心力衰竭的扩张型心肌病标本21例和正常心脏功能标本8例添加到样本库进行分析。
分析完成后就会在历史记录中显示分析结果,点击“下载”就会看到很多的结果内容,包括箱式图、PCA图、UMAP图、火山图、差异分析结果表格等,以及结果分析报告。
“说明”中有丰富的分析说明和结果展示,结果都提供了直接下载以及细节修改的跳转链接。
点击“细节修改”就会跳转到生信工具中的对应模块,进行一些个性化的设置,比如分别加上相应的大标题GSE29819 PCA或GSE29819 Volcano plot和图注标题group或significant:
设置完成后点击“确认”就会出来图片,点击“保存结果”。
在PCA图和火山图的弹出窗口中分别输入“GSE29819 PCA”,“GSE29819 Volcano plot”
对于GSE21610芯片数据集也是同样的操作。然后在拼图工具中就可以将Figure 1的4张图进行拼接。
点击“拼图工具”,将左侧的图片拖入空白处:
改变图片的位置和大小,完成拼图:
图二:表达上调差异基因热图和韦恩图
在之前的数据集检索工具的分析页面中点击“下载”——“CSV表格下载”。
分别得到GSE29819和GSE21610的差异分析结果
按照“logFC>1,P.Value <0.05”的条件进行筛选,在GSE29819得到288个差异分子,在GSE21610得到536个上调的差异表达基因。
以下以GSE29819为例,进行热图的绘制:
回到之前分析的数据集检索页面,点击“说明”:
在热图下方点击“细节修改”:
将筛选得到的gene symbol复制到分子list中(工具目前最多只能输入200个分子,这次演示以20个分子为例),将聚类改为“无”,图注在右,图注标题改为“group, Normal, DCM”:
点击“确认”,得到热图:
保存结果,在弹出窗口中命名为“GSE29819 Up-regulated Genes”:
同样的操作进行GSE21610上调基因热图的绘制,保存结果为“GSE21610 Up-regulated Genes”:
然后在“分析工具”页面选择 “基础绘图”下的“韦恩图”,下载示例数据。
将之前筛选到的GSE29819和GSE21610的上调基因按照示例数据的格式进行相应修改:
然后上传该文件,更改标题为“Up-regulation”,点击“确认”:
得到韦恩图:
保存结果为“韦恩图”:
然后点击“拼图工具”,将左侧的图片拖入空白处:
将图片摆放好后下载图片:
图三:表达上调差异基因GO和KEGG富集分析结果
在“分析工具”页面选择 “功能聚类”下的“GO|KEGG 富集分析”,下载示例数据:
将之前得到的GSE29819和GSE21610的共同上调基因复制到该表格中说明:因为以“logFC>1,P.Value <0.05”为条件筛选到的共同上调基因数目过少,不能进行富集分析,因此本演示“logFC>0或logFC<0,P.Value <0.05”为筛选条件分析出共同上调基因,然后做后续分析
上传该表格,在参数栏中选择全部GO+KEGG,点“确认”:
保存结果,将结果命名为富集分析,并下载Excel表:
选择左侧的“功能聚类”下的“GO|KEGG 可视化”,选择刚才富集分析的结果,更改图片类型为气泡图:
然后打开刚才的富集结果Excel表:
点击“筛选”:
点击p value右侧的小箭头——数字筛选——小于:
输入0.05:
即得到后的富集条目
分别选择BP、MF、KEGG的富集条目输入到ID List框中,在大标题中输入相应的富集分析名字。
GO-BP富集结果:
GO-MF富集结果:
KEGG富集结果:
然后在拼图工具中进行拼图:
表一~表四:富集分析结果
表1~4都是富集分析结果,打开刚才的富集结果Excel表,按照“pvalue<0.05”条件进行筛选:
将相应的数据(高亮的列)复制下来,在word中整理成三线表即可。
图四:蛋白互作网络和候选基因韦恩图
打开string数据库:
将之前差异分析得到的所有差异分子复制到list of names中,organism选择“homo sapiens”,检索:
点击“continue”:
改为“low confidence”(为了有更多的interaction,方便后续构建PPI):
导出互作表格:
打开Cytoscape软件(3.8.0),载入互作表格:
点击OK:
打开cytohubba插件注:尝试用MCODE插件分析不出cluster,换成用cytohubba演示
在cytoHubba插件中选择Top 10 nodes ranked by degree,点击submit:
导出该HubbaTable表格:
提取name列和Degree列,新建Excel表,命名为size;提取name列和Closeness列(可能是Cytoscape软件版本不一样,没有neighborhood connectivity参数,换成用Closeness演示),新建Excel表,命名为color。
对之前在string数据库导出的互作表格,提取node1列、node2列和combined_score列,新建Excel表,命名为edge。
然后点击File——import——table from file,导入这3个属性文件:
在style的fill color参数中分别选择Closeness和Continuous Mapping:
然后勾选“Lock node width and height”,Size参数选择Degree和Continuous Mapping:
Edge栏目的Width参数选择combined_score和Continuous Mapping:
更换layout形式为Attribute Circle Layout:
最后得到修饰后的PPI网络:
点击File——Export——Network to Image导出图片:
上传至生信工具,保存结果为“PPI”:
接着在OMIM数据库中找扩张型心肌病相关的基因。打开OMIM数据库,进入Gene Map:
检索“dilated cardiomyopathy”:
把这些基因下载下来:
回到生信工具,下载韦恩图示例数据:
将OMIM数据库中找扩张型心肌病相关的基因和Top 10 hub genes按照示例数据的格式进行相应修改:
然后上传该文件,点击“确认”,得到韦恩图:
保存结果为“韦恩图1”。
另外,导出hub gene网络图:
上传至生信工具,保存结果为“hub genes”:
然后将三张图片在拼图工具中进行拼图。
图五:GSEA和KEGG预设基因富集结果
对之前下载的GSE29819 和GSE21610差异分析结果表进行整理,保留logFC列和gene symbol列:
分别上传这两份excel表,进行GSEA分析:
在历史记录中可以查看GSEA富集分析完成情况,下载分析表格:
点击筛选:
依次点击ID旁边的小箭头——文本筛选——包含:
输入“KEGG”:
即得到富集分析表中的所有KEGG通路:
将core_enrichment列的基因复制下来,整理成excel表。
回到生信工具,下载韦恩图示例数据:
将OMIM数据库中找扩张型心肌病相关的基因和core_enrichment列的基因按照示例数据的格式进行相应修改:
然后上传该文件,点击“确认”,得到韦恩图:
保存结果为“韦恩图2”。
因为三者没有共同的交集基因,后续分析以OMIM和GSE21610的交集基因PSEN1为例。
在之前的富集分析结果表格中查找PSEN1,发现其是KEGG_WNT_SIGNALING_PATHWAY和KEGG_NOTCH_SIGNALING_PATHWAY的核心基因。
在生信工具的GSEA可视化工具中,将KEGG_WNT_SIGNALING_PATHWAY和KEGG_NOTCH_SIGNALING_PATHWAY分别输入基因集ID中:
保存结果:
然后在拼图工具中拼图:
好了,本期零代码生信文章复现就到这里啦!有没有觉得仙桃学术的工具很赞很奈斯?希望大家好好利用这个宝藏,多多发文章~
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文DFL
排版丨四金兄
值班 | 王美丽

主编丨小雪球
继续阅读
阅读原文