解螺旋公众号·陪伴你科研的第2555天
9分新冠相关生信文章复现
今天为大家带来一篇影响因子8.99分的新冠相关的纯生信文章,影响因子虽高,但复现难度却不大,这让我深刻体会到雪球老师所说的,“生信文章思路很重要,追上热点分更高”。
文章题目
期刊简介
文章概要
题目:Network-based identification genetic effect of SARS-CoV-2 infections to Idiopathic pulmonary fibrosis (IPF) patients
疾病SARS-CoV-2感染和特发性肺纤维化(IPF)
数据来源GEO(GSE147507和GSE35145)
分析策略差异表达 + 功能聚类 + 交互网络 + 临床意义
复现工具

 仙桃学术工具
(https://www.xiantao.love/products)
STRING数据库
(https://www.string-db.org/)
NetworkAnalyst数据库
(https://www.networkanalyst.ca/)
Enrichr数据库
   (https://amp.pharm.mssm.edu/Enrichr/)
Cytoscape软件及cytoHubba插件
数据解读
总体来看,本文一共有8张图4张表,作者从GEO数据库中挑出GSE147507(COVID-19)和GSE35145(IPF)的样本,筛选出差异表达的基因并取交集(图2),进行GO/KEGG富集分析(图3、表1、表2),分子互作网络分析(图4),挖掘hub基因并分析(图5和图6),分析TF与差异表达基因的互作网络(图7),TF与miRNA的调控网络(图8),并筛选出候选的药物(表4),涉及到差异表达(挑),功能聚类(圈),交互网络(联),临床意义(靠)的各个方面。
详细解读如下 
文章复现
图一:分析流程图
流程图用PPT、思维导图软件、photoshop等都能实现,这里不再赘述。
图2、从SARS-CoV-2感染差异表达基因和IPF患者的差异表达基因中发现共同的差异基因
GSE147507数据集用于分析COVID-19的DEG,使用GSE35145数据集分析IPF的DEG,并用韦恩图取两者的交集。
进入仙桃学术(https://www.xiantao.love/),点击【数据集检索】
输入数据集名称【GSE147507】 → 【检索】 → 【数据下载】
此数据集包括了人体细胞实验(GPL18573)和动物实验(GPL28369)的数据,本分析只用下载细胞实验数据,即【GSE147507-GPL18573_series_matrix.txt.gz】(数据基本信息介绍)和【GSE147507_RawReadCounts_Human.tsv.gz】(原始counts数据)。
将【GSE147507-GPL18573_series_matrix.txt.gz】解压并打开,查看每一列标本代表什么含义,可以看到,本分析只需要健康人的标本(Lung biopsy for heatly negative control)和COVID-19患者的标本(Lung sample from postmortem COVID-19 patient),因此选取Series15的结果即可。
将【GSE147507_RawReadCounts_Human.tsv.gz】解压并打开
选择Series15的数据,将其他数据删除,并将第一行第一列命名为【id】
在第一行插入新的一行【group】,并根据样本特征输入【control】和【COVID19】
将文件另存后,回到仙桃学术(https://www.xiantao.love/),点击【生信工具】
【高级版】 → 【立即使用】
注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例
【分析工具】 → 【表达差异(挑)】 → 【差异分析】 → 【测序数据-counts格式】 → 上传刚刚保存的文件 → 【确认】
在【历史记录】中可以看到分析的状态,待状态变为【完成】时,即可【下载】,这里我们【CSV表格下载】
打开文件 → 【筛选】 → 【padj】的小三角 → 【数字筛选】 → 【小于】
【小于】 → 【0.05】 → 【确定】 
【log2FoldChange】旁边的小三角 → 【数字筛选】 → 【大于】
【大于】 → 【1】 → 【或】 → 【小于】 → 【-1】 → 【确定】 
这样挑选出所有padj<0.05并且|logFC|>1的所有基因了。
将第一列选中并复制
将其粘贴到新的表格中,并将列名改为【COVID19】
再次回到仙桃学术【数据集检索】 → 输入数据集名称【GSE35145】 → 【检索】 → 【GEO2R】
【Define groups】 → 将标本分为【IPF】和【normal】 → 【Analyze】
等待一段时间,【Download full table】
打开文件,用上面同样的方法挑选出所有padj<0.05并且|logFC|>1的基因,并复制基因名列。
粘贴到前面保存的文件中,并将列名改为【IPF】,保存这份文件,这样韦恩图的文件就准备好了
回到仙桃学术【生信工具】 → 【分析工具】 → 【基础绘图】 → 【韦恩图】 → 上传刚刚保存的文件 → 【确认】 → 【保存结果】并【下载结果】
【Excel表格下载】里就能看到2个基因集的交集是哪些基因了。
图3、GO/KEGG富集分析
表1、GO及对应的P值
表2、KEGG及对应的P值
这里1张图2张表都可以在仙桃学术里完成。
【分析工具】 → 【功能聚类(圈)】 → 【GO|KEGG】 → 【GO|KEGG富集分析】 → 将韦恩图中获得的2个基因集的共同基因名粘贴到【分子列表】 → 【条目】中选择【GO-BP】 → 【确认】 → 【保存结果】或【下载结果】
【保存结果】,并且记得给这个结果起个响亮的名字,比如“GO-BP”这样就能直接进行【GO|KEGG可视化】分析啦
【Word三线表下载】,打开文件,将此结果填入表格即为Table1。
【GO|KEGG可视化】 → 选择刚刚保存的【GO|KEGG富集分析】结果 → 调整图片的风格 → 【确认】 → 【保存结果】并【下载结果】
分析其他项目,只需更改【富集分析条目】为【GO-CC】、【GO-MF】、【KEGG】,下载结果填入表格,并可视化。
图4、COVID-19和IPF共同差异基因的PPI网络
进入STRING数据库(https://www.string-db.org/) → 【SEARCH】
【Multiple Proteins】 → 将差异基因粘贴进【Lis of Names】 → 选择【Homo samples】 → 【SEARCH】
【CONTINUE】
【Multiple Proteins】 → 将差异基因粘贴进【Lis of Names】 → 选择【Homo samples】 → 【SEARCH】
下载bitmap,即为图4;下载text output,可作为cytoscape的输入文件。
图5、从差异表达基因的PPIs网络中检测hub基因
表3、前5个hub基因的分析结果
图6、hub基因的关联度分析
以上2张图1张表均可以Cytoscape软件中完成。
打开Cytoscape软件 → 【File】 → 【Import】 → 【Network from File】 → 打开从STRING数据库下载的文件
【OK】
【cytoHubba】 → 【Calculate】 → 【Top 10 Degree】 → 点【Check the first-stage nodes】前勾勾 → 【Submit】 
【Layout】 → 【Circular Layout】即为图5
【Export】
打开文件,按【Degree】降序排列,将前5个基因数据填入表格,即为表3
【ClusteringCoefficient】 → 点【Display the expanded subnetwork】前勾勾 → 【Submit】即为图6
图7、TF基因与差异基因互作网络
图8、TF-miRNA调控网络
以上2张图片均可在NetworkAnalyst数据库完成。
进入NetworkAnalyst数据库(https://www.networkanalyst.ca/) → 【Gene List Input】
选择【H.sapiens】 → 【Official Gene Symbol】 → 输入基因名 → 【Upload】 → 【Proceed】
选择【TF-gene Interactions】 → 【ENCODE】 → 【OK】 
【Proceed】 
调整图片颜色和形态 → 【Download】 → 选择特定格式下载即为图7
回到前页
选择【TF-miRNA Coregulatory Network】 → 【OK】 → 【Proceed】 
【Proceed】 
调整图片颜色和形态 → 【Download】 → 选择特定格式下载即为图8
表4、潜在候选药物
Enrichr数据库(https://amp.pharm.mssm.edu/Enrichr/)
输入差异表达的基因名 → 【Submit】 
选择【Diseases/Drugs】
找到【DSigDB】并点击
选择【Table】即为表4
本文亮点
1.  当前世界正经历着冠状病毒疾病(COVID-19)爆发的艰难时期,关注全球热点话题,本文为研究COVID-19的发病机制及临床药物治疗提供思路。
2.  基于PPI互作网络分析有助于找出与SARS-CoV-2和IPF相关的hub基因。
3.基于基因富集分析了SARS-CoV-2和IPF感染的hub基因,对于药物化合物的预测更加有效。
文章扩展

1.  本文是结合COVID-19和特发性肺纤维化开展的研究,对于COVID-19引起的一系列并发症都值得探索。
2.  本文寻找到一些TF和miRNA,并且许多科学家已经开展miRNA靶向药物及疫苗的研究,可针对本文所挖掘出的TF和miRNA做进一步的网络药物学分析,以期找到更有针对性的治疗药物。
END
撰文丨dodo
排版丨豨莶
肿瘤表观遗传的好用数据库,快来看看吧
关注!国人发文占比高,平均2个月审稿周期的二区产科友刊,你要错过吗?
Nature Medicine万字综述阐述肿瘤的这个重要特征
本周直播预告
领  悟  科  研  优  人  一  步


直播主题:《医生做科研的最佳路径》
直播时间:5月8日晚18点-20点
本次直播将在哔哩哔哩微信视频号同步播出,同时也会在双平台进行直播抽奖。大家可以去微信视频号进行直播预约,点赞推荐直播预告还有机会赢得解螺旋精美周边。


   戳按钮预约直播


解螺旋期待与你共同成长

继续阅读
阅读原文