小伙伴们大家好,我是天天。今天为大家带来的是7月份发表在Epma Journal上的非肿瘤干湿结合文章,题目是“Identifying potential signatures for atherosclerosis in the context of predictive, preventive, and personalized medicine using integrative bioinformatics approaches and machine‑learning strategies”,最新影响因子为8.836
本篇文章首先通过常规转录组分析及机器学习识别了动脉粥样硬化的关键遗传标志物,结合一部分单细胞分析揭示了动脉粥样硬化生物标志物与免疫细胞浸润的关系。最后结合湿实验验证预测结果。文章性价比极高,大家快来一起学习吧~
一、研究背景
动脉粥样硬化(Atherosclerosis,AS),是动脉粥样硬化性心血管疾病最常见的病理基础。其导致的冠状动脉疾病是老年人死亡率最高的疾病之一。
目前,由于缺乏有效手段检测早期发生的冠状动脉粥样硬化,因此预防及个性化治疗冠心病都受到了严重的阻碍。
尽管近年来已经开发了几种与动脉粥样硬化相关的分子标志物,但缺乏强有力的证据阻碍了它们的临床应用。
因此,在预测性、预防性和个性化医学的背景下,识别新的和强大的生物标志物将直接有助于动脉粥样硬化的管理。
二、结构框架
作者首先从GEO数据库获取两个动脉粥样硬化数据集GSE100924和GSE43292,分别对两个数据集进行差异分析,取两者交集差异基因进行GO/KEGG富集分析
再对GSE100927数据集进行加权基因共表达网络分析(WGCNA)获取AS相关关键模块基因,并使用随机森林和Lasso两种机器学习算法对GSE100924的DEGs进行关键基因的筛选,随后对三种方法获取的基因取交集获取最终的关键基因,.
进一步绘制ROC曲线检测其预测效能,并在GSE43292和GSE28829两个数据集中验证关键基因的表达情况。
作者通过CIBERSORT量化GSE100927中各样本的免疫细胞浸润情况,并分析了关键基因与免疫浸润的相关性,引入单细胞数据集GSE159677观察关键基因在各个细胞亚群中的表达情况。最终在人和小鼠的AS斑块组织中验证关键基因的表达。
三、套路解读——挑圈联靠
挑——差异分析
作者首先通过对GSE100927和GSE43292进行差异分析,调整后P值<0.05,|Log2 fold-change (log2FC)|≥ 0.585的基因被认为是差异基因。
在GSE100927数据集中获得了1401个上调基因和1072个下调基因,在GSE43292数据集中获得了567个上调基因和377个下调基因。
取交集后获得了361个共同上调基因和250个共同下调基因
圈——富集分析
接下来就是大家最熟悉的GO/KEGG富集分析。作者首先对所有的共表达DEGs进行分析,发现显著富集的BP包括中性粒细胞激活、中性粒细胞脱颗粒、参与免疫反应的中性粒细胞活化、中性粒分子介导的免疫和T细胞激活,提示这些基因与免疫反应可能存在一定联系。
挑——关键基因的识别
作者进一步通过随机森林、Lasso机器学习算法对DEGs中的关键基因进行识别,并通过WGCNA分析整体数据得到了AS相关的关键模块。三者结果取交集后得到了DHRS9、PTPRJ两个关键基因
结合多种机器学习算法筛选关键变量是目前比较火热的方法,我们可以通过不同的算法筛选变量建模,比较模型的优劣来选择最优模型中的基因,也可以对多种算法的结果取交集筛选关键基因。
靠——ROC曲线及表达量
作者绘制ROC曲线评价了关键基因的独立诊断与联合诊断效能,AUC值均为1。并在训练集和两个验证集中比较了组间关键基因的表达差异,结果显示DHRS9在三个数据集中均差异明显,而PTPRC在GSE28829中组间无明显差异。
相信大家看到这里也十分疑惑,一般我们认为不存在完美的分类器,往往AUC = 1的情况被视为阴性结果,很大可能是由于样本量不足导致的这种情况。但此处不知是什么原因杂志的编辑及审稿人接受了作者的这个结果。那么之后小伙伴们是否可能用这篇文章的结果来回答审稿人针对AUC = 1的质疑呢?
联——ceRNA网络的构建
作者通过starbase、hTFtarget和miDIP预测两个关键基因相对应的转录因子、miRNA和lncRNA,并使用Cytoscape进行可视化。这三个数据库在挑圈联靠中均介绍过使用方法,感兴趣的小伙伴可直接在公众号内搜索数据库名称来学习~
靠——免疫浸润及单细胞层面识别关键基因的表达
首先对GSE100927数据集进行PCA分析,两组间区分度良好。然后使用CIBERSORT算法分析GSE100927中的22种免疫细胞的浸润情况。排除了5种丰度无法检测的免疫细胞,并使用17种免疫细胞进行进一步分析。
对关键基因与免疫浸润结果进行了相关性分析,发现DHRS9和PTPRJ均与巨噬细胞相关性较高。
为了更精确地描述关键基因在免疫细胞中的表达,作者引入GSE159677单细胞数据集,结果发现DHRS9在巨噬细胞(4)及NK细胞(14)中表达量较高,而PTPRJ在各个细胞群中均无明显表达。
靠——实验验证
最后,作者在人和小鼠的AS斑块组织及正常对照中用免疫荧光验证了DHRS9在斑块巨噬细胞中的高表达,Western blotting验证DHRS9在整体斑块组织中的表达升高。
四、总结
本篇文章中,作者首先通过差异分析获取AS的差异基因,并对差异基因进行富集分析,发现差异基因富集通路主要与免疫相关
接着联合WGCNA和机器学算法鉴定AS相关关键基因,进一步通过免疫浸润分析及单细胞数据分析获取关键基因与免疫细胞之间的关系,结果发现DHRS9与巨噬细胞浸润密切相关,且在巨噬细胞中高表达。最后通过实验验证DHRS9的表达。
总之作者发现了DHRS9参与动脉粥样硬化形成,并且很可能是在巨噬细胞中发挥其作用。DHRS9可能成为动脉粥样硬化未来预测诊断、定向预防、患者分层和个性化医疗服务的潜在新靶点。
小编认为本文的主要亮点是:
1.结合了多种机器学习算法筛选关键基因,相较于单个算法会更加可靠一些;
2.结合了单细胞数据,单细胞是目前的数据挖掘风口;
3.通过实验验证了预测结果。
那么我们可以从哪些补充哪些分析进一步充实我们的结果呢?
首先本文作者选用了随机森林及lasso两种最常见的机器学习算法。我们还可以结合目前XGboost、SVM等更高级的算法进行关键基因的筛选,所有提到的算法均可通过mlr3包实现,详见晨曦老师的推文“重磅!2022年爆火的CNS级美图!多组联合机器学习,一刻钟教你get!”。
其次针对AUC值为1的问题,我们可以通过整合多数据集增大样本量来规避这个问题。在单细胞层面上我们还可以增加细胞通讯及拟时序分析来为我们的工作增光添彩。
好了,这篇8+非肿瘤干湿结合文献就解读在这里了,大家是否从这篇文章中获取了新的发文思路呢?期待下次再见~
END

撰文丨天    天
排版丨三叶虫
编辑丨三叶虫
继续阅读
阅读原文