scMetabolism包_单细胞层面定义代谢

Hi，大家好，我是晨曦
今天这期推文我们来学习一个新的R包：scMetabolism包
我们用比较简短的话就可以概括这个R包的功能——scMetabolism包是一个在单细胞分辨率下定量代谢活动的R包
研究代谢相关领域的小伙伴不要错过哦~

那么我们开始吧

期刊信息

引言

关于这个R包的文章是下面这篇文章

当然晨曦也是整体浏览了一下这篇文章，这篇文章主要内容可以概括为：肝转移是结直肠癌死亡的主要原因，具有高度异质性和抑制性的免疫微环境。在这篇文献中，作者使用单细胞RNA测序和空间转录组学对97个匹配的样本进行了测序。比较值得注意的是，转移微环境发生了显著的免疫抑制细胞的空间重编程，然后作者进一步开发了scMetabolism，一种量化单细胞代谢的计算piplines

当然具体的生物学领域并不是我们研究的重点，我们主要感兴趣的是这个R包应该如何去使用，那么下面我们就探索一下这个R包的构造加深我们后续使用的理解

Metabolism包解构

相信做过转录组测序的小伙伴们应该知道，我们平时进行ssGSEA富集分析或者GSVA富集分析的时候消耗的时间是比较长的，那么对于scRNA-seq这种高维度的数据时间的增加可不仅仅是一个简单的线性关系

本文作者开发了scMetabolismR包，整合了代谢定量和数据可视化，而且证明了该算法与Seurat的良好兼容性，可广泛适用于scRNA-seq数据

下面就是这个R包的结构

我们可以很清楚的看到，这个R包的整合了KEGG和REACTOME数据库相关的代谢基因集并且生成了一份更加全面的代谢基因集

那么计算代谢富集情况的相关算法主要是VISION、AUCell和ssGSEA来量化代谢途径活性，我们前面的推文曾经介绍过，有了参考基因集和算法我们就可以进行代谢的相关分析

至于可视化方面这个R包也提供了三种配套的可视化方案，至此，我们了解这个R包到这里就可以了

晨曦下面再来总结一下这个R包的特点

1. scMetabolismR包，整合了代谢定量和数据可视化，而且证明了该算法与Seurat的良好兼容性，可广泛适用于scRNA-seq数据进行单细胞层面代谢的相关计算

2. 整合KEGG和REACTOME的相关基因集，生成了一份高质量的代谢基因集列表

3. R包自带三种可视化方式，方便我们展示结果

代码实战

那么接下来，我们就来进行代码实操的相关部分

第一步：下载相关R包

这里其实就有一些“技巧”，晨曦在自己的笔记本上运行下面的代码基本上是没有任何问题（可能会提示你安装其它依赖包）

#windows电脑options("repos" =c(CRAN="http://mirrors.cloud.tencent.com/CRAN/"))#选择镜像

install.packages(c("devtools", "data.table", "wesanderson", "Seurat", "devtools", "AUCell", "GSEABase", "GSVA", "ggplot2","rsvd"))

devtools::install_github("YosefLab/VISION")devtools::install_github("wu-yc/scMetabolism")

但是在云服务器上运行相同的代码下载就是频繁的报错，探索到原因貌似是因为需要提前下载一个R包，但是这个R包的下载是需要服务区的root权限的，晨曦没有所以捣鼓了1h也没有成功，但是好在本地电脑下载是没有问题的，所以也并不影响使用

#准备工作library(scMetabolism)library(ggplot2)library(rsvd)#加载测试数据集load(file = "pbmc_demo.rda")#外周血细胞(PBMC)的数据集

晨曦解读

需要注意的点：

1. 支持在单细胞分辨率下代谢的量化和可视化

2. 目前支持人类scRNA-seq数据

countexp.Seurat<-sc.metabolism.Seurat(obj = countexp.Seurat, method = "VISION", imputation = F, ncores = 2, metabolism.type = "KEGG")

#提取代谢评分#metabolism.matrix <- countexp.Seurat@assays$METABOLISM$score

晨曦解读

obj is a Seurat object containing the UMI count matrix*（数据要求）

method supports VISION, AUCell, ssgsea, and gsva, which VISION is the default method（算法选择）

如果VISION包下载不下来可以这里进行调节

imputation allows users to choose whether impute their data before metabolism scoring（数据处理步骤）

这块晨曦探索得到的结论是，如果我们这里选择T，会首先对我们的数据进行一个预处理的步骤（聚类和ALRA【针对稀疏矩阵的数据预处理】）但是添加后结果并没有太多的改变，反而增加了运行时间，所以这里默认即可

ncores is the number of threads of parallel computation（并行线程数）

metabolism.type supports KEGG and REACTOME, where KEGG contains 85 metabolism pathways and REACTOME contains 82 metabolism pathways（参考数据集）

#可视化案例1

DimPlot.metabolism(obj = countexp.Seurat, pathway = "Glycolysis / Gluconeogenesis", dimention.reduction.type = "umap", dimention.reduction.run = F, size = 1)

countexp.Seurat is a Seurat object containing the UMI count matrix.

pathway is the pathway of interest to visualize.

dimention.reduction.type supports umap and tsne

dimention.reduction.run allows users to choose whether re-run the dimention reduction of the given Seurat object.

size is the dot size in the plot

#可视化案例2input.pathway<-c("Glycolysis / Gluconeogenesis", "Oxidative phosphorylation", "Citrate cycle (TCA cycle)")DotPlot.metabolism(obj = countexp.Seurat, pathway = input.pathway, phenotype = "ident", norm = "y")

obj is a Seurat object containing the UMI count matrix.

pathway is the pathway of interest to visualize.

phenotype is the one of the features contained in the metadata in the Seurat object.

norm refers to scale the value according to row or column. Users can choose "x", "y", and "na".

#可视化案例3BoxPlot.metabolism(obj = countexp.Seurat, pathway = input.pathway, phenotype = "ident", ncol = 1)

obj is a Seurat object containing the UMI count matrix.

pathway is the pathway of interest to visualize.

phenotype is the one of the features contained in the metadata in the Seurat object.

ncol refers to the column number per row.

到这里这个R包的主要使用方法就结束了，总体来说是一个很好的用的R包，研究代谢和单细胞的小伙伴们可不要错过哦

当然到这里我们并没有停止对这个R包的探索，我们接下来从安装和数据类型来探索一下这个R包

探索1：VISION包怎么也安装不上，可不可以不使用这个R包？

#替换方法即可

countexp.Seurat<-sc.metabolism.Seurat(obj = countexp.Seurat, method = "AUCell", imputation = F, ncores = 2, metabolism.type = "KEGG")

探索2：可不可以不用Seurat对象，提供counts矩阵可不可以（可以，但是不建议）

metabolism.matrix<-sc.metabolism(countexp = countexp, method = "VISION", imputation = F, ncores = 2, metabolism.type = "KEGG")

countexp is a data frame of UMI count matrix (col is cell ID, row is gene name).method supports VISION, AUCell, ssgsea, and gsva, which VISION is the default method.imputation allows users to choose whether impute their data before metabolism scoring.ncores is the number of threads of parallel computation.

metabolism.type supports KEGG and REACTOME, where KEGG contains 85 metabolism pathways and REACTOME contains 82 metabolism pathways.

探索3：这个R包还有什么更加重要的内容？

A.提供了代谢基因列表，我们也可以把数据download下来进行ssGSEA的相关分析；

B.全程可视化基于ggplot2，我们可以把数据下载下来后进行更多层次的可视化展现；

那么到这里，本期推文到这里就结束啦，我们下期一起继续学习更多有趣的内容吧QAQ

我是晨曦，我们下期再见~

参考教程

1.wu-yc/scMetabolism: Quantifying metabolism activity at the single-cell resolution (github.com)

2.Wu Y, Yang S, Ma J, Chen Z, Song G, Rao D, Cheng Y, Huang S, Liu Y, Jiang S, Liu J, Huang X, Wang X, Qiu S, Xu J, Xi R, Bai F, Zhou J, Fan J, Zhang X, Gao Q. Spatiotemporal Immune Landscape of Colorectal Cancer Liver Metastasis at Single-Cell Level. Cancer Discov. 2021 Aug 20

晨曦的空间转录组笔记系列传送门

1. 拿去耍！！空间转录组实战来了！你在实验室的装逼利器！

2. 来领你的空间转录组救急包！你的装逼速成教程来了！

3. 新贵分析！单细胞联合空转分析，R语言手把手教学，你学废了吗？

晨曦碎碎念系列传送门（未完待续...）

1. 想白嫖单细胞生信文章？这五大源头数据库，是你发文章的源泉！高频预警！你一定要收藏！

2. 盘活国自然的新思路！你研究的热点真的是热点吗？大数据帮你定位！

3. 好家伙！90%以上审稿人都会问到的问题，今天帮你解决！就是这么齐齐整整！

4. 没想到！生信分组还有这个大坑！你被坑过吗？！

5. 关于富集分析这件事，我有话想说。。。

6. 好御好高级！CNS级别美图是如何炼成的？看这篇就懂了！

7. 化繁为简！一文帮你彻底搞懂机器学习！想发高分文章，这篇是基础！