snRNA-seq学习笔记
Hi,大家好,我是晨曦
前几日在和同伴交流的时候,突然想到貌似我们单细胞转录组还有最后一块拼图没有拼上,那就是现在比较火的单核细胞转录组(snRNA-seq),所以晨曦也是赶快找到了一些相关资料进行学习,并在第一时间整理出来了相关的推文,希望可以和大家一起学习~
Ps:本篇推文为晨曦学习snRNA-seq的笔记,欢迎各位小伙伴在评论区留言、讨论~
那么我们开始吧
Introduction
单细胞技术的发展为人类探索细胞与细胞之前的关联提供了可能。随着单细胞的发展,从一开始的单个单个的细胞单独建库测序,到开始实现几个细胞、几百个细胞,到现在一次性捕获几千个甚至上万个细胞,几年之间,这种跨越式的发展使得癌症、肿瘤等疾病的研究更透彻,应用单细胞之间的差异探索疾病或癌症治疗成为了一种新兴手段
但是目前在10×Genomics平台上应用的主要是新鲜培养的细胞、新鲜组织,虽然有部分冻存的细胞和组织也能够进行10×Genomics单细胞平台实验,但是大部分冻存样本难以实现单细胞的有效解离,尤其是长期保存的组织,或者大脑细胞和脂肪细胞,在分离细胞时所用的酶和破坏力往往影响其他细胞区室的内容。另一方面在组织或细胞解离过程中,虽然能得到较好的单细胞悬液,但是在解离过程中,可能会发生转录应激反应,导致得到与实际不符的结果。
要得到可以进行10×Genomics单细胞较好的样本是阻拦研究人员脚步的原因。在这种时候,单核细胞研究应运而生。研究人员通过提取样本的细胞核来进行研究,大大减少了样本处理的难度,使得各种不同样本进行单细胞研究成为可能。
单核转录组snRNA-seq在10×Genomics平台上的操作是一样的,也是分离得到的单细胞核与UMI一起形成油包水结构后进行裂解、建库测序。但是他们的差异在于单核转录组在上10×Genomics平台之前,需要消化细胞得到单细胞核的悬浮液,然后得到的转录组信息是核内的转录组,而不能得到胞质中的转录本信息
然后我们可以对单细胞转录组(scRNA-seq)和单核细胞转录组(snRNA-seq)进行总结:
A.目前单细胞测序(scRNA-seq)存在三大问题:
1. 应用范围受限,目前来说大多数都还是新鲜组织样本
2. 容易引发细胞转录偏好(bias)
3. 容易引发细胞类型偏好
B.单核细胞测序(snRNA-seq)目前来说的优势/劣势:
1. 优势:避免解离偏差(细胞类型偏好)
2. 优势:避免发生转录偏好
3. 优势:可以用于冻存组织
迄今为之在肌肉组织、脑组织、心脏、肾脏、PBMC、血管、肺脏等组织中得到了广泛的应用
4. 劣势:丢失了细胞质中的转录本信息
那么,了解到这里我们就够了,因为我们是需要完成分析,所以背景相关的知识我们了解一些即可,幸运的是,snRNA-seq也可以使用Seurat来完成,流程和scRNA-seq是一样的,只不过其中的QC有一些不同,所以我们接下来就通过多篇文献来帮助我们构建起snRNA-seq的分析流程
分析流程解析
首先我们通过一篇文献来看一下scRNA-seq和snRNA-seq在数据上究竟有什么不同
文献的具体内容我们并不需要了解,我们只需要知道,这篇文献对相同组织分别进行了scRNA-seq和snRNA-seq就可以了
数据集:GSE161340
数据类型
scOBrain1和3——24个月(old mouse)单细胞测序
scYBrain1和3——4个月(young mouse)单细胞测序
snOBrain1和3——24个月(old mouse)单核细胞测序
snYBrain1和3——4个月(young mouse)单核细胞测序
然后,为了后期我们分析的效率,我们这里只选择了scOBrain1和3和snOBrain1和3来做演示,并进行了相关的质控以及数据的可视化
1

Figure1:线粒体基因
晨曦解读
snRNA-seq和scRNA-seq都含有一定线粒体基因比例
2

Figure2:核糖体基因
晨曦解读
snRNA-seq基本上没有核糖体基因,scRNA-seq是具有一定核糖体基因
3

Figure3:nFeature_RNA
晨曦解读
snRNA-seq检测到的基因数量小于scRNA-seq
4

Figure 4:nCount_RNA
晨曦解读
snRNA-seq检测到的mRNA数量小于scRNA-seq
5

Figure 5:单纯通过merge函数进行合并后的亚群
晨曦解读
单纯的合并单细胞数据集(使用scRNA-seq内置的标准化算法是不足以抵消批次效应的)彼此之间并不能得到很好的融合
6

Figure 6:使用CCA算法整合
晨曦解读
经过CCA整合后数据的仍然存在部分的批次效应,经过和以前scRNA-seq的对比发现纯scRNA-seq的彼此整合优于scRNA-seq联合snRNA-seq(值得注意的是,即使跑相同的流程因为算法的原因QC的可视化结果并不是一摸一样,但是总体来看整合的情况并不是十分理想)
随后晨曦又进行了相关基因数量的探索:
1.
scRNA-seq与snRNA-seq交集基因有:26599个

2.
scRNA-seq特有的基因有:4454个

3. snRNA-seq特有的基因有:1399个
也可以说明在基因数量上scRNA-seq是要多于snRNA-seq的
那么我们通过这篇文献可以简单的总结出scRNA-seq与snRNA-seq在分析上的一些区别:
1.
scRNA-seq和snRNA测序可以使用相同的Seurat流程,但是QC指标需要不同

2.
scRNA-seq和snRNA-seq即使通过整合算法,整合的程度也不是十分理想

3.
snRNA-seq和scRNA-seq都含有一定线粒体基因比例

4.
snRNA-seq基本上没有核糖体基因,scRNA-seq是具有一定核糖体基因

5. snRNA-seq检测到的基因数量小于scRNA-seq
那么到这里,各位小伙伴应该知道了,我们snRNA-seq的分析流程也是可以基于Seurat包来完成的,只不过我们在QC的时候需要进行一些调整,那么究竟如何调整,我们已经是看一篇文献然后来进行学习
第二篇文献:Single-nucleus transcriptome analysis reveals dysregulation of angiogenic endothelial cells and neuroprotective glia in Alzheimer’s disease(单核转录组分析显示了阿尔茨海默病中血管生成内皮细胞和神经保护胶质细胞的失调)
1

摘要
阿尔茨海默病(AD)是最常见的痴呆症形式,但没有有效的治疗方法。需要对AD的细胞类型特异性反应和细胞异质性进行全面的研究,以为治疗发展提供精确的分子和细胞靶点。因此,我们对从AD患者和正常对照(NC)患者的前额叶皮质样本中提取的169,496个核进行了单核转录组分析
异分析表明,AD的细胞类型特异性转录组变化与血管生成、免疫激活、突触信号传导和髓鞘化等生物过程的破坏有关。亚聚类分析显示,与NC大脑相比,AD大脑中含有较少的神经保护星形胶质细胞和少突胶质细胞。重要的是,我们的研究结果显示,在AD患者的大脑中诱导了一个血管生成内皮细胞亚群。这些血管生成内皮细胞表现出血管生成生长因子及其受体(即EGFL7、FLT1和VWF)和抗原-呈递机制(即B2M和HLA-E)的表达增加。
晨曦解读
因为我们是要学习snRNA-seq的分析流程,所以我们直接阅读摘要快速获得文献内容即可,这篇文献讲的就是对AD和NC进行单核细胞测序并且发现新亚群等等,我们重点需要看这篇文献的方法学部分
2

Method
晨曦解读
snRNA-seq的下游分析可以基于Seurat来实现
晨曦解读
标注黄色的就是一些重点的QC指标,然后我们就会发现,其实只是QC的一些参数发生了变化,后续的流程基本都是一样的
#QCscRNA_1 <- subset(scRNA, subset = nFeature_RNA > 200 & nFeature_RNA < 20000 & percent_mito < 20)
一句代码就可以解决,而通过阅读其它相关的snRNA-seq文献,我们这里的QC稍微放宽一点也是没有什么问题的,就是说如果我们单纯拿scRNA-seq的质控流程来说应该也是没有问题的,因为scRNA-seq的数据量是大于snRNA-seq的,如果按照scRNA-seq的质控来说,就是相当于阈值放宽了
而且晨曦最近在别的老师那里也学习到了一些相关质控的经验,在这里做一下引用:
数据质控的基本问题是去掉什么,保留什么。
回答是:去掉的是垃圾,保留的是数据。
在数据分析的开始,甚至是探索性数据分析之前,鉴于我们对数据内在规律知之甚少
据质控的原则是You can't stop it if you can't see it. 即,如果不能确定是数据中的垃圾,就保留下来,因为你去掉的可能是一个重要的基因或重要因素或重要稀有细胞亚群。基于这个原则,我们就不会过于纠结线粒体阈值到底是20%还是50%,就不会纠结双细胞的阈值该是多少。因为我们质控的目的是去掉不是细胞的东西,不是排除某种状态的细胞
另一个技术上的原因是:过滤掉一些细胞很容易,过滤之后再加回来就困难了。如上面的代码,很容易subset掉不符合条件的细胞,如果在下游的分析中发现质控太严格,是不容易把它们加回到数据对象中的。
以上,在单细胞数据科学中数据质控的原则是:质控时贪婪,验证时谨慎,最大限保留数据信息
当然还有一种更加保险的方法就是查看本领域已经发表的snRNA-seq的文献,然后看它们的质控指标进行模仿,比如说研究前额叶皮质的科研工作者在进行下游分析的时候,完全就可以按照上面这篇文章进行QC的选择,因为只要质控指标选择完毕后,后面的分析流程基本都是大同小异的
好啦,到这里以上就是晨曦学习snRNA-seq的一些心得体会,希望可以帮助到各位小伙伴
那么本期推文到这里就结束啦
我是晨曦,我们下期再见
晨曦的空间转录组笔记系列传送门
晨曦碎碎念系列传送门(未完待续...)
1. 想白嫖单细胞生信文章?这五大源头数据库,是你发文章的源泉!高频预警!你一定要收藏!
2. 盘活国自然的新思路!你研究的热点真的是热点吗?大数据帮你定位!
3. 好家伙!90%以上审稿人都会问到的问题,今天帮你解决!就是这么齐齐整整!
4. 没想到!生信分组还有这个大坑!你被坑过吗?!
5. 关于富集分析这件事,我有话想说。。。
6. 好御好高级!CNS级别美图是如何炼成的?看这篇就懂了!
7. 化繁为简!一文帮你彻底搞懂机器学习!想发高分文章,这篇是基础!
8. 你不知道的机器学习算法!关键时候能救命!
9. 致命!芯片&测序的联合到底能不能联合分析?审稿人最爱用这刁难你!
10. 躲不过的树!80%的生信SCI中都见过它!你真的搞懂了吗?
11. Python or R? 哪个更适用于生信发文章?深入浅出给你讲透!
12. 生信和抖音是一样的算法原理?不仅让你成瘾,也能发高分文章!
13. 跟3-5分SCI相比,CNS里的生信玩的可太花了!其实简单的离谱!
14. 揭秘!小鼠和人的免疫浸润分析有何区别?看这篇就够了!
15. 临床预测模型中的宠儿!最常见的机器学习 算法,没有之一!直接拿来用 !
16. 临床预测模型评价,不只有ROC,这个指标你遗漏了吗?
17. 非肿瘤机器学习模板奉上!还不赶快产出2022年你的第一篇SCI?!
18. 万字长文教你搞定机器学习!拿走不谢!
晨曦单细胞文献阅读系列传送门

1. 非肿瘤单细胞分析模板已到位!眼馋单细胞的小伙伴快来看!手把手教你产出第一篇单细胞SCI!

晨曦单细胞笔记系列传送门
晨曦从零开始学画图系列传送门
1. 看完这篇,彻底掌握生信画图精髓!超级实用,我不许你不知道!
2. 想让SCI看上去更高逼格?这些绘图技巧你一定要知道!
3. 3min掌握SCI配色神技,学会你就是组会汇报上最靓的仔!
晨曦单细胞数据库系列传送门

END

撰文丨晨   曦
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文