北京大学发布在NC上的单细胞数据库
这难道还不值得学一下嘛!
这期是单细胞数据库系列的第七期,这期我们所介绍的数据库是北京大学发表在Nature Communications上的单细胞数据库——Cell BLAST
而这个数据库也恰好解决了最近晨曦所产生的疑惑,所以在这里分享给大家~
晨曦单细胞数据库系列传送门
引言
大家应该都知道,最近随着单细胞转录组测序的发展,越来越多的数据为我们所知晓,也有越来越多的数据库如雨后春笋一般拔地而起,这样势必就会产生一个问题:数据与数据之间因为建库方法的不同、实验批次的不同、测序深度的不同、甚至于不同生物信息学分析流程等等各方面的影响,所造成的不能回避的问题——批次效应
这时候会有小伙伴问:我数据集与数据集之间又不合并,我为什么还要考虑批次效应呢?
我们走完scRNA-seq的标准流程后,遇到的第一个门槛就是——细胞注释
我们一般会选择marker基因来代表我们的细胞亚群,然后用marker基因的属性来定义我们的细胞亚群,这个方法也是一种为人们所认同的方法
但是,我们这些是基于我们把另一个数据集来作为参考(reference)的前提下,这时候数据集和数据集之间就产生了联系,也自然而然就涉及到了批次效应,是否还有比这更好的参考以及之间存在批次会不会对我的注释产生干扰,这一系列问题就紧随而来了~
当然这里正如细胞质控中的去除双核细胞一样,追求精细没有任何错误,只不过我们需要取舍,有时候我们直接进行差异基因的注释也是没有任何问题的
所以正因为批次效应这种晨曦疑惑的地方,所以经过搜索和阅读文献发现了——Cell BLAST数据库
正文
铛铛~,看到这里,有的小伙伴可能会对引言部分的内容有点疑惑,那么这里晨曦就用一句话概括
Cell BLAST在注释离散细胞类型和连续细胞分化潜力以及识别新细胞类型方面具有卓越性
小伙伴们可以把它当成一个细胞注释数据库的新选择~
Cell BLAST 是一个用于单细胞转录组学数据的细胞注释工具。对于每个查询,它在引用数据库中搜索最相似的数据。引用其中的注释,例如细胞类型,可以根据数据之间的相似性转移到查询中(即在克服批次效应的前提更加精准的进行细胞注释)
那我们就开始进入这个数据库的学习吧
首先我们在浏览器键入网址:Cell BLAST (gao-lab.org),进入数据库,界面如下:
这个数据库的主界面可能是晨曦看过的单细胞数据库中较为简单的了,所以我们这里也主要只介绍这个数据库右上角的两块信息,分别是——“Home”以及“Download”,那么我们就来先从“Home”开始介绍
Home(主页面)
我们在主页面可以看到一个上传文件的选项,界面如下:
第一步我们需要准备一个我们想要获得细胞注释的基因表达矩阵文件
(示例文件在公众号后台领取)
注意:我们上传的表达矩阵必须满足以下要求
1.明确的Gene symbol和细胞ID
2.包含所有的Gene symbol,不可以是预先经过筛选的Gene symbol
3.需要Gene symbol 而不是Gene ID
4.允许的数据类型为counts、TPM、FPKM
5.最大细胞ID数量为20000个
示例文件如下:
第二步点击选择文件后,上传表达矩阵,下方会出现进度条,以及出现两个选项让我们选择
晨曦解读
那么,“Cell by Gene”和“Gene by Cell”是什么意思呢?
官网上并没有给出详细的解释,晨曦这里试了一些数据集,发现可以把这两个选项简单理解为“观测 by 变量”
举个例子:Cell by Gene就是变量是细胞ID,行是Gene symbol,而且我们的输入数据要求细胞ID的数量不超过2w
这里我们的输入数据是变量是细胞ID,观测是Gene symbol,所以我们应该在这里选择 Gene by Cell
运行结果界面如下(这里会先展示五行五列)
信息分别是:
1.File Name:生成的文件名
2.File Type:文件类型
3.File Size文件大小
4.Number of Cells:细胞数量
5.Number of Gene:基因数量
然后我们点击运行结果下的“confirm”,然后上拉页面进入BLAST选项
点击以后进入下面的筛选栏界面,界面如下:
上述界面可以分别对物种、器官、以及参考面板
提问:参考面板是什么?
回答:我们选择参考面板其实就是在选择参考数据集,也就是不同文献产生的数据,该数据库把每一个数据集都进行了整理且命名,就是我们选择的参考面板,如下:
好了,回到正题,我们设置完以后,点击BLAST即可进入结果展示界面,界面如下:
左边为我们输入数据中细胞ID的名称
右边为针对细胞该细胞所匹配的信息,分别是ID、P值、细胞组织类型、细胞组织ID、细胞类型等等相关信息
细胞注释前需要明确细胞组织,然后再进行注释~
提问:晨曦,我运行完我自己的数据,为什么出现的结果界面和你完全不一样?
回答:这一点就涉及到了下面“Download”界面了
Download(下载)
我们回到主页面,然后点击右上角Download,界面如下
大家重点注意我标注红箭头的地方
首先数据集的名字是我们在前面获得数据结果之前需要选择的
后面的Visulization则是应用这个参考数据集分析自己数据后可以提供的信息(细胞类型、受试人信息、多数据集信息等等)
所以这就是为什么小伙伴们如果运用自己的数据,选择不同的物种对应了不同的参考数据集,自然结果就会有所不同~
都说到这里了,这里的数据点击数据集名字就可以进行下载
点击后面Visualization则可以可视化数据集
至此,这个数据库到这里就给大家介绍完毕了~
后记
这个数据库的使用仍然还有着一些细节,但是晨曦已经把最重要的细节都告诉大家了
注意:建议对表达矩阵执行标准的质量控制,包括去除低质量细胞等等
但是其他预处理是不必要的,应该总是原始表达矩阵,包括所有检测到的基因,而不是预先选择的子集
掌握了这条核心规则后,后续的细节大家也可以参照推文或者官方的帮助文档进行进一步的修正
最后,大家如果用到这个数据库,别忘了引用下面的文献哦~
[1] Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST
那么这期的推文就结束啦~
我是晨曦,我们下期再见QAQ
晨曦单细胞笔记系列传送门
晨曦从零开始学画图系列传送门
END

撰文丨晨   曦
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文