晨曦单细胞笔记(8)
hi,大家好,我是晨曦,结束了基础的系列推文,将把推文的重点继续聚焦于单细胞。

经过了一周的思考和准备,准备编写一系列教程,宗旨为了设立囊括数据库-基础-实战-文献解读等一系列单细胞分析知识,助力大家打通单细胞分析领域
那么现在将开始的是本系列教程的第一部分。
古有云:工欲善其事,必先利其器

开篇之章,就来推出一个单细胞重磅数据库——PanglaoDB数据库
PanglaoDB - A Single Cell Sequencing Resource For Gene Expression Data
那么我们开始吧~
干货警告!!!
PanglaoDB的背景介绍
单细胞相关的研究数据常常以原始数据的形式存储,由于需要使用复杂的计算流程进行数据处理,生物研究人员很难访问这种格式的数据。搭建了PanglaoDB数据库,通过基于web的接口来探索scRNA seq数据,彻底降低生物研究人员的入门成本。
PanglaoDB数据库,这是2019年年初发布的一个单细胞转录组数据库包含了超过1000个单细胞实验的预处理和预计算分析,涵盖了大多数主要的单细胞平台和分析流程,基于来自各种组织和器官的超过400万个细胞。同时包含了6000多个marker基因,可用于细胞分群注释的marker数据库。它的数据主要源于已经公开发表的单细胞转录组数据。
晨曦解读
该数据库包含了超过1054个单细胞实验的预处理和预计算分析,涵盖了大多数主要的单细胞平台和分析流程,基于来自各种组织和器官的超过400万个细胞,在线界面允许用户查询和探索细胞类型。
但是从上面的截图来看,老鼠的数据是要多于人类的,但是这不影响我们选择这个数据库的原因,因为单细胞不管是从注释上来说,还是从资源获取上来说,都是多途径多维度比较好~
主页面
网页上方——导航栏(分别是主页、搜索、下载、工具、文献、使用问题和关于我们)
晨曦解读
其实这个网页的主页中的Usage example就已经把这个数据库的功能介绍的很全面了
1.我们可以通过Search直接搜索目标基因的表达量
2.可以浏览所有的样本
3.可以探索某细胞亚群的基因表达信息
4.支持使用布尔逻辑运算符找寻特定基因基因均表达的亚群
下面我们将对以上功能进行逐一的演示,并且会进行功能的扩充
网页的右侧——该数据库存储的信息大致列表
网页的右下角——该数据库的更新情况
晨曦解读
可以看到该数据库最近的一次更新是在2020年5月21日(值得一提的是,该数据库是由个人维护,并且没有任何资助来源,这也可能是作者把资助界面push到主页面的原因,确实是很耿直的科研人~)
Search
功能——查看某个基因在细胞的表达情况
比如这里我们按照示例输入CD4,并且选择需要的物种(人或者小鼠),并且需要选择是否包含肿瘤组织以及未成熟组织
我们的选择如下
然后点击“Search”进行搜索
首先会看到下面这个图
晨曦解读
上图为CD4基因在细胞亚群中的表达情况,我们可以通过横坐标直观的看到CD4在哪些细胞亚群中表达量偏高,又在哪些细胞亚群中表达量偏低
提问:该网站的表达量高低的评判标准是什么?
回答:该网站定义——如果在一个“cluster”(细胞类型)中的基因表达的中位数>0,就认为这个基因在这个细胞类型中有表达,纵坐标表示有表达的细胞簇的数量,所以有表达并不一定说明在这个细胞亚群中表达量高,可以简单理解为是一个广撒网的过程
网页往下拉
上面这个表格详细的解释了CD4基因有表达的细胞亚群和组织来源
“Rank”代表这个基因表达量在该亚群中所有基因表达量中的排名
该数据栏的最后,有一个望远镜的图案,点击可以看到该细胞亚群的tSNE聚类图,并且该聚类图是一个交互式的可视化结果,点击上面的细胞亚群会出现详细的介绍
晨曦解读
其交互式可视化分别展示了亚群的名称、marker基因、细胞周期、转录因子信息等等
提问:望远镜旁边的文件夹是什么功能?
回答:“望远镜”按钮提供的tSNE聚类图是该样本中包含我们搜索目的基因细胞亚群的一个展示图,而旁边的类似“文件夹”的图标则是展示该样本整个的tSNE细胞聚类图
至此,Search功能就被我们探索彻底~
Datasets
大家可以看到下面的截图,网页导航栏Datasets中下面有四个分栏
晨曦解读
然后这里我们一个个来看,首先我们点击第一个“Samples”
Samples界面如下
该界面包含了这个数据库所有样本的一个展示界面,从上面介绍中我们可以看到,一共有1368个scRNA-seq数据集,通过下面三个过滤条件,我们分别可以限定“组织类型”、“平台信息”、“样本排列方式”
点击样本信息中的”View“我们可以进入样本详细界面,在这里我们可以看到这个数据集的基本信息和这个数据集的细胞聚类图,这里使用tSNE和UMAP进行聚类展示,其中不同颜色代表了不同的细胞亚群
里面的具体信息,大家感兴趣可以私底下进行更进一步的探讨,基本上都是一些简单句,理解起来不是很困难~
那么这个”Samples“栏就给大家介绍完毕了,那么下面我们返回一开始我们的界面,这回我们选择”Cell type markers“
Cell type markers界面如下
在这个界面,我们可以查看某个细胞亚群的标志性marker,因为我们需要使用到单细胞数据库的场合,一方面是需要进行scRNA-seq数据的下载,一方面就是进行细胞注释
提问:晨曦,为什么这里你不推荐在线网站进行scRNA-seq的分析呢?
回答:首先,因为数据维度的原因,scRNA-seq并不能够很好的在在线网站上运行,我们通常在在线网站上看到的那些scRNA-seq的可视化展示,只是帮助我们选择数据集,只是简单的看一下而已,并不是我们能够放在文章中,或者支持我们后续分析的结果,因为就连三大高阶分析中的细胞通讯分析,比较出名的CellphoneDB网站也无法在线分析了,所以现在目前还是R或者Pyhton是scRNA-seq分析的主战场~
我们继续回到正题,点击"Cell type markers"后界面如下
我们在这里可以通过筛选选项限制我们的想要的细胞类型,然后这里我们选择”Chromaffin cells",界面如下
绿色行代表着该亚群最经典的标志基因,在这里大家可以认为是行业默认,只要看到这个marker基因高表达,大概率这个细胞亚群就是这个类型
那么下面我们继续返回一开始我们的界面,这回我们选择”Ubiquitousness index“,界面如下
这个功能其实比较鸡肋,因为晨曦个人使用这个数据库也有一段时间,这个功能确实是没怎么使用过
提问:晨曦,这个UI指数是什么意思?
回答:这个UI指数其实就是这个界面最重要的一个参数,这是数据库的建立者定义的一个普遍性指数
什么是普遍性指数呢?
指数取值范围在0-1,0代表着该基因在所有细胞亚群都不表达,1代表整个基因在所有细胞亚群都表达,这个指数可以帮助我们更方便的找到管家基因
管家基因:指所有细胞中均要表达的一类基因,其产物是对维持细胞基本生命活动所必须的
然后这一块我们就介绍完毕了,最后一块其实就是数据下载(Bulk data download)
Bulk data download界面如下
我们每一个数据集的数据都是支持下载的,并且下载后的形式是Rdata的形式,这个就为我们后续分析提供了很大的方便,界面如下
然后整个Datasets大块我们就给介绍完了,下面因为Tools展示的是scRNA-seq的在线工具使用,而晨曦在前面也阐述了自己对于在线工具的理解,所以这里就不介绍了(疯狂暗示:入门单细胞基础分析快看看前面几篇基础推文~)
下面我们介绍一下这数据库一个特别实用的功能~
 高能预警 
大家都知道现在scRNA-seq相关文章的火热程度,无时无刻都会有新的文章涌入,那么我们该怎么检索,或者怎么获取最新文献的详细信息呢?
当当当当~这个数据库就会带给我们一个解决方法
点击主页上方“Papers”,界面如下
1. 下方文献栏会自动更新文献,帮助我们把scRNA-seq文献进行一个汇总和粗略的分类
2. 可以通过中间简单的筛选栏,进行“软件”、“方法学”、“综述”的筛选
3. 并且还会通过蓝色背景标注“高影响力”期刊的文献
4. 更多细致的分类如下
晨曦解读
当然这个功能也不是会把scRNA-seq文献搜罗的很全,但是这个也为我们提供了一个文献的来源,功能还是很赞的,至少会节省我个人的一些时间~
那么至此,开篇之章第一个数据库就给大家介绍完毕了~
介绍数据库的目的很简单,多元的数据库会为大家提供三方面的信息
1.更加丰富的数据(数据本身+数据类型)
2.更加丰富的细胞注释信息
3.更加丰富的scRNA-seq的相关知识
欢迎收藏本系列教程,这次我们约定一同、一步步、携手打通scRNA-seq分析领域~
我是晨曦,我们下次再见~
晨曦单细胞笔记系列传送门
晨曦从零开始学画图系列传送门
END

撰文丨晨   曦
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文