晨曦单细胞数据库系列(4)
晨曦单细胞数据库系列传送门
背景介绍
想必大家一定听说过人类基因组计划,那么随着进入单细胞时代后,人类细胞图谱(Human Cell Atlas)计划也随之展开,这是一项与”人类基因组计划“相媲美的大型国际合作项目(其中包括了华大基因、扎克伯格、南方科技大学等名企名人名校都参与其中),致力于搭建一个健康人体所包含的所有细胞的参考图谱,包括细胞类型、数目、位置、相互关联与分子组分等。旨在全面解码人体所有细胞的类型、数目、位置、相互关联与分子组成等,构建细胞基因表达等高维数学特性的精细图谱,建成人体发育、生理、病例的完善和精细的参照系,最终建立全息生命信息网络,在这几个方面和层次上建立起来的人类细胞图谱计划,汇编了一套人类细胞的参考数据集。这对于生信研究无疑提供了一个大型、权威的单细胞测序数据来源
长远来说,人类细胞图谱计划,HCA旨在描述人体中每个细胞(约37万亿个)的详细特征,呈现不同类型细胞在人体组织的3D结构,勾勒所有人体系统的相互联系,揭示图谱变化与健康和疾病的关系。人类细胞图谱计划将彻底改善人们对疾病的理解、诊断和治疗
晨曦解读
这里需要注意人类细胞图谱计划,简称为HCA;浙江大学郭国骥团队于2020年3月发表在Nature杂志上的数据库为HCL,这里小伙伴们不要搞混哦~(Ps:后续都会介绍的,我们要做就要做最完善的单细胞科普教程)
干货来袭预警!
首页介绍
先,HCA的网址如下:
Mapping the Human Body at the Cellular Level (humancellatlas.org)
我们进入网址后,可以看到HCA的首页(感觉这种朴素清新的感觉好好看哦~)
晨曦解读
我们这里可以直观看到这个庞大的数据量,接近14M的细胞数量,包含75个组织,总共有290个实验室,1600名代表(贡献者),137个项目构成了这个庞大的数据库。
然后我们可以看首页的最上面有七个功能按钮,这也是我们后续学习的重点,我们将在后面分别详细介绍。
当然HCA数据库也是一个一体化的数据库,为什么说是一体化呢?
因为这个数据库包含了数据的上传→整理→搜索→简单分析等
当然如何上传以及整理并不是我们今天研究的主题,我们还是把我们的目光放在如何搜索及下载数据上。
那么我们就开始进行分步讲解。
主页讲解
我们继续回到首页,我们这时候下拉首页就可以看到以下界面
晨曦解读
我们可以在上面的搜索栏进行简单的搜索(键入:组织名称或者项目名称)
而下方也是分别按照组织的形式进行了分块,我们可以点击想查询的组织,进入数据详细页面。
实我们的重点就是介绍数据详细页面,这里主要是介绍如何进入数据详细页面的方法~
小技巧当我们把鼠标放在不同组织模块上时,会展现其中包含着的细胞数目,界面如下
本部分介绍完毕
Explore(专业搜索)
我们通过点击首页上方的“Explore”进入专业搜索页面,界面如下:
晨曦解读
在了解这个界面之前,我们先来解释一下这个数据库数据的组织形式
该数据库的数据是以“项目”的形式组建的,一个项目内包含以下几方面数据:
1. 该项目使用的组织以及细胞类型
2. 在测序之前获得细胞的过程以及工具
3. 测序方法
4. 该项目在进行过程中科研工作者和其机构的技术细节
小技巧HCA数据库其实我们需要掌握的功能相比较我们讲解的前几个数据库少了很多,原因就是这个数据库在数据库界面包含了很多文档类信息,其中文档类信息包含了该数据库的架构以及如何整理数据并如何上传数据等等
然后我们回到主题
我们可以通过“专业搜索”上方的筛选栏对数据进行筛选,这个筛选栏非常的全,我这里重点展示一个,大家可以看一下,如下:
晨曦解读
从上面这个界面我们也可以看出来,该数据库保存的大部分都是正常组织的数据,这个在我们后续的分析中可以充当对照组,如果进行跨组织的分析,则可以计算两个正常组织中某基因的相关性,进而与实验组中同样基因在两个组织的相关性进行比较,以此来阐述协同作用
这里我们首先点击“项目题目”进入项目详细页面:
晨曦解读
以上就是项目详细信息,包括:
1. 该项目的题目和描述
2. 该项目的创建者、机构、联系人信息
3. 项目细节:物种、组织、建库方法等
4. 这里面还有一些链接,链接到该数据库的其它界面
这里稍微解释一下:该数据库包含几套数据体系,首先作为数据的产出者,这里我们定义其为“贡献者”,手上的数据称为“原始数据”,上传到数据库后,数据库的管理人员会把这些数据进行整理,这个整理后的数据我们这里定义为“元数据”
这里我们对于“元数据”举个例子,元数据下分五部分,分别是:生物材料、过程、协议、项目、文件
生物材料(例如组织样本)可以经过一个过程(例如解离)以产生另一种生物材料(例如解离细胞样本)或一组数据文件(例如 10X fastq 文件)。实际执行的过程遵循特定的协议(例如 10X 协议)。所有这些部分共同构成了整个项目(例如,了解人类心脏中的细胞类型)
当然上述只是简单举个例子,更详细的内容了解起来其实对我们数据挖掘的提高不是很明显,后续我们会简单进行介绍~
回到正题,我们通过点击“项目”题目进入项目详细页面后,了解了项目的详细信息后,我们就需要下载我们需要的数据了
其实生信分析到最后永远跨不过的难点之一,就是如何获取输入数据,也就是说如何把从各个数据库中获得的数据库下载并整理成我们“标准流程”需要的样子,这里我们也将是接下来讲解的重点
首先我们回到正题,当我们进入数据详细页面后,我们通过切换页面旁边的模块进入“Project Metadata”
晨曦解读
那么我们首先来研究一下,这个页面上的TSV文件是什么?
这个文件就是“metadata”文件,根据项目的不同,大约在1-100MB之间
而且这个文件的命名也很有讲究是,命名规则如下:
The TSV file is named after the project and includes the date and time the file was created. For example
这个文件大家可以简单理解就是一个样本信息文件,例子如下
滴滴,然后我们这里就需要开始下载表达矩阵文件啦~
也就是我们后续分析的主角文件
我们这里需要切换选项卡,一共有两步,这里晨曦以截图的形式方便大家找到~
 步骤一 
 步骤二(下拉页面)
提问晨曦,这里为什么你画了三个红色箭头?
回答首先我们可以看到前两个红色箭头
这两个红色箭头代表了两类表达数据
第一类是数据库工作人员整理具有统一格式的数据
第二类则是数据的所有者上传的数据
那么这两个数据有什么区别呢?
这里我们简单理解就是,数据库工作人员整理好的数据具有统一的格式,但是由数据所有者上传的数据则不是,各种形式、各种格式具有,官网上也有这么一句话
These matrices vary in file format and content. For questions about a specific contributor-generated matrix, reach out to the Project Contacts listed on the Project Information page.
至此数据下载就给大家介绍到了这里
思考
大家是不是觉得这个数据库主页导航栏有很多选项,但是为什么晨曦只介绍了Explore功能?
其实大家如果真的实操就会发现这个数据库绝大多数选项都是文字描述,全都是告诉你更好、更快、更便捷的使用这个数据库,而且也没有很多额外的功能,所以我们只需要掌握数据下载就可以了~
好啦,本期是晨曦单细胞数据库系列的第四弹,我们下期再见~
晨曦单细胞笔记系列传送门
晨曦从零开始学画图系列传送门
END

撰文丨晨   曦
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文