单细胞基础分析第一课:数据下载
大家好,我是风。欢迎来到风风的从零开始单细胞系列一。从今天开始我们进入教程第二part的内容。没办法,我被催更了/(ㄒoㄒ)/~~,所以我把顺序调整了下,先开始分析部分的内容,然后在最后文章复现的环节之前,我们再来两篇综述作为总结。
课程前言
今天我们要聊的内容是“单细胞数据下载“。课程开始之前,跟大家说明一下,我的单细胞分析的学习主线来自于英国剑桥大学的生物信息学教程,这个教程在小破站可以搜到,github上也有这个课程的代码内容,就是全英文可能不太友好,此外这个课程不仅包含了R语言的知识,还需要有Linux的知识。当然如果你需求不高,只想利用公共数据库数据进行挖掘或者是手上已经有了一份单细胞分析的数据,并且数据已经经过公司的Cell Ranger软件处理得到了矩阵文件,那你也不必折磨自己去看课程,跟着我们的推文一步一步走就好了。
考虑到不再额外增加大家的负担,我把Linux部分的内容去除,能够用鼠标点点点就在网站下载的步骤我们就用网站下载,其余的内容都换成使用R语言进行分析,其中大部分的内容会使用seurat包进行分析,这也是目前使用R语言对单细胞数据进行分析的最火的R包。
注意点
如果你们最近有看解螺旋每日一句的话,就会发现每日一句写了生物信息学分析的“三个不唯一”,即:1.分析结果不唯一;2.实现路径不唯一;3.呈现方式不唯一。这里借用这三个不唯一跟大家说明一下单细胞分析过程中不同人可能出现不同分析结果的原因:
 1:分析结果不唯一 
单细胞测序方法多样,目前主流为10x Gemomics的方法,但是不是只有10x,也有其他平台,比如SmartSeq2,SmartSeq2进行单细胞测序的数据在GEO数据库中也存在不少,以这两种方法为例,10x Genomics测得细胞和基因数目都比较多,SmartSeq2测得细胞数目和基因数目较少,那么拿到的矩阵也不同,得到的结果自然有所差异;此外,不同的算法、不同的软件分析结果也有差异,比如R的seurat包和python的scanpy包,同一份数据相同的阈值条件使用seurat包和scanpy包结果也有差异,这是我自己进行分析后得到的结论;此外还有其他一些原因,包括不同分析人员对数据的理解不同,对分析手段的了解不同等等,都可能造成一定的差异。
 2:实现路径不唯一 
就像我说的,剑桥大学的生物信息学课程使用了Linux和R,我们使用鼠标点击和R,都能达到同样的目的;seurat和scanpy,使用R或者python也能做相同的分析,这主要取决于个人习惯的不同。
 3:呈现方式不唯一 
这就很好理解了,最简单的是热图和火山图对吧?在单细胞分析里可能火山图看的比较少,我们会见到各种各样的聚类图,呈现的方式可以是UMAP,也可以是tSNE或者PCA;此外,各种实际目的的不同也有不同的呈现方式,比如我想展现具体细胞的marker,那可以使用热图,但是如果想展示的是这些marker在细胞中的功能关系,可以使用机制图,目的不同,呈现的方式也不同。
因此,自己平时分析或者到了最后我们复现文章的时候,发现结果不同,不必大惊小怪,仔细检查自己的每一个步骤,发现没有问题即可。但是!!!分析结果的总体趋势肯定是一致的才对!不能说本来文章分析得到结论说细胞毒性T细胞在免疫治疗中发挥主要功能,结果你自己分析的时候发现Th1才占据了主要地位!我们所说的不唯一,是指比如你鉴定得到了6个markers,文章结果只得到了4个markers,这种不唯一可以接受,但是影响文章整体趋势的结果或者本来是阴性现在变成阳性的结果,这种就需要慎之又慎,从头检查,哪怕检查再多次都不为过,而且每次检查的过程也是自我提高的过程。
总之一句话:医学的生物信息学分析需要结合临床背景和生物信息学知识进行分析,盲目跑流程不可取,务必每一步知其然也知其所以然!我知道这可能很难哈,但是慢慢来嘛,谁还不是从不会到会的呢?
数据下载
好了,“三藏模式“的念经结束了,接下来我们进入数据下载部分,我们以从GEO数据库下载单细胞数据为例,下载的数据有几个需要注意的点:
  • 测序方法,例如10x Genomics或者smart2;
  • 数据平台,跟bulk seq常说的GPLxxx一致,例如GPL21103;
  • 数据储存格式,只有一个RAW,还是有count等数据。
前两种需要结合到具体数据集中,我们后续才涉及到,今天我们先根据数据储存格式说说如何下载数据。
首先我们需要进入GEO数据库,在网站打入”GEO NCBI“:
点击红色方框中的条目,进入GEO数据库,根据自己研究的方向和需求,输入检索词例如“tumor scRNA“:
我们选择上面的GEO Datasets的13974个条目进入数据下载页面:
现在我们可以在这里挑选需要的数据集,GEO的scRNA数据存储格式有多种,这里我们来看较为常见的三种:
第一种
以第四个条目“Lipid signalling enforces functional specialization of Treg cells in tumours [scRNA-seq] ”GSE165258的条目为例,点击进入:
对于检索的结果,我们需要先读一下sumary:“代谢重编程通过协调脂肪酸的生物合成和抑制性受体信号通路来加强肿瘤中Treg细胞的功能特化。这些发现为选择性靶向肿瘤内的Treg细胞治疗癌症指明了新的途径。”这是一个代谢重编程和Treg细胞交互相关的数据集,文章使用小鼠的组织,往下拉:
作者设计了2×2的实验,也就是2组,每组2只小鼠,一般我们在下载bulk seq数据的时候会点击Download family部分的条目,但是单细胞数据不一样,我建议大家点击Supplementary file部分的内容,也就是那个358.9Mb的数据,直接点击http可以全部下载。当然这里是样本分组较少,并且每组的样本也比较少,如果样本较多,并且我们也不需要所有样本,只需要特定1-2个样本的时候怎么办呢?我们可以点击http后面的custom,出现这个界面:
然后像上图红框内容一样勾选一个或者多个样本,点击Download,就可以下载特定的样本了,我建议大家下载一个哈,因为下一节课我们会教如何读取数据,到时候大家可以直接读取自己下载的数据,即使你不想下载那也没关系,下节课我也会提供给大家。
好了,第一种类型数据的下载方式就介绍完成。
第二种
接下来我们看看第二种数据格式,这里我们直接搜索“GSE118389”,看看这个数据集的储存方式:
我们同样直接看到Supplementary file部分的内容:
这里有三种数据,分别是counts数据、矫正后的数据和tpm数据,建议大家下载counts进行分析,后面我们自己进行质控跟转换,当然没有counts也可以下载其他两种格式,差别不大,好了,第二种比较简单.
第三种
接下来看第三种,检索“GSE166326”进入数据集页面:
这是一个最标准的单细胞数据集页面,也将会是大家以后最喜欢看到的数据集模式,从Overall design就告诉了我们这是一个10x Genomics平台测的单细胞数据,用10x Genomics做过分析的学员应该都知道,公司做完测序后,会使用Cell Ranger将测序结果整理为三个文件,哪三个文件呢?我们往下拉:
同样在Supplementary file,这里三个文件分别是barcode、feature和matrix,里面都是什么内容呢?我们分别来认识一下:
首先我们知道单细胞分析跟常规的bulk seq的差别就在于多了单细胞的内容对吧,那自然就要有一个文件来说明测到了什么细胞,区分细胞,这个文件就是barcode文件;
接着每个细胞测得的基因的信息也需要一个文件吧?基因的id和symbol等等,那就是这个features文件,有的数据集也会说是genes文件,都是同一个文件;
最后测到的矩阵也需要一个文件吧?那就是第三个文件matrix文件了,以mtx结尾的文件。
注意:如果你是自己从公司测序的文件,不管你是10x平台还是其他平台,都可以跟公司索要这三份文件,并且是整理后的这三份文件,这些都是用Cell Ranger处理了就可以得到的文件。
好了,这样我们从GEO下载公共数据的方法就介绍完成,大部分单细胞的数据都是这三种类型,如果是其他类型,也可以依样画葫芦,找到Supplementary file下载即可,后续的代码都通用。后续我们的分析都是基于10x平台的数据进行分析,如果是其他平台的数据,也可以按照我们的分析流程进行分析,有所差别需要改动的地方我会在相应的步骤给大家标出来,大家不需要担心。如果跑代码的过程中无法理解或者有问题,也可以在解螺旋酸谈粉丝群艾特我提问,没有我的群可以艾特队长请队长转给我或者公众号留言,当然更希望大家有不同的见解可以提出来一起探讨啦O(∩_∩)O
好啦,今天的内容就到这里,今天没有后台文件,所以没有关键字,(●ˇ∀ˇ●) 我们下期再见吧!
单细胞分析专栏传送门
碎碎念专栏传送门(完结)
风之美图系列传送门(完结)
END

撰文丨风   风
排版丨四金兄
值班 | 阿   琛
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
长按识别二维码免费包邮领取!
继续阅读
阅读原文