晨曦单细胞数据库系列(3)
Hi,大家好,这里是晨曦单细胞数据库系列第三弹,今天我们通过一段“原创相声”来引入我们今天的主角~
晨曦单细胞数据库系列传送门
引言
 场景一 
某导师:小曦,今年XX表型火热,去找找咱们这里能做点什么?
小曦:老板,咱们有想要研究的靶基因嘛?
某导师:你去找找把(内心OS:我刚看XX公众号上说过这个表型很火热,哪里知道详细的,反正也不一定能做,先让学生们查查看~
小曦:好嘞(内心OS:唉,又得看一堆文献,而且到最后估计又做不成
 场景二 
某导师:小曦啊,你都来咱们课题组一年了,也该知道咱们的研究领域了,去挑个Gene自己去做实验吧
小曦:老板,你看我这了解的也不是特别多,您看有什么....推荐...的吗?
某导师:多看文献,多总结(内心OS:都被挑的差不多了,而且我这也好久不怎么看文献了,哪里知道那么多~
小曦:.....好的....老板
回到主题,不知道各位同学有没有感同身受呢?
那么请允许我隆重介绍一个可以帮助我们解决上述难题,并且可以给你课题方向的数据库——CancerSEA数据库
http://biocc.hrbmu.edu.cn/CancerSEA/
那么话不多说,我们直接进入主题吧
背景知识
ScRNA-seq 为探索癌细胞的功能异质性提供了前所未有的机会。
CancerSEA 是一个旨在以单细胞分辨率全面解码癌细胞的不同功能状态。
数据库的基本功能
1. 提供癌症单细胞功能状态图谱,涉及25种癌症类型的41900个癌症单细胞的14种功能状态
2. 查询与不同癌症类型相关的基因(包括PCG和lncRNA)或感兴趣的基因列表的功能状态
3. 在单细胞分别率下提供与功能状态高度相关的PCG/lncRNA库
PCG——protein-coding gene(编码蛋白基因)
CancerSEA数据来源
CancerSEA数据库中的scRNA-seq结果来源于SRA、GEO和ArrayExpress网站中的72个数据集,总共收录了25种癌症种的41900个肿瘤细胞
功能分析结果来源于HCMDB、Cyclebase和StemMapper等数据集,总共重新定义了14种功能状态
通过对这些单细胞进行功能状态注释,作者构建了CancerSEA数据库,利用该数据库,我们可以进行“gene search”、“State Search”、“Browse state atlas”、“Browse dataset information”以及“Download”
干货预警!!
CancerSEA数据库使用大全解
Home(主界面)
晨曦解读
该数据库提供了14种功能状态,其实可以简单理解为这个数据库的一大亮点就是把功能与基因联系了起来~
Search(搜索)
第一步:通过输入Gene Symbol或者Ensemble ID搜索感兴趣的基因,包括PCG和lncRNA,并显示基因与功能状态之间的关系(我觉得可以理解为一个富集分析的网站)
第二步:点击“Search”获取搜索结果
晨曦解读
这个步骤,点击“SOX4”会出现“Expression of input gene(s)",展示了该基因在各种癌症组织种的表达情况,然后我们把网页下拉,可以看到下面这个界面
晨曦解读
上图展示了各个癌肿中的“SOX4”与14种表型的相关性情况,其中红色圆圈表示正相关,蓝色圆圈表示负相关,圆圈越大,表示相关性越高。将鼠标至于任意一圆圈中,还可以看到具体的相关系数和P值。
我们如果想要了解详情,可以点击癌症信息即可~(Ps:当然我们也可以直接下拉页面,在页面中进行切换
如果你嫌弃这种逐一移动鼠标太麻烦,也可以点击后方的“correlation data table”,这样可以更清晰看到相关性,而且该表格同样可以下载,界面如下:
然后讲解完这一部分,我们继续下拉页面,界面如下:
晨曦解读
选择任意肿瘤类型,查看在特定肿瘤中基因表达与功能状态之间相关性热图。
所以上面这个界面就为我们提供了很多的信息,比如说我们在这里就可以清楚的看到,我们的目标基因与14个功能状态的相关性,并且可以挑出最相关的,还提供了可视化界面,这样就为我们定义基因的功能提供了有效的助力~
而我们对比一下,这个界面的上一张提供给了我们目标基因在各种癌肿中与14种功能状态的相关性,而这个界面则是提供了目标基因与14种功能状态的相关性,并且为我们筛选出来了最相关的表型,其实就是一个不断细化的过程~
同时大家还可以仔细对照一下下面这张图就会发现规律哦~
上图是我用三张截图拼起来的,大家可以重点看我用红色箭头标注的地方,就会发现其实这些ID都是彼此对应好的~
然后我们继续下拉界面,就会看到下面这个界面
晨曦解读
上面这个界面需要左右两个图对比着来看
首先我们先看左边的箱线图,这个图展示的是输入基因(目标基因)和管家基因之间的表达量差异,可以很清楚的看到,管家基因的表达量大部分集中在2.5左右,然后我们通过这个信息去看右边的tSNE聚类图,就可以得到管家基因大概在图上的哪堆细胞上(对应2.5左右大概是从上往下第二个色阶)
然后讲解完这一部分,我们继续下拉界面,界面如下:
晨曦解读
这里我们可以看到不同细胞组(不同的患者)与功能的相关性~
然后这个结果界面其实有一个小技巧,就是我们如果我们在前面切换目标基因所在的癌肿(下图所示),其后面的相关性结果部分都会发生改变~
随后这里拓展一个小细节,我们这里不光可以用一个Gene进行搜索,我们也可以按照基因列表的形式进行搜索~
按照基因列表(三种形式可供选择)的形式搜索,我们只需要返回"Search"的界面然后就可以看到(下图所示)
然后点击提交,我们就可以得到和上面一系列结果相似的界面~
至此,Search功能介绍完毕
搜索PCG/lncRNA功能状态
在“Home”页面和“Search”页面中,用户可以在单细胞分辨率下查询相关 PCG/lncRNA 的功能状态。通过单击“Home”页面中嵌入的“功能状态”超链接,将返回所有癌症该功能状态下相关 PCG/lncRNA
晨曦解读
下面将以图文的形式展现我们点击“功能状态”后所看到的界面,并解释每个选项的含义
然后我们找到一个我们感兴趣的“功能状态”后点击即可进入下面这个界面
晨曦解读
相关选项已经展示在图片上,我这里进行一下总结
这个界面显示的是不同癌症类型下所选的功能状态活度的一个概括
然后这里我们把当前界面往下拉,即可进入下面这个界面
晨曦解读
这个界面展示的就是和感兴趣的功能状态显著相关的基因,更多妙用往下看哦~
然后接下来我们继续下拉页面,可以看到下面这个界面
晨曦解读
通过富集分析,我们可以聚焦于我们感兴趣的编码基因的功能上,当然以上都只是pancancer下与感兴趣的功能状态相关的Gene symbol,我们这里如果想要聚焦于一种癌症该怎么办呢?
我们只需要回到下面这个界面点击感兴趣的癌症就可以聚焦于一种癌症类型上(下面这个图片是已经点击感兴趣癌症后的样子)
至此,这部分功能介绍完毕
Browse(浏览)
我们点击主页面的“Browse”进入浏览功能
在这个功能中我们可以浏览所有癌细胞的功能状态和所有数据集的详细信息
晨曦解读
数据集详细信息包括:描述信息、功能状态概括、细胞分布、PCG/lncRNA的表达模式、推断的CNV热图
首先我们这里进行一下演示,然后最后也会放出一张"Browse"的功能图,方便大家可以私底下学习
第一步:首先我们点击“Browse”进入以下界面(这里显示了所有癌症单细胞所对应的功能状态图谱)
第二步:这里我们随便选择一个癌症即可以进入下面这个页面(展示了该癌症下不同研究中,14种功能状态的活动度热图)
第三步:通过单击导航菜单中的数据集名称,可以选择感兴趣的数据集以进一步浏览详细信息,包括“详细描述”,“功能状态配置文件”,“细胞分布”,“PCG/lncRNAs的表达”,“拷贝数变异热图”(这里只展示了“详细描述”信息,更多信息下拉页面即可)
晨曦解读
总结一下这个模块的功能,如下图所示
至此,这部分功能介绍完毕
Statistic(统计)
晨曦解读
这个模块主要是对数据库的内容进行了统计,包括所有实验的癌症类型比例,QC前后每种癌症中单细胞的数量,每种癌症中细胞群的比例,QC后每种癌症中单细胞的比例。
因为不常用,所以这里就不过多介绍了
至此,这部分功能介绍完毕
Download(下载)
晨曦解读
CancerSEA中的所有数据都可以在“下载”页面下载,其中包含每个单细胞数据集的功能状态配置文件和PCG / lncRNA表达谱以及功能状态标签。
下载后的文件格式如下:
 表达谱文件 
 功能状态对应标签文件 
至此,这部分功能介绍完毕
数据库妙用
妙用一想要研究某个表型需要获取其相关编码Gene以及lncRNA
CancerSEA允许查询感兴趣的功能状态,在“主页”和“搜索”页面均能以功能状态为搜索条件,查询与功能状态高度相关的PCG / lncRNA目录
妙用二查询某个疾病某个表型的相关编码Gene以及lncRNA
在Search页面可通过癌症名称及功能状态搜索得到相关数据集、PCG/lncRNAs列表、PCGs相关信号通路。
妙用三针对感兴趣表型,想要知道更多相关信息
通过下载界面”Download for signature profiles“,”source“栏里解释了针对这个表型如何定义其相关基因,有Pubmed编号的甚至可以去查看相关文献,减少检索相关文献的时间

最后,引用该数据库,别忘了引用这篇文献哦~
If you use CancerSEA in your work, please cite our publication: CancerSEA: a cancer single-cell state atlas. Nucleic Acids Res. 2019.
至此,CancerSEA数据库就给大家介绍到了这里,该数据库建立Gene与表型之间的关系,可以说是我们建立课题,追踪表型的一大利器
那么,晨曦单细胞数据库系列第三弹到这里就结束啦~(Ps:能看到这里的小伙伴值得点赞哦!)
我是晨曦,我们下次再见~
晨曦单细胞笔记系列传送门
晨曦从零开始学画图系列传送门
END

撰文丨晨   曦
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文