儿童肿瘤数据库Treehouse
嗨,大家好!哈哈哈~临近年关了,小伙伴们怕都已经按捺不住出去嗨皮的心情了。这周一弘毅给依旧艰苦奋战在儿科岗位的小可爱们带来小小福利,儿童肿瘤样本信息数据库Treehouse。以前弘毅每每看到隔壁宿舍老王头说他用TCGA呀GEO呀或是Oncomine呀发表了某某杂志SCI,都是满满的羡慕嫉妒啊,奈何自个儿专业不争气,儿童肿瘤常见的肝母细胞瘤、肾母细胞瘤和神经母细胞瘤等数据集实在太少了,于是神马顿爷金哥坦叔阿弥陀佛念叨个遍,终于天可怜见,被弘毅发现了儿童肿瘤研究的宝藏Treehouse数据库。独乐乐不如众乐乐,好东西就是要和大家一起分享,一起来康康吧~!
数据库概览
进入Treehouse主页(https://treehousegenomics.soe.ucsc.edu/),儿童肿瘤样本信息数据库Treehouse是UCSC机构研究团队开发,旨在通过大规模的数据集交叉分析来确定可精准应用于儿童肿瘤治疗的药物。目前更新至2020年4月V11版本,收录12000以上个样本的RNA-seq数据,以及包括TCGA和TARGET数据库部分临床资料如年龄、性别和疾病类型等数据。
Treehouse提供数据下载和可视化分析功能。数据类型有3种,分别是临床数据、log2标准化TPM表达数据和Count数据。可视化工具也有3种,分别是Tumormap、ClusterBrowser和Xena。
点击Pipeline可查看该数据库的数据处理方法描述,是基于RSEM软件将测序得到的原始BAM和FASTQ文件处理为基因表达谱数据,并提供源码,感兴趣的小伙伴可以点开查看哈。
数据库功能及操作演示
 1 
可视化工具:Visualizations
TumorMap
点击TumorMap进入功能页面,该工具使用OpenOrd算法聚类分组,可以根据疾病类型、性别和年龄等数据特征对组织样本进行着色绘制Tumormap。首先选择感兴趣的数据来源,以BrainOfCells目录下SampleMap为例,点击后等待页面刷新,可见该数据集内样本按照不同临床特征分布的Tumormap图,点击右上角Short List,可以查看当前Tumormap基于的临床特征,并个性化设置图形展示。需要提醒大家,在使用该版块之间需要先注册账号然后登陆哈~!
点击Search Attributes框,在下拉菜单目录中可以选择不同临床特征添加到Map,比如BrainOfCells目录下多种GEO条目和细胞系数据,再比如TreehousePEDv9_polyA目录下的疾病类型、年龄和性别信息。以上添加的临床特征都可以点开Short List查看详情。
滑动鼠标滚轮可以放大缩小Tumormap每个样本,鼠标悬停在某个样本可查看对应的详细描述信息。
更多信息可查阅参考文献:
Newton Y, Novak AM, Swatloski T, et al. TumorMap: Exploring the Molecular Similarities of Cancer Samples in an Interactive Portal. Cancer Res. 2017;77(21):e111-e114. doi:10.1158/0008-5472.CAN-17-0580
Cluster Browser
该工具同样根据疾病类型、性别和年龄等数据特征对细胞系进行着色绘制Map,另外可绘制某个单基因表达情况Map。点击Cluster Browser进入功能页面,首先选择版本,以Compendium V11-polyA为例,点击Open进入。
左侧边栏,Annotation目录下,可以选择不同临床特征,如点击Disease,则中间栏以不同disease绘制Map,不同颜色代表不同疾病,在右侧边栏显示,可勾选感兴趣的疾病在中间显示。点击age则以不同年龄段绘制map,右侧边栏显示不同颜色代表的年龄段。左侧边栏其他选项类似。
另外该工具提供多种设置,Layout设置输出参数,Collection选择切换数据集版本,也可以选择感兴趣区域重点显示等,菜单栏还有丰富功能小伙伴们可以自由挖掘。
左侧边栏,Gene目录下,可根据某个基因表达情况绘制Map,右侧栏显示该基因不同表达丰度范围占比,以及log2标准化TPM值的小提琴图。
Xena
UCSC Xena允许用户探索Treehouse数据集,分析基因组信息和表型变量与疾病之间的相关性,可以交互式地添加、删除和重新排列任意的数据模块,包括基因、转录本和临床特征。首先选择一种数据集,以Caldas于2007年发布的乳腺癌数据集为例,点击最下方DONE进入下一步。
可见该数据集包含10个样本,进一步选择数据类型,以Phenotypic表型特征为例,下拉选项勾选ER以查看ER表达状态与乳腺癌的相关性,点击最下方DONE得到结果,可见ER阳性在乳腺癌患者中占比较大。
同样可以选择分析年龄在乳腺癌中分布情况,点击右侧边Click to Add Column可添加 更多项目。
 2 
数据下载:Download
点击Download可下载不同版本数据集,提供可视化文件、临床数据和原始TPM或Count数据文件。
点击Visualize可分别进入3中可视化工具页面。点击file下任意文件,可查看详细描述,及表达谱列表信息。
文献应用案例
例:PMID: 31988326,IF=3.998分
本文拟通过对820种小儿肿瘤的泛癌分析探索肿瘤发病相关关键基因及潜在的可干预途径,在Figure2A展示来自Treehouse数据库中儿童肿瘤发病排名靠前的6种肿瘤(ALL, Acute Lymphoblastic Leukemia;AML, Acute Myeloid Leukemia;MBL, Medulloblastoma;NBL, Neuroblastoma;WT, Wilms Tumor和Glioma)占比情况,Figure2D展示样本数据在6种肿瘤中的分布情况。
演示如下:
由于作者未说明使用的数据集版本,以下以Compendium V8为例,与原文差异之处敬请谅解,掌握方法为原则。进入Treehouse主页,点击Cluster Browser进入可视化板块,选择Compendium V8点击进入,点击左侧栏disease(鼠标悬停可见排名前6的疾病所占百分比,即原文Figure2A,弘毅网速太渣,刷新不出来~呜呜,小伙伴们自行脑补一下/捂脸),右侧栏依次勾选ALL, Acute Lymphoblastic Leukemia;AML, Acute Myeloid Leukemia;MBL, Medulloblastoma;NBL, Neuroblastoma;WT, Wilms Tumor和Glioma这6种肿瘤,等待页面刷新。
页面刷新后,可见选择的肿瘤样本被标记为黑色,点击菜单栏Edit下Name selection,然后命名该结果,点击OK,结果默认以黑色显示,点击右上角Colors可按需设置颜色,点击菜单栏File下Download current image可下载图片。

感恩的心/感谢有你/伴我一生/让我有勇气做我自己!以耳边萦绕着的优美旋律来结束今日的分享,再念叨一句,小伙伴们使用Treehouse时,别忘记说明数据来源哈~!

写在结尾
好啦~关于Treehouse数据库加餐就到这里啦~!欲知更多生信知识,我们相约“挑圈联靠”公众号~下期再见了~!
往期传送门
小白实战课堂开课啦!手把手教你转录因子与靶基因预测操作~!
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨弘   毅
排版丨四金兄
值班 |
火   火
主编丨小雪球

新年快乐
2020

感谢所有小伙伴的一路陪伴

开心这一路和大家共同成长

2021

我们仍要一起并肩前行

朝更新的目标一起努力


为了感谢大家一路的支持

在春节大年初五迎财神时

酸谈将进行一场
福利抽奖直播
纯抽奖part、
全新福利周边
大家一定记得来观看直播奥



直播信息
直播时间:
大年初五
直播地点:B站解螺旋直播间

直播内容:福利直播抽奖party

直播地址:
https://live.bilibili.com/8116225
扫码直达直播间



大年初五

不见不散
长按识别二维码免费包邮领取!
继续阅读
阅读原文