Mogrify:预测体细胞重编程与转录因子组合的神器
嗨,小伙伴们大家好!近年来再生医学研究方兴未艾,尤其是基于干细胞或诱导多能干细胞的治疗策略研究取得不错进展,鉴于干细胞的来源及其分离培养等技术困难,诱导多能干细胞相关研究逐渐成为科研工作的热点。
早在2006年,日本两位学者利用OSKM方案(Oct4、Sox2、Klf4和c-Myc)成功将体细胞逆分化为具有多向分化潜能的干细胞,随后的学者将上述方案进行拓展和补充,甚至可以通过直接编程的方式来诱导不同细胞类型之间的转换,如转录因子、功能基因蛋白/肽、非编码RNA和小分子等组合方案。新的一周给大家带来Mogrify数据库,一款可用于预测诱导不同细胞类型之间转换的关键转录因子组合的神器,一起来康康吧~!
数据库概览
Mogrify数据库于2016年3月发表在Nature Genetic杂志,是基于FANTOM5和String数据库将基因表达谱数据与分子交互网络信息相结合,以预测诱导细胞类型转化所必需的关键转录因子,从而定义细胞重编程图集。Mogrify目前收录人类173种细胞类型和134个组织类型,可用于预测已报道的转分化关键转录因子,指导新的细胞类型转化研究。进入Mogrify主页(https://mogrify.net/),可见该数据库功能极其简洁,点击首页Show me how可以快速浏览数据库使用方法。
点击Contact,是该团队成员简介和联系方式,提供FANTOM5数据库链接,感兴趣的小伙伴可以试试哦。
数据库功能及操作演示
进入数据库主页,页面下拉看到检索框,在下拉菜单分别选择起始细胞类型和转化后细胞类型,以预测皮肤成纤维细胞向神经干细胞转化的关键转录因子为例,点击Submit进入结果页面。
结果显示,数据库中有15个皮肤成纤维细胞样本和2个神经干细胞样本数据,预测结果展示转化率在95%及以上的最佳转录因子组合。系统默认显示8个转录因子组合,表格中红框标注的为该方案中95%转化率非必须的转录因子,右侧是基于String数据库的该方案所包含转录因子的交互情况。
页面下拉,柱状图展示上述8个转录因子中95%转化率所必须的转录因子各自对应的诱导转化率,鼠标悬浮在柱子上可查看,右上角可下载图片。
点击上述click here可查看参与调控皮肤成纤维细胞向神经干细胞转换的全部转录因子,可自定义组合方案中转录因子数目,或输入感兴趣的转录因组合进行分析。页面下拉可以点击in/out将感兴趣的转录因子手动添加进组合方案中。页面右侧是预测到的转录因子功能聚类结果。
最后,上述全部结果页面,小伙伴们如果有看不明白之处,都可以点击Explain this page to me来浏览网站快速指南哦!
彩蛋环节
在细胞类型转化研究之初,往往由于靶细胞的不确定性,可以存在数种类型细胞转化为目标干细胞的可能,基于Mogrify数据库的预测结果也可能是多个转录因子组合,那么如何获得上述组合共有的转录因子呢?
无论是在线网站或R语言,一般都是针对不超过5个基因列表的Veen图绘制,而更多基因列表就不大好实现了。弘毅在之前就遇到过类似问题,后来经风哥指点,通过绘制Upset图得已解决,此处表白一波风哥~!哈哈!
之前,弘毅想筛选参与调控肠道组织细胞诱导转化为神经干细胞的关键转录因子,查询得知Mogrify数据中收录的可能转化为神经干细胞的14种肠道组织细胞类型(colon-adult、small intestine-adult、smooth muscle-adult、perineural cell、Schwann cell、colon-fetal、rectum-fetal、small intestine-fetal、mast cell、intestinal epithelial cell、smooth muscle of colon、smooth muscle cell of intestine、endothelial progenitor cell、fibroblast),同前法分别获得最佳诱导方案的转录因子组合,其中intestinal epithelial cell无预测结果,将其余13中细胞转化为Neural stem cell的转录因子组合复制到Excel中,如下表。
关于绘制Upset图可以参照风哥和菠萝姐在挑圈联靠的推文(《可繁可简,可盐可甜,这才是upset的真面目吧!》和《集合可视化还只用韦恩图?UpSet图文章复现给你不一样的体验!》),此处仅针对获得上述13个基因集共有转录因子的问题进行演示。
首先将上述13个基因集列表转化为R绘制Upset图所要求的数据格式,如下图,行表示上述基因集包含的全部转录因子,列表示13中肠道组织细胞类型,0表示该细胞类型转化为神经干细胞的转录因子组合中不包含该基因,1表示该细胞类型转化为神经干细胞的转录因子组合中包含该基因。然后保存为TXT格式文件,命名为Neural stem cell_upset.txt。
接下来绘制Upset图,打开RStudio,首先安装UpSetR包,加载包,设置工作路径,读取上述Neural stem cell_upset.txt文件,接下来upset函数绘图,可设置以下参数:
nsets=13,即绘制全部13个基因集;keep.order=TRUE,保持输入的文件列表中基因顺序;point.size,matrix.color和line.size可设置点和线的大小和颜色;matrix.dot.alpha可设置非交集点的透明度;shade.color和shade.alpha可设置背景颜色和透明度。其余参数可自行摸索。
代码和结果展示如下:
#upset图#安装R包 UpSetR#CRAN安装命令install.packages("UpSetR")#Github上安装命令,这里需要先安装“devtools”devtools::install_github("hms-dbmi/UpSetR")#加载R包library(UpSetR)#读取文件#setwd("D:\\")#设置工作路径upset1<-read.table("Neural stem cell_upset.txt",header=T,sep="\t",fill = T,quote = "")View(upset1)#绘制图形upset(upset1,nsets =13, #绘制全部13个基因集 默认绘制前5个基因集keep.order=TRUE, #保持输入文件列表中基因顺序point.size =2,matrix.color=c("#BC80BD"), #点线图颜色line.size =1,matrix.dot.alpha = 0.5, #非交集点透明度shade.color = "blue", #背景颜色shade.alpha = 0.1#背景透明度)
红框中的点线图为我们所需要的结果,将图片以PDF格式导出,用AI打开删掉不必要的部分,添加基因名称,最终得到上述13个基因集中共有的转录因子为SOX2,其次SOX9、POU3F2和ZEB1在12个基因集中共有,均可作为候选。
最后,开发并维护数据库不易,小伙伴们在使用Mogrify数据库时候别忘记引用以下参考文献哦~!
Rackham OJ, Firas J, Fang H, et al. A predictive computational framework for direct reprogramming between human cell types. Nat Genet. 2016;48(3):331-335. doi:10.1038/ng.3487
好啦~!以上就是本次分享的全部内容!欲知更多生信知识,我们相约“挑圈联靠”公众号~下期再见了~!
 往期传送门 
小白实战课堂开课啦!手把手教你转录因子与靶基因预测操作~!
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨弘   毅
排版丨四金兄
值班 | 王美丽

主编丨小雪球

继续阅读
阅读原文