转录因子篇帷幕:KnockTF数据库使用方法
嗨,小伙伴们大家好!这里是每周一弘毅专栏,我志向用小小文字助力你的SCI发表之路!关于转录因子话题,连续三期推文给大家伙儿介绍了转录因子与靶基因预测的操作方法演示,今天更新转录因子最后一趴,2020年的新星数据库KnockTF,收录敲除转录因子的组织或细胞高通量数据,提供转录因子与靶基因调控关系信息,跟着弘毅的脚步一起来看看吧~!
一、数据库概览
入KnockTF主页(http://www.licpathway.net/KnockTF/index.html),同样先看一下数据库介绍,该数据库是基于TF knockdown/knockout相关的人类基因表达谱数据,提供感兴趣TFs靶基因表达信息、TFs上游通路信息、下游靶基因功能注释的分析结果,包括GSEA富集、GO富集、KEGG通路富集、网络分析、层次聚类分析和差异表达分析,当前版本共收录多种组织和细胞类型的570个RNA-seq和微阵列数据集的308个转录因子。此外,KnockTF还提供有关TFs与启动子、增强子结合的详细信息。
页面下拉,可以看到与KnockTF相关的姊妹数据库,更多功能感兴趣的小伙伴可以自行挖掘哈~!
Statistics页面展示KnockTF收录的数据集和对应实验方法的统计结果,各个转录因子敲除相关上调和下调的表达差异基因,及其对应的Datasets ID、Profiles ID和Platform ID等信息。
Submit页面,提供研究者个人数据上传功能;Contact展示开发团队信息及其各项研究成果,KnockTF便是其中之一,不得不佩服哈医大该团队的强大哈~!
Help页面提供关于该数据库的常见问题,包括KnockTF用途、收录的数据集、各个功能板块的使用方法和数据库开发环境等。
二、数据库核心功能及操作演示
1、Browse功能
进入该功能板块:左侧边栏可以分别根据数据集来源、样本类型、组织类型、转录因子亚组和转录因子进行数据浏览,每个子条目后面的数字为对应的数据集数目;中间表格提供每个子条目下的具体信息,包括Dataset ID、转录因子名称、敲除实验方法、组织类型、样本名称、Profiles ID、Platform ID和参考文献等信息,左上角可下载表格文件。
以收录HNAE1的Dataset_01_002数据集为例,点击进入详情页面:左侧是转录因子HNAE1信息概览,与前页相比额外提供结合位点序列和数据集分组信息;右侧是HNAE1敲除相关的表达差异基因的可视化网络图结果,红色节点为上调基因集,绿色节点为下调基因集,颜色深浅与logFC绝对值大小正相关,鼠标悬停可查看某个节点具体信息,网络图下方可选择要展示的基因集和Top基因数目。
页面下拉,提供HNAE1敲除相关的18330个表达差异基因列表,提供表达值、Fold Change、log2FC、P值和FDR校正后P值。由于是TF敲减的表达谱,差异表达基因可能是HNAE1的靶基因或是受其靶基因调控的其他基因,基于此,表格提供预测的可能结合在该基因启动子区域、超级增强子区和普通增强子区的候选转录因子,如果预测结果里没有HNAE1,如ODAM,就说明该基因很可能不是HNAE1靶基因,而是受其靶基因调控的其他基因。
页面继续下拉,为数据集富集分析的结果:点击Gene Set Enrichment Analysis查看GSEA富集分析结果,分别有上调基因集富集结果和下调基因集富集结果,点击任意一个进入查看可视化结果,可下载图片和表格。
点击Gene Ontology Enrichment查看GO富集结果,点击KEGG Pathway Enrichment查看通路富集分析结果,均可个性化设置需要展示的结果,并提供下载功能。
页面继续下拉,是HNAE1上游通路功能注释信息,该结果是基于ComPAT数据库而来,点击任意一个条目可进入ComPAT详情页面。
页面再下拉,是该数据集的表达差异基因可视化结果,分别是层次聚类热图和上调、下调基因集散点图。
页面最后,是HNAE1在不同组织中表达情况的可视化结果,其中包括GTEx正常组织数据、TCGA肿瘤数据、CCLE和ENCODE细胞系数据。
2、Analysis功能
该功能板块提供2种分析方式,分别是Subnetwork Analysis和TF Enrichment,首先点击Subnetwork Analysis进入功能页面。
该页面,用户可以通过粘贴或上传文件提交基因列表来构建转录调控子网络,粗线表示ChIP-seq数据支持的TF-target关系,可选择显示的子网大小。
上传示例数据为例,点击Submit得到分析结果,该基因列表包含5个基因,然后依次是调控网络图及其拓扑特征列表信息,包括深度、间度和亲近度等,可检索感兴趣的基因和转录因子。
然后点击TF Enrichment进入功能界面,用户可以通过粘贴或上传文件提交基因列表进行TF富集分析,数据库将提交的基因映射到TF敲除相关差异表达基因网络中,并进行超几何检测,设置好FDR调整p值,可以得到对提交基因有显著调控作用的转录因子。
上传示例数据为例,点击Submit得到分析结果,该基因列表包含60个基因,富集结果按照P值从小到大排列,可查看Venns图。
3、Search功能
该功能板块提供4种检索方式,分别是基于转录因子、靶基因、敲除实验方法和组织类型,转录因子查询结果同Browse功能页面,以查询靶基因为例说明。
用户可输入靶基因Official Symbol、Entrez ID或Ensembl ID,然后设置Fold Change为1.5或2进行检索,以示例USP38为例,点击Search得到结果。
结果返回12个条目,每个条目包括详细的转录因子信息,点击任意一个Dataset ID进入该转录因子详情页面,同前,不再赘述。点击USP38进入该基因详情页面。
左侧是USP38基因信息概览,提供基因名称和ID,以及基因组位置和正负链等信息;右侧是显著调控USP38基因的候选转录因子词云图,红色为促进表达的转录因子,绿色为抑制表达的转录因子,颜色深浅和字体大小与logFC绝对值大小正相关,鼠标悬停可查看某个转录因子logFC值,词云图下方可选logFC阈值。下方列表提供详细的表达差异分析结果。同样,该结果表示USP38可能是转录因子靶基因或受其靶基因调控。
页面下拉,基于USP38基因序列预测可能结合在启动子和增强子区域的转录因子,包括基于chip-seq数据和motif数据的结果。
页面继续下拉,是USP38基因在不同组织当中表达情况的可视化结果,其中包括GTEx正常组织数据、TCGA肿瘤数据、CCLE和ENCODE细胞系数据。
4、Download功能
点击进入功能界面,可见该数据库所有分析的原始结果,可下载对应的表达矩阵txt格式文件。
页面下拉,分别是数据库中差异表达基因的列表,以及关于结合在启动子和增强子区域的转录因子分析结果,均可下载。
文献单图复现
咳咳,这部分可能让小伙伴们失望了,KnockTF数据库发表于2020年1月份,截止目前有3篇文献引用,除外1篇综述,另外2篇论著都没有使用KnockTF数据库获得的图表结果,弘毅也是爱莫能助,只能对大家说声抱歉了哈。

投我以桃,报之以李,开发并维护数据库不易,小伙伴们使用KnockTF时,别忘记引用以下参考文献哦!~

写在结尾
蒙小雪球老师厚爱忝为挑圈联靠专栏作者,有幸成为先锋班一员,目前冲刺晨星计划。美好的时光总是逝去得飞快,转眼间与解螺旋相识已一周年,收获甚多,不仅是海量的知识,还有友谊有快乐,更是有极大成长。与解螺旋相逢恨晚,愿一生与之做朋友,拳拳之心拙作以寄之。
大哉为,阔论科研,
四方英杰唯龙台是竞,
恨晚识,随大咖逐之,
才思根固。
知菁莪育我,
戮力以求,
为长相随故!
愿新的一年里,我和我的family 小幸福都来眷顾,愿大家多拿基金多发paper,一起相约更高处啊~!
我有双份的快乐,一份留给我家可可爱爱的宝宝和我的family members,一份留给不经意间看到的你!好啦~关于KnockTF数据库加餐就到这里啦!欲知更多生信知识,我们相约“挑圈联靠”公众号~下期再见了~~!
往期传送门
小白实战课堂开课啦!手把手教你转录因子与靶基因预测操作~!
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨弘   毅
排版丨四金兄
值班 | 风间琉璃

主编丨小雪球

继续阅读
阅读原文