一文学会footprintDB数据库使用方法
嗨,小伙伴们大家好!这里是每周一弘毅专栏,我志向用小小文字助力你的SCI发表之路。本周继续转录因子话题,给大家带来转录因子综合数据库footprintDB,跟着弘毅的脚步一起来看看吧~!
一、数据库概览
进入footprintDB主页(http://floresta.eead.csic.es/footprintdb/index.php),可见该数据库最新版本于2020年12月2日更新,目前收录来自包括JASPAR在内的19个数据库的9350个转录因子、13682个DNA motifs和35058个DNA结合位点数据,点击侧边栏Databases可分别查看19个数据库的版本信息及其包含的转录因子数据条目统计信息。在侧边栏提供Keywords和Sequences两种检索方式。
页面下拉,可见该数据库提供两种功能,已知蛋白预测/查找DNA binding sites或DNA motifs,已知DNA binding sites或DNA motifs预测/查找转录因子。
点击侧边栏Help菜单下Documentation可以查看该数据库用户指南,有详细的关于数据库背景、检索和预测功能,以及个人数据管理等介绍。
二、数据库核心功能及操作演示
1. Search by Keywords
进入footprintDB主页,点击侧边栏Search菜单下Keywords,Demo下拉菜单展示可以输入的关键词有疾病描述、Uniprot等数据库ID和结合位点碱基序列,其中DNA binding motifs/sites碱基序列官方建议使用Sequence检索方式。
检索框输入关键词,然后依次选择物种、数据库和DNA binding domain类型。以输入人类转录因子SOX4为例,物种选择Homo sapiens,数据库选择All,DNA binding domain类型选择All,点击Search进入结果页面。
结果显示,检索到关于SOX4的3个Transcription factors条目,8个DNA binding motifs条目和0个DNA binding sites条目。
点击Transcription factors结果下Show results,可见来自不同数据库中人和鼠两个物种的转录因子数据,提供Binding Motifs和Binding Sites序列信息。点击DNA motifs结果下Show results,得到类似表格。
点击Accessions栏下蓝色字体可进入Transcription factors详情页面,包含转录因子名称、功能描述、家族和序列等基本信息。
点击Binding Motifs栏下蓝色字体可进入DNA binding motifs详情页面,DNA binding motifs表示该转录因子结合区域的保守模式,提供一致性序列、序列标示图和位置频率矩阵等详细信息。
点击Binding Sites栏下蓝色字体可进入DNA binding Sites详情页面,DNA binding sites表示该转录因子实际的结合区域,提供物种、数据库、参考文献、碱基序列和转录因子等详细信息。
2. Search by Sequence
在footprintDB主页,点击侧边栏Search菜单下Sequence进入检索页面,该模块数据库检索结果以邮件的形式发送,可以先命名检索结果,填入有效邮件地址。检索框Demo下拉菜单展示输入的内容可以是DNA binding motifs碱基序列FASTA格式和TANSFAC文件格式,以及蛋白序列FASTA格式。
然后,检索框输入内容或上传FASTA格式文件,然后依次选择物种、数据库和DNA binding domain类型。以前文得到的人类转录因子SOX4为例,其DNA binding motifs碱基序列为tadAACAAwGrvrw,物种选择Homo sapiens,数据库选择All,DNA binding domain类型选择All,点击Search等待结果。
返回结果提供与输入碱基序列相似的序列对应的转录因子信息,提供差异性指标和相似性评分。
文献单图复现
文献案例:PMID: 30467788,IF=3.302分
作者通过报告基因和点突变后功能验证实验证实,MAMP基因表达依赖于顺式调控模块CRM::DJ1E(S15)和CRM1::WRKY30(S24)中type II WT-boxes的参与,其中涉及到GGACTTTT,GGACTTTG和GGACTTTC共3个结合位点序列,本文Table1为footprintDB中预测到小鼠中结合在该3个结合位点可能的转录因子为NF-κB p65。
单图复现如下:进入footprintDB主页,点击侧边栏Search菜单下Sequence进入检索页面,命名检索结果,填入有效邮件地址,检索框输入GGACTTTT,物种、数据库和结构域选择All,其他参数默认,点击Search。
结果如下,复制到Excel中,数据筛选小鼠(Mus musculus),得到25个结果,然后将Motif similarity降序排列,相似性最高为7.89/8,与原文有出入,推测是数据库更新结果。
同理得到可得到结合在GGACTTTG和GGACTTTC的转录因子,整理即可得到本文Table1。

投我以桃,报之以李,开发并维护数据库不易,小伙伴们使用footprintDE时,别忘记引用以下参考文献哦!~

写在结尾
蒙小雪球老师厚爱忝为挑圈联靠专栏作者,有幸成为先锋班一员,目前冲刺晨星计划。美好的时光总是逝去得飞快,转眼间与解螺旋相识已一周年,收获甚多,不仅是海量的知识,还有友谊有快乐,更是有极大成长。与解螺旋相逢恨晚,愿一生与之做朋友,拳拳之心拙作以寄之。
大哉为,阔论科研,
四方英杰唯龙台是竞,
恨晚识,随大咖逐之,
才思根固。
知菁莪育我,
戮力以求,
为长相随故!
愿新的一年里,我和我的family 小幸福都来眷顾,愿大家多拿基金多发paper,一起相约更高处啊~!
好啦~关于footprintDB数据库加餐就到这里啦!欲知更多生信知识,我们相约“挑圈联靠”公众号~下期再见了~~!
往期传送门
小白实战课堂开课啦!手把手教你转录因子与靶基因预测操作~!
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨弘   毅
排版丨四金兄
值班 | 火   火

主编丨小雪球

继续阅读
阅读原文