EWAS Data Hub:DNA甲基化图谱
嗨,小伙伴们大家好!转录因子作为上游直接机制研究的策略想必不会陌生,前期为大家介绍过相关数据库。除转录因子以外,第二款经典的上游直接机制研究策略为甲基化修饰模式,酸菜老师在17策“甲冠天下”给我们做了详细介绍。风间老师本期讲习营即将为我们带来甲基化分析模块化思路,在开营之前,弘毅来给大家介绍几款好用的甲基化在线数据库,帮助小伙伴们热热身。首先来看EWAS Data Hub,国家基因组科学数据中心(National Genomics Data Center,NGDC)开发并维护的表观遗传组关联分析数据库,提供DNA甲基化图谱数据,一起来康康吧~!
 引药生变数据库系列传送门(完结) 
数据库概览
进入EWAS Data Hub主页(https://ngdc.cncb.ac.cn/ewas/datahub/index),数据库于2019年发表在Nucleic Acids Res杂志,由国家基因组科学数据中心(National Genomics Data Center,NGDC)开发并维护,目前更新至2021年6月份。当前版本EWAS Data Hub数据库整合了来自GEO、TCGA、ArrayExpress和Encode等数据库中528种疾病相关925种组织或细胞115852个样本的DNA甲基化高通量数据,以基于高斯混合分位数归一化(GMQN)的方法进行去除批次效应,以提供不同基线数据背景下的标准化DNA甲基化图谱,协助科研工作者进行甲基化相关生物标志、表型特征和临床治疗方法等研究。
点击Help进入帮助页面:若想快速了解数据库使用方法,可查看侧边栏Database Usage部分;若是对该数据库的高斯混合分位数归一化(GMQN)方法感兴趣,可以点开侧边栏Data Process目录下Normalization查看,提供R包下载链接和示例文献。
数据库核心功能及操作演示
 1 
数据检索与浏览
EWAS Data Hub数据库提供两种数据浏览和检索方式:
(1)快速检索:在首页检索框输入感兴趣的关键词进行检索,可以是基因探针、Gene symbol、平台(850K/450K)和组织类型;
(2)精确检索:首页点击Probe、Gene或Sample后检索基因探针、Gene symbol或浏览感兴趣的样本。
首先,依据探针或基因名进行数据检索与浏览。在首页检索框输入感兴趣的基因探针或Gene symbol,或者点击Probe或Gene后输入感兴趣的基因探针或Gene symbol,后者还可以设置染色体上基因起始位点、组织特异性评分、年龄和种族特异性评分对检索结果进行筛选。
以RET基因为例,结果列表展示该基因Ensembl ID、TS(Hyper)组织特异性高甲基化评分、TS(Hypo)组织特异性低甲基化评分、性别差异性评分、Ancestry(Hyper)种族特异性高甲基化评分和Ancestry(Hypo)种族特异性低甲基化评分,分别对应侧边栏筛选条件。点击Ensembl ID进入详情页面。
Basic部分展示RET基因组信息、探针信息、相关研究项目等信息。
Tissue部分展示组织特异性甲基化情况,可选择展示全部组织或脑组织或不同类型血细胞中甲基化情况,可选择不同探针或探针位置检测结果。
Sex、Age、Ancestry Category和BMI部分与上述类似,展示不同性别、年龄、种族和BMI差异性DNA甲基化情况。
Cancer部分展示不同肿瘤中DNA甲基化情况,提供不同肿瘤中基于DNA甲基化数据的生存分析结果,提供甲基化表达散点图。
最后Public EWAS部分展示已发表的文献。
另外,还有其他多种疾病关联性分析结果。
然后,按照样本类型进行数据浏览。首页点击Sample进入数据浏览页面,上方Advanced点击后可选择感兴趣研究领域,可添加感兴趣的样本数据到购物车并批量下载。
 2 
EWAS Tooklit功能
EWAS Toolkit是一款DNA甲基化富集分析、功能注释和可视化工具,支持450K或850K平台任何给定的探针列表。首先来看富集分析与功能注释功能,以示例文件为例,上传探针列表,EWAS临床特征选择年龄,检索项目ID默认,点击GO进行分析。
富集分析比较考验网速,约15~20分钟得到结果:Trait为上传的基因列表在EWAS临床特征基因集的富集情况;Genomic Location为基因组位置富集结果;Gene Ontology/KEGG Pathway即GO/KEGG富集分析结果;Chromatin State为染色质状态富集结果;Histone Modification为组蛋白修饰富集结果,该部分包含11种组蛋白修饰类型(DNase、H2A、H3K27ac、H3K27me3、H3K4me1、H3K4me2、H3K4me3、H3K79me2、H3K9ac、H3K9me3和H4K20me1);Tissue为组织类型富集结果;Expression Regulation为基因表达相关性分析结果;Motif为转录因子结合位点分析结果。以上结果以图形和表格形式展示,数据可下载。
然后,网络可视化功能。以输入RET基因为例。侧边栏含义:Center,可以是一个或多个基因或表型;Number of Layer,支持一层或两层网略关系;Max Links per Node表示每个节点最大链接数;Correlation Coefficient Formula,相关系数的计算方法;Coefficient Cutoff,相关系数阈值,大于该阈值的节点显示在网络图中。
 3 
EWAS Altas功能
EWAS Altas模块为EWAS Data Hub数据库之前的版本,特点是基于人工管理的大量文献报道整合高质量EWAS数据及其样本分组、人群信息和病理特征等临床数据之间关联性分析结果,提供一个交互式图表界面以探索基因和表型之间的关系。
点击Browse进入数据浏览界面,与前述数据浏览页面功能类似。左侧边栏输入感性趣的临床特征、Gene symbol、基因探针或设定P值进行数据筛选,Advanced选项还可以设置更多细节信息。结果部分,可分别以临床特征、探针、基因名、研究项目和文献进行数据浏览。
文献应用案例
献案例一:查询甲基化与疾病相关性
PMID:34104645 IF=3.410
本文研究妊娠期糖尿病(GDM)相关的CpG甲基化位点以构建诊断模型,在研究之初首先明确DNA甲基化与妊娠期糖尿病之间的相关性。进入EWAS Altas主页,检索框输入妊娠糖尿病(Gestational diabetes mellitus),点击第一条信息进入结果页面,相关研究和文献可提供课题思路。
文献案例二:查询特定基因甲基化与疾病相关性
PMID:34063412 IF=5.712
本文探讨PLAG1与糖脂代谢及肥胖的相关性,在研究之初首先了解PLAG1甲基化与肥胖之间关系。进入EWAS Data Hub主页,检索框输入PLAG1基因,结果页面点击Gene ID进入详情页面。
BMI部分可见皮下脂肪(subqutaneous adipose)与该基因甲基化状态显著负相关。Cancer部分展示该基因甲基化状态在多种肿瘤中与预后相关。
文献案例三:富集分析
PMID:33658578 IF=4.370
本文部分环节探讨哮喘(ACO)临床表型相关DNA甲基化特征,在获得12名ACO患者和6名健康非吸烟者外周血单核细胞样品,检测获得125 个高甲基化差异的甲基化位点和279个低甲基化差异的甲基化位点数据,并以EWAS Tooklit工具行富集分析。排列靠前的甲基化位点信息展示在Table2。
以该表中探针名来演示富集分析:进入EWAS Data Hub主页,点击EWAS Tooklit,在Input Probe ID框输入上述探针列表,点击GO等待结果。
富集分析结果展示如下:Trail部分可见该部分基因甲基化修饰与哮喘有关;另外可以按需查看其他富集分析结果。

以上就是EWAS Data Hub数据库的全部内容,开发并维护数据库不易,小伙伴们使用时别忘记引用以下参考文献!

写在结尾
[1] Xiong Z, Li M, Yang F, Ma Y, Sang J, Li R, Li Z, Zhang Z, Bao Y. EWAS Data Hub: a resource of DNA methylation array data and metadata. Nucleic Acids Res. 2020 Jan 8;48(D1):D890-D895. doi: 10.1093/nar/gkz840. PMID: 31584095; PMCID: PMC6943079.
[2] Li M, Zou D, Li Z, Gao R, Sang J, Zhang Y, Li R, Xia L, Zhang T, Niu G, Bao Y, Zhang Z. EWAS Atlas: a curated knowledgebase of epigenome-wide association studies. Nucleic Acids Res. 2019 Jan 8;47(D1):D983-D988. doi: 10.1093/nar/gky1027. PMID: 30364969; PMCID: PMC6324068.
 往期传送门 
小白实战课堂开课啦!手把手教你转录因子与靶基因预测操作~!
 引药生变数据库系列传送门(完结) 
END

撰文丨弘   毅
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文