ChEMBL:药物信息综合数据库
嗨,小伙伴们大家好!我们继续引药生变的这一系列话题哈。前面给大家介绍过数期药物、靶基因与疾病网络关系数据库及药物靶基因信息数据库。这周再给大家介绍一款骨灰级数据库ChEMBL,提供药物理化性质、靶基因和临床数据等信息,一起来康康吧~!
 引药生变系列传送门 
数据库概览
入ChEMBL主页(https://www.ebi.ac.uk/chembl/#),该数据库属于EBI旗下,目前更新至2021年1月ChEMBL 28版本,收录2,086,898个化合物的17,276,334条药物活性和14,347个靶基因信息。数据库收录药物理化性质、化学结构、药代动力学ADMET(吸收、分配、代谢、排泄和毒性)和靶基因信息,及部分药物活性、临床适应症和机制信息,数据源自于核心药物化学期刊、已批准药物和开发中的临床候选药物数据和其他数据库(如PubChem、BioAssay和BindingDB等)。
点击菜单栏Downloads,该数据库所有数据均可免费下载。
点击More目录下FAQ可查看该数据库快速使用指南和常见问题。More菜单下还有更多如Blog、Twitter等学习交流平台。另外,该数据库还允许基于XML或JSON对数据进行编程检索。关于ChEMBL更多功能,感兴趣的小伙伴们可以自行探索哈~!
数据库核心功能及操作演示
ChEMBL数据库有数据浏览、数据检索和可视化三大核心功能板块,另外提供ChEMBL NTD、SureChEMBL和UniChem三个实用性子数据库。
 1 
数据浏览功能
在首页点击词云图中感兴趣的数据分类条目(Documments、Mechanisms、Drugs、Indications、Compounds、Assays、Mechanisms、Targets和Tissues)直接进行数据浏览,或者点击Browse all ChEMBL进入数据浏览页面,同样可以选择感兴趣的数据分类条目。
数据浏览页面,每个数据类型目录下的左侧栏都提供Filter功能,可以选择感兴趣的条目对该数据类型进行筛选,之后点击右上角下载按钮可以直接下载,或在右上角检索感兴趣的条目,左上角可切换以表格或图标形式展示。在Compounds目录下有2,086,898个小分子药物,Filter筛选条件分别是分子类型(Type)、最大临床试验期(Max Phase)、违反新药研发RO5规则的次数、分子质量、油水分配系数(Alogp)、ATC分类、靶基因和生物活性信息。在Targets目录下有11,316个靶基因,Filter筛选条件分别是物种分类、蛋白分类、蛋白类型、对应的药物和活性信息。在Assays、Documents、Cells和Tissues目录下Filter筛选条件类似,不再赘述。
上述每个数据类型下,Filter栏右上角点击设置可添加更多过滤条件。以Compounds为例,提供更多ADEMT和其他信息。
以浏览Compounds目录下小分子(Small molecule)为例,点击Filter栏Type下Small molecule,可见数据库收录1,920,027个小分子化合物信息。右上角输入IMATINIB检索肿瘤靶向药伊马替尼的信息,结果第一个即为目标药物,点击CHEMBL941查看详细信息。
右侧是导航栏。首先展示IMATINIB基本信息,包括CHEMBL ID、药物名称、临床试验期情况(通过4期临床试验)、分子质量、替代形式(甲磺酸伊马替尼)、商品名(格列卫)和数据类型。左侧展示结构式,点击下方Structure Search可检索类似结构的其他小分子化合物药物。
页面下拉:Representations部分展示该化合物SMILES结构式和InChI表达式;Sourse部分提供数据来源;Alternative Forms部分为该化合物其他表达形式。
页面再下拉:Drug Indication展示伊马替尼的临床适应症、相应临床试验信息和参考文献;Drug Mechanisms展示伊马替尼在临床应用中的靶基因信息;Clinical Data提供伊马替尼的临床数据。
页面继续下拉:Similar Compounds展示与伊马替尼有85%结构相似度的其他化合物结构式和CHEMBL ID。
再下来,Metablism部分展示伊马替尼在体内药物代谢情况。
接下来,展示数据库中伊马替尼相关信息的统计情况,包括数据类型、靶基因类型、文献期刊等。
再接下来,对于药物及其机制研究比较重要:Target Predictions部分,提供潜在的药物靶基因信息,结果中:active表示与靶基因相互作用;inactive表示与靶基因不存在相互作用;empty表示无法预测与靶基因关系;both表示不能得出结论。预测可信度分为70%、80%和90%三个档次。Calculated Properties部分,展示药物理化性质。
最后,提供伊马替尼在其他数据库中的交叉引用情况。
 2 
信息检索功能
数据库快速检索:在首页右上角检索框中直接输入化合物名称或结构式、靶基因、细胞系或组织进行检索。以示例Brain为例,结果展示靶向脑组织的203种化合物,详细信息基本同前。
数据库高级检索:在首页右上角点击Advance Search进入高级检索页面,提供3种检索方式。(1)以结构式进行检索:绘制化合物结构式并精确检索、以设定的相似度检索或以绘制的亚结构进行检索。(2)以靶基因序列进行检索:可输入或上传序列文件,点击supported format进入帮助文档查看支持的文件格式。(3)支持以药物化合物或靶基因CHEMBL ID进行检索。
以下以第一种方式为例:绘图面板中绘制伊马替尼结构式:①点击下方苯环结构,绘制一个苯环;②点击右侧N,点击苯环右下角的C将其替换为N;③点击左侧碳链单键,在苯环做下角添加一个单键;④⑤⑥同前法依次绘制其它结构。最终绘制好伊马替尼结构式,或点击打开文件标识,输入伊马替尼的SMILE结构式,相似度默认95%以上,点击Similary进行检索。
结果展示有3个化合物与伊马替尼结构相似度95%以上,可分别点开查看详情。
 3 
可视化板块
点击首页See all visualizations,可视化板块主要是数据库各个数据类型统计结果,用于整体上探索数据库,各个图形中均可点击某个感兴趣模块查看详细信息,不再赘述。
除此之外,可以对检索结果进行可视化,以快速检索Brain为例,点击右左上角Graph或Heatmap可查看检索结果散点图或热图形式。
 4 
实用子数据库
ChEMBL数据库提供比较实用的子数据库,其中malaria inhibitor prediction (MAIP)平台和ChEMBL NTD模块为疟疾相关药物研究数据库。以下介绍SureChEMBL和UniChem子数据库。
首页中点击UniChem进入子数据库。检索框输入伊马替尼InChI表达式,点击Submit Query,检索结果显示在各个数据库中伊马替尼的ID及对应链接,第一条即为UniChem数据库。
点击SureChEMBL进入子数据库。该界面与UniChem中以结构式检索化合物功能板块类似,提供更多设置条件,感兴趣小伙伴可以自行探索。
文献应用案例
供两篇文献供大家学习
文献例一:PMID 32627965
本文以机器学习方式,基于397种抗癌药物及其靶基因敲除的484种细胞系功能评价,校正混杂因素后筛选出865个显著的单基因与药物关联数据。药物潜在的靶基因数据来自ChEMBL数据库25版本,筛选条件为:人类、pChEMBL值和基于IDG的药物活性阈值(激酶:≤3nM;核受体:≤100nM;GPCR:≤100nM;离子通道:≤10 μM;其他:≤1μM)等。
文献例二PMID 33920024
本文旨在挖掘作用于GCGR和GLP-1R的药物。分别ChEMBL数据库检索到265个GLP-1R配体和650个GCGR配体,基于Daylight/Tanimoto方法评估其与配体相似性和Autodock4工具分析其与配体亲和力,并结合其他多种方法筛选适合的药物。以上两篇文章均属于公告数据库挖掘的纯生信文章,没有湿实验验证环节,然而都发表在比较高分杂志,感兴趣的小伙伴可以下载学习。

以上就是ChEMBL数据库的全部内容,开发并维护数据库不易,小伙伴们使用时别忘记引用以下参考文献!

写在结尾
Mendez D, Gaulton A, Bento AP, et al. ChEMBL: towards direct deposition of bioassay data. Nucleic Acids Res. 2019;47(D1):D930-D940. doi:10.1093/nar/gky1075
 往期传送门 
小白实战课堂开课啦!手把手教你转录因子与靶基因预测操作~!
END

撰文丨弘   毅
排版丨四金兄
主编丨小雪球
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文