AlphaFold此前的版本侧重于根据化学成分预测 200m 蛋白质的三维结构。图源:DeepMind
导读:
要想理解AlphaFold3进步的意义,需要了解生物体包含了多个层次的复杂性。
郭瑞东| 撰文
陈晓雪| 编辑
5月8日,DeepMind在《自然》杂志报告了新工具AlphaFold3,能够预测DNA,小分子,离子与蛋白质组成的复杂结构[1]。相比之前的特定领域的工具,AlphaFold3能够以更高的成功率对蛋白质配体相互作用(protein-ligand interactions)及蛋白质与核酸相互作用进行预测。AlphaFold3还可以对蛋白质翻译后修饰和离子对其结构复合物的影响进行预测。
DeepMind最新发布的AlphaFold 3,可以预测所有生命分子的结构和相互作用。图源:DeepMind
“AlphaFold 3的新功能,使其能够模拟并预测修改蛋白质分子,如添加最常见的氨基酸片段,或让蛋白质与人体内普遍存在的分子结合,会对其结构带来的什么影响。这将极大地提升生物及医学领域科学家们对于细胞内机制的理解能力。而且,所有这些功能都集成在一个非常易于使用的服务器上。”牛津大学结构生物系主任Matthew Higgins评论说。
伦敦国王学院的结构生物学家Julien Bergeron则表示:“AlphaFold3将显著加快蛋白质生物化学和生物物理领域的实验设计进程。使用AlphaFold3的操作快速简便,将得到来自不同子学科的生命科学研究者的广泛使用。”
预测范围变广,性能继续提升
在此之前,DeepMind推出的AlphaFold2的研究论文,之所以能获得学术界和产业界2万+的引用,在于其在部分场景下,可替代耗时耗力的实验,用计算代替实验,用几分钟获得之前需要几个月实验才能获得的答案,从而为研究者节约时间和经费。但是AlphaFold2的预测只局限于蛋白质结构,而针对诸如蛋白质和小分子配体,蛋白质与核酸的互作,则需要使用各自问题上的专业软件进行预测。
AlphaFold3则通过一个统一的框架应对多种问题,且AlphaFold3的预测成功(蓝色柱子)率显著高于当前单独预测蛋白质小分子(左图)和蛋白质核酸(右图)的最好工具,成功率分别提升了50%和100%以上。AlphaFold3的性能提升,使其具有了更大的应用潜力。
图1:AlphaFold3在预测蛋白和配体,核酸,共价修饰及抗体相互作用方面,与各自领域当前最佳工具准确度对比
下图为对应论文展示的AlphaFold3的预测结果。图2a为预测细菌CRP/FNR家族转录调控蛋白与DNA和cGMP结合的情况;图2b为预测人冠状病毒OC43刺突蛋白结构,该蛋白包含4665个残基,高度糖基化,与中和抗体结合的情况。这两种场景下的预测,都是AlphaFold3增加的新功能,也是此前的AlphaFold2无法完成的分析任务。
2AlphaFold3预测结果
Isomorphic Labs是一家专注于基于深度学习研发药物的初创企业,也深度参与了这一研究。Isomorphic Labs表示,其计划”利用AlphaFold3产生的结构预测来设计小分子,使其更有效地与目标蛋白结合”。他们还尝试“通过研究目标蛋白在完整生物环境中的结构,例如它与其它蛋白质、DNA、RNA或配体的结合方式,以更深入地理解新靶点,从而更高效地开发临床药物。”
该公司还展示了研究者在设计能够与TIM-3蛋白具有高亲和力结合的小分子使用AlphaFold3的结果。TIM-3(T细胞免疫球蛋白粘蛋白-3)在抗肿瘤免疫调控中发挥着负向作用。研究者先通过实验解析了三个与配体结合的TIM-3晶体结构,这些晶体结构并没有出现在用于AlphaFold3训练的蛋白质结构数据库(Protein Data Bank)中。之后,研究者使用AlphaFold 3对三个与配体结合的TIM-3晶体进行预测,预测结果与实验得出结构几乎一致。而在不包含小分子配体的对照实验中,TIM-3蛋白呈现了截然不同的结构,这表明AlphaFold3能够根据配体是否存在,预测TIM-3蛋白质结构的改变,从而判断新加入的小分子是否具有成为药物的潜力。这一案例展示了AlphaFold3在药物分子设计结构表征方面的准确性。通过预测未知小分子与蛋白的互作,AlphaFold3为开发新型治疗方法,如抗体或其他治疗蛋白,提供了新的尝试方向。
生命数据的未来
要想理解AlphaFold3进步的意义,需要了解生物体包含了多个层次的复杂性。生物的运行蓝图从DNA经由转录得到RNA,再由RNA翻译生成蛋白质,蛋白在生成后会进行修饰(蛋白质产生后发生的化学变化),并经由与小分子配体(ligand)和离子,以及蛋白质之间的互作共同影响,执行特定的功能。
影响蛋白功能的,包括但不限于蛋白质的三维结构,蛋白质与核酸分子及小分子之间的相互作用。蛋白是最终执行生物体功能的“一线员工”。要想理解蛋白如何在生物体中执行预期的功能,就需要搞清楚从核酸到蛋白这每一步是如何互动的。之前的AlphaFold2,可以预测蛋白这些“一线员工“间怎么互动,这很重要但不完全;现在有了AlphaFold3,便可以预测一线员工和核酸这样的“管理者”如何打交道,又是如何应对小分子这样的“外包员工”的。
AlphaFold3基于蛋白质结构数据库进行训练,这是一个存储了生物大分子,主要是蛋白质和核酸(DNA和RNA)的三维结构信息的开源数据库,目前已包含21.4万个分子的信息,这些信息有助于理解分子的功能、机制以及它们如何与其他分子相互作用。AlphaFold3的架构基于transformer和扩散模型,预测结果为输入系统中每个重原子各自的三维坐标。
尽管AlphaFold3标志着一个前所未有的可能性时代,但仍有其局限。正如Deepmind的技术白皮书所指出的,AlphaFold3对RNA的结构预测存在不足,这也正是DeepMind正在持续改进的方向。
AlphaFold3的成功表明,开发合适的深度学习架构可以显著减少高性能生物学预测工具所需的数据量,并增强已有数据的影响力。AlphaFold3的进步不仅将得益于深度学习的发展,还因为经由实验(如冷冻电子显微镜和断层扫描技术的显著进步)提供大量新数据,进一步提升模型的泛化能力。
目前AlphaFold3可在https://www.alphafoldserver.com进行非商业使用,算法伪代码在论文补充信息中,而具体代码则不会开源。
参考文献:
[1] Abramson, J. et al.Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature https://doi.org/10.1038/s41586-024-07487-w (2024)
[2] Rational Drug Design with AlphaFold 3 https://www.isomorphiclabs.com/articles/rational-drug-design-with-alphafold-3
欢迎关注我们,投稿、授权等请联系
合作请添加微信SxsLive2022
继续阅读
阅读原文