新智元报道  

编辑:编辑部
【新智元导读】谷歌DeepMind又有重磅研究了!AlphaFold 3一经推出,就登上Nature头版。从此,人类冲破「蛋白质宇宙」,所有生物分子结构都可以预测了!这次使用的,还是AI革命最核心的组合架构——Transformer+Diffusion。
时隔3年,AlphaFold 3横空出世,再次掀起AI学术圈巨震!
初代AlphaFold诞生之后,一直停留在预测「蛋白质」的宇宙中。
今天,升级后的AlphaFold 3能够以前所未有的「原子精度」,预测出所有生物分子的结构和相互作用。
最重要的是,与传统方法相比,AF3预测相互作用的准确率暴涨50%。
对一些重要的相互作用类型,其预测精度甚至可以提升100%。
最新研究已在Nature发表,并登上今天的头版。
文章地址:https://www.nature.com/articles/d41586-024-01383-z
论文地址:https://www.nature.com/articles/s41586-024-07487-w
谷歌DeepMind联合创始人、CEO Demis Hassabis表示,AlphaFold 3的发布是一个重要的里程碑,在AI理解和建模生物学的道路上,AI又迈出了重要一步!
AlphaFold 3可以生成蛋白质、核酸(DNA/RNA)和更小分子的3D结构,并揭示它们如何组合在一起。
它还可以模拟细胞之间化学变化,以控制细胞的正常运转,预防疾病发生。
7R6R - DNA结合蛋白:AlphaFold 3对一个分子复合体的预测展现了蛋白质(蓝色)与DNA双螺旋(粉色)的结合,其预测结果与通过繁复实验得到的真实分子结构(灰色)高度吻合
与Sora一样,它是一个生成式神经网络模型。
很明显,谷歌DeepMind团队已经用上了这波AI革命最核心的组合架构——Transformer+Diffusion!
得益于新一代技术架构,AlphaFold 3成为了「单一AI模型」。
它能以全面的方式计算整个分子复合体,并生成最精准的结构。
8AW3 - RNA修饰蛋白:AlphaFold 3对一个包含蛋白质(蓝色)、一条RNA(紫色)和两个离子(黄色)的分子复合体的预测与真实结构(灰色)非常吻合
同在今天,谷歌DeepMind还推出了免费研究平台「AlphaFold Server」,供全球科学家非商业化研究。
不论每个人的技术专长如何,只需点击几下,就可以利用AlphaFold 3在10分钟内预测分子,并测试假设。
值得一提的是,AlphaFold 3已在自家实验室Isomorphic Labs,实现了高度准确预测配体-受体相互作用,并帮助他们构想药物发现的过程。
如下是,AlphaFold 3预测不存在的Tim-3免疫蛋白结构,结果几乎一致!
在DeepMind首席执行官Demis Hassabis看来,这将是价值千亿美元的产业。
未来的某一天,AlphaFold或许将摘下药物发现的「圣杯」。
截至目前,全球已经有180+万的科学家使用AlphaFold加速研究,包括开发生物可再生材料,或推进基因研究。
这一刻,对于所有人来说,AlphaFold 3简直就是海啸级的存在。
AlphaFold 2的致命性短板,AlphaFold 3补上了!
2021年发布的AlphaFold 2,对生物学产生的影响已经是革命性的。它以堪比传统实验方法的惊人准确度,根据氨基酸序列预测蛋白质结构。
免费访问的AlphaFold数据库,收录了几乎所有已知蛋白的预测结构,AlphaFold 2的代码也已开源。
然而,在DeepMind 研究团队领头人John Jumper看来,AlphaFold 2却并未达到颠覆性影响。
原因何在?
这是因为,AlphaFold 2在预测蛋白质生态系统时,仍存在许多局限。
而它无法准确预测的这些领域,却对科学家极为重要。
比如对蛋白质的修饰——添加磷酸盐分子后,就可以使细胞对外部信号(如感染)作出反应,并引发一连串行为。另外,与DNA、RNA及其他化学物质的相互作用,对许多蛋白质的功能也至关重要。
遗憾的是,这些领域,对AlphaFold 2还是一块黑域。
而在Jumper看来,最理想的工具,应该同时具备预测蛋白质结构及其配件结构的能力。比如谷歌DeepMind希望,能够解析整个PDB蛋白质数据库。
令人惊喜的是,AlphaFold 3出现了!
对于预测蛋白质结构及其相互作用伙伴,AlphaFold 3的有效性都远超现有的工具。
比如,希望发现新药物的科学家,都会借助docking软件来确认蛋白质结构,物理模拟蛋白质与化学物质的结合效果。
而AlphaFold 3的实验效果就要好于docking,以及另一个AI工具RoseTTAFold All-Atom。
伦敦Francis Crick研究所的生物化学家Frank Uhlmann在使用过AlphaFold 3,就表示效果喜人!
他的团队利用AlphaFold 3,预测了参与基因组复制的DNA相互作用蛋白的结构,这是细胞分裂的关键步骤。
2017年加入谷歌DeepMind的John Jumper领导了开发AlphaFold 3的团队
在之后的实验中,他们使用了变异蛋白来改变相互作用,结果显示:预测结果非常准确。
华盛顿大学西雅图分校的计算生物物理学家David Baker评价说:「AlphaFold 3的结构预测表现非常出色。」
Baker团队就是RoseTTAFold All-Atom的开发者,但他还是承认AlphaFold 3的表现更好。
所有生物分子结构和相互作用,从此可以被预测
在每个植物、动物和人类的细胞中,存在着数十亿个微小的分子机器,它们由蛋白质、DNA以及其他分子构成。然而没有一个部分可以单独发挥作用。
如何真正开始理解生命的过程?唯有通过研究这些分子如何在数百万组合中相互作用。
由此,AlphaFold 3的诞生便显得意义重大!
因为有了它,从此人类能够以前所未有的精度,预测所有生物分子的结构和相互作用。
对于蛋白质与其他分子相互作用的预测,AlphaFold 3相比现有方法至少有50%的提升,对一些重要的相互作用类型,预测精度甚至可以提升100%。
我们对生物世界和药物发现的认识,可能从此会被AlphaFold 3彻底改变。
这次,谷歌DeepMind也留了一手。他们并未在论文中公布AlphaFold3的代码和底层信息,但模型的大部分功能仍然可以通过AlphaFold Server平台免费使用。
AlphaFold 3模型的构建,是以前代AlphaFold 2为基础的。
AlphaFold 2多次荣登Nature和Science封面
自AlphaFold 2问世以来,全世界数百万研究者已经在疟疾疫苗、癌症治疗和酶设计等诸多领域取得了突破。而发布于2018年的AlphaFold,论文引用量直接超过了20000次,还被授予2023年生命科学突破奖。
而AlphaFold 3的诞生,则让生物分子领域的研究拓展到了蛋白质之外。
生物可再生材料、更耐用作物的培养、药物设计和基因组学研究等等,可能将很快迎来颠覆性变革。
7PNM - 一种普通感冒病毒的突起蛋白(冠状病毒OC43):随着病毒蛋白(蓝色部分)与抗体(绿色)和单糖(黄色)相互作用AlphaFold 3对7PNM的预测结果,与真实结构(灰色)高度吻合。如果进一步了解这类免疫系统过程,我们就能更好地理解COVID-19在内的冠状病毒,改进治疗方法
输入一系列分子的信息,AlphaFold 3就能生成它们的3D结构,展示这些分子如何紧密配合。
厉害的是,它不仅能模拟蛋白质、DNA和RNA这样的大型生物分子,还能处理小分子如配体——许多药物都属于这一类。
配体与DNA结合的示例
甚至,AlphaFold 3还能模拟这些分子的化学修饰,这些修饰是细胞健康运作的关键,如果失调就可能引发疾病。

AI革命性架构——扩散模型

正如之前所述,AlphaFold 3之所以如此强大,正是因为它的新一代架构和训练方式,能够覆盖所有生命分子。
也就是,颠覆整个AI世界的「扩散模型」,已经用在了AlphaFold 3的训练中。
模型的核心,就是改进后的Evoformer模块,这是一种深度学习架构,也正是是AlphaFold 2卓越性能的基石。
处理输入数据后,AlphaFold 3就可以利用「扩散网络」来构建预测结果,跟AI图像生成中使用的网络类似。
扩散过程从一个原子云开始,经过多个步骤,最终收敛于最精确的分子结构。
对于分子相互作用的预测,AlphaFold 3的精度已经超越了所有现有技术!
作为一个全面计算整个分子复合体的单一模型,它独特地能整合科学洞见。

药物设计,被彻底颠覆

AlphaFold 3的这种强大功能,直接让我们的药物设计走向了新的天地!
这是因为,配体和抗体这些常用于药物的分子,现在都可以通过AlphaFold 3来预测了。
如下三个例子中,展示了AF3如何将许多蛋白质与各自的配体折叠在一起,并阐释了其作用的机制。
首先展示的是,具有独特折叠结构的蛋白质。
下面是,AlphaFold 3正确预测了一种新型抑制剂的变构结合模式(PDB ID 7QIE)。
AF3还正确预测了PORCN与LGK974和WNT3A肽的复合物,为临床阶段分子的抑制功能提供了结构依据(PDB ID 7URD)。
在预测药物相互作用上,AlphaFold 3取得了空前的准确度,无论是蛋白质与配体的结合,还是抗体与其目标蛋白的结合。
在PoseBusters基准测试中,无需任何结构信息输入,AlphaFold 3的准确性就比传统SOTA提高了50%。
由此,它也成为生物分子结构预测领域中,首个超越物理基础工具的AI系统!
如今我们能够预测抗体和蛋白质的结合,那就可以理解人类免疫反应的关键,以及新抗体的设计。
从此,我们药物设计的成功率会大大提高,还能够探索新的疾病靶点,从前针对现有靶点难以达到的创新方法,现在也能在AlphaFold 3的帮助下开发出来。

AlphaFold Server:与全世界共享的免费工具

此外,谷歌DeepMind团队也会负责任地与世界共享AlphaFold 3的力量。
谷歌DeepMind会推出全球最准确的工具AlphaFold Server,用于预测蛋白质如何在细胞内与其他分子相互作用。
这是一个免费平台,允许全球科学家进行非商业性研究使用,包含免费的2亿蛋白质结构数据库。
只要几次点击,生物学家就可以利用AlphaFold 3模拟由蛋白质、DNA、RNA及各种配体、离子和化学修饰组成的结构了!
从此,科学家在实验中的研究假设,就可以由AlphaFold Server验证了。
这个平台,可谓意义重大。
实验性的蛋白质结构预测,原本需要花费读个博士学位的时间,以及数十万美元的费用。而按照当前实验结构生物学的发展速度,这本需要数亿researcher-year的工作。
有了AlphaFold 3,从此生物世界可以以高清晰度呈现。
科学家能够全面观察细胞系统的复杂性,包括结构、相互作用和修饰,药物作用、激素生成和DNA修复如何影响生物功能,从此都将被揭示。
7BBV - 酶:AlphaFold 3对一个包含酶蛋白(蓝色)、离子(黄色球体)和简单糖(黄色)的分子复合体的预测,以及其真实结构(灰色)。这种酶源自一种对多种植物有害的土传真菌(Verticillium dahliae)。深入了解这种酶与植物细胞的相互作用有助于研究人员培育出更健康、更抗逆的作物

访问受限,毕竟还要商业利益

不过,AlphaFold 3的使用上也会受到很多限制。
与RoseTTAFold和AlphaFold 2不同,研究者们无法运行自己的AlphaFold 3版本,也无法公开AlphaFold3的底层代码,或模型训练后获得的其他信息。
他们能做的,就是使用「AlphaFold 3服务器」,输入自己选择的蛋白质序列和一些辅助分子。
而且,对AlphaFold 3服务器的访问也是受限的。目前每天研究者只能进行10次预测,且无法获取与潜在药物结合的蛋白质结构。
但科学家Uhlmann仍然对此表示满意,在他看来,这个服务器比AlphaFold 2版本更简洁——
只要上传数据,10分钟后就能得到结构。对大多数科学家而言,这个服务器将大大简化他们的工作。
之所以做此限制,是因为谷歌DeepMind也是要盈利的。比如,它的子公司Isomorphic Labs已经开始用AlphaFold 3来开发药物了。
DeepMind的AI科学负责人及该研究的合著者Pushmeet Kohli表示,他们希望AlphaFold 3既能对科学家产生影响,又能在保护Isomorphic在制药方面的商业利益上找到平衡。
也因此,加州大学旧金山分校的药物化学家Brian Shoichet认为AlphaFold 3不会像AlphaFold 2那样产生广泛影响,因为它限制了与潜在药物的蛋白质互动建模。
而MIT的进化生物学家Sergey Ovchinnikov则雄心勃勃地表示,根据Nature提供的详尽信息,在年底之前,估计就会有团队开发出开源解决方案了。
全新的架构
根据论文的介绍,AF3的整体架构(图1d)在很大程度上继承了AlphaFold 2的设计。
首先通过一个庞大的主干来处理化学复合物的成对表征,随后通过一个结构模块将这些表示转换为具体的原子位置。
不过,AF3在每个关键组件上都进行了重大调整。
与AlphaFold 2中的原始Evoformer相比,处理块的数量减少到4个,MSA表征的处理采用了成本较低的成对加权平均法,并且后续步骤仅使用成对表征。
新的「Pairformer」(图2a)取代了AlphaFold 2的「Evoformer」,成为主要的处理模块——只处理成对和单一表征,不再保留MSA表征,所有信息都通过成对表征进行传递。
最终,成对和单一表征连同输入表示一起传递到新的扩散模块(图2b),该模块取代了AlphaFold 2的结构块。
扩散模块(Diffusion Module)直接处理原始原子坐标和一种粗略的抽象Token表征,而不采用旋转框架或任何等变处理。
在AlphaFold 2的研究中,团队发现简化结构模块的复杂性对预测精度的影响较小,而保留主链框架和侧链扭转表征则大大增加了对一般分子图的处理复杂度。
为此,团队采用了一种标准的扩散方法,训练扩散模型处理「加噪」的原子坐标,并预测其真实坐标。这就要求网络在不同的长度尺度上学习蛋白质结构,小噪声去噪重点在于理解局部立体化学,而大噪声去噪则关注系统的大尺度结构。
在推理阶段,会随机采样噪声,并通过反复去噪得到最终结构。
值得注意的是,这种生成式训练方法会产生多种可能的结果。这意味着,即使网络对某些位置的确定性不高,每个结果的局部结构(如侧链键的几何结构)也都会非常清晰。
由此,既可以避免使用基于扭转的残基参数化和对结构的违规损失,同时处理配体的全部复杂性。
与一些近期的研究一致,团队发现架构中不需要对分子的全局旋转和平移进行不变性或等变性处理,因此省略了这些设计,并简化了机器学习架构。
不过,生成式扩散方法很容易产生「幻觉」——即ACCELERATED ARTICLE PREVIEW模型可能在结构不明显的区域创造出看似合理的结构。
为了抑制这种现象,团队采用了一种创新的交叉蒸馏(cross-distillation)方法。
通过在预训练数据集中加入AlphaFold-Multimer v2.3预测的结构,使AlphaFold 3学会了模仿「用长的扩展环路来表示无结构区域」这种行为,进而极大地减少了AF3的幻觉行为。
由于扩散训练只涉及单步扩散而非完整的结构生成(图2c),因此团队开发了一种扩散「展开」过程,用于训练期间生成完整的结构预测。
接着,利用这个预测结构来调整对称的真实链和配体的位置,并计算性能指标,以此训练置信度组件。
如图2d所示,在初始训练阶段,模型很快就能预测出局部结构(所有内链指标迅速提升,在前20,000次训练步骤中就达到了最大性能的97%)。
然而,模型在学习整体结构方面需要更长的时间(界面指标上升较慢,蛋白质-蛋白质界面LDDT在60,000步之后才达到97%的标准)。
在AF3的开发过程中,团队发现某些模型功能很早就达到了顶峰并开始下降,这很可能是因为对这些功能的训练样本数量有限导致了过拟合,而其他功能则仍然训练不足。
为此,团队调整了相应训练集的抽样概率,并采用所有上述指标及一些额外指标的加权平均进行早期停止,来选择最佳模型检查点。
在微调阶段,团队通过使用更大的裁剪尺寸显著提升了模型在所有指标上的表现,特别是在蛋白质-蛋白质界面上的表现。
网友:AF3将摘下生物学「圣杯」
AlphaFold 3诞生,意味着什么?
「我们即将在未来几年内,对所有疾病了如指掌。我们正站在未来十年可能治愈所有疾病的边缘」。
还有网友表示,AI即将彻底改变医学。我们需要用它来提高可用性、改善疗效,降低看病成本。
英伟达高级科学家Jim Fan称赞道,「AlphaFold 3是生物AI取得最大突破的最新迭代版本。不同以往,AlphaFold 3使用了『Diffusion』来渲染分子结构。它从一团模糊的原子云开始,然后通过去噪逐渐将分子实体化」。
我们生活在这样一个时代,Llama和Sora等模型的发展可以为生命科学研究提供启发并加速进程。我发现这种通用性水平实在是难以置信。同样基于Transformer+Diffusion架构的模型,不仅可以生成精美的像素图像,还能想象出蛋白质分子,只要将数据适当转换为浮点数序列即可。
我们目前还没有实现单一的AGI模型,但我们已经成功构建了一系列通用的AI「配方」,可以跨领域迁移训练、数据和神经网络架构。理论上这是不可能的,但它确实奏效了!
还有网友发现,Nature论文中多次提到了「diffusion」。
从AF3身上,再次让许多人见识到了「扩散模型」的强大威力。
就连专业领域的医学科学家,完全被AF3的能力震惊到了,一句话用了4个惊叹体。
现在,这就是生物学的「圣杯」!AlphaFold 3不仅将彻底改变我们对生物系统的认识,还将以前所未有的水平上确定新的、特异的化学或生物药物!我无法用言语来形容这是一个多么重大的进步!真是叹为观止!
等不到GPT-5的网友,瞬间觉得GPT-5都不香了。
还有人暗示,如果谷歌能将代码开源,或许我们早已到达了AGI。
参考资料:
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/
https://twitter.com/DrJimFan/status/1788233450123936020
继续阅读
阅读原文