来源:深究科学
作者:周晨
David Baker不仅科学做得好,同时也是10多家生物医药公司的创始人/顾问
导读
3月18日,华盛顿大学蛋白质设计研究所所长David Baker在预印本BioRxiv上发文,首次使用生成式人工智能从头设计出了全新的抗体,这一重要发现未来有望让AI从头设计蛋白进入抗体药物市场。
事实上,每当我们讨论起蛋白质结构预测时,我们的脑海首先会闪现“AlphaFold”。作为Google DeepMind的得意之作,DeepMind创始人凭借AlphaFold,这两年接连斩获盖尔德纳奖和拉斯克奖,可谓风光无限。
David Baker也是这个领域响当当的人物,堪称蛋白质设计领域“鼻祖级”人物。他比DeepMind更早提出了预测和设计蛋白质三维结构的方法,甚至设计出了一款比AlphaFold更早的蛋白结构设计算法——RoseTTAFold。
比起一般科学家在实验室里死磕蛋白质到底的势头,Baker更愿意挖掘蛋白质设计当中的乐趣,为此他还亲自开发了一款蛋白质折叠游戏。Baker有一个更宏大的目标,那就是带领现代生物学走出“石器时代”。
01

超越AlphaFold

这两年,AlphaFold成为了生物医药界的新贵,甚至获得了不少生物医药相关的科学大奖。
之所以受到如此瞩目,主要在于AlphaFold颠覆了大众对于蛋白质的认知。在过去,我们只能从漫长的自然演化中去等待新的蛋白质生成,而如今有了AI算法的加持,人类可以主动去“设计”蛋白质。
鲜为人知的是,AlphaFold一直存在诸多竞争者,其中最为知名的莫过于华盛顿大学的David Baker团队。
Baker是预测和设计蛋白质三维结构方法的开创者,早在1998年由他主导设计的蛋白结构设计算法Rosetta就有了最初版本,远远早于时下大火的AlphaFold。而这两年,Baker更是致力于一件事情,那就是超越AlphaFold,为此,Baker团队曾在Science杂志上连发3篇论文,介绍新算法ProteinMPNN。
研究团队采用了三个步骤来挑战蛋白质设计的难题:
首先,通过类似于DALL-E或其他生成式AI工具“hallucination”和类似于现代搜索栏中的自动完成功能“inpainting”,利用人工智能生成新的蛋白质形状;
其次,设计了一种名为ProteinMPNN的新算法,用于生成氨基酸序列,极大提高了运行速度和效果;
最后,研究人员使用AlphaFold独立评估,由新算法提出的氨基酸序列是否能够折叠成预期的形状。
Baker提到,“ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测一样”。   
在之后的实验室工作中,Baker等人证实了算法能够“产生在实验室中发挥作用的新蛋白质”。Baker补充道,“这是机器学习在蛋白质设计中的开端。在接下来的几个月里,我们将努力改进这些工具,以创造更具活力和功能性的蛋白质”。
02

蛋白质设计领域的“鼻祖”

1962年10月6日,Baker出生于华盛顿州西雅图,从小便对科学感兴趣。研究生期间,他在加州大学伯克利分校的兰迪·谢克曼(Randy Schekman)实验室工作,也正是在这里,Baker接触到了蛋白质运输方面的工作,由此开启了破译蛋白质之旅。
早年间,Baker从事蛋白质折叠方面的工作。什么是蛋白质折叠呢?我们可以做一个简单的比喻:蛋白质是由氨基酸小分子组成的,而这些小分子就像拼图的零件,每当一个蛋白质形成的时候,这些氨基酸就必须按照一定的顺序,拼在一条链上,而为了拼出更加完美的蛋白质,就必须要找到一种最稳定、最合适的方式将氨基酸折叠成一个三维的形状。
折叠对蛋白质功能非常重要,如果折叠出现问题,可能导致蛋白质无法正常工作,而产生的连锁反应可能会影响到生物体内的各种生命过程。我们熟知的AlphaFold系统中的“Fold”一词,正是“折叠”的意思。
在蛋白质折叠领域,Baker做出了不小的成就,因此斩获了不少大奖:2008年,获萨克勒国际生物物理学奖;2021年,获生命科学突破奖;2022年,获得威利奖;2022年,他被授予BBVA 基金会“生物学和生物医学”类别的知识前沿奖。
除了斩获大奖外,Baker还在2008年左右开发出了一款在线蛋白质折叠游戏——FoldIt。在这款游戏中,玩家可以尝试找到给定蛋白质或给定氨基酸序列的最佳结构,换句话来说,玩家可以从理论上“自创”一个蛋白质结构。目前,该游戏已有70万注册用户。   
蛋白质折叠的一个引人注目的特点在于,它是一种自发的过程。过去,专注于这个领域的科学家们只能够研究已知的蛋白质结构。然而,随着时间的推移,Baker开启了一个全新的课题:人类是否能够拥有预测和设计全新的蛋白质的可能呢?
经过多年的研究,Baker似乎得出的肯定的答案。
03

算法预测和设计蛋白质结构

早年间,Baker团队开发了一款从头开始预测蛋白质结构的RoseTTAFold算法,而Baker本人也被认定为是“预测和设计蛋白质三维结构方法”的开创者。
RoseTTA是一种基于深度学习的软件工具,能够根据有限的信息快速而准确地预测蛋白质结构。在过去,确定一种蛋白质的结构可能需要研究员在实验室做多年的研究工作,而有了这一算法后,我们能够在十分钟内计算出新的蛋白质结构。   
在上文中我们提到,氨基酸的序列对于蛋白质折叠非常重要,而RoseTTA便是通过氨基酸序列来预测蛋白质的三维结构该算法:它采用了一个“三轨”神经网络的架构,综合考虑了蛋白质序列中的模式、氨基酸的相互作用以及可能的三维结构。这种架构使得一维、二维和三维信息能够在网络中流动,使得网络能够共同推断蛋白质的化学部分与其折叠结构之间的关系。
据Science杂志的报道,Baker团队使用RoseTTAFold计算了数百种新的蛋白质结构,其中有许多蛋白质是人类此前知之甚少的。除此之外,研究人员还成功生成了与人类健康直接挂钩的蛋白质结构,包括与脂质代谢问题、炎症紊乱和癌细胞生长多领域相关的蛋白质。
举个例子,RoseTTA曾发现一种名为Neoleukin-2的潜在癌症治疗蛋白质,Baker团队计划对白细胞介素-2进行改良设计,减小其毒性,使其能够有效地对抗癌症。   
仅在2021年6月的这一个月里,RoseTTA就提交了超过4500种蛋白质到实验室的Web服务器中。尽管作为后起之秀的AlphaFold等人工智能很大程度上解决了Baker提出的蛋白质结构预测问题,但目前,Baker团队仍然在深耕蛋白质结构设计,并且始终是AlphaFold的有力竞争者。
04

将蛋白质结构研究带出“石器时代”

截至2022年1月,蛋白质数据银行已经存储了数百万个原子分辨率的结构数据,涵盖了来自各种生物体的蛋白质。既然人类已知的蛋白质已经有了这么多,那么设计新的蛋白质还有意义吗?
2019年,Baker曾在TED演讲分享过对于蛋白质设计的看法,他认为当今社会上,我们面临着一系列的挑战,如果我们还有100万年可以等待,那我们可以利用大自然产生的蛋白质解决问题。然而我们并没有100万年的时间,因此我们只能借助于计算机设计出新型蛋白质来解决当下问题。
Baker的一个大胆的想法是:把生物学带出“石器时代”。
为此,他总结了未来蛋白质设计能够广泛应用的5大领域,其中包括:
1、新型疫苗
2、包含有非天然氨基酸的蛋白质
3、新型药物输送载体
4、智能疗法
5、高性能生物材料
Baker提出的5个领域,无疑都是未来生物医药领域的蓝海。事实上,Baker也成立了多家生物医药公司,从蛋白质设计角度,将生命健康的福祉传递给普通群众。
2017年,Baker等人联合创办了生物医药公司Icosavax,该公司专注于开发用于呼吸道病毒的蛋白质纳米颗粒疫苗。2023年12月11日,Icosavax宣布,阿斯利康将通过其子公司发起要约收购,这项收购总价值约为11亿美元,比Icosavax在该日的股价溢价91%。
2018年,Baker联合创办了Sana Biotechnology,该公司专注于为患者创造和提供工程细胞作为药物。2024年2月12日,Sana Biotechnology宣布完成了一次大规模公开发行股,此次发行总收益约为1.8975亿美元。
参考资料
1.Beyond AlphaFold: AI excels at creating new proteins.UW Medicine.
2.Scaffolding protein functional sites using deep learning.Science.
3.Podcast Interview: David Baker.PNAS.
4.David Baker.wikipedia.
5.RoseTTAFold: Accurate protein structure prediction accessible to all.University of Washington
6.Sana Biotechnology官网
7.Icosavax官网  
继续阅读
阅读原文