如果要问AI的下一个黄金赛道是什么?黄仁勋的答案是生命科学。
他在很多场合明确表达了这个观点,比如在一场“世界政府峰会”的会议中,他说:“每个人都要学习电脑的时代已经结束了,未来的世界应该是生物学。
在另一场会议的问答环节中,他说如果有重来一次的机会,他会首先考虑生物学,特别是和人类相关的生物学。
不仅仅是黄仁勋这么说,英伟达对外投资也证明了这一点。近两年,英伟达近乎疯狂地在医疗和药物发现领域投资,已投资了超过十几家初创公司。
据WSJ报道,Moon Surgical是一家利用AI改进腹腔镜手术的法国创业公司,其首席执行官Anne Osdoit说,她的公司大约在三年前就开始与英伟达合作,当时该公司正在为生命科学领域开发芯片。她说,这种合作关系最终促成了投资,英伟达还帮助公司解决了有关手术机器人的技术监管担忧。“英伟达非常务实,直接说‘嘿,告诉我们你需要什么’。”
英伟达医疗保健副总裁Kimberly Powell甚至直言:“既然计算机辅助设计行业捧出了第一家2万亿美元市值的芯片公司,计算机辅助药物发现行业,为什么不能打造下一个价值万亿美元的药物公司呢?
在今年英伟达GTC大会上,与医疗保健/生命科学相关的活动将达90 场,也突显了英伟达对生命科学领域的重视。“我们是相当内行的投资者。”今年1月,黄仁勋在一场摩根大通医疗健康会议上说,“如果你在计算或AI方面有困难,请给我们发邮件,我们随时为你服务。”
英伟达的对外投资中,医疗保健和生物技术类非常多
创新药研发一直都费时费力,业界有一个著名的“双十定律”,即研发一款新药需要10年时间、10亿美元,并且成功率也只有10%。所以哪怕是微小的改进,也将价值连城。
科学家们一直在努力用传统的统计工具,来尝试改进效率,机器学习使筛选成堆的信息成为可能。比如谷歌DeepMind曾利用其AlphaFold系统,来预测蛋白质结构。这项技术的最新进展出现在5月8日的《自然》杂志,新推出的AlphaFold 3不仅能够模拟蛋白质与其他分子的相互作用,还能准确预测包括DNA、RNA、配体等生物分子结构以及它们如何相互作用,这项技术能改变我们对生物世界和药物发现的理解。
下面我们来看看 AlphaFold 3 令人兴奋的一些预测结果:
7PNM - 一种普通感冒病毒的突起蛋白(冠状病毒OC43):随着病毒蛋白(蓝色部分)与抗体(绿色)和单糖(黄色)相互作用,AlphaFold 3对7PNM的预测结果与真实结构(灰色)完全吻合。这能够增进我们对这种免疫系统过程的了解,有助于更好地理解冠状病毒,包括COVID-19,从而提高改进治疗的可能性。
8AW3 - RNA修饰蛋白:AlphaFold 3 预测的由蛋白质(蓝色)、一条 RNA 链(紫色)和两个离子(黄色)组成的分子复合物与真实结构(灰色)非常吻合。这个复合体参与了其他蛋白质的生成,这是一个对生命和健康至关重要的细胞过程。
7R6R - DNA结合蛋白:AlphaFold 3 预测的蛋白质(蓝色)与 DNA 双螺旋(粉色)结合的分子复合物,其预测结果与通过复杂实验得到的真实分子结构(灰色)几乎完全吻合
图片来源:Google DeepMind
虽然迄今为止只有十几种药物在研发过程中使用了人工智能技术,但这一数字在未来可能会迅速增长,未来的药物研发会越来越像一个计算问题。当数据科学、人工智能和自动化相结合时,生物学将变得工程化,有可能出现指数型改进。
AI 将改变药物发现过程的每一步,虽然它可能是一种渐进式的改进——这里提升10%,那里20%、30%,但最终将所有这些改进相乘,速度和成功率就可以提高两到三倍。
今天这篇文章,我们就来聊聊AI在制药方面到底能做什么?最大的瓶颈——数据,会带来哪些问题?以及AI制药更可能会是一种渐进式的变革,而非突变式……Enjoy:
  • AI在制药方面到底能做什么?
  • 但为什么现在还没有获批药物,是通过AI方式做出来的?
1
AI在制药方面到底能做什么?
我们先说一个真实案例。
几年前,在奥利地维也纳医科大学,一名82岁的病人(保罗)患有一种侵袭性血癌,他已经做了六个疗程的化疗,但都未能根治。在这个漫长且痛苦的治疗过程中,医生不得不把那些常用的抗癌药一个一个划掉,因为它们都没有起到作用。
最终,保罗参与了一项药物试验,一家英国公司Exscientia正在开发一种新型的配对技术,能根据不同患者的细微生理差异,为他们配对所需的精确药物。
研究人员从保罗身上提取了一小块组织样本,将包括正常细胞和癌细胞在内的样本分成一百多块,并将它们暴露在不同的药物组合中。然后,他们利用机器自动化和计算机视觉,这是一种经过训练的机器学习模型,可识别及预测细胞中的微小变化。
实验证明,有些药物不能杀死保罗的癌细胞,有些药物反而损害了他的健康细胞。最终,这项技术找到了一款抗癌药物,而此前保罗的医生没有尝试过它,因为往期的试验表明,这种药物对治疗这种类型的癌症无效。
最终这款药物成功了。两年后,保罗的病情完全缓解,他的癌症消失了。而如果采用传统的办法,实验的速度和规模不可能这么快。
当然,在这个已经成功的案例里,机器学习只做到了筛选出正确的药物,这也只是这家英国公司Exscientia的一个小目标,真正的目标是彻底改变整个药物开发流程,利用人工智能技术设计新药。
但这个目标还未实现,这是目前整个生命科学界和AI界都在探索的方向。我们希望通过AI和数据驱动的方法,注入更强算力,来提高药物研发中的成功率。
我们先来看看研发一款新药(这里主要指小分子药物)的基本步骤是什么,再来说AI能切入哪些环节。首先,研发人员需要在人体内选择一个药物会与之发生作用的靶点,例如蛋白质;然后设计一种分子,对该靶点起作用,比如改变它的工作方式或让它停止工作。接下来,在实验室中制造出这种分子,并检查它是否真的起了作用,并且这个作用是设计所需的作用,而不是其他作用。最后,在人体中进行测试,看它是否安全有效。
几十年来,研发人员们筛选候选小分子药物的方法是,将所需靶点的样本放入实验室的许多小格子中,加入不同的分子,观察反应。然后多次重复这一过程,调整候选药物分子的结构,比如把这个原子换成那个原子,如此反复,这里面依赖的都是研发人员的经验和直觉。
但从实验室到人体并不容易,许多药物分子在实验室中似乎很有效,但最终在人体中进行试验时却失败了。所以这里面需要大量修改的工作,比如脂溶性不好,就需要修改与脂溶性相关的地方;如果有毒副作用,就需要修改相应的地方克服掉。
新药研发其实就是一个不断迭代、修改的过程,最后经过实验验证,走向临床、上市,产生价值。从经验来看,研发人员可能需要设计和测试20种药物,才能最终选出一种有效的药物,这导致研发成本非常之高。
在这个过程中,AI能切入的主要是两个环节:
第一是在最初选择苗头化合物时,就通过AI去筛选。传统方法是依赖于研发人员的经验和直觉,只能在一个几百万级的化合物库中去搜索和筛选。据测算,如果剔除一些非常相似的分子,所有的大型制药公司比如默克、诺华、阿斯利康等等加在一起,最多能有1000万个分子可以用来制造药物,其中有些是专有的,有些是众所周知的。这就是大量化学家在过去百年辛勤工作的总成果。
但自然界中的化合物,或者说成药空间,有10的60次方,我们实际上只是在一个非常小的范围内搜索。如果强算力的AI能够在更大的范围内搜索,那就能大大突破目前的探索空间,找到更合适的成药化合物。
这是人工智能的真正潜力所在——打开一个巨大的生物和化学结构库,这些结构可能成为未来药物的成分。
第二是在对先导化合物的修改时,运用AI技术修改。在选择完苗头化合物后,形成先导化合物,但有很多地方往往需要修改,比如需要把活性修改得更好,或是要把成药性改得更好,这个环节在药企研发中可能占了90%的工作量。
如何修改这些分子呢?由于药物研发已经有了上百年的历史,我们已经记录了很多结构的作用,基于这些再去做创新会容易一些。打个比方,这个过程像是要把一幅画改得更漂亮,但是目前这幅画中的某一部分,已经画得还不错,此前也已经被实验验证过了,那就可以保留,在这个基础上修改。
而经过训练的AI大模型,它可以从数十年间的几百万篇论文和大量档案中挖掘数据,从这些文件中提取出知识图谱——哪些改变会导致什么样的结果,这样的因果链对修改非常重要。
基于这样的数据基础,然后就可以让AI去把其他部分设计出来,让AI发挥想象力。AI往往比人类专家的想象力更加丰富,人类专家往往只能画出几十个分子,而AI生成的数量是没有上限的,只要算力支持。
并且,在修改中需要同时考虑很多影响因素,比如合成性、活性、成药性等等,是一个多重目标的复杂问题。人类专家在处理时,往往是简化,一次只处理一个环节,比如在这个环节只考虑活性,在另外一个环节才去考虑成药性。但AI能够更好地处理多重信息。
拿比较重要的成药性来举例,比如一款口服针对肿瘤的药物,它要想进入体内后可以治愈肿瘤,首先需要经过消化系统,然后进入血液和细胞,这个是吸收、代谢的过程;其次药效需要持续一段时间,并且不能有毒副作用。这些性质统称为成药性,是药物研发中很重要的因素。
以往研发人员主要依赖实验验证,这就导致有可能在之前的研发环节花了很多钱,做了很长时间,好不容易发现了一个有效分子,但在成药性验证上出了问题,而导致重新做或是放弃,这就造成了“双十原则”。
如今则可以通过AI+专家经验+自动化实验的方式,通过AI提升预测的准确率和设计出更结构新颖、性质更好的分子,来提升整体成功率。有研发人员将药物和蛋白质在体内的相互作用,视为一个物理问题,模拟原子间的推拉作用,而这种推拉作用会影响分子如何结合在一起,利用人工智能更准确地模拟分子之间的相互作用。
生成式AI对生命科学各环节的作用及经济价值推动;图片来源:麦肯锡
2
但为什么现在还没有获批药物,是通过AI方式做出来的?
不过,与AI制药伟大潜力相对应的是一个冰冷的事实,目前还没有任何一款获批的药物,是通过AI的方式做出来的。
“如果有人告诉你,他们可以完美预测哪种药物分子可以通过肠道或不被肝脏分解,诸如此类,那么他们很可能也有火星上的土地要卖给你。"MIT Review曾经采访了一位该领域的专业人士。
如今横在AI制药技术面前最大的难题是数据,由于生命科学领域的数据非常不标准化,特别是在实验领域,经常会出现A实验室做出来的实验,与B实验室做出来的实验压根没有可比性。该领域甚至有一个常用语——“Apple to Apple”或者“head to head”,来特别强调可比性。
一旦涉及对真实世界的数据采集,最大的问题就是如何采集足够多的数据维度。不管是研究细胞还是研究人、动物,一般在传统生物学、医学的视角里,采集的都是单点数据,比如这只猴子是胖还是瘦、这个细胞是增殖还是死亡,但这些维度过于单一,对胖瘦、增殖还是死亡的影响因素其实非常多,如果我们缺乏足够多的观察手段,以及不能形成多维度、结构化的数据,那么对AI进行的训练也就会大打折扣。
以及这些数据从哪里来?并不一定是大型药企,因为以前的数据记录方式不一定能复用。曾经在自动驾驶领域就有一个经典例子:当我们去寻找可供模型训练的数据时,很多人最初找到出租车公司,因为出租车都配有行车记录仪,理论上应该有很多自动驾驶的数据。但实际上大家发现不行,因为出租车缺乏多维度的数据记录,虽然行车记录仪的数据有很多,但并不知道当某个路况发生时,司机做出了什么动作,比如怎么打方向盘、什么时候踩了刹车,原来的行车记录仪并没有足够的传感器去记录这些内容。所以现在的自动驾驶公司,为了采集多维度的数据,都必须在测试车里加装很多传感器。
如今在生命科学领域也一样,虽然不一定要完全从零开始,但目前的行业数据库肯定是不够的,需要加入各种新维度,包括加标准、加定义、加新的“传感器”等等,需要围绕AI训练所需,把各种维度补全,才能够有训练好AI的基础。
而如果从AI大模型scaling law的角度,现在还没有人知道一个足够智能的生命科学大模型,到底在哪个范畴上才能够达到涌现?在没有足够高质量的数据、没有达到scaling law生效前所做出来的AI,归根结底可能只是overfitting(拟合过度),还无法达到真正的突破。至于这个scaling law的突破点在哪里?仍然还处于探索中。
除了数据原因之外,另一大原因是AI也不是万能的,无论研发环节多么先进,药物仍然需要进行人体临床试验。任何药物研发的最后阶段,都需要招募大量志愿者,这很需要时间,平均约10年。许多药物需要花费数年时间才能进入这一阶段,但仍然以失败告终。
虽然有很多AI制药公司都在加班加点地研发,但这些实验室中的实验和人体临床试验无法被缩短,所以第一批在人工智能帮助下设计的药物,可能还需要几年时间才能上市。
当然,虽然AI无法加快临床试验的进程,但它确实可以帮助制药公司减少试错成本,也就是减少在实验室中测试无效药物分子所花费的时间,让有希望的候选药物更快进入临床试验阶段。而且,由于资金投入的减少,公司可能不会感到那么大的放弃压力,而坚持想碰碰运气。
如今正有越来越多的由AI辅助的药物管线出现。根据智药局统计,AI辅助的临床管线已经从2022年的50条,增长到当前的102条,这还仅仅是统计的AI制药公司的管线情况。
一级市场的资金也正在往该领域聚集。比如在上个月,生物技术领域最大的投资机构ARCH Venture Partners,做出了有史以来最大的一笔投资,单笔领投了2亿美元,投资于AI+医疗创业公司Xaira。这家成立仅一年的创业公司,在种子轮就拿了10亿美金,目标是利用 AI 来重塑药物的研发、寻找治疗疾病的新药。
英伟达对Biotech的投资
当我们在讨论AI制药的未来时,它更像是一场渐进式的变革,而非突进式的变革。
这一轮AI热潮与此前计算机辅助制药最大的不同在于,算力和算法已经得到了显著提升,相比之前已经产生了代际差异,这为药物发现和设计提供了前所未有的精确度和效率。
由于数据问题,以及AI无法触达的临床试验等耗时环节,至今仍未有获批药物是通过AI方式做出来的。但AI制药的真正价值,可能不在于它能够立即创造出超越现有药物的奇迹,而在于作为一种工具,能够系统性地解决以往难以解决的问题。这种系统性的解决方案,而不是偶发性的一两次成功,如果能够实现,将是对传统制药方法的一次重大突破,有可能带来制药行业的革命。
最新的研究里程碑也证明了这一点。华盛顿大学生物化学教授David Baker的研究团队,首次利用AI技术从零开始设计出了一种新型抗体,将抗体疗法推向了一个全新的高度。虽然尚未达到人类设计的顶尖水平,但已经证明了AI设计的蛋白质是可行的,这为未来的发展奠定了基础。
最后,如果我们用一句话总结:“AI在大分子领域的潜力值得期待,但这个积极乐观可能不是在一个2-3年的时间周期里,而是更长的、渐进式的发展周期里。”在古代,药物发现纯粹靠运气;在近代,药物发现依赖经验和直觉;在未来,AI技术料将大大加速这一进程——这里提升10%,那里20%、30%,最终将所有这些改进相乘,速度和成功率就可以提高两到三倍。
References:
1. EndPoints:Cash, chips and talent: Inside Nvidia's plan to dominate biotech's AI revolution
2. 国联证券:医疗AI赋能医药产业新发展
3. The Economist:Big pharma is warming to the potential of AI
4. MIT Review:AI is dreaming up drugs that no one has ever seen. Now we’ve got to see if they work.
5. Reuters:Big Pharma bets on AI to speed up clinical trials
也许你还想看:

经纬张颖:2023,不只克服困难而是习惯困难 

经纬张颖内部讲话:2024,四大关键决策

经纬2023年终盘点:Adaptability is the key to thriving

继续阅读
阅读原文