00
推荐者语
井绪天
 晨兴资本副总裁
专注于医疗服务、智慧医疗及大健康领域。邮箱:[email protected]
近期,因为新型冠状病毒疫情的影响,「新药研发」、「疫苗研发」等话题也开始进入大众视野。
新药研发是一个周期特别长,体系非常复杂的过程,今天推荐的这篇文章,来自晨兴的被投企业——晶泰科技的联合创始人之一赖力鹏,在「造就」的演讲,从一个通俗易懂的角度以小分子早期发现为例,给大家科普一下目前最前沿的计算技术是如何赋能新药研发的。
晨兴从2017年开始关注「AI新药发现」,虽然这个赛道依然面临诸多挑战,但我们相信,未来,它一定能创造巨大的社会和商业价值。
如果你也关注这个赛道,欢迎和我交流。
THE TAKEAWAY:
  • 在整个化学空间里面,我们可以找到的药物分子的个数,可能性是10的60次方。
  • 利用机器学习、人工智能的方法,能够在非常早期,对未来将会成为药物的分子同时进行相对全面的判断,能提前筛掉后续实验将会失败的分子。
  • 人工智能用在新药发现上,有希望能极大地提高现在的发现效率和现在的成功率,我们可能有希望说,把现在需要三到四年才能完成的新药发现的前期过程,缩短到一年的时间就可以做完。
来源 | 造就
文字 | 李莹
视频 | Don
赖力鹏
晶泰科技联合创始人
麻省理工学院生物物理博士后
01
传统新药研发的难点
传统的新药研发过程是怎样的?它有两个特点:第一,周期特别长;第二,体系非常复杂。
从生物学上确定可能产生疾病的原因,然后到各种可能的分子当中去寻找,找到合适的药物,最后在医学上临床测试,这个过程前后平均下来可能要花超过10年时间,总体的投入会超过10亿美元,但成功率可能还不到10%。
传统药物的研发过程
1901年,我们人类第一次确诊阿尔兹海默症,到2019年已经过了100多年的时间,我们依然没有能够找到有效的治疗方法。(阿尔茨海默症,一种神经退行性疾病,多发于老年,出现记忆障碍、失语、失去认知能力等是该疾病主要表现)我们等待了100年,还是没有找到更好的药。
《Nature》在2017年有篇文章叫The drug-maker’s guide to the galaxy,它给了我们一个新的希望:经过化学家的分析,在整个化学空间里面,我们可以找到的药物分子的个数,可能有10的60次方。
而实际我们在传统实验室里,通过传统的药物筛选办法能够接触到的分子数量,大概在10的11次方。
11和60,这两个数字中间,存在着一个指数级的差异。这是什么概念呢,我们太阳系里面所有的原子加到一起,数量大概是10的54次方。
就像我们要探索的可能是整个太阳系里所有的原子,要把每个原子都拿起来,看一看这个原子到底能不能成为药物,但我们现在实验室里能够接触到的原子,大概可能就是不到这个屋子这么大的一个范围里的原子数量。
10的60次方意味着什么
那么,面对10的60次方的化合物的空间,我们怎么能找到这里面哪个化合物可以治愈疾病?
这个问题可以拆成两个部分:
第一,我们怎么构造一个虚拟的空间,可以容纳这10的60次方的化合物?
从工程上来说,这就是一个很难的问题。
当我们的药物分子库从传统实验室的10的11次方,增加到10的60次方的时候,这就变成了一个天文甚至比天文数字更大的一个数字,以现在的计算能力我们还没有办法处理。所以这就是我们在研究当中一直会关注的一个问题,面对这10的60次方的空间,我们怎么样用一个更好的数学方法把它们表示出来?
第二,在这10的60次方的空间里面,我们怎么找到真的能够成为药物的分子?
因为这10的 60次方的分子库里面,可能它并不都是有用的分子,一个药物能够成为药,它可能在多方面是优秀的,它既要有很好的药效,同时它吃进去可以被很好地吸收,同时它不应该具有毒性,等等。
所以,我们需要找到的是那些孤立的一个个的小岛,小岛里面的每个分子可能是有用的。我们可以轻易地用计算机产生几十万或者几百万,和分子相似的分子,让它能够具有相似的成药的可能性。但如果你说让一个化学家拿着纸和笔在纸上去画,可能画10000个分子就是一件非常累的事情。
所以这也是我们说人工智能在这个方面可以帮助我们去探索更大的化合物的空间,从而为我们发现新药提供更多的可能性。
02
AI如何帮助传统新药研发?
大家看这个分子,是我随便挑出来的,你们觉得这个分子长得漂亮吗?它像不像个药?
来那度胺
其实这个是一个已经成药的、非常重磅的抗肿瘤药物,叫来那度胺。它是美国Celgene公司在2005年上市的一个重磅药物,最近几年的年销售额应该是过几十亿美元。
化学、生物本身,它也有自己的语言规律,比如说碳可能最多连四个键,然后在药物里,可能我们更习惯看到苯环的出现等等。
熟悉这种语言,并针对这种大量的分子结构,做深度学习,人工智能就有可能学会这种化学分子结构的语言。
人工智能画的分子
这是我们做的一个比较早期版本的一个人工智能,就像大家可能听过说人工智能可以作曲、画画,其实人工智能也可以画分子。
我们通过让机器学习了大量的分子结构数据之后,它学到了一些化学的知识,然后它开始去产生分子结构。
但我知道这些图画出来,如果有化学家看见,可能会把我拍在地上,其中有些分子的化学结构可能是非常不合理的。目前我们在这个最早期版本上已经做了很多的改进,让AI产生的分子尽可能符合药物设计的要求。
化合物空间分布示意图
这张图我非常喜欢,它特别像天空中的一些星图,它也特别像大脑。它是我们自己做出来的一张化合物空间分布示意图。
这个图上的每一个点代表一个分子结构:蓝色的点是我们用来训练人工智能所用到的我们的分子数据集。红色是人工智能学习完之后,去随机地产生不同的、新的分子结构的分布。
我们最想找到的,是那些更有可能成药的真正高质量的小岛。
就像Alpha Go或者Alpha Master,它们可以和自己对弈,不断强化,不断去纠正自己的习惯,从而下得越来越好一样。产生分子的人工智能也是,我们通过一定的规则去告诉它,我到底需要什么样的分子结构,那么它就可以去学习。
这张图上黄色的点,是我们对分子溶解度表现进行重点优化后筛选出来的分子。可以看到这些经过强化学习的黄色分子的分布,和红色的随机分布,产生了显著的不同。
我们其实是利用我们的化学手段,在尝试和人自身进行一场对话。
上个世纪的人类基因组计划是一个伟大的计划,是我们尝试在分子层面上去理解:
我们的生命是如何自我表达,我们的代际之间是怎么去沟通,我们如何通过遗传物质,让一代人和下一代人进行对话
现代生物学已经知道,碱基可以形成DNA的序列,然后DNA通过生物学的过程,可以去指导蛋白质的合成,而蛋白质是由20种氨基酸按照一定的规律排列起来的,不同的排列可能会有不同的功能。
而我们已经可以用人工智能和计算的方法在一定程度上做到:你给我一个蛋白质序列,我可以告诉大家,它在三维空间当中会具有什么样的结构,而这个结构会怎样影响到生物的功能,不同的蛋白质之间通过三维的结构如何产生对话,从而去影响彼此。
在虚拟空间计算得到的蛋白质的三维结构
下面这张图左边蓝色的部分是蛋白质,是生物学的理解,然后黄色的部分,是我们做的化学分子,是我们的化学语言。
药物研究是一场我们尝试与自身的“对话”
我们要做的事情就是,尝试理解生物学语言,尝试理解化学语言,然后把这两个语言合到一起,从而能够找到和疾病相关的蛋白质最匹配的那个化学分子,最终治愈我们的疾病。
刚才所讲的这些东西听起来很科幻,但它其实并不是神话。这里演示的是我们的实际案例,但图里面的结构不是真实案例中的。这里只是演示了我们利用人工智能进行早期药物发现的过程:
人工智能药物发现的流程
我们拿到了一个蛋白,然后我们可以用人工智能的方法去产生那些我们所感兴趣的、可能有用的化合物的空间,这个案例里我们产生了600万的化合物空间;然后我们基于对蛋白结构的理解,以及对小分子化合物的溶解度、毒性,在体内的吸收、代谢、排泄等属性进行同时的优化,最后我们留下了六个分子;然后这六个分子,在为期一个月的筛选过程中,最后的结果表现非常良好,可以进行到药物研发的下一个阶段。
这个项目我们在继续推进,在未来,新的药物很有可能会诞生在这六个分子当中。
这也是人工智能比传统的方法更有优势的地方,利用机器学习、人工智能的方法,能够在非常早期,对未来将会成为药物的这些分子同时进行相对全面的判断,我们能提前筛掉后续实验会失败的分子。
赖力鹏在造就演讲
所以这就是为什么,人工智能用在新药发现上,有希望能极大地提高现在的发现效率和现在的成功率,我们可能有希望说,把现在需要三到四年才能完成的新药发现的前期过程,缩短到一年的时间就可以做完
但回到现状本身,我们不得不充满敬畏地说,生物是一个非常复杂的体系。我们不认为说现在人工智能,可以单枪匹马完成整个新药发现的历程,我们更多认为人工智能,是在帮助我们更好地理解自己。
在整个新药发现的过程中,人工智能技术已和药物化学家一起合作,来让人类可以去发现更好的药物。
当然,在所有的药物发现创新过程中,计算只是一方面。我们可以看到还有其它大量的创新:机器人自动化的实验方法、基因检测技术和化合物筛选的结合、大规模的分子库的筛选方法,其实都在蓬勃的发展中
药物发现创新过程中的创新
2019年美国FDA一共批准了48款新药,其中有20个是全新意义上的新药。
在药物创新这一块,大家都在努力,但是远远不够。在人工智能帮助我们发现新药的路径上,我们可能还是会面临很多挑战,比如如何把各个药企的数据结合到一起,利用更多高质量数据去做出更好的模型。
更重大的挑战是,当面临这样一个跨学科的复杂问题,在人工智能新药发现这个话题下面,我们会汇聚化学、生物、计算机、数学、统计等多个学科的人才,这些人怎么样才能够站到一起,彼此对话,彼此理解,而不是坚持己见,保有原来固有的思维方式。这个可能是我们需要解决的最大的困难。
阿西莫夫曾经在《永恒的终结》中说:
阿西莫夫《永恒的终结》中的一句话
用技术发现药物,也是这样。
END
阅读推荐
晨兴资本是中国最早从事早期风险投资的机构之一,目前管理美元和人民币双币基金,所管理资金规模约数十亿美元,出资人来自国际知名主权基金、家族基金、母基金及大学基金会等。
团队共事近二十年以来,晨兴资本寻找、支持、激励孤独的创业者,且共享他们卓越的远见,为其提供我们的洞察力、行业经验,以及在创业中从精神到所有经营运作的支持。
晨兴资本成功投资了搜狐(NASDAQ:SOHU)、携程(NASDAQ:CTRP)、第九城市(NASDAQ:NCTY)、正保远程教育(NYSE:DL)、聚众传媒(分众传媒(SZ:002027))、迅雷(NASDAQ:XNET)、凤凰新媒体(NYSE:FENG)、UCWeb(阿里巴巴(NYSE:BABA))、欢聚时代(NASDAQ:YY)、大黄蜂打车(滴滴出行)、Musical.ly(字节跳动)、华米科技(NYSE:HMI)、精锐教育(NYSE:ONE)、虎牙(NYSE:HUYA)、小米集团(HK:0181)、云米(NASDAQ:VIOT)、金山办公(688111.SH)、荔枝(NASDAQ:LIZI.US)等企业。投资组合还包括快手、微医集团、商汤科技、小鹏汽车、大搜车、地平线机器人、Bigo、爱回收、小猪短租、脉脉、智米、Pony.AI、Keep、Agora等高速成长的优秀企业。
有任何想法和建议,欢迎留言与我互动;如果今天的内容让你有所收获,欢迎转发分享。
继续阅读
阅读原文