如何搭建生命科学的ChatGPT，传统科学将成为「AI+Science」主战场

2 月 10 日，《理解未来》科学讲座 AI for Science 系列 03 期在线上举行。活动由未来论坛理事、北京大学李兆基讲席教授、北京大学理学部主任谢晓亮策划组织。邀请了中国科学院院士、北京大学教授、北京大数据研究院院长、北京科学智能研究院（AI for Science Institute, Beijing）院长鄂维南，加拿大魁北克省人工智能研究中心（Mila）副教授、加拿大高等研究院（CIFAR）人工智能讲席教授唐建。几位老师分别围绕「AI for Science 科技革命」、「生命科学中的生成式人工智能」共同探索交流「AI+生命科学」的潜力及未来发展新方向。

AI for Science：一场正在发生的科技革命

人工智能正在协助突破人类固有的认知局限。以机器学习为代表的人工智能技术正在与科学研究深度融合，借助机器学习在高维空间的表示能力，人类可以更加真实细致地刻画复杂系统的机理，并有望发现新的科学规律。

2018年，鄂维南教授率先在国际上提出了 AI for Science 的概念，并大力推动了 AI for Science 在应用数学、物理、化学、历史、生物学等各个方向的发展，做出了许多的原创性突破。

直播中，鄂维南教授以《AI for Science：一场正在发生的科技革命》为题，从数学理论基础上阐释 AI for Science，并以分子动力学在材料、生物医药上等领域的应用为例，前瞻 AI for Science 的产业变革。

生命科学中的生成式人工智能：如何搭建生命科学的「ChatGPT」

当前我们正处在 AI 以及生物技术革命的交汇点。一方面，几何深度学习技术（如AlphaFold2）在分子建模方面取得了巨大突破；另一方面，以合成生物学为代表的生物技术能够对基因进行快速读、写、以及编辑，给AI创造了大量的数据。两种革命技术的深度融合为全新的药物分子生成带来了巨大的机会。

在唐建教授看来，AI 设计得到的药物分子可以进一步与实验平台进行交互，进行闭环，继续优化生成模型，这一模型未来将不仅仅惠及生物医药领域，在农业、食品、材料、能源、环境等多个领域都会产生重要的影响。

直播中，唐建教授以《生命科学中的生成式人工智能：如何搭建生命科学的「ChatGPT」》为题，介绍人工智能与生物技术的发展变革，阐释生成机器学习在小分子药物、抗体设计、蛋白设计等方面的应用与发展前景。

另外，几位老师就 ChatGPT 对科研的影响、AI 在生命科学领域的前景等相关问题交换了看法。

此处只节选部分内容，对对话进行了不改变原意的整理：

ChatGPT 对科研及发表文章的影响，是只具备互动能力的百科全书，还是能够产生原创内容？

唐建：我觉得 ChatGPT 反映了 AI 或者机器的强项，因为 AI 或者机器是相当于把所有可能的信息（包括互联网上所有可能的文本，各种知识文本代码）都进行了训练。也就是现在的 AI 模型，在所有这些数据上进行训练之后，所以得到的信息知识就很多。所以，当我们的计算能力达到一定强度后，我们就可以 develop 这样一个模型，能够从大量的信息里去学习，所以 ChatGPT 现在在很多任务上都确实有非常不错的表现。

谢晓亮：我的理解是这样的，现在 ChatGPT 已经可以做成一个可以和人对话的百科全书。越来越逼近，但是它并不能够产生原创的东西。

唐建：ChatGPT 是可以产生原创的，它不是完全只从训练数据里面去搬过来，它可以生成全新的内容。它是有创造能力的，所以它确实相当于一个超强大脑。我们用户可以提供一些 query，从大脑里去 query 我们想要的信息。一个比较实际的应用就是对话系统，我问一个问题，这个大脑可以做对应的回答，你可以与它进行对话，所以 ChatGPT 确实像百科全书一样。当然百科全书它很大，把所有可能信息都藏在了里面，而且我们用户可以很快地去从百科全书里得到我们想要的知识。

谢晓亮：你说可以有一些原创，那原创程度有多高？当然肯定会越来越高。最后，我们会不会担心它会越来越高？

唐建：ChatGPT 生成的那些文本其实是可以控制的。至少在蛋白质设计方面，我们设计的很多新的蛋白质序列，跟自然界当中确实还是挺不一样的。所以我觉得它的创新度。我们经常用 diversity 角度衡量，还是挺高的。而且你可以对模型进行一些优化调整，可以让它去尽量去生成那些全新的内容，这个是可以做得到的。

谢晓亮：鄂老师，你怎么看？

鄂维南：关于 ChatGPT，这里面有两件事，一个就是 how original is original？第二个就是 doesnt make any sense，比如你让 ChatGPT 创造量子力学恐怕不容易，你不告诉它量子力学，你让它产生量子力学，恐怕不大容易。但是，设想我们不是生命科学，我们是数学。我们训练一个「 MatchGPT」，它很有可能真的会产生一些新的想法，可能这新的想法里面 60% 是错误的， 40% 是对的，就非常了不起。因为我们数学家恐怕 40% 的这些想法里面 40% 对是做不到的。

未来 AI 将在生命科学的哪些方面产生具体的突破？

唐建：我觉得在蛋白质药物设计可能是一个重要方面。目前对于这种药物设计，无论是小分子还是蛋白质设计，本质上我们要生成一些新的假设，不管是数学方面还是分子设计方面。所以我们可以利用生成式模型，去生成全新的小分子或者大分子药物。

另一方面，当然我个人也比较感兴趣，我觉得比较大的突破可能是多组学的数据方面。因为我觉得现在多组学的数据的获取，特别是单细胞测序技术以及冷冻电镜技术，使我们能够从分子水平、细胞水平，来理解细胞跟分子的功能。这里所产生的很多数据，我觉得未来带来的将是革命性的变化。

当我们很能够更好理解分子与细胞的功能之后。有了测序的数据，我觉得可能未来可以进一步拓展。除了去做单细胞测序，我们现在还有，比如空间转录组学的数据。相当于，不仅能理解单个细胞的功能，还能够理解细胞跟细胞之间相互作用。未来，我们有可能可以理解整个组织，可以建立一个组织方面的模型。通过这种数字化的组织器官模型，可以更方便的做一些病理学实验。进而，在疾病的诊断方面，未来可能会有比较大的突破。

谢晓亮：组学确实是一个重要的方面。一个细胞里面有 2 万个基因，其中每一个基因的不同表达，就构成了一个多维的问题，也就是鄂维南老师刚刚讲的维数灾难。这确实是一个值得去研究突破的方面。

当然传统领域也是非常重要，因为机器学习，从图像识别、人脸识别，实际上在医学上的应用看，癌症的成像，更多是直接的应用，其实还有更多的发展空间。

鄂维南：我真的很同意刚才唐老师讲的生成模型，我觉得这方面的发展空间很大。

然后组学方面，现在我觉得关键的问题是怎么做是有效的。两个事情，一个是我们要有效地把研究组织起来，要有不同的背景的人的参加。第二个是要找到一些新的 guiding principle。我们在谈不同尺度的数据，不同尺度的现象的时候，我们要有一些新的 guiding principle 来填补中间的这些尺度的结构。我们现在分子尺度比较清楚，宏观尺度也有一定的 guideline。但是中间尺度我们缺乏一个 guiding principle。这个有可能是做物理的，做数学的人能够帮助的地方。

注：以上整理内容来自《未来科学论坛》。

参考内容：https://mp.weixin.qq.com/s/SPwl0tJRibfCEDDqzOIp2g

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

继续阅读

阅读原文