聂再清：科学研究需要大胆设想，不用刻意避免大模型幻觉

本文转载自36氪

当前，围绕大模型的“短期炒作太多，长期关注不足”。进入年中，伴随着ChatGPT网站开始下滑的访问量，OpenAI创始人山姆·奥特曼给出前述警示。

整个上半年，在历来不会错过AI技术任何细小突破的医疗健康领域，疯狂同样止不住。据36氪不完全统计，国内企业今年来发布的医疗健康类大模型已接近20个，全面覆盖学术科研、医学影像、医疗问诊等场景。

短暂的狂欢过后，随着盈利模式不清晰、概念验证尚未落地、大模型问诊效果不及真人医生等经营或技术层面的问题频频出现，行业开始重新审视医疗大模型开发的必要性。

在给了所有人一个惊喜之后，大模型究竟是将走向颠覆，还是只迎来一个阶段性高峰？药物研发大模型和医疗大模型有什么大的不同吗？

36氪就这些话题与清华大学教授聂再清聊了聊。2020年年底，摘下阿里达摩院“大牛”的头衔后，聂再清加盟清华大学智能产业研究院（AIR），目前还担任着由AIR孵化的科技企业水木分子首席科学家的职位。近日，他带领的团队刚刚开源一款参数达百亿的可商用、多模态生物医药大模型BioMedGPT-10B，现已在多个生物医药问答基准数据集上实现SOTA，在专业领域的问答能力比肩人类专家。

聂再清，受访者供图

在聂再清看来，大模型最突出的特点在于实现了自然语言和生物编码语言的对齐。生命现象本质上也是“一种自然进化的语言编码”，通过将作为自然语言的人类知识与蛋白质、氨基酸等数据放置到统一的大模型中进行编码学习，有望让大模型实现融会贯通的能力，进而推动生命科学相关的研究应用。

以下为36氪与聂再清的对话：

大模型要解决“给谁用”的问题

36氪：AI大模型在医疗领域的使用场景很多，更常见的有医学影像、医疗文本处理等。水木分子为什么选择药物开发这个方向？

聂再清：开发大模型首先要弄清楚“到底给谁用”的问题。在医疗健康领域，可应用的场景包括医学影像、药物研发、医疗文本处理、学术科研等。

从实用性角度而言，我们认为医生在接诊时是否真的需要用到大模型仍有待检验，但大模型直接拿给科学家做AI for Science的使用场景是明确的，药物开发是真正能把很多文章、数据去融会贯通，并产生比较好的结果的领域。一些医疗场景需要的可能是智能文本和影像这两个数据模态，但在制药这件事上，数据代码可能是小分子、大分子，或者一段氨基酸序列，蕴含大量生物功能在里边，更具有挑战性。

另一方面，处在训练初始阶段，我们还不能很好地操控大模型时，应该选择一个安全性更高的领域。药物开发的试错环节更多，如果一款药有问题，临床前、临床试验等管线开发的各个阶段都可以随时叫停，不像诊疗那样直接面对患者，风险相对更小。给病人做诊断，10个结果里有1个错的后果可能就很严重；但药物开发时，10个分子里有1个能用，就是一件好事。

36氪：开发生物医药大模型需要怎样的团队配置？

聂再清：开发大模型的门槛相对较高，团队既要懂人工智能，还要懂药，至少是融合了这两个领域的团队才能做，其实并不好招。水木分子在多模态生物医药大模型开发这件事上已经做了两年多了，团队中已经配备了医学背景的科研人员，并聘请了专门做药的顾问，但在生物医药方面也还是在不断学习。

36氪：利用大模型做药物开发和传统的AI制药概念有什么区别？公司提到要做ChatDD引领下的“人机协作对话式药物研发”，如何理解这一概念？

聂再清：传统的药物设计可分为TMDD（Traditional Manual Drug Design）、CADD（Computer-Aided Drug Design）和AIDD（AI Drug Design）三个阶段。其中TMDD基于大量人工试验和经验主义，利用手工合成、提取和筛选药物，低通量、成本高，且缺乏系统性，虽然古老，但很多药企还在沿用这一方法。

图源：水木分子

CADD和AIDD概念其实相似，都是通过计算辅助药物的研发和设计。这一过程中，AI本身是理论计算的一环，AIDD确实可以做得很好，但无法自己做出一款药。因为AI赋能的过程中需要大量人工和AI模型的互动，但行业尚未开发出一个系统或工具实现科研人员和算法的紧密互动。

基于此，我们提出药物设计应该进入一种名为ChatDD的新阶段。相较过去，它多了自然语言和生物编码语言对齐的环节。相当于通过一个大模型把所有外部的知识、数据和工具全部整合，再把科研人员的问题通过提示词传输到大模型中，形成交互，将人的知识和直觉与数据、工具融会贯通，进而提高药物研发效率，甚至产生一些过去时意想不到的效果。

36氪：现在有没有具体的证明大模型提高药物研发效率的案例，比如节省多少开发时间？

聂再清：我们现在还更多的在干实验上验证了效率的提升，和药企的湿实验验证还在进行中。这件事的重点在于，如果有了对蛋白、分子的更好的理解，科研人员在和大模型对话时，就能把语义带进去，做很多操作。

比如在做分子设计时，我们输入一个靶点，然后就能基于靶点的信息和模型进行对话，生成一个小分子药；或者要开发针对某个疾病的小分子药物时，找到最有可能成为成药的小分子大模型就会自动调用DTI算法进行药物靶点亲和力预测。过去研发人员自己手动用算法操作这些步骤，现在通过对话就能实现。

不要怕大模型“胡说八道”

36氪：一般而言，基于语言的生成式模型，它能生成的都是模型已经知道的规则，而药物设计其实是一个不断试错的过程，很多时候逃脱不了人的认知。大模型本身到底能否做研究性的内容？

聂再清：其实蛋白或小分子、疾病之间都是相互连接的知识，我们把这些称作知识图谱，并应用在模型训练的工作上。正是因为有这些联系的存在，我们能将更多的信息融合在一起，启发大模型去思考，比如用在优化分子上。从这个角度来讲，大模型是可以生成新的内容的，并不只是已有知识的重复。

同理，在难成药靶点的开发上，某一个靶点可能尚未被开发，但有没有和这个靶点相似的靶点？这个靶点属于那个疾病？如果有这样的联系，大模型就可以据此去做联想，这是它优于人工的地方。

36氪：有观点认为，医药研发不一定非要做通用大模型，而是各个环节上能有特定的、加速小模型就可以。您是如何看待这个问题的？

聂再清：小模型或针对单独模态的模型“更多只是对一个生物编码语言的理解”。有一个小分子模型，理解的就是小分子的情况；做一个大分子模型，理解的就是大分子。但在实际的应用中，由于人类现有知识中存在大量通过自然语言记录的内容，所以除了要把这些小分子、大分子的自身编码模型做得越来越好之外，还需要将这些分子的自身编码模型与之对齐。最终，小模型会成为大模型里的一个可随时调用的工具，从而更好应用于药物研究，甚至临床报告设计、患者招募等环节。通过和一些从业者的沟通，我们发现这部分需求也确实存在。

从数据质量角度来讲，目前已公开的各种结构化、非结构化的数据，比如PubMed、生物医药专利、以及海量的蛋白质氨基酸序列和单细胞测序数据等，能够提供的数据量就已经足够多，就像ChatGPT一样，我们完全能够基于公有数据训练模型，能做的事情非常多。对于私有数据，它的价值确实也很大，但也可以通过和相关企业开展合作的形式做私有化部署。

36氪：如何避免大模型“一本正经地胡说八道”？

聂再清：我们并不刻意避免。科研工作有时候需要一定的幻觉，只是要把控这个程度，因为科研创新并不是完全把以前的知识重新重复出来，而是要产生新的内容，所谓“胡说八道”其实给创新提供了一定的可能性。

36氪：评价大模型公司的维度、标准有哪些，大模型之后会不会陷入“内卷”状态？

聂再清：生物医药大模型企业尚处在早期阶段，评价体系还没有那么全面，但不会完全参考制药公司的评价标准。归根结底是要看你的大模型能否为客户产生价值，比如是否真的提升效率、提高立项成功率等。

我认为通用大模型不会内卷，因为随着开源的通用大模型越来越多，你只有证明自己比开源的模型更好才有价值，不然为什么要做它？所以有些人可能做着做着就放弃了。未来，真正能跑出来的可能还是和各行业相结合的大模型，因为大模型的未来更多会成为行业的操作系统，将各行业里的工具、数据、和自然语言文本整合起来。从这个角度来讲，基于各行业开发的大模型有可能会再卷一卷。

36氪：大模型企业的商业模式可以是怎样的？

聂再清：生物医药大模型本身可以有To B和To C两种用法，基本都可以走软件付费、卖平台的方式。比如To B向的模式，就是和合作客户做私有化部署，至少在早期是这样的。

文｜胡香赟

编辑｜海若镜

本文图片来自：Pexels、采访供图

AIR长期招聘人工智能领域优秀科研人员

点这里关注我们

关于AIR

清华大学智能产业研究院（Institute for AI Industry Research, Tsinghua University，英文简称AIR，THU）是面向第四次工业革命的国际化、智能化、产业化的校级研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎，突破人工智能核心技术，培养智能产业领军人才，推动智能产业跨越式发展。

AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。

智慧交通（AI＋Transportation）、智慧物联（AI＋IoT）、智慧医疗（AI＋Life Science）是清华大学智能产业研究院的三个重点研发方向。

继续阅读

阅读原文