谷歌医疗大模型登Nature：Med-PaLM准确率与人类医生相当

将 ScienceAI设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 绿萝

大型语言模型 (LLM) 已展现出令人印象深刻的功能，但临床应用的门槛很高。评估模型临床知识的尝试通常依赖于基于有限基准的自动评估。

今年年初，谷歌 Med-PaLM 的下一个迭代：Med-PaLM 2，在医学考试问题上持续表现出「专家」医生水平。

Med-PaLM 2 是首个在美国医疗执照考试（USMLE）的 MedMCQA 数据集上达到「专家」应试者水平表现的 LLM，准确率达到 85% 以上，也是首个在包括印度 AIIMS 和 NEET 医学考试问题的 MEDMCQA 数据集上达到及格分数的 AI 系统，得分为 72.3%。

现在，谷歌又对医学大模型进行了优化和升级。

该研究以「Large language models encode clinical knowledge」为题，于 7 月 12 日发布在《Nature》上。

研究人员提出了新的基准 MultiMedQA，由七个医学问答数据集组成，包括六个现有数据集：MedQA、MedMCQA、PubMedQA、LiveQA、MeductionQA 和 MMLU 临床主题。，以及一个新的在线搜索医疗问题数据集 HealthSearchQA。

还提出了一个人类评估框架模型答案沿着多个轴，包括事实，理解，推理，可能的伤害和偏见。

此外，研究人员还在 MultiMedQA 上评估 PaLM（一个 5400 亿参数的 LLM）及其指令调整变体 Flan-PaLM。通过结合提示策略，Flan-PaLM 在每个 MultiMedQA 多项选择数据集：MedQA、MedMCQA、PubMedQA 和测量大规模多任务语言理解 MMLU 临床主题上均实现了最先进的准确性。

Flan-PaLM 在美国医学执照考试（USMLE） MedQA 上，取得了 67.6% 的成绩，超越现有技术水平 17% 以上。

尽管 Flan-PaLM 在多项选择题上表现强劲，但其对消费者医疗问题的回答却暴露出关键差距。

为了解决这个问题，研究人员引入了指令提示调整。由此产生的模型 Med-PaLM 表现令人鼓舞，但仍然不如临床医生。

图示：临床医生对答案的评估。（来源：论文）

例如，一个临床医生小组认为只有 61.9% 的 Flan-PaLM long-form 答案符合科学共识，而 Med-PaLM 答案为 92.6%，与临床医生生成的答案 (92.9%) 相当。

同样，29.7% 的 Flan-PaLM 答案被评为可能导致有害结果，而 Med-PaLM 的这一比例为 5.9%，这与临床医生生成的答案 (5.7%) 的结果相似。

研究表明，随着模型规模和指令提示调整，理解力、知识回忆和推理能力得到提高，这表明 LLM 在医学领域的潜在用途。

主要贡献

第一个关键贡献是：在医学问答的背景下评估 LLM 的方法。

研究引入了 HealthSearchQA，这是一个包含 3,173 个常见搜索的消费者医疗问题的数据集。将这个数据集与六个现有的开放数据集一起展示，用于回答涵盖医学检查、医学研究和消费者医学问题的医学问题，作为评估 LLM 临床知识和问答能力的多样化基准。

研究为医生和非专业用户试用了一个框架，以评估 LLM 绩效的多个轴，超越多项选择数据集的准确性。

第二个关键关键贡献是：使用 Flan-PaLM 和提示策略组合在 MedQA、MedMCQA、PubMedQA 和 MMLU 临床主题数据集上展示最先进的性能，超越了几个强大的 LLM 基线。

具体来说，在 MedQA 上达到 67.6% 的准确率（比之前的最新技术水平高出 17% 以上），在 MedMCQA 上达到 57.6%，在 PubMedQA 上达到 79.0%。

第三个贡献是：引入指令提示调整。并利用这项技术构建了 Med-PaLM，这是专门针对医疗领域的 Flan-PaLM 的指令提示调整版本。

人类评估框架揭示了 Flan-PaLM 在科学基础、危害和偏见方面的局限性。尽管如此，根据临床医生和非专业用户的说法，Med-PaLM 在其中几个轴上大大缩小了与临床医生的差距（甚至是有利的）。

图示：贡献概述。（来源：论文）

总之，基础模型和 LLM 的出现，促使人们重新思考医疗人工智能的发展，并使其使用起来更容易、更安全和更公平。与此同时，医学对于 LLM 的应用来说是一个特别复杂的领域。

尽管这些结果很有希望，但医学领域很复杂。进一步的评估是必要的，特别是在安全性、公平性和偏见方面。在这些模型可用于临床应用之前，必须克服许多限制。

论文链接：https://www.nature.com/articles/s41586-023-06291-2

参考内容：https://blog.google/technology/health/ai-llm-medpalm-research-thecheckup/

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

继续阅读

阅读原文