可跨学科理解、多尺度建模，MIT LAMM 团队发布微调的大语言模型 MechGPT

将 ScienceAI设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

几个世纪以来，研究人员一直在寻找连接不同领域知识的方法。随着人工智能的出现，我们现在可以探索跨领域（例如，力学-生物学）或不同领域（例如，失效力学-艺术）的关系。

为了实现这一目标，麻省理工学院（MIT）原子与分子力学实验室（Laboratory for Atomistic and Molecular Mechanics，LAMM）的研究人员使用了经过微调的大型语言模型 (LLM)，来获取多尺度材料失效的知识子集。

该方法包括使用通用 LLM 从原始来源中提取问答对，然后进行 LLM 微调。由此产生的 MechGPT LLM 基础模型用于一系列计算实验，从而可以探索其知识检索、各种语言任务、假设生成以及跨不同领域连接知识的能力。

尽管该模型具有一定的能力来回忆训练中的知识，但研究人员发现 LLM 对于通过本体知识图提取结构见解更加有意义。这些可解释的图形结构提供了解释性见解、新研究问题的框架以及知识的视觉表示，这些知识也可用于检索增强生成。

该研究以「MechGPT, a Language-Based Strategy for Mechanics and Materials Modeling That Connects Knowledge Across Scales, Disciplines and Modalities」为题，于 2023 年 10 月 19 日发布在《Applied Mechanics Reviews》。

对物理、生物和形而上学概念进行建模一直是许多学科研究人员关注的焦点。早期的科学家和工程师往往深深扎根于从科学到哲学、物理到数学以及艺术的多个领域（例如伽利略·伽利莱、列奥纳多·达·芬奇、约翰·沃尔夫冈·冯·歌德），但是随着科学的发展，专业化在如今已经占据主导地位。部分原因是跨领域积累了大量知识，这需要人类花大量的精力去研究实践。

现在，大型语言模型 (LLM) 的出现挑战了科学探究的范式，不仅带来了基于人工智能/机器学习的新建模策略，而且还带来了跨领域连接知识、想法和概念的机会。这些模型可以补充传统的多尺度建模，用于分层材料的分析和设计以及力学中的许多其他应用。

图：工作流程示意图。（来源：论文）

在这里，LAMM 的研究人员以最近提出的 LLM 在力学和材料研究和开发中的用途为基础，并且基于 Llama-2 based OpenOrca-Platypus2-13B 的通用 LLM，开发了一个经过微调的 MechGPT 模型，该模型专注于模型材料失效、多尺度建模以及相关学科。

选择 OpenOrca-Platypus2-13B 模型是因为其在推理、逻辑、数学/科学和其他学科等关键任务上具有高水平的性能，能够以可管理的模型大小提供跨学科的广泛的、可转移的知识和通用概念，并提供计算效率。

LLM 在科学领域有着强大的应用。除了能够分析大量数据和复杂系统之外，在力学和材料科学领域，LLM 用于模拟和预测材料在不同条件下的行为，例如机械应力、温度和化学相互作用等。正如早期工作所示，通过在分子动力学模拟的大型数据集上训练 LLM，研究人员可以开发能够预测新情况下材料行为的模型，从而加速发现过程并减少实验测试的需要。

此类模型对于分析书籍和出版物等科学文本也非常有效，使研究人员能够从大量数据中快速提取关键信息和见解。这可以帮助科学家识别趋势、模式以及不同概念和想法之间的关系，并为进一步研究产生新的假设和想法。

图：用于构建 MechGPT 的自回归解码器 transformer 架构概述。（来源：论文）

在这里，该团队将重点放在后者的开发上，并探索 MechGPT 的使用，这是基于 Transformer 的 LLM 系列中的一种生成人工智能工具，专门针对材料失效和相关的多尺度方法进行了训练，从而评估这些策略的潜力。

该研究提出的策略包括几个步骤，包括首先是蒸馏步骤，其中研究人员使用 LLM 从原始数据块（例如从一个或多个 PDF 文件中提取的文本）中生成问答对，然后在第二步中利用这些数据来微调模型。这里探索的初始 MechGPT 模型在材料失效的原子建模领域进行了专门训练，并证明了其在知识检索、通用语言任务、假设生成等方面的有用性。