World Model As Agent 是 AGI 的必经之路吗？

机器之心PRO · 会员通讯 Week 01

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. World Model As Agent 是 AGI 的必经之路吗？

世界模型是什么？LLM 已经具备世界模型的雏形了吗？LLM 与世界模型能「划等号」吗？世界模型是如何实现「超级 AI」的？...

2. 一文回顾 AI4Science 进展

AI 推动了哪些科学研究范式的转变？AI 在科研各个领域中有哪些共性的应用？大语言模型是如何加持科学研究的？有哪些研究工作值得关注？...

3. 「AI 生成的」生成式 AI 综述了解一下？

这篇综述是 AI 生成的？OpenAI 研究员为何吐槽这篇综述？MoE、多模态和 AGI 对生成式 AI 有何影响？综述是怎么看待 Q*的？...

...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递，其中技术方面 13 项，国内方面 9 项，国外方面 8 项...

本期通讯总计 24635 字，可免费试读至 8 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① World Model As Agent 是 AGI 的必经之路吗？

日期：1 月 4 日

事件：跨年之际，业内不少知名学者、大佬们发表了对 2024 年 AI 的预测，不乏有多模态、AI 智能体、世界模型等热门关键词。其中，世界模型作为实现超级 AI/通用具身智能的有效路径，备受关注。早期，LSTM 的作者 Jürgen Schmidhuber 探索了基于 LSTM 的强化学习和世界模型，为后续的世界模型奠定了基础；2022 年 6 月，图灵奖得主 Yann LeCun 发表论文，提出「世界模型」的架构；近期，吴恩达在接受「金融时报」采访时表示，「现在 LLM 已经具备了世界模型的雏形。有科学证据表明，LLM 在接受大量数据训练后，确实可以建立一个世界模型。」

世界模型是什么？[1]

1、在 Yann LeCun 的论文《Yann Lecun: A Path Towards Autonomous Machine Intelligence》中，对于世界模型的描述为：

① 世界模型可能预测自然世界的演化，或者预测由行为主体模块提出的一系列动作所导致的未来世界状态。世界模型可以预测多个合理的世界状态，这些状态由潜在变量参数化，这些潜在变量代表对世界状态的不确定性。

② 世界模型是一种模拟世界相关方面的‘模拟器’。世界状态的哪些方面是相关的取决于手头的任务。配置器配置世界模型以处理当前的情况。预测是在包含与任务相关信息的抽象表示空间内进行的。

③ 理想情况下，世界模型会在多个抽象层次上操纵世界状态的表示，使其能够预测多个时间尺度。一个关键问题是，世界模型必须能够表示世界状态的多种可能预测。自然世界并不是完全可预测的。这一点尤为重要。

2、世界模型（或称预测动力学模型）的核心任务是预测在特定智能体行动下，世界状态的变化，即尝试建模世界的状态转换函数。

目前，大语言模型能否和世界模型「划等号」？[2] [3]

1、图灵奖得主 Yann LeCun 在一场辩论表示，「从现在起 5 年内，没有哪个头脑正常的人会使用自回归模型。」Yann LeCun 认为自回归大型语言模型没有前途，模型并不了解这个世界底层的事实（underlying reality），而构建「世界模型」才是正道。

2、Yann LeCun 认为，当前的这些大型语言模型在学习方面是非常低效的。虽然表现惊人，但很多问题难以解决，包括事实错误、逻辑错误、前后矛盾、推理有限、容易生成有害内容等。重要的是，这类模型并不了解这个世界底层的事实（underlying reality）。

3、但近期，也有一些研究开始探索直接使用大型语言模型作为动态世界模型，但因受限于上下文限制和幻觉等大型语言模型自身存在的问题，这些探索还处于较为初期的阶段。

4、2023 年 10 月，MIT 的一项研究证实了大语言模型能够理解世界。

① MIT 的研究者通过对「从 LLM 中提取真实的世界地图」验证发现，LLM 在多个尺度上都学习了空间和时间的线性表征，而这些表征对不同的提示变化具有稳健性，并且在不同的环境类型（如城市和地标）中具有统一性。

② 同时，研究者还发现，LLM 具有独立的「空间神经元」和「时间神经元」，可以可靠地编码空间和时间坐标。也就是说，LLM 绝不仅仅是学习了表面的统计数据，而是获得了关于空间和时间等基本维度的结构化知识。

5、2023 年 11 月，西安交大、微软、北大的研究者发表论文，提出了 LEMA 框架，通过逆向学习过程（即从 LLM 犯过的错误中学习）进一步提高大模型的推理能力。

① 首先，研究者生成错误 - 修正数据对（称为修正数据），然后，利用修正数据对 LLM 进行微调。在生成修正数据时，研究者使用了多个 LLM（包括 LLaMA 和 GPT 系列模型）来收集不准确的推理路径（即最终答案不正确），然后使用 GPT-4 作为「修正器」，为这些不准确的推理路径生成修正。

② 由于「世界模型」对现实世界的逻辑和规则具有先验意识，但大模型本身不具备推理能力。LEMA 框架采用了 GPT-4 作为「世界模型」，教导更小的模型遵守这些逻辑和规则，而不仅仅是模仿 step-by-step 的行为。

6、2023 年 2 月，哈佛大学、麻省理工学院的研究者同发表了一项研究 Othello-GPT，在简单的棋盘游戏中验证了内部表征的有效性。研究者认为语言模型的内部确实建立了一个世界模型，而不只是单纯的记忆或是统计，但其能力来源还不清楚。

① 在没有任何奥赛罗规则先验知识的情况下，研究人员发现模型能够以非常高的准确率预测出合法的移动操作，捕捉棋盘的状态。

② 同时，吴恩达对该研究表示高度认可，他认为基于该研究，有理由相信大型语言模型构建出了足够复杂的世界模型，在某种程度上来说，确实理解了世界。

为什么说「world model as Agent」有可能走得通？[4]

1、2018 年，David Ha 和 Jürgen Schmidhuber 在论文《World Models》中将心智模型的概念引入到了机器学习模型的构建中。

① 论文中指出，我们大脑中的预测模型预测的可能不是一般性的未来，而是基于我们的动作的未来的感官数据。这样，我们就能基于这个预测模型采取直觉行动，并在面临危险时执行快速反射行为。这个过程并不需要进行有意识的规划。

② 因此，如果能让人工智能体具备对于过去和当前状态的优良表征，那么就可能让该智能体在执行任务时表现得更加智能，尽管这个过程可能是无意识的。

2、世界模型（或称预测动力学模型）的核心任务是预测在特定智能体行动下，世界状态的变化，即尝试建模世界的状态转换函数。而实现通用具身智能的关键之一就是让机器学习系统能从自然模态（如视觉、听觉）中学习世界的层级化抽象，即世界模型。

3、世界模型能够将感知和认知整合在同一框架下。在现有的具身智能系统中，感知到认知的过程是通过独立模块完成的，这在模块间的衔接上面临挑战，同时是高级自动驾驶技术等具身智能系统难以实现的原因之一。

继续阅读

阅读原文