机器之心PRO · 会员通讯 Week 01
---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----
 1. World Model As Agent 是 AGI 的必经之路吗? 
世界模型是什么?LLM 已经具备世界模型的雏形了吗?LLM 与世界模型能「划等号」吗?世界模型是如何实现「超级 AI」的?...
 2. 一文回顾 AI4Science 进展 
AI 推动了哪些科学研究范式的转变?AI 在科研各个领域中有哪些共性的应用?大语言模型是如何加持科学研究的?有哪些研究工作值得关注?...
 3. 「AI 生成的」生成式 AI 综述了解一下? 
这篇综述是 AI 生成的?OpenAI 研究员为何吐槽这篇综述?MoE、多模态和 AGI 对生成式 AI 有何影响?综述是怎么看待 Q*的?...
...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 13 项,国内方面 9 项,国外方面 8 项...
本期通讯总计 24635 字,可免费试读至 8 % 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读 ① World Model As Agent 是 AGI 的必经之路吗?

日期:1 月 4 日
事件:跨年之际,业内不少知名学者、大佬们发表了对 2024 年 AI 的预测,不乏有多模态、AI 智能体、世界模型等热门关键词。其中,世界模型作为实现超级 AI/通用具身智能的有效路径,备受关注。早期,LSTM 的作者 Jürgen Schmidhuber 探索了基于 LSTM 的强化学习和世界模型,为后续的世界模型奠定了基础;2022 年 6 月,图灵奖得主 Yann LeCun 发表论文,提出「世界模型」的架构;近期,吴恩达在接受「金融时报」采访时表示,「现在 LLM 已经具备了世界模型的雏形。有科学证据表明,LLM 在接受大量数据训练后,确实可以建立一个世界模型。」
世界模型是什么?[1]
1、在 Yann LeCun 的论文《Yann Lecun: A Path Towards Autonomous Machine Intelligence》中,对于世界模型的描述为:
① 世界模型可能预测自然世界的演化,或者预测由行为主体模块提出的一系列动作所导致的未来世界状态。世界模型可以预测多个合理的世界状态,这些状态由潜在变量参数化,这些潜在变量代表对世界状态的不确定性。
② 世界模型是一种模拟世界相关方面的‘模拟器’。世界状态的哪些方面是相关的取决于手头的任务。配置器配置世界模型以处理当前的情况。预测是在包含与任务相关信息的抽象表示空间内进行的。
③ 理想情况下,世界模型会在多个抽象层次上操纵世界状态的表示,使其能够预测多个时间尺度。一个关键问题是,世界模型必须能够表示世界状态的多种可能预测。自然世界并不是完全可预测的。这一点尤为重要。
2、世界模型(或称预测动力学模型)的核心任务是预测在特定智能体行动下,世界状态的变化,即尝试建模世界的状态转换函数。
目前,大语言模型能否和世界模型「划等号」?[2] [3]
1、图灵奖得主 Yann LeCun 在一场辩论表示,「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」Yann LeCun 认为自回归大型语言模型没有前途,模型并不了解这个世界底层的事实(underlying reality),而构建「世界模型」才是正道。
2、Yann LeCun 认为,当前的这些大型语言模型在学习方面是非常低效的。虽然表现惊人,但很多问题难以解决,包括事实错误、逻辑错误、前后矛盾、推理有限、容易生成有害内容等。重要的是,这类模型并不了解这个世界底层的事实(underlying reality)。
3、但近期,也有一些研究开始探索直接使用大型语言模型作为动态世界模型,但因受限于上下文限制和幻觉等大型语言模型自身存在的问题,这些探索还处于较为初期的阶段。
4、2023 年 10 月,MIT 的一项研究证实了大语言模型能够理解世界。
① MIT 的研究者通过对「从 LLM 中提取真实的世界地图」验证发现,LLM 在多个尺度上都学习了空间和时间的线性表征,而这些表征对不同的提示变化具有稳健性,并且在不同的环境类型(如城市和地标)中具有统一性。
② 同时,研究者还发现,LLM 具有独立的「空间神经元」和「时间神经元」,可以可靠地编码空间和时间坐标。也就是说,LLM 绝不仅仅是学习了表面的统计数据,而是获得了关于空间和时间等基本维度的结构化知识。
5、2023 年 11 月,西安交大、微软、北大的研究者发表论文,提出了 LEMA 框架,通过逆向学习过程(即从 LLM 犯过的错误中学习)进一步提高大模型的推理能力。
① 首先,研究者生成错误 - 修正数据对(称为修正数据),然后,利用修正数据对 LLM 进行微调。在生成修正数据时,研究者使用了多个 LLM(包括 LLaMA 和 GPT 系列模型)来收集不准确的推理路径(即最终答案不正确),然后使用 GPT-4 作为 「修正器」,为这些不准确的推理路径生成修正。
② 由于「世界模型」对现实世界的逻辑和规则具有先验意识,但大模型本身不具备推理能力。LEMA 框架采用了 GPT-4 作为「世界模型」,教导更小的模型遵守这些逻辑和规则,而不仅仅是模仿 step-by-step 的行为。
6、2023 年 2 月,哈佛大学、麻省理工学院的研究者同发表了一项研究 Othello-GPT,在简单的棋盘游戏中验证了内部表征的有效性。研究者认为语言模型的内部确实建立了一个世界模型,而不只是单纯的记忆或是统计,但其能力来源还不清楚。
① 在没有任何奥赛罗规则先验知识的情况下,研究人员发现模型能够以非常高的准确率预测出合法的移动操作,捕捉棋盘的状态。
② 同时,吴恩达对该研究表示高度认可,他认为基于该研究,有理由相信大型语言模型构建出了足够复杂的世界模型,在某种程度上来说,确实理解了世界。
为什么说「world model as Agent」有可能走得通?[4]
1、2018 年,David Ha 和 Jürgen Schmidhuber 在论文《World Models》中将心智模型的概念引入到了机器学习模型的构建中。
① 论文中指出,我们大脑中的预测模型预测的可能不是一般性的未来,而是基于我们的动作的未来的感官数据。这样,我们就能基于这个预测模型采取直觉行动,并在面临危险时执行快速反射行为。这个过程并不需要进行有意识的规划。
② 因此,如果能让人工智能体具备对于过去和当前状态的优良表征,那么就可能让该智能体在执行任务时表现得更加智能,尽管这个过程可能是无意识的。
2、世界模型(或称预测动力学模型)的核心任务是预测在特定智能体行动下,世界状态的变化,即尝试建模世界的状态转换函数。而实现通用具身智能的关键之一就是让机器学习系统能从自然模态(如视觉、听觉)中学习世界的层级化抽象,即世界模型。
3、世界模型能够将感知和认知整合在同一框架下。在现有的具身智能系统中,感知到认知的过程是通过独立模块完成的,这在模块间的衔接上面临挑战,同时是高级自动驾驶技术等具身智能系统难以实现的原因之一。
继续阅读
阅读原文