机器人，才是AI世界模型的星辰大海

最近，关于AI世界模型的争议呈现越来越热的趋势，最初是OpenAI宣称自己的视频生成技术Sora，具备通用世界模拟器的能力，Nvidia的高级技术总监Jim Fan跟进支持Sora在某种意义上可以称为“世界模型”，随即就遭到了图灵奖得主、Meta AI掌门人Yann LeCun的猛烈炮轰，声称像Sora这样的自回归模式的生成式模型，根本不是真正的世界模型。

问题来了，AI世界模型这个概念在普通人听起来显得非常陌生，为什么会引发一众行业大佬争论得不亦乐乎呢？你如果认为是大佬们闲得发慌出来摸鱼，那就大错特错了，其实是大佬们对下一个AI要进军的蓝海，开始抢夺认知高地了。

最近，Yann LeCun第三次参与了Lex Fridman访谈。在这场接近三个小时的访谈中，LeCun揭示了这个问题的答案：

未来十年，智能的人形机器人（Humanoid robots）将获得长足的发展和普及，会发展成为一个非常庞大的产业。而目前制约这个产业发展的关键就在于人形机器人需要一个靠谱的世界模型。

波士顿动力一直在人形机器人领域处于领先地位，但是在产品化方面，一直还存在瓶颈，特别是在于如何让人形机器人可以理解世界的运作方式，并合理计划自己的行动，波士顿动力这方面所采用的方法，是采用了大量的人工设计的动力模型以及预先制定的规划策略，这也是非常经典的机器人技术。但是到目前为止，仍然无法在基于这套技术建立一个实用的家庭机器人。

近期，我们也能够看到，人工智能公司大举进军机器人的领域，这已成为行业的一大潮流。比如特斯拉在自己的Optimus人形机器人上有了重大的突破，OpenAI投资了Figure AI，谷歌有自己的RT-2，Mata虽然没有开发自己厂牌的人形机器人硬件，但是也成立了一个具身智能研究团队，采用外购的商用机器人进行研究。甚至连GPU的王者英伟达，也高调宣布要建立一个最土豪的具身智能研究团队——GEAR。

对于世界模型在人形机器人中的重大作用，LeCun如是总结道：

★
除非我们有了世界模型，让机器可以教会自己理解世界运作的方式，否则我们在机器人技术方面不会取得重大的进展。当前机器人行业人士都在押宝并盼望AI能在这个方向上实现突破。

什么是世界模型

先说什么是世界模型，在2018年，David Ha, Jurgen Schmidhuber 在文章《World Models》当中，对AI世界模型有精辟的论述。

开篇引用了系统动力学之父Jay Wright Forrester关于精神模型（mental model）的定义，这可能算是世界模型在认知心理学方面的解读:

★
我们每个人头脑中关于世界的图景只是一个模型，没有人能在头脑中描绘整个世界、政府或国家的图景，他所拥有的只是有选择的有限概念，以及概念之间的关系，并用他们来代表真实的世界。

由于人每天要在日常生活中处理海量的信息，为了保证效率，我们的大脑学会了一种能力，用一种高度抽象的形式（Abstract Representation）来表示信息中的时间和空间的各种维度。

我们的头脑中还演化出了一个对于未来的预测系统，这个系统同时管理着对于外部世界的感知能力。这个系统能进行的不仅是对于未来粗略的预测，而甚至包括对于外部世界可感数据的精确预测，而驱动我们自发的采取反应行动，甚至不需要在头脑中详细的计划后再采取行动，尤其是当我们遭遇危险情境的时候。

这就是为什么棒球的击球手只需要数个毫秒的时间就能够决定，怎么挥动球杆击球，这个时间甚至比起视觉信号传播到达大脑的时间更短，这其中的原因，正是大脑中的内部模型能够精确的预测时速高达160公里以上的棒球的运行轨迹。这个模型就是“世界模型”，或者“通用世界模型”（General World Model，GWM）。

简单总结一下：

世界模型是针对于一个智能体而言的，这个智能体可能是一个人，一个动物，一个AI Agent，或者是一个人形机器人（Humanoid）。
AI世界模型，需要通过感知模块从外界环境获取输入信号，并且高度抽象为一个智能体内部的表示
基于此，世界模型会规划下一步的行动，或是一系列的行动，并预测行动带来的结果，以决策下一采取的行动
再下一步就是采取行动并观察实际的行动结果，形成闭环。

放到陆奇所阐述的人工智能的新范式里面，世界模型是贯穿感知-思考-实现完整链路的关键的一环，也是打开从第二代系统向第三代系统跨越大门的钥匙。这个与前面LeCun在访谈中所提到AI世界模型是人形机器人下一步重大突破关键点的论断是一致的。

Sora称得上是世界模型吗？

以上世界模型定义可以说是行业相对公认的，那么，比照这个定义，我们再回头看一看Sora到底能不能被称之为世界模型。

首先Sora是一个部署在云端的、庞大的文本生视频的人工智能系统，并不是一个和外部物理世界发生交互的智能体，比如人形机器人。

其次，Sora在推理的过程中，并不会对外部物理世界进行观测，以获取输入信息，而只是从人类这里获取一个初始的指令prompt。而在整个生成的过程中，也不会再从外界获取任何信息，而是遵循自回归（Autoregressive）模型的特质，将生成的上一个时空补丁放回到输入序列当中，作为下一次模型推理的输入，自产自销，从某种意义上来说，着其实是一个封闭系统。

最后，对Sora而言，生成视频就是Sora的全部目标，并不存在对于行动的规划、模拟和结果预测、决策，以及行动的执行等等。

所以基于以上几点，从严格的意义上来说，目前形态的Sora，要说是一个货真价实的“世界模型”，说实话看起来确实是有一点站不住脚的。

当然话说回来，Sora在训练过程中，已经从海量的训练视频和文本对当中，吸取了庞大的世界知识，从而使得生成的视频效果，能够比较准确的反映真实世界当中的物理规律和常识。所以，更准确的应该说：Sora在训练过程中隐形习得了大量世界知识，但不是一个严格意义上的世界模型。

基于LLM的Agent，具备有限的世界模型

当前，人工智能界的另一个热点是基于大语言模型的Agent智能体，比如使用ReAct机制，也就是支持Reason+Act机制的智能体。

如果套用世界模型的概念，当下的ReAct Agent其实可以说是一种有限的世界模型。

首先，它是存在于数字世界当中的一段智能化的程序，需要接收人的指令并和外部的数字世界进行交互（或许可以通过IoT连接到物理世界）。
大语言模型会依据一定的常识，对于一项指定的任务进行step-by-step的任务拆解规划。
任务拆解之后的具体的行动或者子任务的执行，是在一个有限的工具空间（tool space）中进行的，对应工具的就是一个一个实现具体功能的API。当然，在这个过程中，大模型也可以根据具体的需求通过coded interpreter，自动生成代码打造所需的工具。
而Agent对于外部世界的观测（Observation）也仅仅局限于，对于人的指令的接收以及调用工具之后返回结果信息的收集。

虽然这在一定程度上符合了对于实践模型的定义，但是当下的Agent和真实的物理世界交互很少，基本上都是在数字符号世界中进行的，加上当前的大语言模型在推理和规划方面，其实还相对比较弱，加上大语言模型本身的幻觉问题，所以当下的Agent其实和Hardcode的程序相比，优势其实还并不明显，甚至显得还有一点鸡肋。

能够用于人形机器人的世界模型应该是怎么样的？

首先我认为应该是以视频信号为主要输入的，这就好比人类的输入信息中，有80%到85%都是来自于视觉，人形机器人少不了和真实的物理世界产生大量的交互，所以主要依靠视觉信息输入应该是没有疑问的。

然后世界模型是需要在时间维度上依赖持续的视觉观测信息输入的，这样才能够针对不断变化的外部环境，做出适时的策略调整。从这个角度上说，目前Sora所代表的封闭式的自回归模型确实是不满足的。

应该是基于有限的算力和存储需求下，能够做到实时或准实时响应的，人形机器人需要独立的应对复杂的工况，实时地处理各种问题，如果把世界模型放在云端，通过API接口去调用是不现实的，而放在本地边缘端，则对算力和存储能力有较大的限制，从这个角度来说，Sora所代表的生成模型，高算力要求和高延迟在这一方面也是不满足的。Sora的视频生成所需算力虽然没有明确披露，但是肯定是依赖了云端的庞大算力的，从Sora延迟上来看，目前得到的消息是生成一秒钟的视频，需要一分钟的时间。

需要能够方便地实现泛化，适应下游的各种任务，而且这个适应的过程，也是人形机器人通过自主的观察来学会的，而需要通过麻烦的数据标注。比如说一个家用机器人看过人在厨房里洗一次碗，自己就会学会洗碗一样。

再看Meta的V-JEPA

回头再看，LeCun领军研发，并不遗余力在行业内安利的，最近Meta刚刚发布的V-JEPA是否能够满足这样的要求呢？

V-JEPA的所依托的JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）的基础模型是围绕世界模型建立的，贯穿了从感知-推理预测-行动的闭环。V-JEPA是其视频领域的具体实现，由于视觉涵盖了时空领域的绝大多数可感知数据，所以V-JEPA是JEPA架构最重要的一个落地实现。关于LeCun对世界模型和JEPA的详细介绍可以出门左转看这一篇：Sora不是“世界模型”？来听图灵奖大神LeCun硬核解读什么才是“世界模型”！

首先V-JEPA不管是训练还是推理，都是接收视频数据作为输入，而且推理过程也是可以持续的输入视频信号的。从V-JEPA公开的论文细节来看，这个模型的预训练和微调，以及推理，都是可以在一块80G显存的A100显卡上完成的。

而在任务泛化的部分，V-JEPA的架构设计理念和大名鼎鼎的BERT是很相似的，也就是它的编码器部分和特征预测器部分，在经过大规模数据的预训练之后，权重是可以锁死不变的，也就是说在预训练部分完成了99%工作，后需不需要再重复劳动了，而只需要在输出层通过少量数据训练一个Decoder，换句话说，只需要加一个轻度微调适配的任务头就可以了，以此来匹配各种注入图像识别、动作识别、视频分类等等不同的下游任务。

那么，是不是就可以说V-JEPA就是一个如假包换的世界模型呢？Meta官网上做了更加精确和严谨的表述：V-JEPA当中的预测器可以认为是一个早期版本的物理世界模型，而当前的V-JEPA架构也主要是发力在于从对于外部世界的感知和视频上下文的理解上下功夫，而Meta也宣称，下一步的主要任务会围绕在利用世界模型做下一步的行动序列规划和决策。

那么在Meta来看，V-JEPA和未来的AMI（高级机器智能，Advanced Machine Intellegence），也就是Meta版的AGI有怎样的关联呢？

Meta的官方说法，首先，第一条就是V-JEPA会直接服务于具身智能，也就是人形机器人的相关场景，再有就是用于未来的AR场景，包括AR眼镜之类的硬件应用。

所以在访谈中，当Fridman问到Meta下半年即将发布的Llama 3包含哪些feature的时候，LeCun卖了一个关子，说Meta关于利用视频进行自监督学习，推理规划能力，包括世界模型的能力，都将根据研发进展陆续加入Llama的产品feature中。

所以看起来V-JEPA或者世界模型的能力进入Llama 3是大概率会发生的事情，最近LeCun和OpenAI的口水战，包括参与Fridman的访谈，都是在为未来的正式发布做预热打前站。

所以前一个阶段，有些业内人士说，2024年可能会是世界模型的元年，现在看起来这个说法不是空穴来风。

来源：瓜哥AI新知

参考资料：

Sora Technical Report. OpenAI
A Path Towards Autonomous Machine Intelligence, Yann LeCun
World Models, David Ha, Jurgen Schmidhuber
V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence (AMI), Meta官网
Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI, Lex Fridman Podcast

继续阅读

阅读原文