Sora不是“世界模型”？来听图灵奖大神LeCun硬核解读什么才是“世界模型”！

说到最近大火的“世界模型”，要从OpenAI的Sora炸街说起。Sora发布后，Nvidia的高级研发总监，也是OpenAI曾经的第一个实习生，现在的业界大神Jim Fan，兴奋地说Sora可以称之为“世界模型”。

然而AI界的绝对大神，图灵奖获得者，长期研究“世界模型”的学术权威Yann LeCun，却第一时间站出来反驳：

众所周知的是，LeCun一直唱衰生成式模型（比如最火的ChatGPT），认为它并不是真正的理解物理世界。正好LeCun领军的Meta AI也在最近推出了代表LeCun世界模型理念的V-JEPA，V-JEPA也是采用视频为训练数据，但和Sora不同的是使用了自监督学习的模式。

这里面看起来信息量不小：自监督学习、生成式的自回归模型、世界模型，这些概念有什么含义？相互之间的关系又是如何呢？以下整理了LeCun于2023年在德国巴伐利亚科学院的部分演讲内容，大佬从自监督学习，讲到自回归模型及其局限性，最后阐述了世界模型的含义，以及自己所主张的世界模型的结构，为了便于更多读者阅读，太过学术和晦涩的部分进行了删节。截图都是演讲现场的英文PPT，比较硬核。

什么是自监督学习？

我们在过去几年中在人工智能和机器学习方面取得的进展，是由一组我们称之为自监督学习（Self-supervised learning）的技术所致，我相信在座的许多人都听说过。自监督学习允许系统在不需要标记数据的情况下进行训练，也不需要人工干预来生成数据。今天所有的自然语言处理系统，无论是我们玩的LLMs还是其他类型的系统，都是这样训练的。

你拿到一段文本，然后去掉其中的一些单词。你把它们遮盖掉。你用一个空标记（Mask）替换它们。你破坏了输入，然后你把它放在一个大型神经网络的输入端。你训练这个非常大的神经网络，通常是一个Transformer架构，来预测缺失的单词。在这个过程中，系统必须提取包含语义、句法、语法或其他所有内容的文本表示。这些不是输入的单词，它们被称为token（标记），实际上是子词单元。在大多数语言中，单词有前缀、词根和后缀。你需要将它们分开，这样这些系统才能正常工作，否则，词典会变得庞大，所以必须将单词分解为token。然后训练这个系统，这就是所谓的BERT模型，BERT是非常成功的模型，它完全是自监督的。它不需要除了文本之外的任何其他数据。一旦你预训练了这个系统，你就可以使用系统产生的内部表示作为后续任务的输入，比如翻译、文本分类、摘要等等。

所以这就是自监督学习的一般思想——填空。有一大块数据，以某种方式破坏它，然后训练一些大型神经网络来填补空白，或者恢复原始数据。我先不详细介绍技术细节，留到后面。

什么是自回归模型？

那些大型语言模型（LLM），你可以与之交谈的那些大模型，它们是如何工作的呢？它们是自回归（Auto- regressive）的，同时它们是我之前提到的自监督学习的。你拿一段文本，删除其中的一些单词，然后训练系统预测这些单词。但是这是一种特殊情况，你只训练系统预测最后一个单词。自回归模型中，你拿一段长文本，删除最后一个单词，然后训练这个巨大的神经网络来预测最后一个单词。如果你以这种方式训练系统，你可以进行自回归预测，也就是给定一段文本，预测最后一个单词或下一个单词，然后将其注入输入，预测下一个单词，然后将其转移到输入中，生成第三个单词，以此类推，这就是自回归预测。

它的工作原理真是太神奇了。这些系统的性能非常出色，我们都为之惊讶。但是它们确实会犯一些非常愚蠢的错误。它们并不真正了解世界。它们被训练成产生最可能的单词序列，以跟随特定的点，然后它们被微调以在特定类型的问题上表现良好。但是它们会犯事实错误、逻辑错误。它们是不一致的。它们实际上没有推理能力。很容易让它们产生有毒内容。它们对基本现实的了解非常有限，因为它们只是从文本中进行训练。它们没有常识，它们不能计划自己的回答。

它们真的不是那么好，因为它们不了解世界。它们只是操纵语言。因为它们流利地操纵语言，我们被欺骗以为它们是聪明的，但实际上它们不是。它们在某些方面是聪明的，但在我们认为的人类智能方面却不是。

这些东西与人类智能相去甚远。它们看起来像是有智能，因为它们训练了如此多的数据，积累了大量的背景知识，可以近似地复述。所以每当它们看起来聪明时，通常是因为它们可以以近似的方式进行信息检索，看起来合理。但是它们不可能真正理解世界是如何运作的，因为它们唯一的训练数据是文本。

为什么需要世界模型？

而人类知识的大部分（这可能会让你感到惊讶）与语言无关，而是与我们每天对世界的经验有关，比如物理学。

另一个局限性是它们无法进行规划。它们不会计划自己的回答，它们只是一个接一个地产生标记。无论它们产生什么标记，都将决定它们产生下一个标记。因为它是自回归的，系统基本上是一个指数级发散的过程。如果系统犯了一个错误，使其偏离了正确的答案集，它就无法恢复。所以我认为，这种自回归预测的整个架构本质上是有缺陷的。我的预测是，在未来几年内，没有理智的人会使用自回归模型。每个人都在努力寻找更好的东西，因为这些东西有很大的缺陷。

未来的AI系统不会使用这种架构，它们不会是自回归的LLM，因为自回归的LLM很糟糕：没有推理，没有规划。一个LLM（自回归的LLM）产生一个标记所需的计算量是恒定的。每产生一个标记，都需要恒定的计算量。所以系统没有可能在说话之前长时间思考某件事。

所以它不会像人类那样学习世界是如何运作的，它们不可能接近人类智能。我们仍然缺少一些重大的突破。但是毫无疑问，最终，机器将在所有领域超越人类智能。这基本上是毫无疑问的。可能需要几十年的时间，但是毫无疑问，它将会发生。

世界模型应该是什么样的？

我认为，AI面临的最大挑战是学习世界的表示和预测模型，我马上会告诉你为什么。这就是监督学习所解决的问题。说到推理，如果你们中的一些人了解丹尼尔·卡内曼的思考快与慢，系统1与系统2，潜意识和有意识，那么你们就知道我们目前的AI系统只能做到系统1，而无法做到系统2。我们需要重视能够进行丹尼尔·卡内曼所称的系统2类型推理的AI系统。他是一位诺贝尔奖得主，虽然他获得的是诺贝尔经济学奖，但他是一位心理学家。

而我过去一年提出的解决方案可能是一个解决办法，我称之为目标驱动的AI。我在Open Review上发表了一篇论文。

它基于一种模块化的认知架构，这是一个由多个模块组成的系统。

第一个模块是感知模块（Perception）。它在大脑的后部表示，因为在人类大脑中，感知是在后部进行的，这个模块可以感知世界，然后构建对世界状态的估计。也许它需要将这个估计与包含有关世界状态的其他信息的记忆内容相结合。

然后这些信息进入世界模型（World Model）。世界模型的作用是想象一系列行动的结果。系统可以想象一系列行动，这就是行动者（Actor，黄色模块）的作用。行动者想象一系列行动，将其提供给世界模型。世界模型知道当前的世界状态，世界模型预测的是从那系列行动中产生的未来世界状态。这或许不会是完全准确的预测，因为世界并不完全可预测。但这就是世界模型的作用。

整个系统的目的是找出一系列特定的行动，这些行动将预测满足一定数量约束的世界状态，这些约束由成本模块（Intrinsic cost，红色模块）实现。成本模块是系统的驱动力。如果你愿意，你可以将其视为从世界模型获取预测并计算成本。基本上，它计算系统的不舒适程度（Degree of discomfort）。

系统所做的是在内部找出一系列行动，这由Actor完成。它找出一系列行动，根据世界模型的预测，使其成本最小化。这非常类似于人们经典地进行最优控制的方式，被称为模型预测控制。

就像这样，观察世界的状态，获得初始的世界状态表示，并将其与你对世界状态的认知相结合，将一系列行动传递给世界模型，并要求世界模型预测最终状态将在何处，然后将其提供给你的目标。你的目标可能是系统为自己设定的目标，也可能是你为系统设定的目标。但你还可以有一些防护措施。例如，如果我们有一个家庭机器人正在做饭，手里拿着刀子因为要切洋葱或其他东西，你可能会有一个成本，即如果你手里拿着刀子并且周围有人，不要把手动得太快。不要挥舞你的手臂，因为那可能是危险的。

最终，我们需要让机器理解世界。这就是我刚刚谈到的架构的核心部分，即世界模型。给定时间T的世界状态，给定我可能采取的行动或一系列行动，时间T+1或T+任意时间点的世界状态将是什么？

人类和动物在这方面非常擅长。婴儿在生命的前几个月里以惊人的速度学习世界的运作方式，并学到了大量关于世界的背景知识。婴儿首先学到的是世界是三维的，然后学到了一些基本概念，比如物体的持久性，即当一个物体被另一个物体遮挡时，它仍然存在。婴儿在大约九个月大左右学会了重力等基本概念，学到了物理的直觉，比如惯性、重力等，需要很长时间。但这主要是通过观察，少量通过实验来学习的。

我们不知道如何用机器复制这种学习方式，这就是为什么尽管我们有可以通过法律考试或医学考试的系统，但我们没有机器人可以收拾餐桌并把碗碟放入洗碗机，而这是任何10岁的孩子在几分钟内就可以学会的事情。我们甚至没有完全自主的5级自动驾驶汽车。尽管任何17岁的人可以在20小时内学会这个，然后在高速公路上以300公里/小时的速度驾驶。显然，我们在机器方面缺少了一些人类和动物在学习效率方面所能做到的东西，我们不知道如何复制。

因此，我们需要这种学习世界模型的能力，让机器能够从视频中学习世界模型，从自然信号中学习。这就是自监督学习的想法，但现在时要应用于视频，而不是文本。而且事实证明，文本很容易。文本之所以容易，是因为文本是离散和有限的。每种语言中只有有限数量的可能标记，大约是30,000个左右。因此，很容易预测下一个标记的概率分布。你可以用一个介于零和一之间的长列表来表示它，这是一个二进制的列表。但是如果你想预测视频，你就不能这样做，因为我们不知道如何以良好的方式表示概率分布或所有可能的视频。

所以，如果你训练一个神经网络来预测一个非常简单的视频中会发生什么，比如高速公路上的视频，你会得到这种预测，非常非常模糊的预测。因为系统只能预测可能发生的所有事情的平均值，它无法做出决定。

所以我提出的解决方案是我称之为联合嵌入架构或联合嵌入预测架构，简称JEPA。这是一种非生成性架构。即使每个人都在谈论生成性AI，但我告诉你们，放弃生成模型。好吗？

你知道，如果你有一个观察X，你试图预测Y，只需从X预测Y，使用一个编码器和一些预测器，对吧？但是这个问题是，如果是生成型模型，你必须预测Y的每一个细节，在视频中，这太多了，在文本中还好，就像你知道，什么词，好吧？你不知道确切的词，但没关系，在视频中就不可能了。所以你应该做的是右边的方案，联合嵌入架构，你同时运行X和Y通过编码器，编码器消除了输入的所有无关细节，预测发生在表示空间中。所以这就是联合嵌入预测架构，JEPA。这有几种不同的形式，时间关系我不会详细介绍。

以上就是世界模型背后基本的JEPA架构。x代表对周围世界的观测，包含了过去和现在。y代表对未来状态的预测。a代表系统要采取的一系列的行动，这些行动可能会对周围时间的状态产生影响和改变。z代表不可知的一些变量。函数D表示在状态表示空间中，状态预测值和真实值（编码后）的成本函数，用于训练JEPA模型。

继续阅读

阅读原文