AI 开始学物理，能学会吗？

如果大模型懂物理，会发生什么？

最近，OpenAI 推出视频生成模型 Sora。Sora 除了生成视频的时长和品质远优于此前同类产品，还有一点引发关注：在 OpenAI 发布的技术报告里，Sora 被称为「物理世界的模拟器」，也就是说，Sora 不仅能理解提示中出现的风格、场景、角色、物体和概念等，还能理解「人、物在物理世界中的存在方式」。

在传统视频制作中，物体的运动、碰撞等，要通过叠加物理引擎来实现。对于 Sora 在这方面的表现，有观点认为，Sora 本身就是一个「数据驱动的物理引擎」；相反观点也有，比如「仅根据文字提示生成逼真的视频，并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同」「Sora 只是达到了人类做梦的水平，但逻辑能力依然不行」。

OpenAI 没有透露 Sora 的模型和训练细节，关于 Sora 的很多讨论，目前也只能基于推测。

但中国人民大学高瓴人工智能学院副教授李崇轩，以及 Newcast.ai 创始人和成的分享，也许会帮助你更清晰地描摹 Sora 所预示的未来。以下为对谈要点，文末还有完整对谈音频，不要错过。

1. Sora 与之前的视频生成模型相比，很好地解决了一致性、抖动等问题。不过Sora 出来前，视频生成的质量也一直在提高，这件事本身并不令人意外，令人意外的是，OpenAI 这么快就能有如此大的突破，以及提出「物理世界模拟器」的概念，用数据驱动模拟整个物理世界。这是给人最大想象空间的地方，也是存在争议的地方。

2. 短期内，Sora 无法完全取代物理引擎。物理引擎有自己的独特之处，比如可控性。目前视频生成模型还无法准确表达场景与人、物的关系，人、物 3D 设计的逻辑性和因果规律，以及物理世界的一些规则。

▲ 3D 物理引擎 cannon-es 的生成效果示例。| 图源：github

3. 把 AI 的能力接入传统的可控的渲染引擎，是创作者期待的。

4. Sora 视频里出现不符合物理规律，或因果规则的问题，只能被缓解，没有办法完全被克服。因为Sora 采用 Transformer 架构和 Diffusion 算法，其模型的数学基础就是概率分布，是用大模型拟合有限数据的分布，这是没有强制约束的。只能说随着不断迭代，模型能做的事越来越多，出错的情况越来越少，变得越来越有用。但模型的局限性已经由其内在的方法决定了，它永远不会做出「100%一定不会出错」或「100%一定会模仿物理规律」的承诺。

▲ Sora 生成的视频里，猛犸象踩在雪地上，雪花飞起的高度并不合理。| 图源：OpenAI

5. 目前，Sora 还不是物理世界的模拟器。接下来的关键问题是，大家对于最终的物理世界模拟器怎么定义，以及大家觉得这条路能不能通向物理世界模拟器。也就是说，目前可以通过继续扩大模型规模来得到更好的结果，但这种方法可能会有上界——模型达到一定规模后，再加大数据或增大模型也达不到预期的增长曲线。

6. 针对这一问题，目前有两派观点，一派认为 OpenAI 的路径可行，应该继续做下去。另一派认为，如果终极目标是和物理世界完全一样，只有数据是不够的，还需要把相关物理规律嵌进去。但如何实现嵌入规律，又不影响模型的调度、吃数据、生成高质量图像等方面的能力，还没有特别明确的、有前景的探索方案。

7. 不管是学术界还是工业界，都会进一步研发视频生成模型，这个任务本身非常重要，但与 OpenAI 相比，都存在两个壁垒。一是训练经验，没有人比 OpenAI 更有训练大模型的经验；二是文生视频模型的训练，也要基于语言模型和文生图模型，而 OpenAI 的语言模型和文生图模型也是最领先的。所以短时间内其他团队要实现 Sora 的效果，是比较困难的。

8. Sora 能生成时长 60 秒的视频，是把复杂的多维数据，以极高程度压缩进一个「隐空间」，使其整个算法、推理、训练到最终产出的效率得以提高。

9. Sora 的训练参数可能在几十亿量级。

10. 视频生成模型要具有语言模型一样的泛化能力，比如说微调或进一步情境学习的能力，目前在算法和模型上可行，但可能缺乏视觉数据或训练算力。以语言模型为例，从 GPT 2 到 GPT 3、GPT 4，模型是在规模扩大很多后，才出现了各种泛化能力。视频生成模型要出现泛化能力，还需要更大规模。视频数据本身信息密度就低，一两句话就能说清楚的视频，需要很多字符串才能生成。

11. 任何视频生成模型训练出来后，都有一些长尾。比如在视频生成过程中缺乏某一种构图，某一个画风，或缺少某一个艺术风格表达，都需要重新构建数据，或寻找类似的高质量数据作为补充。这是一个长期的过程。

12. Sora 能否产品化取决于 3 点。一是生成视频所需的推理时间能否降下来；二是 Sora 目前更类似 GPT 3 的状态，是一个通用的生成模型，它还需要一个更友好的界面，让大家能用起来；三是合规性。

13.

下一步实现突破的领域，可能是 3D。目前已经有一些 3D 生成的基础模型，未来一两年甚至半年，可能就会有小团队利用 OpenAI 的技术训练出 3D 模型。

3D 叠加视频，生成一个视觉的小世界是没有问题的。

14. Sora 让我们看到物理世界模拟器的可能性。基于这一可能性，我们可以进一步探索 AGI （Artificial General Intelligence，通用人工智能）的未来。

虽然 Sora 还不完美，但也足以惊艳。机器学习的速度，越来越超乎人类想象。

Sora 的出现，给你带来哪些新的认知，又让你增添了哪些对未来的期待？不妨来评论区分享一下。