作者 / 刘润

编辑 / 二蔓版面 / 黄静

这是刘润公众号的第2159篇原创文章

1、2024年2月16日凌晨（美国时间2月15日），OpenAI发布了“文生视频”（text-to-video）的工具，Sora。整个世界再次被震撼了。人类用无数种语言，在全球的社交媒体上惊呼：现实，不存在了。

2、那么，Sora到底是什么？

3、这是一段咒语（Prompt）：

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

翻译成中文（by ChatGPT）就是：

一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面上创造了镜面效果。许多行人在街上来往。

4、文生视频。文有了。现在，看视频。

5、看完之后，什么感觉？是不是感觉：这……不可能是AI生成的吧？你看她脸上，雀斑和瑕疵那么明显，不像是假的；镜头移动时，水里的倒影也在移动，不像是假的；旁边一起走的那些人，每个人心中有自己的故事，不像是假的；更重要的是，她的墨镜里还有街景的映射，不像是假的。

6、以前不相信是真的。现在不相信是假的。

7、OpenAI知道你会这么想，所以在官网留了一句话：

所有本页面上的视频都是直接由Sora生成，未经修改。

8、Sora的能耐，还不仅仅是“文生视频”。他还能把两个视频，连在一起，实现无缝过渡。比如这个，从现实的乡村，无缝过渡到虚幻的城市。

9、这样的视频，还有很多。Sora还能做很多很多其它事。你可能也已经看到了不少。我就不发了。网上到处都是。

10、比起这些震撼视频，其实我更想知道的是，Sora的出现，对人工智能的整体发展，到底意味着什么？于是，我专门找来OpenAI官方公布的Sora的技术文档，仔细看了一遍。

11、看完之后我发现，这份技术文档，比那些不可思议的视频，更让人震撼。

12、这篇技术文档，没有泄露太多Sora的技术细节。但还是介绍了它的基本原理。

13、简单来说，Sora通过学习视频，来理解现实世界的动态变化，并用计算机视觉技术模拟这些变化，从而创造出新的视觉内容。换句话说，Sora学习的不仅仅是视频，也不仅仅是视频里的画面、像素点，还在学习视频里面那个世界的“物理规律”。

14、听上去，很抽象。我解释一下。

15、比如，你咬一口食物，食物应该出现一个咬痕。这是“物理规律”。如果咬完之后，食物还是完整的，那就不符合“物理规律”。

16、大部分的视频软件，并不理解“物理规律”。他们处理的对象，只是画面。而不是画面里的食物和人。但是Sora，似乎理解。当Sora学习人咬食物的视频时，它记住的，不仅是食物和嘴在一起的“具体画面”，还有“咬就会有痕”这个“物理规律”。以后生成视频时，一旦有“咬”这个动作，Sora就会知道，下面应该出现一个咬痕了。

17、比如，下面这段。

18、用Sora生成的视频，并不总是能“咬就会有痕”。它“有时”也会出错。但这已经很厉害，很可怕了。因为“先记忆，再预测”，这种理解世界的方式，是人类理解世界的方式。这种方式有个名字，叫：世界模型。

19、什么是，世界模型？我举个例子。

20、你的“记忆”中，知道一杯咖啡的重量。所以当你想拿起一杯咖啡时，大脑准确“预测”了应该用多大的力。于是，杯子被顺利拿起来。你都没意识到。但如果，杯子里碰巧没有咖啡呢？你就会用很大的力，去拿很轻的杯子。你的手，立刻能感觉到不对。然后，你的“记忆”里会加上一条：杯子也有可能是空的。于是，下次再“预测”，就不会错了。你做的事情越多，大脑里就会形成越复杂的世界模型，用于更准确地预测这个世界的反应。这就是人类与世界交互的方式：世界模型。

21、关于世界模型，如果感兴趣，我建议你读一本书，叫《千脑智能》。

22、回到Sora。Sora的技术文档里有一句话：