听众:匿名
请问 Sora 到底是了解了物理世界还是利用人类知识做知识推理,才能做出这种连续性的电影动画类的效果?
回答这个问题之前,我先为其他听众简单介绍一下问题中的 Sora 到底是什么。
Sora 是人工智能公司 OpenAI 正在开发的一个专门用于生成视频的 AI 模型。用这个模型,可以根据用户提供的文本,生成一段不超过1分钟的高清视频。
最近大家在网上看到的 Sora 生成的成品视频一共有 9 段,都来自于 Sora 的官方网站。还有几个演示性的视频,都出自 Sora 的技术报告。

sora 演示视频
所以 Sora 目前还是一个处在开发阶段的,没有对外提供测试账号的内部项目。我们对 Sora 的了解,也仅限于 Sora 官网上已经披露的公开信息作出的判断。

好,我们回到问题本身。其实无论是了解物理世界,还是利用人类的知识做推理,本质上都是理解规则。基于力学的规则是规则,基于生物学的骨骼肌肉结构也是规则,基于光学的阴影、材质、反射,这些也是规则。可以这么说,AI 懂的规则越多,它犯常识性错误的机会就越少。
所以基于这个理解,我们再去看 Sora 生成的作品,就能对它的视频生成机制有个大概了解了。
从 Sora 公开的作品上来看,那种经常出现在 AI 图像中的违背常识的画面依然还是存在的。
比如说,街道上行走的人,有的异常高大,有的身材过于矮小。一些密集的人群会被当做一个物体处理,结果就出现了一个形状怪异的东西长着很多条腿的情况。有一个路边有农场的视频,里面就有几匹马连体和牛羊连体的情况发生。还有 AI 图片中常见的光影问题,视频中每一个细节的光影似乎都对,但整体来看,就是不知道光线是从哪里射来的。还有一些视频,上面的影子与产生影子的物品形状不能匹配。
sora 演示视频
弱点:不准确的物理建模和不自然的物体“变形”
这些问题其实都是违背人类知识和常识的问题。这说明在处理画面背景细节的角度上看,Sora 使用的技术并没有受到类似空间和物体结构、生物骨骼结构这类规则的约束。Sora 构建的立体空间,也不具备虚拟现实引擎中计算遮挡、透视和光影的能力。可以看得出来,
Sora 生成的视频,主要还是依赖大规模训练所获得的类似于人类直觉的能力,它并没有真正的理解规则和常识。
当然你可能会问,如果 Sora 完全不理解规则和常识,是怎么做到把视频的连续性做得这么好的呢?
根据 Sora 技术报告中的解释,它运用了一种名叫数据块的处理技术。就像大语言模型可以通过海量网络数据来学习通用能力一样,Sora 可以通过把视频分解成时空数据块的方式实现对海量数据的学习。
这么说你可能不懂,我可以给你举个例子。
想象一下你有很多很多张拼图,上面是各种各样的风景、人物或者任意的画面。当所有拼图拆散后,每一小块拼图就可以理解为一个数据块。
Sora 就像是一个超级拼图高手,它通过对每一块拼图的学习,具备了在大量数据块之间进行任意排列组合的能力。就像大语言模型能够不分语种地驾驭词汇一样。

当我们把制作一个视频的要求交给 Sora 的时候,它会根据需求,对它掌握的数据块进行拼接和组合,最终得到符合要求的视频短片。
当我们让 Sora 学习一段视频的时候,它会把这段视频拆解成数据块去学习。当我们要求它输出一段新视频的时候,它就会用这些数据块进行排列组合,得到一个与原视频不同,但却符合需求的新视频。
Sora 的开发团队希望让 Sora 成为构建物理世界通用模拟器的一条可行的路径。这意味着不教给 Sora 任何的规则,但允许 Sora 自己通过学习去发现和总结规则这等于是在让人工智能自己去走人类走过的路。这种想法如果放在两年前,我可能不太敢相信这事儿能成,但现在,我愿意拭目以待。
更多推荐
扫码加入社群👇
继续阅读
阅读原文