听众问答｜Sora是真的理解世界吗？

听众：匿名

请问 Sora 到底是了解了物理世界还是利用人类知识做知识推理，才能做出这种连续性的电影动画类的效果？

回答这个问题之前，我先为其他听众简单介绍一下问题中的 Sora 到底是什么。

Sora 是人工智能公司 OpenAI 正在开发的一个专门用于生成视频的 AI 模型。用这个模型，可以根据用户提供的文本，生成一段不超过1分钟的高清视频。

最近大家在网上看到的 Sora 生成的成品视频一共有 9 段，都来自于 Sora 的官方网站。还有几个演示性的视频，都出自 Sora 的技术报告。

sora 演示视频

所以 Sora 目前还是一个处在开发阶段的，没有对外提供测试账号的内部项目。我们对 Sora 的了解，也仅限于 Sora 官网上已经披露的公开信息作出的判断。

好，我们回到问题本身。其实无论是了解物理世界，还是利用人类的知识做推理，本质上都是理解规则。基于力学的规则是规则，基于生物学的骨骼肌肉结构也是规则，基于光学的阴影、材质、反射，这些也是规则。可以这么说，AI 懂的规则越多，它犯常识性错误的机会就越少。

所以基于这个理解，我们再去看 Sora 生成的作品，就能对它的视频生成机制有个大概了解了。

从 Sora 公开的作品上来看，那种经常出现在 AI 图像中的违背常识的画面依然还是存在的。

比如说，街道上行走的人，有的异常高大，有的身材过于矮小。一些密集的人群会被当做一个物体处理，结果就出现了一个形状怪异的东西长着很多条腿的情况。有一个路边有农场的视频，里面就有几匹马连体和牛羊连体的情况发生。还有 AI 图片中常见的光影问题，视频中每一个细节的光影似乎都对，但整体来看，就是不知道光线是从哪里射来的。还有一些视频，上面的影子与产生影子的物品形状不能匹配。

sora 演示视频

弱点：不准确的物理建模和不自然的物体“变形”

这些问题其实都是违背人类知识和常识的问题。这说明在处理画面背景细节的角度上看，Sora 使用的技术并没有受到类似空间和物体结构、生物骨骼结构这类规则的约束。Sora 构建的立体空间，也不具备虚拟现实引擎中计算遮挡、透视和光影的能力。可以看得出来，

Sora 生成的视频，主要还是依赖大规模训练所获得的类似于人类直觉的能力，它并没有真正的理解规则和常识。

当然你可能会问，如果 Sora 完全不理解规则和常识，是怎么做到把视频的连续性做得这么好的呢？

根据 Sora 技术报告中的解释，它运用了一种名叫数据块的处理技术。就像大语言模型可以通过海量网络数据来学习通用能力一样，Sora 可以通过把视频分解成时空数据块的方式实现对海量数据的学习。

这么说你可能不懂，我可以给你举个例子。

想象一下你有很多很多张拼图，上面是各种各样的风景、人物或者任意的画面。当所有拼图拆散后，每一小块拼图就可以理解为一个数据块。

Sora 就像是一个超级拼图高手，它通过对每一块拼图的学习，具备了在大量数据块之间进行任意排列组合的能力。就像大语言模型能够不分语种地驾驭词汇一样。

当我们把制作一个视频的要求交给 Sora 的时候，它会根据需求，对它掌握的数据块进行拼接和组合，最终得到符合要求的视频短片。

当我们让 Sora 学习一段视频的时候，它会把这段视频拆解成数据块去学习。当我们要求它输出一段新视频的时候，它就会用这些数据块进行排列组合，得到一个与原视频不同，但却符合需求的新视频。

Sora 的开发团队希望让 Sora 成为构建物理世界通用模拟器的一条可行的路径。这意味着不教给 Sora 任何的规则，但允许 Sora 自己通过学习去发现和总结规则。这等于是在让人工智能自己去走人类走过的路。这种想法如果放在两年前，我可能不太敢相信这事儿能成，但现在，我愿意拭目以待。

更多推荐

哇，终于可以二刷《寻秘自然》了！

杠精猫08｜偏方治大病吗？

星空与人类文明 03：金牛座、天鹰座、宝瓶座的来历

汪诘怎么看：比特币疯涨的原因和雪崩的可能

扫码加入社群👇

继续阅读

关键词

模型

世界

问题

物理世界

人类

最新评论

推荐文章

作者最新文章

你可能感兴趣的文章

Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].

版权声明：以上内容为用户推荐收藏至CareerEngine平台，其内容（含文字、图片、视频、音频等）及知识版权均属用户或用户转发自的第三方网站，如涉嫌侵权，请通知[email protected]进行信息删除。如需查看信息来源，请点击“查看原文”。如需洽谈其它事宜，请联系[email protected]。