如果大模型懂物理,会发生什么?
最近,OpenAI 推出视频生成模型 Sora。Sora 除了生成视频的时长和品质远优于此前同类产品,还有一点引发关注:在 OpenAI 发布的技术报告里,Sora 被称为「物理世界的模拟器」,也就是说,Sora 不仅能理解提示中出现的风格、场景、角色、物体和概念等,还能理解「人、物在物理世界中的存在方式」。
在传统视频制作中,物体的运动、碰撞等,要通过叠加物理引擎来实现。对于 Sora 在这方面的表现,有观点认为,Sora 本身就是一个「数据驱动的物理引擎」;相反观点也有,比如「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同」「Sora 只是达到了人类做梦的水平,但逻辑能力依然不行」。
OpenAI 没有透露 Sora 的模型和训练细节,关于 Sora 的很多讨论,目前也只能基于推测。
但中国人民大学高瓴人工智能学院副教授李崇轩,以及 Newcast.ai 创始人和成的分享,也许会帮助你更清晰地描摹 Sora 所预示的未来。以下为对谈要点,文末还有完整对谈音频,不要错过。
1. Sora 与之前的视频生成模型相比,很好地解决了一致性、抖动等问题。不过Sora 出来前,视频生成的质量也一直在提高,这件事本身并不令人意外,令人意外的是,OpenAI 这么快就能有如此大的突破,以及提出「物理世界模拟器」的概念,用数据驱动模拟整个物理世界。这是给人最大想象空间的地方,也是存在争议的地方。
2. 短期内,Sora 无法完全取代物理引擎。物理引擎有自己的独特之处,比如可控性。目前视频生成模型还无法准确表达场景与人、物的关系,人、物 3D 设计的逻辑性和因果规律,以及物理世界的一些规则。
 3D 物理引擎 cannon-es 的生成效果示例。| 图源:github
3. 把 AI 的能力接入传统的可控的渲染引擎,是创作者期待的。
4. Sora 视频里出现不符合物理规律,或因果规则的问题,只能被缓解,没有办法完全被克服。因为Sora 采用 Transformer 架构和 Diffusion 算法,其模型的数学基础就是概率分布,是用大模型拟合有限数据的分布,这是没有强制约束的。只能说随着不断迭代,模型能做的事越来越多,出错的情况越来越少,变得越来越有用。但模型的局限性已经由其内在的方法决定了,它永远不会做出「100%一定不会出错」或「100%一定会模仿物理规律」的承诺。
▲ Sora 生成的视频里,猛犸象踩在雪地上,雪花飞起的高度并不合理。| 图源:OpenAI
5. 目前,Sora 还不是物理世界的模拟器。接下来的关键问题是,大家对于最终的物理世界模拟器怎么定义,以及大家觉得这条路能不能通向物理世界模拟器。也就是说,目前可以通过继续扩大模型规模来得到更好的结果,但这种方法可能会有上界——模型达到一定规模后,再加大数据或增大模型也达不到预期的增长曲线。
6. 针对这一问题,目前有两派观点,一派认为 OpenAI 的路径可行,应该继续做下去。另一派认为,如果终极目标是和物理世界完全一样,只有数据是不够的,还需要把相关物理规律嵌进去。但如何实现嵌入规律,又不影响模型的调度、吃数据、生成高质量图像等方面的能力,还没有特别明确的、有前景的探索方案。
7. 不管是学术界还是工业界,都会进一步研发视频生成模型,这个任务本身非常重要,但与 OpenAI 相比,都存在两个壁垒。一是训练经验,没有人比 OpenAI 更有训练大模型的经验;二是文生视频模型的训练,也要基于语言模型和文生图模型,而 OpenAI 的语言模型和文生图模型也是最领先的。所以短时间内其他团队要实现 Sora 的效果,是比较困难的。
8. Sora 能生成时长 60 秒的视频,是把复杂的多维数据,以极高程度压缩进一个「隐空间」,使其整个算法、推理、训练到最终产出的效率得以提高。
9. Sora 的训练参数可能在几十亿量级。
10. 视频生成模型要具有语言模型一样的泛化能力,比如说微调或进一步情境学习的能力,目前在算法和模型上可行,但可能缺乏视觉数据或训练算力。以语言模型为例,从 GPT 2 到 GPT 3、GPT 4,模型是在规模扩大很多后,才出现了各种泛化能力。视频生成模型要出现泛化能力,还需要更大规模。视频数据本身信息密度就低,一两句话就能说清楚的视频,需要很多字符串才能生成。
11. 任何视频生成模型训练出来后,都有一些长尾。比如在视频生成过程中缺乏某一种构图,某一个画风,或缺少某一个艺术风格表达,都需要重新构建数据,或寻找类似的高质量数据作为补充。这是一个长期的过程。
12. Sora 能否产品化取决于 3 点。一是生成视频所需的推理时间能否降下来;二是 Sora 目前更类似 GPT 3 的状态,是一个通用的生成模型,它还需要一个更友好的界面,让大家能用起来;三是合规性。
13. 
下一步实现突破的领域,可能是 3D。目前已经有一些 3D 生成的基础模型,未来一两年甚至半年,可能就会有小团队利用 OpenAI 的技术训练出 3D 模型。
3D 叠加视频,生成一个视觉的小世界是没有问题的。
14. Sora 让我们看到物理世界模拟器的可能性。基于这一可能性,我们可以进一步探索 AGI (Artificial General Intelligence,通用人工智能)的未来。
虽然 Sora 还不完美,但也足以惊艳。机器学习的速度,越来越超乎人类想象。
Sora 的出现,给你带来哪些新的认知,又让你增添了哪些对未来的期待?不妨来评论区分享一下。
以上内容整理自
声动活泼旗下播客「科技早知道」
想了解 Sora 的更多细节
欢迎点击收听
也可在各大音频、播客平台搜索本期节目
监制/徐涛
编审/东君
视觉设计/Mori
排版、运营/六工
更多有趣问题
欢迎来声动活泼找答案
继续阅读
阅读原文