Sora世界模型与 OpenAI宫斗戏 - AI到底有多强大？

就在大约一个月之前，人工智能界又一次被OpenAI搅得天翻地覆。

这次并不是因为Sam Altman或者别的领导层又又又在闹什么宫斗大戏，而是2月16日凌晨，在没有任何预兆和消息透露的情况下，OpenAI 突然发布了自己的首个文生视频模型：Sora。

图片来源于OpenAI

Sora的诞生，别说是人工智能界，连同一些与科技联系紧密的影视圈都彻夜无眠。不仅现阶段文生视频AI的技术极限得到了大幅刷新，生成式AI在视频领域的地位也将要被人刮目相待。

Sora确实是太可怕了。

只要给出一段文字，Sora就能生成出长达60秒的精美逼真的视频。无论是多镜头切换还是一镜到底都可以轻松驾驭，同时还能保持对物理世界的合理认知和角色视觉风格的一致性。

无论是女子走在繁华的东京街头：

Promt节选：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...

还是创造出在咖啡杯里乘风破浪的海盗船：

Promt：Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

从跟随视角拍摄越野车行驶在悬崖峭壁：

Promt节选：: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope...

到模拟drone广角拍摄的海边城堡：

Promt节选：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...

除了模拟相机POV或者运镜变换的能力超群，Sora生成微距拍摄的人类或是动物细节也毫无瑕疵，充分体现了模型对生物结构的正确理解：

Promt节选: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

Promt节选：A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

所以为什么Sora这么强大？

从Sora的技术文档中可以发现，Sora是一个diffusion model，它是利用深度学习技术来逐步从一种无序状态（如静态噪声）转变为有序状态（如清晰图像或视频）的一种技术。

Sora基于DALL·E和GPT模型的先前研究成果，采用了DALL·E 3中的recaptioning技术，这涉及为视觉训练数据生成高度描述性的文字。因此，该模型能够更忠实地遵循用户在生成视频中的文本指令。并且通过这些技术细节，Sora扩展了图像和视频生成模型的能力，使其能够更准确、更创造性地响应用户的文本指令，生成符合预期的高质量视频内容。

当然，目前的Sora绝非完美无缺，目前Sora还是会存在生成的视频不合理的问题，主要是由于对世界缺乏足够的物理认知而闹出笑话。

比如说生成了倒着在跑步机上运动的男人，并且跑步姿势不符合人体规律。

Promt节选：Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.

或者是考古学家从沙子中挖出一把诡异悬浮的塑料椅。

Promt节选：Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.

OpenAI团队表示Sora目前正在接受红队测试，用以评估关键领域的潜在危害或者风险，同时也给视觉艺术家、设计师和电影制作人提供了少数访问权限以便获得他们的反馈，用以继续推进模型的研发。并且团队还在进行模型伦理侧的对抗性测试，比如错误信息、仇恨内容、偏见内容等。

OpenAI称，自己提前分享关于Sora的研究进展，旨在开始和OpenAI以外的人进行合作并且获取他们的反馈，同时也让公众了解即将问世的AI将会有多么强大的能力。

从官方发布的视频中呈现的冰山一角，令人难以想象具备了完备功能的Sora将会取代多少科技或者影视行业的工作。

Sora已经超越了一个文字生成视频的模型，而是已经体现出了一种”世界模型（World Simulator）“的雏形——通过有限的context，对真实的物理世界进行建模和理解，让模型在生成内容的时候已经有了一些对世界的”基础“认知。这些认知有的时候不会被明确表达出来，但是却是AI视频生成更加流畅且符合逻辑的基石。并且世界模型的概念一旦稳固，将有可能大幅度降低视频模型的训练成本。

仿佛从此以后，现实和虚幻的界限真的开始模糊了。

你能分辨这是实景拍摄还是AI生成吗？