上个月,OpenAI 与一群艺术家联合发布了七部超现实主义的专业大片,给好莱坞的导演们带来了亿点点震撼。
然而,在影视从业者感叹饭碗不保时,和 OpenAI 合作的加拿大制作公司 Shy Kids 近日接受了外媒 Fxguide 的专访,并一语道破了 Sora 最中肯的使用情况:
Sora 很好,但取代人类还为时过早。
专访内容的要点如下(太长不看版):
艺术家通过 UI 输入文本提示来生成视频剪辑,但系统尚未支持多模态输入
Sora 在维持物体连贯性方面表现出色,但不能很好掌控镜头间的匹配
Sora 生成的视频片段需要经过色彩分级、处理和稳定处理,以及分辨率提升
Sora 无法直接渲染特定的镜头运动,需要在后期制作中进行调整
OpenAI 正在努力确保 Sora 不生成侵犯版权的内容
《Air Head》原素材与最终成品的比例可能是 300:1
Shy Kids 正在制作《Air Head》的续集,探索气球人物 Sonny 因突然成名而与世界产生的疏离
附上原文链接:https://www.fxguide.com/fxfeatured/actually-using-Sora/
全文共 4827 个字,阅读时间预计 13 分钟,enjoy~🥳
二月份,我们推出了关于 Sora 的第一篇报道,当时 OpenAI 刚发布了 Sora 的视频片段,我们将其比作视频版的 DALL·E。Sora 是一种扩散模型,它生成的视频长度和连贯性都远超其他竞争对手。
通过同时为模型提供多个视频帧,研发团队解决了一个复杂问题:即使对象暂时从视线中消失,也能保持其连贯性。Sora 能够一次生成长达一分钟的完整视频。
与此同时,OpenAI 还发布了技术说明,展示了将来有潜力进一步延长视频的生成时间,或者将两段视频无缝结合的可能性。
Patrick Cederberg
近期,几个精选制作团队获得了对 Sora 的有限使用权。其中最引人注目的是 Shy Kids 团队,他们制作了 Sora 短片《Air Head》。
该电影由 Sidney Leeder 制作,Walter Woodman 担任编剧和导演,Patrick Cederberg 负责后期制作。这个多伦多团队被誉为「朋克摇滚版皮克斯」,他们的作品不仅获得了艾美奖提名,还进入了奥斯卡长名单。
本周,我们与 Patrick 进行了一次深入交谈,探讨了 Sora 的当前发展状况。
Shy Kids 是一家加拿大的制作公司,以其多样化和创新的媒体制作方式而著称。公司最初由电影、音乐和电视等领域的创意人士组成,因其独特的叙事风格和吸引人的内容而受到认可。该公司经常探讨青春期的挑战、社交焦虑以及现代生活的复杂性,同时保持一种充满想象力和真挚的基调。
他们的作品展现了出色的视觉叙事技巧,并经常融入原创音乐,使得作品富有感染力和难忘。Shy Kids 通过拥抱新型AI技术和创造力,成功打造出自己的市场定位,推动了创作的可能性。
Sora 正在开发中,并正通过像 Shy Kids 这样的团队反馈进行积极改进,但目前的工作方式如下。值得注意的是, Sora 目前几乎处于预 alpha 阶段,既未正式发布,也未进入 beta 测试阶段。
Patrick 表示:「能够尝试使用它非常有趣。这是一个极其强大的工具,我们已经在思考如何将它融入到我们现有的工作流程中。然而,我认为对于任何生成式 AI 工具来说,控制仍然是当前最理想同时也是最难以实现的目标。」
UI 设计,让人捉摸不透
艺术家可以通过用户界面输入文本提示,OpenAI 的 ChatGPT 接着将其扩展成一个长字符串以启动视频剪辑的生成。
目前,系统尚未支持多模态输入。这一点尤为重要,因为虽然 Sora 在维持视频拍摄中物体的连贯性方面得到了认可,但它还不能确保连续两个镜头之间的内容匹配。
即使使用相同的提示再次生成,得到的视频也会不同。
Patrick 解释说:「我们尽量通过在提示中详尽描述来尽可能接近这一效果,例如具体说明角色的服装和气球的类型。因为目前系统还没有实现从一个镜头到另一个镜头、从一次生成到另一次生成的完全控制一致性的功能。」
每个视频片段本身都展示了令人惊叹的技术,但使用这些片段取决于你对隐式或显式镜头生成的理解。
假设你要求 Sora 在厨房里拍摄一个长跟踪镜头,桌子上有一个香蕉。在这种情况下,它会依赖其对「香蕉本质」的隐式理解来生成展示香蕉的视频。
通过训练数据,它「学习」了香蕉本质的隐式方面,比如「黄色」、「弯曲」、「有深色末端」等。它实际上并没有香蕉的实际图像记录。它没有一个「香蕉库存库」数据库;它有一个更小的压缩隐藏或「潜在空间」,描述了香蕉是什么。每次运行时,它都会展示对那个潜在空间的不同解释。你的提示依赖于对香蕉本质的隐式理解。
在《Air Head》的制作过程中,场景是通过生成多个视频片段来近似脚本要求的,但没有办法明确保证实际的黄色气球在各个镜头中保持一致。
有时,当团队要求生成黄色气球时,它甚至可能不是黄色的。在其他时候,气球上可能嵌入了脸,或者似乎在气球前面画了脸。
由于它隐式地将绳子与气球联系起来,所以经常出现的情况是,《Air Head》中的角色,被昵称为 Sonny 的气球人,角色衬衫前面会有绳子,这些在后期制作中需要去除。
技术之外,更要实用
《Air Head》完全使用了 Sora 生成的视频片段,但其中大部分经过了色彩分级、处理和稳定处理,而且所有片段都经过了放大或提高分辨率处理。
团队处理的片段最初是在较低的分辨率下生成的,然后使用 Sora 或 OpenAI 之外的 AI 工具提高了分辨率。
Patrick 解释说:「你可以达到 720P 的分辨率。我相信已经有了一个 1080P 的功能,但渲染需要一段时间。为了加快速度,我们将《Air Head》所有的片段都做成了 480P,然后使用 Topaz 进行了放大。」
原始提示会自动扩展,并沿着时间线显示。「你可以进入这些较大的关键帧,并根据你希望生成的变化开始调整信息。」
Parick 解释说,「对于这些不同动作在实际生成中的发生位置,有一定的时序控制,但目前还不是很精确... 这有点像是在黑暗中摸索 - 就像玩老虎机 - 目前还不确定它是否真的能完成这些事情。」
当然,Shy Kids 是在最早的原型上工作的,而 Sora 仍在持续开发中。
除了选择分辨率,Sora 还允许用户选择宽高比,比如肖像模式或风景模式(或正方形)。这在从 Sonny 的牛仔裤向上摇摄到他的气球头的镜头中特别有用。
不幸的是,Sora 无法直接渲染这样的移动,它总是希望镜头的焦点——气球头——保持在画面中。因此,团队以肖像模式渲染了镜头,然后通过裁剪,在后期制作中手动创建了向上摇摄的效果。
对于许多生成式 AI 工具来说,训练数据中的元数据是一个重要的信息来源,例如相机元数据。例如,如果你在静态照片上进行训练,相机元数据将提供镜头大小、光圈值和其他许多关键信息,供模型训练使用。
正如对象持久性对于镜头制作至关重要一样,能够描述一个镜头也非常重要,Patrick 指出这最初并没有包含在 Sora 中。
九个人会有九种不同的想法来描述一个电影镜头。在艺术家们开始使用这个工具之前,(OpenAI)的研究人员并没有真正以电影制作的方式思考。
Shy Kids 知道他们接触到的 Sora 还非常早期,「关于相机角度的最初版本有点随机。」研究人员是否真的能够理解提示请求,或者是否能够正确注册它,都是未知的,因为他们主要关注的是图像生成。
Shy Kids 对 OpenAI 对这一请求的反应感到几乎震惊。「但我想,当你只是研究人员,而不考虑讲故事的人会如何使用它时...Sora 在改进,但我仍然可以说控制还不够。你可以输入『相机摇摄』,我认为你会成功六次中的十次。」
这并不是一个独特的问题,几乎所有主要的视频生成 AI 公司都面临着同样的问题。Runway AI 在提供用于描述相机运动的 UI 方面可能是最先进的,但 Runway 生成的视频质量和长度不如 Sora。
从素材到成品,还有很长一段路要走
视频片段可以渲染成不同时间长度的片段,例如 3 秒、5 秒、10 秒、20 秒,直到一分钟。渲染时间取决于一天中的时间和对云资源的请求。
「一般来说,每渲染一次需要 10 到 20 分钟。」Patrick 回忆说。「根据我的经验,我选择渲染的时间长度对渲染时间有轻微的影响。如果是 3 到 20 秒,渲染时间通常不会从 10 到 20 分钟的范围内有很大变化。我们通常会这样做,因为如果你能得到完整的 20 秒,你希望有更多的机会剪辑/编辑,并增加得到看起来不错的画面的机会。」
虽然所有的图像都是在 Sora 中生成的,但气球仍需要大量的后期工作。除了隔离气球以便重新上色外,气球有时会在 Sonny 的脸上,就像用记号笔在他的脸上画了脸,这需要在 AE 中去除。类似的其它瑕疵也经常被移除。
Sora 原始片段
Shy Kids 的方法是将后期制作和编辑像纪录片一样处理,其中有很多素材,你从这些素材中编织一个故事,而不是严格根据剧本拍摄。对于这部短片,有一个剧本,但团队需要灵活并适应。
「我们只是得到一堆镜头,并尝试以一种有趣的方式剪辑它们,以配合旁白。」Patrick 回忆说。
对于最终电影中出现的 90 秒视频片段,Patrick 估计他们生成了「每段 10 到 20 秒,总共数百段」。他还补充说:「我的数学不好,但我猜原材料和最终成品之间的比例可能是 300:1。」
先打枪后画靶
在《Air Head》中,团队并没有将多个拍摄镜头组合在一起。例如,气球在赛车上方飘过的镜头都是在一次拍摄中几乎如所见地生成的。然而,他们正在制作一部新电影,这部电影将多个拍摄镜头混合并合成成一个片段。
有趣的是,许多《Air Head》的片段都以慢动作拍摄,尽管这并没有在提示词中要求。这是由于未知的原因,所以许多片段需要重新调整时间,以看起来像是实时拍摄的。
显然,这比减速快速运动要容易,但仍然,这似乎是从训练数据中推断出的一种奇怪的特征。「我不知道为什么,但它确实看起来像很多片段在 50 到 75% 的速度下,」他补充说。「所以,为了不让整个项目感觉像一个大慢动作项目,我们需要对时间进行相当多的调整。」
Shy Kids 在他们提示中使用了「35 毫米胶片」这个关键词,并发现「35mm」提示通常能为他们提供他们所需的一致性水平。
「如果我们需要高对比度,我们可以提到高对比度,并说关键照明通常能给我们接近的东西,」Patrick 说。「我们仍然需要进行完整的色彩分级,我们自己的数字胶片外观,我们应用了噪点和闪烁,只是为了把所有东西融合在一起。」没有额外的通道选项,如遮罩或深度通道。
尊重版权,从 OpenAI 做起
OpenAI 正努力尊重版权,不生成侵犯版权的内容,也不生成看起来不太像是来自他们的图像。
例如,如果你提示像「未来太空船中的 35mm 胶片」,一个拿着光剑的男人向前走,Sora 将不允许生成这个片段,因为它太接近《星球大战》了。但 Shy Kids 在早期测试中意外地遇到了这个问题。
Patrick 回忆说,当他们最初坐下来只是想测试 Sora 时,「我们在角色的背后有一个镜头;那是一种追随阿罗诺夫斯基风格的镜头。我想那可能只是我疲惫的大脑,但我输入了『阿罗诺夫斯基风格的镜头』并收到了一条不能那样做的信息。」他回忆说。
「希区柯克变焦」这一术语,虽然最初源于电影制作技术,但现已广泛被用作技术术语。然而,出于版权考虑, Sora 会拒绝与之相关的提示。
Shy Kids 不仅以其视觉技能闻名,还以其音频技能而知名。
短片中的音乐是他们自己的作品。「那是一首我们存档中的歌曲,我们几乎立刻就决定使用它,因为这首歌叫《The Wind》,」Patrick 说。「我们都喜欢它。」
Patrick 自己为 Sonny 配音。「有时我们会觉得节奏上电影需要另一个节拍。所以我会再写一条台词,录下来,然后想出一些更多的 Sora 生成,这是在后期制作中使用工具的另一种强大方式:当你陷入困境,需要填补空白时,这是开始头脑风暴和迅速生成片段以查看你能用什么来填补节奏问题的好方法。」
Sora 的表现非常出色;Shy Kids 团队只用了 1.5 到 2 周时间,三人便完成了《Air Head》的制作。他们目前正在制作一个有趣、有自我意识并略带讽刺的续集。
Patrick 介绍:「续集将通过新闻的方式探讨气球人物 Sonny 因突然成名而与世界产生的疏离。」
「我们还在尝试新的技术!」团队正在尝试在实验中更多地引入技术元素,例如将 Sora 生成的元素通过 AE 技术与真实的现场影像结合,使 Sora 成为一个辅助的视觉特效工具。
Sora 是一个非常新的技术,即使是 OpenAI 为它设计并展示的基本架构目前也还没有准备好进行初期的测试。虽然当前版本的 Sora 不太可能很快发布,但它在隐式图像生成方面已经取得了显著的进展。
对于高端项目而言,要达到导演所需的精细水平可能还需要一些时间。然而,对于许多其他项目来说,Sora 提供的效果将远超「足够好」,并且能够创造出令人惊叹的图像效果。
《Air Head》这部影片虽然内容吸引人且富有趣味,但其制作过程仍然需要大量的编辑工作和人为指导。Patrick 表示:「我认为人们应该将 Sora 视为其创作流程的一个真实组成部分;但如果有人不愿意这样做,那也完全可以接受。」
继续阅读
阅读原文