⭐️欢迎关注预约“新榜和ta的朋友”系列直播!
“AI时代,人人都能当导演。”
这是真的吗?
去年11月份起,RunwayGen2、Stable Video Diffusion、Pika等AI视频工具陆续面世,用AI制作的电影预告片、经典IP二创视频席卷全网、爆款频出,马斯克甚至预言“AI movies next year(明年就能看上AI电影)”。
在这样的背景下,“头号AI玩家”萌生了用AI制作一部短片的想法。今年1月15日,恰逢北京国际电影节开启AIGC短片征集,我们决定以此为契机,做一部AI科幻短片参投北影节。
我们利用工作间隙的“碎片化”时间推进短片创作,整个流程历时近3个月,3月28日,我们正式“杀青”并结束后期制作,向北影节官方征集网站投递了最终成片——
这部短片全长2分多钟,讲述了一个半机械人女性胡曼琪在后AI时代寻求自我认同的故事。从故事到成片,AI参与了其中大部分工作,我们使用到了包括ChatGPT/Claude、Midjourney、Pixverse/RunwayGen2在内的多种AIGC工具。
后台投递页面
考虑到文生图到图生视频的创作流程依旧是目前可控性最高、最好用的,因此,我们的工作流大致可以分为五个阶段:故事脚本、文字到图片、图片到视频、声音制作、以及后期剪辑。
在制作过程中,我们逐渐意识到:“人人都能当导演”或许并不是指人人都能成为像宫崎骏、卓别林那样的电影大师,而是每个普通人都有机会享受“当导演”去创造的乐趣。
下面我们会详细分享这部短片的幕后制作,包括各个阶段遇到的难点,以及价值30美刀的经验教训,希望能够为大家省钱避坑。

故事脚本:ChatGPT+Claude

在投喂指令给GPT-4和Claude之前,我们先构思了此次AI短片的主题。
根据“头号AI玩家”观察,目前AI视频技术并不适用于现实主义题材或情节复杂的剧情电影。特别是涉及大量人物对话、表情和细节的场景,这些都是现有AI视频工具难以有效处理的。
以科幻片为代表的电影类型,往往更为依赖视觉特效,这也是AI能发挥想象力的地方。于是我们决定做一支AI科幻短片,同时结合当下社会现实,以“AI导致的社会分化”为关键词,奠定短片初步方向。
起初我们设定的故事背景是:“在2048年,人工智能已经取代了大部分脑力工作,人类社会开始进入到分化的阶段……”
我们将这个故事开头投喂给GPT-4和Claude,GPT-4善于构思完整的故事情节,Claude则在创意故事上更胜一筹,两者可以共同协作写出完整的故事线。
为了获得更好的剧本大纲,在这一步可以先将GPT/Claude训练成“编剧”人设,提高模型的表现,具体的Prompt附上:
我要求你扮演一个编剧,最擅长写xxxx字以内的反转故事(字数可自定义)。你是一个富有想象力和创造力的编剧,能把一个故事情节巧妙地颠覆,给观众带来意想不到的结局。
你的任务是......(完善你的指令),引发观众的思考,无论是悬疑(可以替换成具体故事风格)还是爱情,你都能将故事进展到......(完善你需要达到的目的)。之后我会提供给你重要的故事背景,希望你可以完全理解之后,再开始创作。
以上如果你明白了的话,请回答我明白了。
训练一个专属的Bot可以帮助后续完善打磨剧本,同样在文生图环节中,我们也借助它精准控制了关键词生成。
Claude生成的第一版内容
在脚本创作这一环节,更关键的其实是和AI的交互,考验的是我们对AI的驾驭和掌控。
不要妄图通过单条指令获得完整的故事,要和AI进行探讨,多追问多磨合。比如,讨论基于故事背景,人物的工作和生活环境是怎么样的,享受彼此的灵感迸发,剧本也会逐渐明晰丰满。
指令越明确,提出的需求越清晰,可以最大限度保证AI生成内容的可控性。
通常,AI生成的故事结局往往会比较“正能量”,如果你设想的故事结局偏阴郁、黑暗的调性,则需要自己上手修改。
通过调整、补充提示词和手动修改,我们得到了最终确定的故事概要和完整故事线:
故事背景设定:2048年,人工智能已经取代了大部分的脑力工作,包括教育,医疗,法律,媒体等等。人类社会开始进入到阶层分化,一部分是富裕的精英,他们拥有最先进的AI技术,享受着高品质的生活;另一部分则是普通人,他们被迫重新干起了低技能的体力劳动,生活在拥挤的工厂区,干着日复一日的工作。
请根据这个背景,写一个5分钟视频能呈现的科幻故事。注意故事主角是一名人类女性,故事最大的反转是她看似是机器人,但实际上是人。
故事最后揭露未来人类社会,富裕阶层的人已经移民到另一个星球,把地球视为资源供给地。
《美丽新世界》故事线
2048年,人工智能已经取代了大部分的脑力工作,包括教育,医疗,法律,媒体等等。人类社会进入阶层分化,一部分是富裕的精英,他们拥有最先进的AI技术,享受着高品质的生活;另一部分则是普通人,他们被迫重新干起了低技能的体力劳动,生活在拥挤的工厂区,干着日复一日的工作。
女主角名叫胡曼琪,是2048年最新研制的一代半机械人。为了获得阶层跃升,胡曼琪参加了一个精英阶层的秘密项目。这个项目旨在通过将人类与机械结合,创造出一种新型的半机械人工作力,以提高生产力和效率。
胡曼琪,作为这一实验的一部分,被植入了先进的脑机接口和多种生物机械增强装置,这使她拥有了超越常人的身体能力和智能。
尽管胡曼琪在技术上属于精英阶层的产物,但她并没有生活在这个阶层中。相反,她被派遣到工厂区,与其他被视为低端劳动力的人类一同工作。她的任务是监督和提高生产线的效率,但她的存在也是一个实验,精英们通过她来观察和测试人机结合的极限。
胡曼琪的日常生活是孤独和机械的。每天的工作是在工厂管理室监控工人的日常工作,并同时操作着面前繁杂的机械设备。为了获得充足的能量,她的后背上通过一根粗大的线缆连接到了工厂的中央能源系统。
她无法与周围的人类工人建立真正的联系,因为她的半机械人身份使她与众不同。下班后她也被迫隐藏自己的真实本质,以避免引起恐慌或被排斥。
随着时间的推移,胡曼琪开始体验到一种内在的冲突。她的机械部分使她能够毫不费力地完成任务,但她的人类部分渴望着更深层次的人际关系和情感连接。
她在寂寞中挣扎,同时也对自己被创造出来仅仅作为一个工具的目的感到困惑和愤怒。在一个风暴之夜,胡曼琪像往常一样结束了她在工厂的辛苦工作,独自一人回到了她的小寝室。
外面的雷声轰鸣,闪电不时照亮她简陋的住所。就在她准备休息的时候,一道意外的闪电击中了工厂区,导致了一系列的电力波动。突然间,胡曼琪感到一阵剧烈的头痛,她的视野被奇怪的幻象和数据流淹没。
她的脑机接口因为电磁干扰出现了故障,她的机械和电子部件受到了影响,导致她失去了对自己身体的部分控制。在这个混乱和恐慌的时刻,胡曼琪努力保持冷静,尝试手动重置她的脑机接口。
但是,她发现自己无法访问通常由她的机械部分自动处理的记忆和知识。这个故障迫使她依赖自己的人类直觉和情感,面对她一直以来避免思考的问题:她究竟是谁?
在修复接口的过程中,胡曼琪被迫回忆起她被改造前的记忆片段——她曾经的梦想、情感以及与亲人的联系。这些记忆让她深受触动,也让她意识到自己的人性远远超出了她作为一名半机械人的功能。这一认识促使她开始探索自己的人性,并寻找超越她被赋予的角色的意义,即使这意味着要与整个系统对抗。
确定剧本后,我们尝试让AI生成分镜头脚本。但我们发现,AI在确定镜头运动以及画面景别上,缺乏想象力,还会根据情节“随意”安排。一些叙事性强的故事,在AI的再创作下,开始变得平平无奇。
这里更可行的办法是,一步一步让AI帮助你把故事情节视觉化,把它当作创作助手。所以,此次AI短片的分镜头脚本,人为修改的比例远大于AI生成创作。

文字到图片:Midjourney

分镜上,我们选择了平时常用的Midjourney v6生成画面。整个短片是科幻向,如何奠定影片整体的风格,我们讨论了很久。
后来我们发现了一个很有帮助的Midjourney艺术家风格集成网站,其中囊括了不少创作者用MJ生成的电影、插画、艺术风格图片,并且都附上了关键提示词。
https://midlibrary.io/styles
最后,我们参考的导演/艺术家风格包括Ridley Scott、Stuart Lippincott以及Stanley Kubrick。
只要在提示词最后加上这些导演的名字,MJ都能模仿生成一个相似的风格,这为我们控制画面一致性做了很好的铺垫。
我们使用最多的MJ提示词模版是:
(image we're prompting),(3-5 descriptive keywords or phrases),(Ridley Scott artists),(lighting),(Composition) --v 6.0 --s 750 --ar 16:9
我们需要的图片,3至5个描述性的关键词或短语,确定统一的画面风格/艺术家风格,灯光,镜头景别,--v 6.0 --s 750 --ar 16:9
如果单张图片描述性语句要素太多,反而生成的效果不太好。所以,在实际操作中,我们往往只用到了图片描述+艺术家风格+构图,以及模型版本和高宽比。
这里需要注意的是,如果你想采用文生图-图生视频的工作流,务必在生图环节把最终视频比例参数考虑进去。
前期生图的时候,我们会执着于对画面细节的微调,比如使用MJ的局部重绘功能,但生成图如果有提示词未包含的元素,让AI再修改就异常困难。
另外,如果对照分镜脚本一张张生图,比较浪费时间。有时候文字较好理解的画面,投喂给AI时就会失灵。比如我们想达到空间的扭曲感,当时脚本的关键词是“弯曲”,但AI会理解为“curved”、曲线美,与我们设想的背道而驰。
这个场景用正常建筑做后期特效,比直接生图更节省时间。如果说传统影视创作受限于资本,那目前的AI视频创作则受限于技术。
所以,在这个阶段享受AI绘画抽卡的随机性,多使用“
”这个按钮,毕竟AI生图很难完全契合脑海中想象的画面,接受不完美。
还有另外一个镜头,女主接受修复之时,能够回忆起她被改造前的记忆片段——梦想、成就以及记忆。
我们希望通过领奖台表现女主的成就,但修改了很多遍Prompt,Midjourney都没有办法表现出“拿起冠军奖杯”的场景。
所以到后期,我们其实是借助生成的可用画面,反过来对脚本进行调整和细化
目前AI短片画面一大难点是控制角色的一致性。坦白来说,我们没有找到100%能够保证角色不歪脸的办法。所以在这部AI短片中,我们讨巧地使用了头盔、半机械人的设定,尽可能规避AI生成画面的短板。
你在影片中可以看到,女主出场的角色形象是这样的:

还有这样的:
值得一提的是,在生成画面期间,Midjourney更新了“角色一致性功能(--cref,--sref)”,这两个参数放在一起使用有奇效。比如短片中的眼睛细节,既保持了原本镜头的构图和风格,还能保持眼睛细节的一致性。

图片到视频:Pixverse+RunwayGen2

现代好莱坞商业电影中,平均镜头长度一般在3到4秒左右,镜头更快、更紧凑,带给观众强烈的节奏和紧张感。目前,市面上大部分AI视频生成工具都默认支持生成3~4秒,甚至10秒以上的视频片段。
不过,多种AI视频生成工具测试下来,不建议一次性生成4秒以上的视频片段。以Runway为例,其默认生成视频长度是4秒,虽然支持延长到8秒,但画面崩坏的概率非常高。
从图片到视频这一步,我们最终选用的是PixVerse和Runway Gen2。早前我们实测同赛道上爆火的Pika,认为其更适合生成动画风格的短片。
并且在精准控制上,Runway推出的多运动画笔(Multi Motion Brush)功能,支持在同一个画面中,添加多个图层分开处理不同的动效,相比Pika,Runway更能满足细节镜头、特定镜头运动的精准控制需求。
而PixVerse则是国内爱诗科技旗下的一款AI视频生成工具,支持免费生成4K视频,尤其适合用在大全景、空镜等不需要精准控制的镜头上,可以达到自然微动的效果。
PixVerse生成的宇宙飞船动态效果
https://app.pixverse.ai/login
我们影片中的多数空镜转场画面,都借助PixVerse完成,其他画面则使用了Runway Gen2模型生成。
Runway免费用户目前不支持去水印和提升分辨率,我们忍痛氪金充值了标准版会员,每人每月15美元,提供625积分,大约可生成125秒视频
Runway默认每次生成4秒视频,每调整一次细节都要重新生成新的4秒,并附加远超4秒的等待时间。即使充值了会员,也是要消耗积分的,积分消耗完了要再次氪金,才能继续抽卡。可见Runway真的很“烧钱”。
并且Runway的图视频功能是不提供预览的,像AI时代的“胶片相机”,按下“Generate”生成键就是按下快门,曝光过程是不可逆的,所以要谨慎地设置好参数。
Runway文生视频功能支持预览(预览不会消耗积分),同时,在实际使用中我们发现,文生视频的语义识别往往优于图生视频如果在图生视频中添加辅助提示词,例如“让镜头向前推”,很大概率会被AI忽略。
以这个镜头为例,如果图片作为视频的“第一帧”,图中没有“闪电”这一元素,在图生视频中,无论怎么写提示词,都出不来闪电特效。此时,用图片生成视频,就不如用文本生成视频来得效果好。
上方为文本生成视频,下方为图片生成视频
图生视频和文生视频的使用差异,源于它们技术流程不同图生视频主要依赖输入的图片来生成视频,而文生视频侧重于将文本描述转化为视频内容。
不过目前文生视频的语义理解能力仍比较有限,即使Runway已是AI视频生成赛道上的头部产品。
提示词要求的“电脑”“地球”都没有体现在生成视频中
相比文生视频,图生视频目前技术成熟度更高,像早前通义千问“全民舞王”爆火,一张照片生成“科目三”跳舞视频,其效果质量已在C端得到验证。
所以如果你追求精准的控制,或者已经有了明确的分镜头脚本,那么先用AI绘画工具“文生图”,再用AI视频工具“图生视频”,是目前技术限制下较为高效的工作流。
此外,需要补充的一点是:切勿迷恋Runway的多运动笔刷功能。在一些大场景镜头的生成上,我们曾尝试使用它来控制运镜和画面主体运动方向,但发现这类镜头不如直接喂给AI,设定好动幅(最好不要太大),细节让AI自己发挥,效果更好。

声音:剪映+OptimizerAI+SunoAI

由于我们时间有限,这部AI短片没有实现对话式的配音用到的更多是AI音乐和音效,旁白是通过剪映AI克隆声音而成
如果在短片里需要用到环境音,比如风雨雷电,可以直接在网上下载无版权的音效,11Labs、Pika此前上线了Sound Effect功能,不过还没有完全开放。
我们尝试了一款免费可用的AI音效工具Optimizer AI,同样搭载在Discord上。它通过文字提示生成适用各种场景的音效,比如机械音、袭击声、雷声和雨声等。
Opimizer AI一次会生成5个声音效果,每次音效时长只有3-4秒,长时间的音效需要玩家多次尝试,进行组合。
https://www.optimizerai.xyz/
用AI生成音效,给我们带来了一些惊喜。像机器打磨的声音、故障声,Optimizer AI一次就生成了满意的效果,省去了不少在互联网搜罗声音的时间。
但有个弊端是,Optimizer AI在人声音效生成上还不够真实。比如我们有个镜头需要配上孩童玩乐的笑声,Optimizer给出的几次结果听上去有些“毛骨悚然”。
等我们需要为短片配上背景音乐时,Suno AI正好更新了v3版本。一开始我们没抱太高期望,但没想到初次尝试就生成了满意的背景音乐,短片出片名之前用的就是Suno AI生成的音乐,提示词为“Make a song for a sci-fi epic movie”
在这次短片制作中,这是为数不多令人惊喜的“即生即用”体验。
之后就是旁白了。由于AI画面生成的限制,旁白需要充当“叙事者”的身份,帮助我们串联起所有场景故事。在中文配音方面,剪映AI输出的人声、情绪更自然。
我们尝试过11Labs,在音色转换以及克隆音色上,11Labs确实独树一帜,但换到中文里,它不可避免出现“译制腔”。
我们早前实测过剪映推出的AI克隆音色功能,克隆效果在短句子上表现十分惊艳于是我们通过剪映分段输入旁白,一段一段生成了构成整部短片的人声旁白,并在后期剪辑时,在人声上添加电话音效,营造出这是主角在生命弥留之际留下的电话录音。

成片:剪辑+参投

最后就是剪辑成片,参投北影节。临近截止时间我们才提交影片,因为我们远远低估了完成一部AI短片所需要的时间。短短两分钟的短片,交给AI的效率没有想象那么高
当初生图的时候觉得场景不错,放到视频工具中,发现角度完全不对,画面乱动,推翻重来。按脚本生成完所有场景后,发现故事压根连不起来,需要补充画面,再重来。初剪完一遍后,发现逻辑衔接有问题,再次重来......
可以说,两分钟的短片背后,存在着无数AI废片。
当然,如果没有AI,这条短片也不会存在。毕竟,放在一年前,很难想象两个没有影视制作资源的编辑,仅仅凭借对电影的热爱,就能折腾出一条科幻短片出来。
我们曾在年初的时候提出这样的问题“2024年我们离AI电影还远吗”,技术层面上看,从文本、画面到视觉、声音领域,催生了不少易用的工具产品面世,影视爱好者比以往更容易体验到制作电影的乐趣
虽然眼下距离一部真正意义上的AI电影,还有很长一段路,但我们希望更多AI爱好者们能从这篇经验分享中获得启发,在这个技术革新的时代,有机会制作属于自己的AI短片。
作者 | 阿虎 石濑
编辑| 卷毛

PS. 4月23日,「新榜短剧大会」将在上海光大国际大酒店举行,欢迎扫码报名,与短剧一线从业者线下碰面,共探短剧风口!

• 作为数据驱动的互联网内容科技公司,新榜提供新媒体内容营销和企业服务系列产品,助力中国企业数字化内容资产获取与管理,服务于内容产业,以内容服务产业。
• 我们的客户既包括腾讯、字节跳动、阿里巴巴、中国平安、比亚迪、京东、通威、贝壳、宝洁、欧莱雅、联合利华、雅诗兰黛、迪士尼等头部品牌,也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设,新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体,找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力,新榜被评为国家级高新技术企业、上海市专精特新企业、上海数字广告领军企业,曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”等称号,拥有多个传播评估监测专利。浏览器搜索新榜官网,获取更多新媒体动向。
继续阅读
阅读原文