VideoPoet 可实现单个大模型完成多种视频生成任务。
作者 | 黄   楠
编辑 | 陈彩娴
过去一年,从画图、写诗、代码到语音等生成式内容迎来爆炸性增长,在这当中,被视为 AIGC 高地之一的视频生成(Text-to-Video)受数据、算力多方影响,技术门槛更高,需要克服视频画面质量、画面连续性、文本和视频内容等诸多挑战。
近日,由谷歌推出的全新 AI 视频生成模型 VideoPoet,该模型是一个 Zero-shot(零样本)视频生成模型,可节省大量数据和计算资源,模型表现上也展示了令人惊喜的画面效果。
比如在多数情况下,即便是领先的生成模型在面对或大或小的视频运动画面时,不可避免会出现明显的伪影问题。但在 VideoPoet 中,上述问题得到了一定的修复。
此外,VideoPoet 的优势还在于,可将多种生成功能,比如风格转化、音视频生成、长视频等集合进同一个语言大模型中来完成多任务,而非单个任务训练组件的集成。
1
VideoPoet:零样本视频生成模型
据谷歌官方介绍,VideoPoet 是一个大语言模型,通过选择将文本作为输入,能够在各种以视频为中心的输入和输出上执行多任务处理,包括文本到视频、图像到视频、视频到音频、风格转化、绘画等。
其中,输入后的图像可以产生运动,而对于被裁减或遮挡的视频内容,也可以通过 VideoPoet 来修改或修复。
比如文本生成视频中:
输入文字“浣熊在时代广场跳舞”,就可以得到一小段浣熊形象的舞蹈视频
又比如使用文字,来引导图像转变为视频:
:油画中描绘了一艘船,它在波涛汹涌的大海、雷暴和闪电中穿行
:许多闪烁的星云飘动着
:刮风的日子里,一位拄着拐杖流浪者站在悬崖上,他俯瞰着下端旋转的雾
根据不同的绘画描述,一张相同的图片还能转化为不同的视频片段,比如:
:一位女士转身看着镜头
:一位女士在打哈欠
而根据不同的视频风格、时长、画面剪辑等需求,VideoPoet 也能提供对应的服务。
比如在视频里通过文字来引导视频生成新的风格:
左:戴着墨镜的袋熊在阳光明媚的海滩上拿着沙滩球
中:泰迪熊在清澈的冰冻湖面上滑冰
右:“一只金属狮子在锻造厂的灯光下咆哮
比如在长视频需求中,常规情况下,VideoPoet 会根据默认输出短格式内容,但只要调节视频最后一秒并预测下一秒内容,VideoPoet 就可以输出更长的视频内容:
一名宇航员开始在火星上跳舞,紧接着五彩缤纷的烟花在背景中爆炸
FPV(First Person View,第一人称主视角) 镜头拍摄下,丛林中有一座非常锋利的精灵石城,明亮的蓝色河流、瀑布和大而陡峭的悬崖
此外,VideoPoet 还能接受视频内容的输入,并通过文字引导,来对视频进行剪辑。
左侧第一个视频为输入视频,给出对应的提示:
一个可爱的、生锈的、损坏的蒸汽朋克机器人的特写,上面覆盖着潮湿的苔藓和发芽的植被,周围环绕着高高的草丛
随后再添加动态画面引导:
在背景中冒烟通电
再比如给出所需的相机拍摄镜头,文本可以精确控制相机的拍摄轨迹:
下图镜头依次为:缩小、移动变焦、向左平移、弧线拍摄、云台拍摄、FPV 无人机拍摄
可以看到,VideoPoet 目前展现了很强的理解和生成能力,通过重复链接,该模型不仅可以很好地对视频内容进行扩展,并且,即使增加多个指令,模型也能在迭代中很好地保留生成对象的外观。
过去,由于受大语言模型离散 tokens 影响,容易影响视频生成的质量效果。VideoPoet 的优势在于,使用多个标记器来学习视频、图像、音频和文本,将视频和音频剪辑编码为离散标记序列,一旦模型生成以某些上下文为条件的标记,便可以通过标记器解码器,将这些标记转换回可查看的表示形式。
此外,VideoPoet 是一个零样本视频生成模型,可以节省大量数据和计算资源。同时,相较于同类视频生成模型中,多采用单个任务训练、再将各功能集成组件的方式,VideoPoet 可实现用同一个语言大模型完成多个视频生成任务。
2
评估:表现普遍超过其他模型
为了进一步观察 VideoPoet 的表现,谷歌团队在不同提示下,测试了其他所有视频生成模型,并交给用户进行了偏好评价。
首先在文本保真度上、即在准确遵循提示方面首选视频的百分比,总体来看,用户认为在遵循提示的表现上,VideoPoet 的案例有 24%-35% 表现更佳,同类竞争模型占比为 8%-11%。
在动作的趣味性上,评分用户更喜欢 VideoPoet 中 41%-54% 的示例,因为其画面更生动、动作趣味性更高,而其他模型的这一比例为 11%-21%。
可以看到,VideoPoet 目前在各种任务中,相比同类模型,已经具有高度竞争力的视频生成质量,特别是在视频中生成有趣且高质量的动作方面。
不过,目前 VideoPoet 只发布了模型演示,相关的论文、代码等均未发布。对此有网友表示,“像往常一样,谷歌发布了令人印象深刻的人工智能演示,但没有办法实际尝试它,没有源代码,没有 API,也就不是一个商业产品......所以,没有人会真正使用它。”
相比起文本和图像领域,视频生成要想取得突破一段还有漫长的路程。此前有行业人士就指出,视频生成的主要难题之一就是时长,与时长产生直接关联的是动作意义,要延长视频制作的时长,首要任务就是解决模型对动作意义的理解和推理,探索它到底能做多复杂的动作。
其次,尽管视频清晰度、承接流畅性等方面已经有所提高,但要进入应用环节还有很长一段距离。
或许在不久的未来,我们也可以见证视频生成模型的应用到“any-to-any”生成中去,例如,扩展到文本到音频、音频到视频和视频字幕等。
你认为视频生成领域有哪些可以探索的新机会?欢迎添加作者(finfl26est)交流。
更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

继续阅读
阅读原文