VideoPoet 可实现单个大模型完成多种视频生成任务。

作者 | 黄楠

编辑 | 陈彩娴

过去一年，从画图、写诗、代码到语音等生成式内容迎来爆炸性增长，在这当中，被视为 AIGC 高地之一的视频生成（Text-to-Video）受数据、算力多方影响，技术门槛更高，需要克服视频画面质量、画面连续性、文本和视频内容等诸多挑战。

近日，由谷歌推出的全新 AI 视频生成模型 VideoPoet，该模型是一个 Zero-shot（零样本）视频生成模型，可节省大量数据和计算资源，模型表现上也展示了令人惊喜的画面效果。

比如在多数情况下，即便是领先的生成模型在面对或大或小的视频运动画面时，不可避免会出现明显的伪影问题。但在 VideoPoet 中，上述问题得到了一定的修复。

此外，VideoPoet 的优势还在于，可将多种生成功能，比如风格转化、音视频生成、长视频等集合进同一个语言大模型中来完成多任务，而非单个任务训练组件的集成。

VideoPoet：零样本视频生成模型

据谷歌官方介绍，VideoPoet 是一个大语言模型，通过选择将文本作为输入，能够在各种以视频为中心的输入和输出上执行多任务处理，包括文本到视频、图像到视频、视频到音频、风格转化、绘画等。

其中，输入后的图像可以产生运动，而对于被裁减或遮挡的视频内容，也可以通过 VideoPoet 来修改或修复。

比如文本生成视频中：

输入文字“浣熊在时代广场跳舞”，就可以得到一小段浣熊形象的舞蹈视频

又比如使用文字，来引导图像转变为视频：

左：油画中描绘了一艘船，它在波涛汹涌的大海、雷暴和闪电中穿行

中：许多闪烁的星云飘动着

右：刮风的日子里，一位拄着拐杖流浪者站在悬崖上，他俯瞰着下端旋转的雾

根据不同的绘画描述，一张相同的图片还能转化为不同的视频片段，比如：

左：一位女士转身看着镜头

右：一位女士在打哈欠

而根据不同的视频风格、时长、画面剪辑等需求，VideoPoet 也能提供对应的服务。

比如在视频里通过文字来引导视频生成新的风格：

左：戴着墨镜的袋熊在阳光明媚的海滩上拿着沙滩球

中：泰迪熊在清澈的冰冻湖面上滑冰

右：“一只金属狮子在锻造厂的灯光下咆哮

比如在长视频需求中，常规情况下，VideoPoet 会根据默认输出短格式内容，但只要调节视频最后一秒并预测下一秒内容，VideoPoet 就可以输出更长的视频内容：

一名宇航员开始在火星上跳舞，紧接着五彩缤纷的烟花在背景中爆炸

FPV（First Person View，第一人称主视角）镜头拍摄下，丛林中有一座非常锋利的精灵石城，明亮的蓝色河流、瀑布和大而陡峭的悬崖

此外，VideoPoet 还能接受视频内容的输入，并通过文字引导，来对视频进行剪辑。

左侧第一个视频为输入视频，给出对应的提示：

一个可爱的、生锈的、损坏的蒸汽朋克机器人的特写，上面覆盖着潮湿的苔藓和发芽的植被，周围环绕着高高的草丛

随后再添加动态画面引导：

在背景中冒烟通电

再比如给出所需的相机拍摄镜头，文本可以精确控制相机的拍摄轨迹：

下图镜头依次为：缩小、移动变焦、向左平移、弧线拍摄、云台拍摄、FPV 无人机拍摄

可以看到，VideoPoet 目前展现了很强的理解和生成能力，通过重复链接，该模型不仅可以很好地对视频内容进行扩展，并且，即使增加多个指令，模型也能在迭代中很好地保留生成对象的外观。

过去，由于受大语言模型离散 tokens 影响，容易影响视频生成的质量效果。VideoPoet 的优势在于，使用多个标记器来学习视频、图像、音频和文本，将视频和音频剪辑编码为离散标记序列，一旦模型生成以某些上下文为条件的标记，便可以通过标记器解码器，将这些标记转换回可查看的表示形式。

此外，VideoPoet 是一个零样本视频生成模型，可以节省大量数据和计算资源。同时，相较于同类视频生成模型中，多采用单个任务训练、再将各功能集成组件的方式，VideoPoet 可实现用同一个语言大模型完成多个视频生成任务。

评估：表现普遍超过其他模型

为了进一步观察 VideoPoet 的表现，谷歌团队在不同提示下，测试了其他所有视频生成模型，并交给用户进行了偏好评价。

首先在文本保真度上、即在准确遵循提示方面首选视频的百分比，总体来看，用户认为在遵循提示的表现上，VideoPoet 的案例有 24%-35% 表现更佳，同类竞争模型占比为 8%-11%。

在动作的趣味性上，评分用户更喜欢 VideoPoet 中 41%-54% 的示例，因为其画面更生动、动作趣味性更高，而其他模型的这一比例为 11%-21%。

可以看到，VideoPoet 目前在各种任务中，相比同类模型，已经具有高度竞争力的视频生成质量，特别是在视频中生成有趣且高质量的动作方面。

不过，目前 VideoPoet 只发布了模型演示，相关的论文、代码等均未发布。对此有网友表示，“像往常一样，谷歌发布了令人印象深刻的人工智能演示，但没有办法实际尝试它，没有源代码，没有 API，也就不是一个商业产品......所以，没有人会真正使用它。”

相比起文本和图像领域，视频生成要想取得突破一段还有漫长的路程。此前有行业人士就指出，视频生成的主要难题之一就是时长，与时长产生直接关联的是动作意义，要延长视频制作的时长，首要任务就是解决模型对动作意义的理解和推理，探索它到底能做多复杂的动作。

其次，尽管视频清晰度、承接流畅性等方面已经有所提高，但要进入应用环节还有很长一段距离。

或许在不久的未来，我们也可以见证视频生成模型的应用到“any-to-any”生成中去，例如，扩展到文本到音频、音频到视频和视频字幕等。

你认为视频生成领域有哪些可以探索的新机会？欢迎添加作者（finfl26est）交流。

更多内容，点击下方关注：

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

继续阅读

阅读原文

谷歌发布视频生成模型 VideoPoet，AI 连剪辑师的工作也承包了

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。