NUS、NTU等联合提出Dysen-VDM，利用LLM协助增强视频扩散模型的时间动态感知能力

文本到视频（T2V）合成这一研究方向受到越来越热切的关注，其中最近以扩散模型为代表的方法，展现出了非常强大的视频生成能力，比如 1 个月前 OpenAI 发布的 Sora 系统。

尽管现有的绝大部分开源的扩散模型能够实现高分辨率的视频生成，即画面高清；但实际上对于视频合成，建模视频中所涉及到的复杂时序动态能力，T2V 关键的重点和难点问题，却没有良好解决。也因此大部分的视频扩散模型存在诸如视频过渡不平滑、粗糙的视频运动和动作发生混乱等问题。

为解决该问题，由新加坡国立大学、南洋理工大学联合 Skywork AI 提出利用 LLM 协助增强视频扩散模型的时间动态感知能力，以实现高质量的 T2V 生成。在这项工作中，作者基于 OpenAI GPT（ChatGPT、GPT4）设计了一个动态场景管理器（Dynamic Scene Manager，简称为 Dysen）模块。

通过 LLM 强大的视觉理解能力，Dysen 实现了（几乎）人类水平的时序动态理解，得到的丰富动作场景细节的视频时空特征集成到 T2V 扩散模型，形成 Dysen-VDM，实现了 SoTA 的视频生成表现。

该工作《Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs》已被 CVPR 2024 接收。

论文题目：

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

论文地址：

https://arxiv.org/abs/2308.13812

项目主页和代码：

http://haofei.vip/Dysen-VDM/

背景引言

目前视频生成社区，基于扩散模型（DM）的 T2V 研究仍然面临几个常见但不容忽视的挑战。在图1中我们调研出四类典型的基于扩散模型的 T2V 问题：1）较低的帧分辨率、2）视频过渡不平滑、3）粗糙的视频运动，和 4）动作发生混乱。

虽然很多的基于扩散模型的 T2V 研究已经通过各种上采样以及超分技术提高了视频帧的质量，即生成高分辨率视频图像，但它们可能在很大程度上忽略了对于复杂的视频时序动态特性的建模（对应于后三类问题），而这实际上才是目前高质量视频合成的关键痛痒点。

根据作者的观察，这几个瓶颈的根源来自于“视频-文本”模态异质性的本质。归纳地讲，语言可以用一些简洁抽象的词汇（例如，谓词和修饰语）描述复杂的动作，而视频却需要通过非常具体且往往冗余的画面帧来渲染同样的动作行为。

对于基于扩散模型的视频生成系统，受限于扩散模型自身的语言编码能力，其并不具备优越的语言语义理解能力。换句话说，扩散模型的文本条件编码器的语言语义理解能力与扩散模型的视频合成能力之间存在一个明显的鸿沟。这便将导致所生成视频的时间动态特性的缺陷。

不妨想象一下，我们人类是如何根据给定的指令来创作视频或电影的（对应于 T2V 生成任务）。比如“创作一段车手夺冠的电影，呈现一场激烈的赛车场景”。

首先，我们总是会先将文本指令中的关键行为动作、事件（如“赛车”，“夺冠”）提取出来，并按照时间发生先后顺序（“赛车”到“夺冠”）。然后，我们再通过想象力来丰富这些简单的基本事件，使对应的场景下包含更多所可能涉及到的具体画面和细节。有了这样一个完整的剧本后，再去将整个视频画面渲染出来将会变得轻而易举、顺其自然了。

方法简述

受启发于上述人类直觉过程，作者归纳出 T2V 建模的几个关键点，这对于特别是涉及到复杂动态行为视频生成的场景尤为重要。

第一，输入的指令里，其语言或文本会提到了各种动作，但这些动作不一定与物理发生的顺序一致。比如“创作一段车手夺冠的电影，呈现一场激烈的赛车场景”，其文本顺序提到的事件是“夺冠”和“赛车”，而实际上这俩事件的合理发生顺序应该是先“赛车”然后“夺冠”。因此，重新合理编排组织事件的发生时序是很有必要的。

第二，往往用户所输入的文本指令提示是非常精简和抽象的（语言的特点）。提示文本极大概率不能涵盖场景下所有应该设计到的动作和画面内容。比如“赛车”场面下，应该会有非常丰富的场景，比如“各种赛车”，“赛车手”，“尘土飞扬的跑道”以及“热闹十足的观众”，这些都不会在用户的文本输入指令中显式给出。因此，进一步合理地丰富视频场景，对于制作含有详细、复杂动作的视频合成是不可或缺的。

第三，在建模好上述两项内容后，如何高效地表征视频的时空（Spatiotemporal）特征也很关键。上述的过程应基于一种强效的结构化语义表示来进行，以保持一种高可控的动态场景管理；同时也应当实现一种细粒度的时空特征建模，以产生更强的时间动态感知、画面连贯的视频生成。

于是作者提出一个针对性的解决方案：利用 LLM 协助增强视频扩散模型的时间动态感知能力，实现更高质量的 T2V。

上图展示了整体的 Dysen-VDM 模型系统架构。在系统中，作者首先采用一个视频扩散模型（VDM）作为 T2V 的骨干架构，然后在此之上设计了一个动态场景管理器（Dynamic Scene Manager，简称为 Dysen）模块，进行视频的动态特性建模。

为了实现对视频时间动态特性达到“人类级别”的理解能力，作者利用了目前最为强大的 LLM，即 OpenAI 的 ChatGPT 系列（即 GPT3.5/GPT4）。在 Dysen 中，作者将 ChatGPT 定位为一种“电影咨询顾问”，指导整体的动作规划和场景想象。

具体稍微展开系统的 Dysen 模块，其主要执行三次连续的操作。如上图所示。

在第一步，让 LLM 从输入文本中提取关键动作，并让其按照最可能的物理发生的顺序进行恰当的排列。

在第二步，在将这些有序的动作转换成结构化的动态场景图（Dynamic Scene Graph, DSG）表征。DSG 可以高效地代表视频在语义结构中的内在空间和时间特性，允许可控的且细粒度的视频场景管理，是这个问题场景中最为理想的一种视频表征方式。

在第三步，让 LLM 基于自己的想象力，充分丰富上一步得到的 DSG 表示，添加充分多的且合理的场景细节。最后，带有丰富场景细节的 DSG 特征进行编码，所学习到的精细的细粒度时空特征被融合到骨干 VDM 中，进行 T2V 的去噪视频生成。

实验

Dysen-VDM 模型与较为先进的、主流的多个 T2V 扩散模型在基准数据集上进行了定量性能对比，包括 UCF-101 和 MSR-VTT。表 1 和表 2 分别展示了 Zero-shot 和 Fine-tuning 的表现。可以看到，大致上 Dysen-VDM 都能取得最佳的性能。

作者进一步在一个更严格的设置下进行比较，即视频内容动作复杂的场景。作者基于 ActivityNet 数据，考虑了三种不同的测试场景：1）输入文本包含多个同时发生（或部分重叠）的动作，2）具有不同长度的输入文本，以及 3）生成不同长度的视频帧。

如下图所示，总体上，Dysen-VDM 在动作复杂的三个 T2V 生成测试上都能明显比基线方法表现出更强的能力。

下面给出一些 Dysen-VDM 所生成 demo 视频的动态效果展示。

输入提示词：A lady holds an umbrella, walking in the park with her friend.

输入提示词：A bustling morning of a market with crowd.

输入提示词：In the kitchen, the woman assists her dad in cooking dinner by trimming the vegetables.

输入提示词：Friends dance to music at the party.

输入提示词：Students listen to the teacher in the classroom, with some raising hands.

输入提示词：In the gym, a man and woman are running on treadmills.

未来工作

本文所提出的方法可行的一个重要前提假设是，LLM 具备了一定程度的视觉层面的语义理解（比如可以让 LLM 来进行视觉方面的想象和规划）。但这也导致存在一定的局限性，即由于该方法在很大程度上依赖于使用的 LLM 的性能，所以 Dysen-VDM 系统的表现将会受制于 LLM 本身的能力、可用性和稳定性。

幸运的是，OpenAI 的 ChatGPT（GPT3.5，GPT4）系列已经展示了出色的人类级语义理解能力，包括动态场景理解。同时，目前也已经有许多优秀的开源LLM可以作为 ChatGPT 在 LLM 可用性方面的替代品。

近期，以 Sora 为代表的基于 Diffusion in Transformer（DiT）架构的视频框架表现出了前所未有的强大视频生成能力。但目前针对“Sora 是否真正实现了物理世界的建模”这一议题，社区的正反两方的意见依然存在激烈的争辩。

有人认为 Sora 并没有实现真正的物理世界的建模，因为在其所生成的视频中依然可以发现不少的细节画面上的漏洞，比如“物体数量的突然增加或减少”，“运动过程的因果性缺失”。

解决这种问题的一种可行的方式就是，基于本文所提出的核心 idea，让 LLM 基于其强大的现实世界的建模能力，比如结合自身的 commonsense 知识，加以逻辑推理和反思，对目标视频的内容在各个层面上进行合理的规划。

更多阅读