新智元报道

编辑：LRT

【新智元导读】香港科技大学和特拉维夫大学的团队开源了基于视频大模型的「文字跳动」（Dynamic Typography）技术，仅需选择一个字母，并给出一段简单的文字描述，就可以生成SVG动画让这个字母「跃然纸上」.

ROMANTIC（浪漫的）中的「M」，变成了一对情侣手拉手，前后走。

Father（父亲）中的「h」，被演绎为一个父亲耐心地牵着他的小孩一起散步。

PASSION（激情）中的「N」，可以化为一对情侣拥吻在一起。

SWAN（天鹅）中的「S」，竟变成一只天鹅优雅地伸展着她的脖颈。

TELESCOPE（望远镜)中的「P」，成为了一个真的望远镜！缓缓地转向镜头。

这就是来自港科大和特拉维夫大学的研究团队为我们带来的最新作品：Dynamic Typography。

论文链接: https://arxiv.org/abs/2404.11614

项目主页: https://animate-your-word.github.io/demo/

下面为视频demo，强烈推荐大家打开声音看一下哦！

让文字动起来

文本动画是一种表达性的媒介，它将静态沟通转变为动态体验，从而唤起情感，强调文本的意义，并构建引人入胜的叙事，从而被广泛应用于梗图，视频，及广告制作中。然而，想要制作这样符合语义的动画需要在图形设计和动画制作方面的专业知识。

因此，研究人员提出了一种全新自动化文本动画方案「文字跳动」，实现了文本与动画的完美融合。

该方案可以拆解为两个步骤：

1. 根据用户的描述，字母将被变形从而传达文本语义。

2. 变形的字母将被赋予用户描述的生动动态效果，从而达成文字动画。

在文字丝滑运动的同时保持其可读性极具挑战性。当下的文生视频模型均难以保证生成可读的文字，更无法将文字根据其语义信息「变形」从而更好的传达运动信息。而重新训练这样的模型需要大量难以获取的风格化文字视频作为数据集。

研究人员使用了Score Distillation Sampling（SDS）技术，通过蒸馏大参数量文生视频基础模型中的先验知识，预测文字的矢量图中的控制点在每一帧的位移，并通过额外的可读性约束以及结构保持技术实现了文字运动过程中可读性和外观的保持。

研究人员展示了他们提出的框架在各种文生视频模型上的通用性，并强调了该方法相比基线方法的优越性。实验结果表明了他们的技术可以成功生成与用户描述相符且连贯的文本动画，同时保持了原文字可读性。

方法

1. 数据表征

在这项工作中，字母的轮廓被表征为若干条相连的三次贝塞尔曲线，由贝塞尔曲线控制点决定其形状。作者提出的方法为每一帧预测每个控制点的位移。这些位移将字母「变形」从而传达语义信息，并通过每一帧不同的位移加入运动。

字母的轮廓被提取为相连接的三次贝塞尔曲线

2. 模型框架

给定一个表征为贝塞尔曲线的字母，研究人员首先使用一个基于坐标的MLP（称为Base Field，基础场）将字母变形可以表征其语义信息的base shape，如图中的「CAMEL」的「M」被变形为骆驼的样子。

Base shape紧接着被复制到每一帧，并通过另外一个基于坐标的MLP（称为Displacement Field，位移场）预测每个控制点在每一帧的位移，从而为base shape加入运动。

每一帧接着通过一个可微渲染器渲染为像素图片，并拼接为输出视频。基础场和位移场通过文生视频的先验知识以及其他的约束项完成端到端的共同优化。

3. 优化

当下基于扩散的文生图模型如Stable Diffusion通过大规模的二维像素图片进行训练，包含了丰富的先验知识。Score Distillation Sampling（SDS）旨在蒸馏扩散模型中的先验知识，用于训练其他模型生成其他模态的内容，如训练NeRF中MLP的参数从而生成3D模型。

在该工作中，研究人员通过SDS蒸馏一个基于扩散的文生视频模型，基于得到的先验知识训练基础场以及位移场中的参数。

此外，为了保证生成视频的每一帧仍然保持字母本身的可读性，（如单词「CAMEL」中的字母「M」在外观近似于骆驼的同时也需要保持单词M的形状，使用户可以辨认出其是字母M），该工作通过加入基于Learned Perceptual Image Patch Similarity（LPIPS）的约束项，约束base shape与原字母的感知相似度。

为了缓解观察到的贝赛尔曲线频繁交叉导致严重闪烁的问题，该工作加入了基于三角化的结构保持约束项,在变形以及运动的过程中维持稳定的骨架结构。