作者
:Gyeongman Kim, Hajin Shim, Hyunsu Kim, Yunjey Choi, Junho Kim, and Eunho Yang

来源
:CVPR 2023

论文题目
:Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding

论文链接
: https://openaccess.thecvf.com/content/CVPR2023/papers/Kim_Diffusion_Video_Autoencoders_Toward_Temporally_Consistent_Face_Video_Editing_via_CVPR_2023_paper.pdf

主页链接
: https://diff-video-ae.github.io/

代码链接
: https://github.com/man805/Diffusion-Video-Autoencoders

内容整理
:曹靖宜

受人脸图像编辑方法的启发,相关研究将这些方法扩展到人脸视频编辑任务,所面临的主要挑战之一是编辑帧之间的时间一致性。为此,本文提出了一种基于扩散自编码器的新型人脸视频编辑框架,该框架可以成功地提取分解的特征:来自给定视频的身份(identity)和运动(motion)。这种建模允许通过简单地朝着希望的方向操纵时间不变的特征来编辑视频,同时保留时序上的一致性。另一个独特优势是,由于本文模型基于扩散模型(Diffusion model),它可以同时满足重建和编辑能力,与现有的基于 GAN 的方法不同,对人脸视频中的极端情况(例如遮挡)具有更好的鲁棒性。
目录
  • 引言
  • Diffusion Video Autoencoders
    • 解纠缠的视频编码
    • 视频编辑框架
  • 实验
    • 重建
    • 时序一致性
    • 分解特征分析
  • 结论

引言

对于给定的人脸图像,人脸编辑是指改变头发颜色、性别或眼镜等各种人脸属性,作为计算机视觉标准任务之一,由于其各种应用和娱乐而不断受到关注。特别是,随着最近生成对抗网络 (GAN) 模型的改进,只需通过操纵给定图像的潜在特征就可以完成这项任务。此外,许多基于扩散概率模型(DPM)的人脸图像编辑方法也被提出,这些方法显示出高质量和灵活的操作性能。目前已经提出了进一步的研究来扩展图像编辑方法到人脸视频编辑中,这些研究试图用其他剩余的特征和运动完整地操纵目标属性。现有方法基本上都是通过基于StyleGAN的图像编辑技术独立编辑视频的每一帧。
尽管StyleGAN在这项任务中具有一定优势,如高分辨率图像生成能力和高度解纠缠的语义表示空间,但基于GAN的编辑方法的一个缺点是真实图像的编码不能被预训练的生成器完美地恢复。特别是,如果给定图像中的人脸被某些对象异常装饰或遮挡。为了实现近似完美的重建,相关研究提出在一个或几个目标图像上进一步微调,这会带来昂贵的计算成本,并且在视频领域可能更糟,因为必须在多个帧上微调模型。
除了现有的基于 GAN 的方法的重构问题外,在视频编辑任务中考虑连续帧之间的时间一致性至关重要。为了解决这个问题,一些先前的工作依赖于原始帧的潜在轨迹的平滑度,或者通过对所有帧进行相同的编辑步骤来直接平滑潜在特征。但是,平滑度并不能确保时间一致性,相同的编辑步骤也可以为不同的帧做出不同的结果,因为它可以无意中与不相关的运动特征纠缠。例如,在下图的中间行中,眼镜会随着时间而变化,有时当男人闭上眼睛时会减少。
人脸视频编辑。本文的编辑方法在时间一致性(左、“眼镜”)和对手部遮挡人脸(右、“胡须”)等不寻常情况的鲁棒性方面显示出与baseline相比的改进。
本文提出了一种新的人脸视频编辑框架,称为扩散视频自编码器,解决了先前工作的局限性。首先,引入了基于扩散的面部视频编辑任务模型,基于最近提出的扩散自编码器 (DiffAE),本文模型学习了一个语义上有意义的潜在空间,可以完美地恢复原始图像并直接编辑。不仅如此,本文首次作为视频编辑模型,对视频的分解特征进行编码:1)所有帧共享的身份特征,2)每一帧中的运动或面部表情的特征,以及 3)由于方差较大,无法具有高级表示的背景特征。对于一致的编辑,只需为所需属性(每个视频的单个编辑操作)操作单个不变特征,与之前需要编辑所有帧的潜在特征的工作相比,这在计算上也是有益的。
本文主要贡献如下:
  • 设计了基于扩散自编码器(DiffAE)的扩散视频自编码器,将视频分解为时间一致特征和每一帧时间变化特征。
  • 基于扩散视频自编码器的分解表示,可以通过仅编辑单个时间不变的身份特征并将其与剩余的原始特征一起解码来进行人脸视频编辑。
  • 由于扩散模型的重建能力近乎完美,本文框架可同时用于编辑面部被遮挡的异常情况和正常情况。
  • 除了现有的预定义属性编辑方法外,本文还提出了一种基于文本的身份编辑方法,该方法基于局部方向 CLIP 损失实现人脸视频编辑。

Diffusion Video Autoencoders

扩散视频自编码器框架

解纠缠的视频编码

为了对具有 N 帧 的视频进行编码,本文将人脸视频的时间不变特征视为人类身份信息,将每一帧的时间相关特征视为运动和背景信息。在这三个中,与人脸相关的身份或运动信息适合于投影到低维空间以提取高级表示。相比之下,背景显示出具有任意细节的高方差,并通过裁剪和对齐面部区域随着头部运动而变化更多。因此,将背景信息编码为高级语义特征可能非常困难。因此,身份和运动特征被编码在高级语义特征中,结合每一帧视频的身份特征和运动特征,背景特征编码在噪声 中(见上图a)。没有帧索引上标是因为它是时间不变的,在视频的所有帧中共享。
为了实现这种分解,本文模型由两个分离的语义编码器组成——一个身份编码器 和一个人脸关键点编码器 - 和一个用于扩散建模的条件噪声估计器 。两个编码器的编码特征 被连接起来并通过 MLP 传递,最终得到与人脸相关的特征 。接下来,为了对噪声图 进行编码,使用噪声估计器 , 以 为条件进行DDIM的确定性前向过程。由于噪声图 是与图像大小相同的空间变量,因此预计背景中的信息可以在不损失空间信息的情况下更容易编码。然后,通过确定性的方式运行条件DDIM的生成反向过程,可以将编码特征 重构为原始帧:
为了获得与运动分离的身份特征,选择使用预训练模型ArcFace进行身份检测。然而,当通过预训练的身份编码器为每一帧提取身份特征时,由于某些帧可能有一些原因(例如过多的侧视图姿势)具有部分身份特征,因此每帧的特征可能略有不同。为了缓解这个问题,我们在推理阶段对所有帧的身份特征 。类似地,通过预先训练的人脸关键点检测模型获得每帧运动信息。因此,扩散视频自编码器通过预先训练的编码器提取图像的身份和关键点特征,并通过额外的可学习MLP将它们映射到人脸的高级语义特征空间。
损失函数由两部分组成。第一个是DDPM损失的简单版本,表示为:
其中是输入图像的编码高级特征。它鼓励图像的有用信息很好地包含在语义潜在中,并被 利用去噪。其次,设计了一种正则化损失,以防止人脸信息(身份和运动)泄漏到,但尽可能地包含在中,以便在背景和人脸信息之间进行清晰的分解。如果在 中丢失了一些人脸信息,则丢失的信息将无意中保留在噪声潜在 中。为了避免这种情况,作者对两个不同的高斯噪声和进行采样,分别得到不同的噪声样本和。然后,最小化估计的原始图像之间除了背景部分的差异:
其中 是原始图像 和 中面部区域的分割。扩散视频自编码器的最终损失可表示为:。

视频编辑框架

首先,所有视频帧都被对齐和裁剪为所关注的面部区域,然后使用扩散视频自编码器将裁剪后的帧 编码为潜在特征。为了提取视频的代表性身份特征,将每一帧的身份特征平均为:
其中 。类似地,每帧关键点特征计算为 ,最终获得每帧面部特征 。之后,使用 DDIM 正向过程条件 计算 。通过编辑 到 来实现的。在修改代表性身份特征 之后,编辑后的帧 由 作为反向过程的条件生成,其中 。之后,与之前的所有工作一样,使用预训练的分割网络分割人脸区域并将编辑帧的人脸部分被粘贴到原始帧的相应区域。
包含以下两种编辑方式:
  1. 基于分类器的编辑。与DiffAE一样,在CelebA-HQ上为每个属性训练一个线性分类器,其属性注释在身份特征空间中。为了更改attr,我们将身份特征移动到具有尺度超参数s的。
  2. 基于CLIP的编辑。由于预训练的分类器只允许编辑几个预定义的属性,作者还设计了clip引导的身份特征优化方法。为了降低计算成本,使用大幅减少的步骤数 进行图像采样。作者考虑时间步长 。然后,从给定图像 x0 计算 ,作者希望通过 的正向过程的 步编辑(通常选择为视频的第一帧 )。通过 的顺序反向步骤,使用原始的 为每个时间恢复 ,其中 。同时, 是从 的单个反向步骤获得的,但变量 被优化为 (见下图)。最后,最小化中间图像 和 之间的方向 CLIP 损失。作者从 中选择中间图像 , 而不是估计 来计算 CLIP 损失。除了 CLIP 损失之外,为了保留剩余的属性,还使用 ID 损失( 和 之间的余弦距离)和所有 的 和 的人脸部分之间的 损失。

实验

重建

为了定量地比较重建能力,使用VoxCeleb1测试集中随机选择的20个视频进行测试,包括SSIM、多尺度 (Multi-scaled) SSIM、LPIPS和MSE常用指标。作为基线,将本文模型与基于GAN的反演方法e4e和PTI进行了比较。由于基于 StyleGAN 的方法处理大小为 1024 1024 的高分辨率图像,我们将重建结果调整为 256 256 进行比较。改变扩散步骤 的数量以观察计算成本和图像质量权衡, 扩散视频自编码器显示出最好的重建能力,并且在只有 的情况下仍然优于 e4e。
VoxCeleb1测试集中随机选择的20个视频的定量重建结果。报告的值是每个视频的平均每帧测量值的平均值。

时序一致性

对比结果如下图所示,具体来说,Yao 等人的方法由于 GAN 反转的限制,未能保留原始身份;Tzaban 等人的结果中,根据唇部运动,胡须的形状和数量不断变化。尽管Xu等人的方法表现出更好但不完全的一致性,但这些运动无意中随着副作用而改变。
与之前视频编辑方法进行比较,改变属性“胡须”。
此外,下表定量评估了的时间一致性。尽管视频的时间一致性没有完美的指标,但 TL-ID 和 TG-ID 分别表示相邻帧和所有帧之间身份的局部和全局一致性。这些指标可以解释为与原始指标的值接近 1 时一致,本文方法大大提高了全局一致性。Xu 等人的 TL-ID大于 1,是因为编辑结果的动作缩小,以便相邻帧变得比原始帧更接近。
评估时间一致性的定量结果。本文方法显示出与基线的最佳全局连贯性和可比较的局部一致性。

分解特征分析

为了证明扩散视频自编码器是否充分分解特征,作者通过改变分解特征的每个元素来检查合成图像。为此,对两个不同视频的帧进行编码,然后生成具有随机噪声的样本,或者在下图中相互交换各自的元素。当使用高斯噪声而不是原始噪声解码语义时,它具有与原始视频不同的模糊背景,而身份和头部姿势被大大保留。这个结果意味着 仅包含背景信息的那样。此外,具有切换身份、运动和背景特征的生成图像证实,即使特征的新组合,特征也被正确地分解,扩散视频自编码器也可以生成逼真的图像。
解纠缠视频编码的演示

结论

为了解决编辑人类面部视频的时间一致性问题,本文提出了一种新颖的框架,该框架具有新设计的视频扩散自编码器,它以解开的方式对身份、运动和背景信息进行编码,并在编辑单个身份特征后进行解码。通过解耦视频特征表示,本文框架最有价值的优势是可以只搜索一个帧的所需编辑方向,然后通过移动具有代表性的视频身份特征来编辑具有时间一致性的剩余帧。此外,对于不规则或有遮挡的视频可以基于扩散模型的优势实现更好的效果。
继续阅读
阅读原文