来源
:CVPR 2023

作者
:Bo He等

论文题目
:Towards Scalable Neural Representation for Diverse Videos

论文链接
:https://arxiv.org/abs/2303.14124

内容整理
:李竣韬

这篇文章主要介绍了一种名为D-NeRV的框架。该框架将每个视频解耦为特定的视觉内容和运动信息,并分别对其进行建模。此外,该框架引入了时间推理和任务导向流等技术,以更好地处理视频中的全局时间依赖性和空间冗余性。D-NeRV框架的引入旨在提高视频编码的效率和压缩结果。
目录
  • 引言
  • 方法
    • 视觉内容编码器
    • 运动感知解码器
  • 实验
    • 与SOTA INRs的比较
    • 视频压缩
    • 消融
    • 动作识别
    • 视频修复
    • 高质量结果

引言

隐式神经表征(INR)在各种信号的参数化方面取得了巨大的成功,如三维场景、图像、音频和视频。其关键思想是将信号表示为一个由神经网络近似表示的函数,将一个参考系数映射到其相应的信号值。与基于学习的视频压缩技术相比,基于INR的方法(如NeRV)更有利,因为其训练更简单,视频解码速度更快。虽然已经取到了很大进展,但是现有的基于INR的方法仅限于一次对单一短视频进行编码。这阻碍了大多数现实世界场景中的潜在应用,在这些场景中,我们需要表示和压缩大量不同的视频。对不同视频进行编码的一个直接策略是将它们分为多个子集,并通过一个简单的神经网络对其建模。然而,由于这种策略无法利用跨视频的长期冗余,与用一个单一的共享模型拟合所有不同的视频相比,它取得的结果较差。我们认为,目前视觉内容和运动信息的耦合设计夸大了记忆不同视频的难度。为了解决这个问题,我们提出了D-NeRV,一种新型的隐式神经表征,专门用于有效编码长的或大量不同的视频。图1显示了D-NeRV和NeRV之间的差异。当表示不同视频时,NeRV将每个视频编码到一个单独的模型中,或者简单地将多个视频串联成一个长视频进行编码,而我们的D-NeRV可以通过调节每个视频片段的关键帧在一个模型中表示不同的视频。
图1 D-NeRV和NeRV在表示视频时的比较,NeRV对每个视频独立进行优化,D-NeRV则通过一个共享模型对所有视频进行优化
相对于NeRV,D-NeRV主要有以下改进。首先,我们观察到每个视频的视觉内容差异很大,而运动信息则可以再不同视频中共享。因此,我们将每个视频片段解耦为“视觉内容”和“运动信息”两部分,再分开单独建模。其次,我们在基于INR的网络中引入时间推理,而不是独立输出每一帧,明确地对不同帧的全局时间依赖性进行建模。最后,考虑不到视频中显著的时间冗余,我们不直接预测原始像素值,而是预测面向任务的流作为中间输出,并将其与关键帧一起使用以获得最终的输出。它减轻了记忆不同帧的相同像素值的复杂性。通过这些改进,在视频数量较多时,D-NeRV性能明显优于NeRV,如图2所示。
图2 NeRV和D-NeRV在UCF101数据集上固定压缩比的比较,圆圈大小表示模型大小
本文的主要贡献为:
  1. 提出了D-NeRV,一种新型的隐式神经表征模型,将大量不同的视频作为一个单一的神经网络来表示。
  2. 对视频重建和视频压缩任务进行了广泛的实验。D-NeRV一直由于最先进的基于INR的方法(E-NeRV)、传统的视频压缩方法(H.264、HEVC)以及基于学习的视频压缩方法(DCVC)。
  3. 进一步展示了D-NeRV在动作识别任务中的优势,即更高的准确率和更快的解码速度,并揭示了其在视频修复任务中的有趣特性。

方法

图3 (a)框架概述,D-NeRV将每个视频片段的关键帧对与所有的帧索引一起输入,并以此输出一个完整的视频片段。(b)解码器模块预测流量估计以扭曲编码器的视觉内容特征,然后通过空间适应性融合模块融合视觉内容,最后通过全局时间MLP模块建立时间关系模型

视觉内容编码器

不同的视频有不同的内容信息,例如,每个视频的外观和背景有很大的不同。D-NeRV的第一个组成部分是视觉内容编码器E,用来获取特定片段的视觉内容。与现有的仅通过模型本身记忆不同视频内容的工作相比,我们通过采样的关键帧向网络提供视觉内容。直观地说,我们把每个视频分成连续的片段。对于每个视频片段,我们对开始和结束的关键帧进行采样,然后将其送入内容编码器E,以提取多处视觉内容=(L是总阶数)。这些提取的特征是特定片段的,并且视频内容极具代表性。具体来说,内容编码器E由堆叠卷积层组成并逐渐对关键帧进行降采样。

运动感知解码器

虽然不同的视频有不同的外观或背景,但相同动作类型的视频可以共享类似的运动信息。我们通过一个基于共享隐式神经网络的解码器来模拟运动信息。通过关键帧的视觉内容,运动感知解码器提供运动信息来重建完整的视频。标准的隐式神经网络只接受坐标并输出相应的信号值,而我们的运动感知解码器同时接受时间坐标和内容特征图。然后,它预测面向任务的流作为中间输出,用于扭曲生成的内容特征。除此之外,提出空间自适应融合模块,将内容信息以更高效的方式融合到解码器。最后,将全局时态MLP模块加入解码器中。
多尺度流量估计
第一个组件是用于预测的多尺度流量估计网络,用于预测每个时间的面向任务的流。在第一阶段,从编码器的输出得到两个特征图和,我们沿时间轴应用线性插值=Interpolation,用于在每个中间时间生成特征图。然后,和NeRV一样,将输入的时间指数t通过围边编码器PE,转化到高维空间,然后在送入一阶流量估计模块G之前和进行级联。
接下来,我们同时计算每个时间t∈[0,1]的前项流量和后向流量,其中和表示从当前帧t到开始和结束关键帧的像素位移图。对于后来的阶段,流量估计模块的输入是前一个解码阶段产生的:
其中,G是一个计算每个像素流量的卷积,为了生成高质量的内容功能映射每个时间步,在估计流量引导下,我们战略性地传播视觉效果关键帧的内容到当前帧索引t。
将前向和后向扭曲的特征图以一种可靠的方式进行融合:
空间自适应融合
扭曲的特征图包含了特定片段的每一个时间步骤上的内容信息。将其引入空间自适应融合器中。具体来说,将内容特征传入两个全连接层来学习像素级的调制参数和,其中
然后,我们融合:
在调制操作结束后,我们采用和NeRV中相同的块架构,用一个GELU激活层和PixelShuffle层逐步对特征图进行采样,如下所示:
全局时态MLP
在NeRV中,需要时间索引作为输入并输出相应的帧,不考虑其 丰富的内在时间相关性。在D-NeRV中,引入全局时态MLP来充分利用不同视频间的时间相关性。具体来说,给定T帧的特征图,,具有权重的全连接层应用于每个通道,在时间轴上来模拟全局时间依赖关系,然后将其用以下方式与原始特征图相加:
最后阶段
为了获取在时间索引t的最终重建帧,我们将解码器特征图和扭曲帧级联起来作为输入,将其送入两个堆栈的卷积层中进行细化。

实验

与SOTA INRs的比较

将D-NeRV与NeRV和E-NeRV在UVG数据集上的视频重建任务(不经过任何压缩步骤)进行比较。实验结果如表1所示,D-NeRV在UVG数据集的不同视频上的表现一直优于NeRV和E-NeRV。具体来说,在平均PSNR方面,D-NeRV比当下最先进的基于INR的方法E-NeRV高出3.4dB。
表1 D-NeRV与NeRV和E-NeRV在UVG数据集上的7个视频上的视频重建比较

视频压缩

对于视频压缩,采用与NeRV相同的做法进行模型量化和熵编码,但没有模型修剪以加快训练过程。
UCF101数据集
实验结果如表2,观察到D-NeRV的性能大大超过NeRV。特别是当模型大小从小变大时,二者之间的差距也变得更大,从1.4dB增加到2.5dB。这表明D-NeRV比NeRV更有能力压缩高质量的大尺度视频。同时,我们可以用观察到D-NeRV一直超过了传统的视频压缩技术H.264,显示了其在现实世界大规模视频压缩中的巨大潜力。
表2 在UCF-101数据集上的视频压缩结果
UVG数据集
尽管D-NeRV是专门为表征大规模和多样化视频而设计的,而UVG数据集(7个视频)的情况并非如此,但它仍然可以持续地大大超越NeRV,如图4所示。具体来说,在相同BPP比率下,它超过NeRV 1.5dB以上。
图4 UVG数据集上的失真速率图

消融

每部分组件的贡献
结果如表3,我们观察到带有空间自适应融合(SAF)的编码器可以在很大程度上提高NeRV的性能。其次,加入GTMLP模块可以进一步提供性能。特别地,如果仅添加全局时间MLP模块并不能促进最终结果。这是因为在表示多个视频时,NeRV沿时间轴将所有的视频连接起来。NeRV的输入是以串联视频的长度为标准的绝对时间指数,它不能反映相对帧之间的运动。相反,D-NeRV的输入是由每个视频的长度归一化的相对时间指数,它可以代表不同视频中共享的帧间运动。最后,为了进一步减少视频帧间固有的空间冗余,我们增加了面向任务的流作为中间输出,同样可以优化结果表现。
表3 每部分组件的贡献
组件设计选择性消融
结果如表4,显示了不同时间建模设计的结果。与基础相比,通过增加深度时间卷积,纳入局部时间关系,可以略微提高性能,当内核大小从3增加到11时,差距变得更大,这验证了时间建模对有效的视频表示的重要性。受Trans-former的成功启发,我们引入时间注意力模块。与局部接收场的卷积操作不同,时间注意力模块可以对全局的时间依赖性进行建模,这比深度卷积的结果要高。然而,由于注意力操作的编译成本很高,注意力模块的训练速度比其他变体慢很多。最后,我们的GTMLP结合了全连接层的效率和注意力模块的全局时间建模能力,以更快的训练速度得到更好的结果。
表4 时间建模模块消融
如表5所示,我们比较了不同的融合策略。U-Net将每个编码器阶段的输出特征图链接到解码器的输入,而提出的SAF模块利用内容特征图作为解码器特征的调制,这被证明是一个比简单连接更有效的设计。此外,如表6显示,多尺度设计可以提高最终的性能。
表5 融合方法的消融
表6 多尺度的影响
视频多样性的影响
我们设置如下实验:
  • 从10个类别中选出1000个视频,每个类别有100个视频;
  • 从100个类别中选出1000个视频,每个类别有10个视频。结果如表7所示。当视频多样性从10类增加到100类时,虽然D-NeRV和NeRV的性能都有所下降,但D-NeRV的结果比NeRV下降得慢得多。这也验证了尤其是表征多样性视频时,D-NeRV更有效。
表7 视频多样性消融

动作识别

动作识别精确度
在实验中,我们采用广泛使用的TSM作为骨干,评估H.264、NeRV和D-NeRV的压缩视频的动作识别精度。S/M/L表示不同的BPP值,如表2。BPP值越低意味着压缩率越高。实验结果如表8所示,在“训练”和“测试”的两种设置下,D-NeRV的动作识别精确度始终比NeRV高出3-4%和6-10%。此外,D-NeRV的性能一直优于H.264。这证明了D-NeRV在现实世界中作为一个有效的数据传输器使用时的优越性。
表8 在UCF101数据集上的动作识别的准确性
模型运行时间
在表9中,我们比较了以下设置的模型运行时间:帧、H.264、DCVC、NeRV、D-NeRV。需要注意的是,尽管NeRV由于其结构的模拟性而具有最高的模型运行速度,但其压缩质量却远不如D-NeRV,如表2和表8所示。
表9 模型运行时间

视频修复

结果显示在表10中,为每一帧应用了5个宽度为50的随机盒式掩码。D-NeRV在PSNR上仍然比NeRV高出1.4dB。另外,有趣的是,在一个共享模型中对所有视频进行编码也可以提高画中画的性能,验证了之前所讲的,用一个共享模型对所有视频编码更有利。
表10 视频修复任务的比较

高质量结果

在图5中,比较了压缩任务的解码帧的可视化结果。在相同BPP下,与H.264和NeRV相比,D-NeRV在主要物体和背景方面都能产生更清晰的图像,质量更高。图6显示了视频内修复任务的可视化结果。与NeRV相比,D-NeRV可以更自然地对遮罩区域进行填充,质量也更好。
图5 解码帧可视化结果
图6 视频修复任务可视化
继续阅读
阅读原文