CVPR 2023 | D-NeRV：面向不同视频的可扩展神经表示

来源
：CVPR 2023

作者
：Bo He等

论文题目
：Towards Scalable Neural Representation for Diverse Videos

论文链接
：https://arxiv.org/abs/2303.14124

内容整理
：李竣韬

这篇文章主要介绍了一种名为D-NeRV的框架。该框架将每个视频解耦为特定的视觉内容和运动信息，并分别对其进行建模。此外，该框架引入了时间推理和任务导向流等技术，以更好地处理视频中的全局时间依赖性和空间冗余性。D-NeRV框架的引入旨在提高视频编码的效率和压缩结果。

引言
方法

视觉内容编码器
运动感知解码器

实验

与SOTA INRs的比较
视频压缩
消融
动作识别
视频修复
高质量结果

引言

隐式神经表征（INR）在各种信号的参数化方面取得了巨大的成功，如三维场景、图像、音频和视频。其关键思想是将信号表示为一个由神经网络近似表示的函数，将一个参考系数映射到其相应的信号值。与基于学习的视频压缩技术相比，基于INR的方法（如NeRV）更有利，因为其训练更简单，视频解码速度更快。虽然已经取到了很大进展，但是现有的基于INR的方法仅限于一次对单一短视频进行编码。这阻碍了大多数现实世界场景中的潜在应用，在这些场景中，我们需要表示和压缩大量不同的视频。对不同视频进行编码的一个直接策略是将它们分为多个子集，并通过一个简单的神经网络对其建模。然而，由于这种策略无法利用跨视频的长期冗余，与用一个单一的共享模型拟合所有不同的视频相比，它取得的结果较差。我们认为，目前视觉内容和运动信息的耦合设计夸大了记忆不同视频的难度。为了解决这个问题，我们提出了D-NeRV，一种新型的隐式神经表征，专门用于有效编码长的或大量不同的视频。图1显示了D-NeRV和NeRV之间的差异。当表示不同视频时，NeRV将每个视频编码到一个单独的模型中，或者简单地将多个视频串联成一个长视频进行编码，而我们的D-NeRV可以通过调节每个视频片段的关键帧在一个模型中表示不同的视频。

图1 D-NeRV和NeRV在表示视频时的比较，NeRV对每个视频独立进行优化，D-NeRV则通过一个共享模型对所有视频进行优化

相对于NeRV，D-NeRV主要有以下改进。首先，我们观察到每个视频的视觉内容差异很大，而运动信息则可以再不同视频中共享。因此，我们将每个视频片段解耦为“视觉内容”和“运动信息”两部分，再分开单独建模。其次，我们在基于INR的网络中引入时间推理，而不是独立输出每一帧，明确地对不同帧的全局时间依赖性进行建模。最后，考虑不到视频中显著的时间冗余，我们不直接预测原始像素值，而是预测面向任务的流作为中间输出，并将其与关键帧一起使用以获得最终的输出。它减轻了记忆不同帧的相同像素值的复杂性。通过这些改进，在视频数量较多时，D-NeRV性能明显优于NeRV，如图2所示。

图2 NeRV和D-NeRV在UCF101数据集上固定压缩比的比较，圆圈大小表示模型大小

本文的主要贡献为：

提出了D-NeRV，一种新型的隐式神经表征模型，将大量不同的视频作为一个单一的神经网络来表示。
对视频重建和视频压缩任务进行了广泛的实验。D-NeRV一直由于最先进的基于INR的方法（E-NeRV）、传统的视频压缩方法（H.264、HEVC）以及基于学习的视频压缩方法（DCVC）。
进一步展示了D-NeRV在动作识别任务中的优势，即更高的准确率和更快的解码速度，并揭示了其在视频修复任务中的有趣特性。

方法

图3 (a)框架概述，D-NeRV将每个视频片段的关键帧对与所有的帧索引一起输入，并以此输出一个完整的视频片段。(b)解码器模块预测流量估计以扭曲编码器的视觉内容特征，然后通过空间适应性融合模块融合视觉内容，最后通过全局时间MLP模块建立时间关系模型

视觉内容编码器

不同的视频有不同的内容信息，例如，每个视频的外观和背景有很大的不同。D-NeRV的第一个组成部分是视觉内容编码器E，用来获取特定片段的视觉内容。与现有的仅通过模型本身记忆不同视频内容的工作相比，我们通过采样的关键帧向网络提供视觉内容。直观地说，我们把每个视频分成连续的片段。对于每个视频片段，我们对开始和结束的关键帧进行采样，然后将其送入内容编码器E，以提取多处视觉内容=(L是总阶数)。这些提取的特征是特定片段的，并且视频内容极具代表性。具体来说，内容编码器E由堆叠卷积层组成并逐渐对关键帧进行降采样。

运动感知解码器

虽然不同的视频有不同的外观或背景，但相同动作类型的视频可以共享类似的运动信息。我们通过一个基于共享隐式神经网络的解码器来模拟运动信息。通过关键帧的视觉内容，运动感知解码器提供运动信息来重建完整的视频。标准的隐式神经网络只接受坐标并输出相应的信号值，而我们的运动感知解码器同时接受时间坐标和内容特征图。然后，它预测面向任务的流作为中间输出，用于扭曲生成的内容特征。除此之外，提出空间自适应融合模块，将内容信息以更高效的方式融合到解码器。最后，将全局时态MLP模块加入解码器中。

多尺度流量估计

第一个组件是用于预测的多尺度流量估计网络，用于预测每个时间的面向任务的流。在第一阶段，从编码器的输出得到两个特征图和，我们沿时间轴应用线性插值=Interpolation，用于在每个中间时间生成特征图。然后，和NeRV一样，将输入的时间指数t通过围边编码器PE，转化到高维空间，然后在送入一阶流量估计模块G之前和进行级联。

接下来，我们同时计算每个时间t∈[0,1]的前项流量和后向流量，其中和表示从当前帧t到开始和结束关键帧的像素位移图。对于后来的阶段，流量估计模块的输入是前一个解码阶段产生的：

其中，G是一个计算每个像素流量的卷积，为了生成高质量的内容功能映射每个时间步，在估计流量引导下，我们战略性地传播视觉效果关键帧的内容到当前帧索引t。

将前向和后向扭曲的特征图以一种可靠的方式进行融合：

空间自适应融合

扭曲的特征图包含了特定片段的每一个时间步骤上的内容信息。将其引入空间自适应融合器中。具体来说，将内容特征传入两个全连接层来学习像素级的调制参数和，其中。

然后，我们融合：

在调制操作结束后，我们采用和NeRV中相同的块架构，用一个GELU激活层和PixelShuffle层逐步对特征图进行采样，如下所示：

全局时态MLP

在NeRV中，需要时间索引作为输入并输出相应的帧，不考虑其丰富的内在时间相关性。在D-NeRV中，引入全局时态MLP来充分利用不同视频间的时间相关性。具体来说，给定T帧的特征图，，具有权重的全连接层应用于每个通道，在时间轴上来模拟全局时间依赖关系，然后将其用以下方式与原始特征图相加：

最后阶段

为了获取在时间索引t的最终重建帧，我们将解码器特征图和扭曲帧级联起来作为输入，将其送入两个堆栈的卷积层中进行细化。

实验

与SOTA INRs的比较

将D-NeRV与NeRV和E-NeRV在UVG数据集上的视频重建任务（不经过任何压缩步骤）进行比较。实验结果如表1所示，D-NeRV在UVG数据集的不同视频上的表现一直优于NeRV和E-NeRV。具体来说，在平均PSNR方面，D-NeRV比当下最先进的基于INR的方法E-NeRV高出3.4dB。

表1 D-NeRV与NeRV和E-NeRV在UVG数据集上的7个视频上的视频重建比较

视频压缩

对于视频压缩，采用与NeRV相同的做法进行模型量化和熵编码，但没有模型修剪以加快训练过程。

UCF101数据集

实验结果如表2，观察到D-NeRV的性能大大超过NeRV。特别是当模型大小从小变大时，二者之间的差距也变得更大，从1.4dB增加到2.5dB。这表明D-NeRV比NeRV更有能力压缩高质量的大尺度视频。同时，我们可以用观察到D-NeRV一直超过了传统的视频压缩技术H.264，显示了其在现实世界大规模视频压缩中的巨大潜力。

UVG数据集

尽管D-NeRV是专门为表征大规模和多样化视频而设计的，而UVG数据集（7个视频）的情况并非如此，但它仍然可以持续地大大超越NeRV,如图4所示。具体来说，在相同BPP比率下，它超过NeRV 1.5dB以上。

消融

每部分组件的贡献

结果如表3，我们观察到带有空间自适应融合（SAF）的编码器可以在很大程度上提高NeRV的性能。其次，加入GTMLP模块可以进一步提供性能。特别地，如果仅添加全局时间MLP模块并不能促进最终结果。这是因为在表示多个视频时，NeRV沿时间轴将所有的视频连接起来。NeRV的输入是以串联视频的长度为标准的绝对时间指数，它不能反映相对帧之间的运动。相反，D-NeRV的输入是由每个视频的长度归一化的相对时间指数，它可以代表不同视频中共享的帧间运动。最后，为了进一步减少视频帧间固有的空间冗余，我们增加了面向任务的流作为中间输出，同样可以优化结果表现。

组件设计选择性消融

结果如表4，显示了不同时间建模设计的结果。与基础相比，通过增加深度时间卷积，纳入局部时间关系，可以略微提高性能，当内核大小从3增加到11时，差距变得更大，这验证了时间建模对有效的视频表示的重要性。受Trans-former的成功启发，我们引入时间注意力模块。与局部接收场的卷积操作不同，时间注意力模块可以对全局的时间依赖性进行建模，这比深度卷积的结果要高。然而，由于注意力操作的编译成本很高，注意力模块的训练速度比其他变体慢很多。最后，我们的GTMLP结合了全连接层的效率和注意力模块的全局时间建模能力，以更快的训练速度得到更好的结果。

如表5所示，我们比较了不同的融合策略。U-Net将每个编码器阶段的输出特征图链接到解码器的输入，而提出的SAF模块利用内容特征图作为解码器特征的调制，这被证明是一个比简单连接更有效的设计。此外，如表6显示，多尺度设计可以提高最终的性能。

视频多样性的影响

我们设置如下实验：

从10个类别中选出1000个视频，每个类别有100个视频；
从100个类别中选出1000个视频，每个类别有10个视频。结果如表7所示。当视频多样性从10类增加到100类时，虽然D-NeRV和NeRV的性能都有所下降，但D-NeRV的结果比NeRV下降得慢得多。这也验证了尤其是表征多样性视频时，D-NeRV更有效。

动作识别

动作识别精确度

在实验中，我们采用广泛使用的TSM作为骨干，评估H.264、NeRV和D-NeRV的压缩视频的动作识别精度。S/M/L表示不同的BPP值，如表2。BPP值越低意味着压缩率越高。实验结果如表8所示，在“训练”和“测试”的两种设置下，D-NeRV的动作识别精确度始终比NeRV高出3-4%和6-10%。此外，D-NeRV的性能一直优于H.264。这证明了D-NeRV在现实世界中作为一个有效的数据传输器使用时的优越性。

模型运行时间

在表9中，我们比较了以下设置的模型运行时间：帧、H.264、DCVC、NeRV、D-NeRV。需要注意的是，尽管NeRV由于其结构的模拟性而具有最高的模型运行速度，但其压缩质量却远不如D-NeRV,如表2和表8所示。

视频修复

结果显示在表10中，为每一帧应用了5个宽度为50的随机盒式掩码。D-NeRV在PSNR上仍然比NeRV高出1.4dB。另外，有趣的是，在一个共享模型中对所有视频进行编码也可以提高画中画的性能，验证了之前所讲的，用一个共享模型对所有视频编码更有利。

高质量结果

在图5中，比较了压缩任务的解码帧的可视化结果。在相同BPP下，与H.264和NeRV相比，D-NeRV在主要物体和背景方面都能产生更清晰的图像，质量更高。图6显示了视频内修复任务的可视化结果。与NeRV相比，D-NeRV可以更自然地对遮罩区域进行填充，质量也更好。

继续阅读

阅读原文