ICIP 2022｜用于端到端视频压缩的深度增量光流编码

论文标题
：Deep Incremental Optical Flow Coding For Learned Video Compression

来源
：ICIP 2022

作者
：Chih-Peng Chang, Peng-Yu Chen, Yung-Han Ho, Wen-Hsiao Peng

论文链接
：https://ieeexplore.ieee.org/document/9897328/

内容整理
：陈予诺

这篇文章基于 ELF-VC 模型，对其增量光流编码框架（Incremental Optical Flow Coding）进行了优化，提出了一种 Double Warp 的方案，在运动补偿的预测问题上取得了较好的效果。

引言
方法

总体框架
Double Warp

实验

运动编码策略对比实验
模型性能对比实验

引言

这项工作设法解决端到端可学习视频压缩中的运动编码问题。运动编码的效率在低码率情况下至关重要，因为在较低码率时，大部分比特流都被运动信息占用。大多数端到端视频编解码器采用帧内编码的方法，将运动信息编码为单个光流图，最近有一些研究引入了预测型运动编码来编码光流图的残差。我们提出了一种增量光流编码方案。它首先利用预测光流和参考帧来估计参考帧和目标帧之间的光流增量。然后通过 Double Warp 的方案整合光流增量和预测光流，得到最终的运动补偿光流图。在常用数据集上的实验结果表明，该方法优于预测型运动编码和其他先进的算法。

方法

总体框架

这篇文章的前置工作主要有两个。一个是用来对比的预测型编码框架 M-LVC，如下图（a）所示；一个是本文框架的基础——增量光流编码框架 ELF-VC，如下图（b）所示。

M-LVC 框架主要基于 DVC 的预测框架，区别在于：1. DVC 只使用了一个前序帧计算运动补偿，M-LVC 引入多个参考帧来辅助预测；2. DVC 压缩的是运动向量和残差，而 M-LVC 压缩的是运动向量的变化量 MVD 和残差。

ELF-VC 框架则通过外推（extrapolate）得到的光流图，先和前序预测帧做一个 warp，形成一个粗略的运动补偿帧，这个再和当前帧计算得到一个，也就是 incremental flow。后续压缩和编解码步骤也针对这个 incremental flow。

ELF-VC 与 M-LVC 对比，最大的区别在于，预测型编码方法是把光流残差作为 incremental flow，而增量光流编码是先获得一个粗略的当前帧估计值，然后通过粗略估计帧和当前帧做 motion estimation 获得 incremental flow。

本文框架，如图（c）所示，基于 ELF-VC 的增量光流编码框架，主要优化外推预测光流图和增量光流解码值直接相加的计算步骤。作者认为，对于两种类型的 backward flow map，纯加法无法达到最优性能。

所以作者采用增加一次 warp 的方式，将外推光流图和增量光流解码值通过 non-additive 的方式合并在一起，作为最终的光流估计值。

Double Warp

在这个 Double Warp 的细节流程图里面，F 是增量光流的编解码器，G 是条件帧间编码器。

从 Motion Extrapolation 开始阅读这个流程：

通过前序预测帧 , , 与前两个运动补偿 , 共同外推得到光流图；
与上一帧进行第一次 warp 操作得到粗略估计的运动补偿帧；
与当前帧计算 motion estimation 获得增量光流；
对编解码以后的与外推光流图进行第二次 warp，获得最终的光流补偿；
与上一帧估计值共同计算得到，送入 Conditional inter-frame Coder 进行条件帧间编码。

Double warp 数学表达如下：

这里函数定义为

实验

运动编码策略对比实验

此处设定基准线（灰色）为帧内运动编码（将光流图编码为内部图像），褐色线条代表预测型运动编码，蓝色线条代表采用纯加法的增量光流编码。三者分别对应 DVC、M-LVC 和 ELF-VC。

本文的 Double Warp 增量光流编码（红色）性能最好。

模型性能对比实验

上图表格所示为各个模型和 x265 LDP medium 相比的 BD rate 收益。上半部分的表格显示出，相较于 M-LVC 和 DCVC，Double Warping 策略表现出了绝对的 SOTA 性能，而将帧内编码替换为条件帧间编码（Ours (double warping)）后，性能有更进一步的提升。

下半部分与 ELF-VC 模型对比，控制变量将 GOP 数值固定为 16，同样表现出极大的性能提升。

从 RD 曲线上看，在 UVG、MCL-JCV、HEVC-B 数据集上，Double Warping 模型都表现出了较好的性能，不过并不是在所有码率都能表现出 SOTA 性能。而将帧间编码替换为帧内编码的模型表现略差，在 HEVC-B 数据集和 MCL-JCV 数据集上和 DCVC 性能接近，在 UVG 数据集上性能比 DCVC 略好。

继续阅读

阅读原文