基于JND的AV1编码器感知率失真优化

本文介绍一篇发表于2019 PCS的论文，该论文提出一种基于JND的AV1编码器感知率失真优化方案，实验结果表明，与原来的AV1相比，所提出的方法可以有效地提高感知编码的效率。

随着编码标准的演进，收益越来越小。随着技术的发展，技术突破愈发困难，因此迫切需要一种编码压缩的新思路。传统的图像/视频编码技术主要针对空间域冗余、时间域冗余以及统计冗余进行压缩编码，但很少考虑到人眼视觉系统特性和心理效应，因此大量视觉冗余数据被编码并传输，为了进一步提高编码的效率，研究人员开始了致力于去除视觉冗余的研究。目前一个表征视觉冗余的有效方法就是基于心理学和生理学的最小可察觉失真模型，即人眼不能感知的变化，近年来， JND 模型在基于视觉特性的视频图像编码、数字水印、图像质量评价等方面受到广泛关注。

目前已有的JND模型主要可以分为两类，一类是基于像素域的模型，另外一类是基于变换域的模型。上图为一种基于JND的感知编码实例：对于输入的 YUV 图像，我们首先计算亮度敏感度、纹理敏感度和对比敏感度，从而得到 JND 系数，然后作用于 DCT 域，改变原有的 DCT系数，然后进行编码，输出码流。

随着对人眼视觉系统(HVS)生理和心理研究的发展，我们发现，其实人脑处理视觉时有非常多的信息冗余，利用人眼视觉特性可以明显的改善视觉压缩效率，这就是人眼感知压缩的原理。近几年来，在视觉心理学、生理学的指导下，通过对人眼的某些视觉现象的观察和研究，人们发现了 HVS 的很多特性。目前在视觉感知编码中，一般应用到的 HVS 特性有视觉注意、视觉掩盖、视觉敏感、视觉统计学习机制等，HVS 的一些特性如上图。

AV1是新一代开放视频编码格式，采用新颖的编码工具可以实现显著的编码效率。它支持拉格朗日率失真优化(RDO)方法来优化编码性能。然而q为量化步长，c为一个常数。在RDO中，不同编码模式的R-D成本被计算出来，以找到具有最小R-D成本的最佳模式。从上述公式中可以发现，λ 起着控制失真和比特率间权衡的作用。然而，λ 只与q有关，并不考虑HVS的任何特性有关，因此导致编码效率降低。针对这一问题，提出了一种基于HVS的Just Noticeable Distortion (JND)阈值的感知RDO方案。实验表明，该方法与原始AV1编码器相比，可以实现平均3.93%的基于ssim的BD-Rate节省，有效地提高了编码性能。

本文首先根据已有的像素域JND模型估计亮度自适应（LA）和对比度遮蔽（CM）的空间效应，如公式4，5，6所示。

本文考虑到HVS视觉特性倾向于提取重复的视觉内容，并概括出视觉模式进行分析和理解。这也意味着在无序的纹理中，失真通常不太明显考虑到亮度的变化，它高估了均匀块的阈值。因此，需要有结构保护的因素作为不充分的JND模型的补充。因此在本文中，考虑到Sobel边缘检测算法的简单性和鲁棒性，采用它来衡量一个局部区域的纹理均匀性。Sobel算子首先计算每个像素的水平和垂直梯度大小，然后可以计算每个像素的总边缘强度如上。此外，HVS表现出明显的方向选择性，方向信息也被建议用来表示纹理的复杂性。通常复杂的纹理图案包含更丰富的方向分布，而简单的图案只包括有限的方向分布。因此，我们用梯度方向的分布来表征相应的图案复杂性。N=16，Hk表示像素(i,j)周围3×3区域中第k个梯度方向的分布存在性，取0或1。因此，PC被描述为局部区域的梯度方向数。至此，本文提出了结构保护因子如公式9所示，其中设置α1=1，α2=1/3。因此修正后的视觉掩蔽阈值公式如10所示。

修正后的整体空域JND模型如公式11所示。对于视频帧来说，时间特征对HVS也有至关重要的影响，因此本文进一步构建时空JND模型。

为了将提议的JND模型整合到RDO中，本文得到了一个结合了均方误差（MSE）和JND的感知失真度量，如公式14所示。在感知失真Dp下，复杂和不规则的纹理区域具有较大的失真可见度阈值，将产生相对较少的感知质量损失，这与视觉适应和掩蔽效应相对应。因此，通过在这些区域引入适当的编码失真，有可能在保持视觉质量的同时实现比特率的节省。然后，任何编码单元的感知拉格朗日成本可以通过用公式中的原始失真替换Dp来得到。

为了解决导数方程，需要确定AV1的R-D模型。因此，我们使用只有一个参考帧的AV1 1-pass编码结构和测试序列来获得R-D曲线，如图1所示。

根据对几种类型的测试曲线函数，可以看出双曲线模型（图1.中的实线）与大多数情况下的R-D关系的特征都很吻合。因此，提出R-D模型为公式19。其中α和β是与视频内容相关的模型参数。为了建立使用感知失真前后拉格朗日因子之间的关系，我们假设两种情况下消耗的比特率相等的，即进行比特对齐操作。其中我们通过平均β的拟合值来设定β=-0.9。

修改后的拉格朗日乘数应用于所有 RDO 过程，例如模式决策和量化。公式25表明拉格朗日乘数是根据处理单元的时空特征自适应调整的。具有较大 JND 阈值的单元采用失真相对较大的模式进行编码并且量化得更粗略，因此，为了节省比特，这些单元会受到损害，并且可以将更多比特分配给具有更高视觉重要性的区域。因此，所提出的方法可以提高感知编码性能。

与原始AV1进行比较。表一显示了所提出的知觉RDO方法的性能。可以看出，与原AV1相比，平均BD-Rate在SSIM方面达到-3.93%，这与HVS比PSNR更一致。因此，所提出的方案实现了感知编码的改进，这是因为HVS的特征被所提出的JND模型很好地描述了出来，并且这些特征被有效地纳入到编码器中。另一方面，由于感知质量已成为优化目标，在PSNR方面的编码性能平均损失了0.74%。我们可以看到，所提议的方案平均编码时间增加了4.7%，这意味着失真可见性评估的复杂性相对较小，不会对编码器产生负面影响。

关注我们

实验室网站：http://viplab.fudan.edu.cn/

OpenASIC官方网站：www.openasic.org

知乎专栏：http://zhuanlan.zhihu.com/viplab

微信公众号：OpenASIC

继续阅读

阅读原文