视角合成视频的质量评价

论文题目：Measurement of critical temporal inconsistency for quality assessment of synthesized video (ICIP 2016)
原文链接：https://ieeexplore.ieee.org/abstract/document/7532513
作者
：Hak Gu Kim, Yong Man Ro

内容整理
：贾荣立

本文提出了一种新的针对合成视频质量评估的时间一致性测量方法。在视角合成视频中，孔填充过程引起的时间不一致性会影响合成视频的感知质量。在该方法中，作者提取了连续帧之间的过度闪烁区域，并通过测量结构相似性来量化时间不一致性对它们的感知影响。通过比较主观评分和现有的客观指标，证明了所提出的质量评价方法的有效性。实验结果表明，所提出的时间不一致性指标与合成视频的整体质量高度相关。

引言
方法

过度闪烁区域检测
过度闪烁区域的结构相似性
时间池化

实验结果
总结

引言

基于深度图像的渲染(Depth-image-based rendering, DIBR)是一种广泛使用的视图合成技术。DIBR 包含 3D warping 和孔填充技术。在三维扭曲中，通过将给定的参考彩色视频映射到相关深度视频所需的虚拟视点来生成扭曲视频。在这个过程中，由于可以看到被前景遮挡的背景，所以在扭曲的视频中可能会出现孔洞区域，接下来是填充扭曲视频的洞区域。

然而，现有的基于 DIBR 的方法并不能为合成的视频提供令人满意的质量。大多数现有的视觉合成方法都没有考虑到人类视觉感知的特点，以提供更好的合成视频的观看质量。因此，合成的视频可能包含可见的失真，比如时间不一致（temporal inconsistency）等问题。为了解决视点合成的质量问题，需要对合成视频进行可靠的客观质量评估。

大多数早期的研究试图设计基于现有的 2D 质量评估方法，如 PSNR 和 SSIM 的 3D 图像/视频。他们关注的是立体 3D(S3D)图像/视频的质量，而不是由视点合成生成的多个合成视频的质量。在传统的 3D 图像/视频中，无法观察到合成视频的几何失真和时间不一致等失真现象。这些扭曲可能是由视图合成算法引起的。因此，现有的基于质量评估的客观指标可能不可靠地处理合成视频的质量。

除此之外，对于多视图成像中的合成视频，全参考视频质量评估方法是不合适的。在多视图成像系统中，不可能在多个虚拟视点上提供相应的参考视频。另一方面，现有的研究大多局限于合成视图的空间失真，而没有考虑时域中的可见伪影。

在本文中，作者主要研究了时间不一致的失真，以评估合成视频的质量。在合成视频中，由视图合成引起的严重可见伪影主要发生在特定区域（如空穴区域）附近。当将现有的质量指标应用于整个区域时，性能变得很差。从这些观察结果中，提出了一种新的临界时间不一致(CTI)测量方法，通过仅测量特定区域的结构相似性，有效和客观地评估合成视频的质量。为了检测特定的区域，计算了时间上相邻帧之间的差异。然后，应用一个阈值来选择最重要的错误。最后，仅测量了合成视频中过度闪烁区域的结构相似度。在该方法中，通过显式地测量合成视频的连续帧之间的结构相似性，不需要参考视频来量化虚拟视点下的合成视频的质量。因此，所提出的客观测量比现有的全参考方法更适用于多视点成像系统。实验结果表明，所提出的 CTI 指数与人类的主观得分有较高的相关性。

方法

图 1 给出了合成视频时间不一致的例子。如图所示，孔区域周围的结构畸变在连续帧中发生变化，严重影响了用户的体验。为了正确地衡量合成视频的整体质量，本文不考虑了整个区域，而是合成视频特定区域周围的结构扭曲。在接下来的小节中，将描述所提出的时间不一致性测量方法，以客观地评估合成视频的质量。

过度闪烁区域检测

本节描述了在合成视频中极有可能导致时间不一致性的因素，如闪烁。过度的时间不一致性的因素表明了合成视频的时间相邻帧之间的差异，其极大的影响导致了人类视觉系统的感知，降低了用户的视频质量体验。

在该方法中，使用了时间相邻帧之间的运动补偿差异，以避免包括由物体运动引起的差异:

其中，表示运动补偿的差分图。表示第 t 个合成帧，表示第 t-1 合成帧向后翘曲得到的运动补偿帧。它可以被写成

其中表示第 t-1 个合成帧。和分别表示第 t 帧处的水平和垂直运动矢量。在这里，使用用光流法得到运动矢量。

在这些差异中，过度闪烁区域是用一个阈值()提取，可以写成:

其中，和代表图像的宽度和高度。常数是为了调整检测每一帧中过度闪烁区域的最大差异的百分比。本文中使用的阈值表示最大差异的 10%。

最后，通过应用阈值得到一个过度闪烁区域掩模，用该阈值对过度闪烁区域进行分割。这个掩码可以写为

其中表示第 t 帧的过度闪烁区域掩模，表示以上的差值为 1，否则为 0。

图 2(b)显示了过度闪烁区域图。在图 2(b)中，白色像素表示过多的闪烁区域。如图 2(b)所示，过度闪烁区域上的像素主要位于特定区域周围，如孔区域或物体边界区域。

过度闪烁区域的结构相似性

为了量化时间不一致的感知效应，我们测量了时间相邻帧之间过度闪烁区域的结构相似性。为了保持合成视频的时间一致性，应尽量减少相应区域的结构不匹配。

为了测量属于过度闪烁区域的像素的结构相似度，采用了广泛使用的质量度量 SSIM（结构相似度）。设表示过度闪烁区域中的一组像素。本文将时间相邻帧间过度闪烁区域的结构相似性表示为 CTI 指数。第 t 帧的 CTI 指数可以写成：

其中表示中的像素数。和分别表示和中以 (x，y) 为中心的局部窗口，窗口大小为 11x11。

两个本地窗口和，可以写为

其中，和分别为局部窗口的平均值和标准差。表示和之间的协方差。和是避免分母为零的常数。

时间池化

为了获得合成视频的最终 CTI 分数，需要对从帧中获得的所有 CTI 分数进行时间池化。本文采用了加权平均池化的方法。在合成视频的整个帧上，几帧可能会由于时间相邻帧之间的过度结构不匹配而导致闪烁伪影。因此，闪烁伪影的程度与每一帧的过度闪烁区域上的像素数量成正比。因此，合成视频的最终 CTI 分数可以写成

其中，表示合成视频的帧数。是第 t 个合成帧的权重值。它可以被写成

其中，表示在第 t 个合成帧中属于过度闪烁区域的像素数。权重随着过度闪烁区域像素数的减小。

实验结果

使用 IRCCyN/IVCDIBR 作为实验的基础数据集，该数据集的测试视频采用 7 种不同的算法生成，并且提供了通过主观评估实验获得的平均意见评分(MOS)。

为了评估所提出的客观质量评估指标的性能，使用了三个性能指标：皮尔逊线性相关系数(PLCC)、斯皮尔曼等级顺序相关系数(SROCC)和均方根误差(RMSE)。

在我们的实验中，我们计算了中提供的主观 MOS 值与由客观质量评估转化后的预测 MOS 值之间的 PLCC、SROCC 和 RMSE。为了获得预测的 MOS 值，使用五个参数逻辑函数的非线性回归，将客观质量评估分数转换为预测的 MOS 值()。预测的 MOS 值可以写成

其中，表示客观度量得分，参数(即 -)使用主观 MOS 值和客观度量得分来确定。

为了验证所提出的方法的性能，我们使用了 7 个现有的质量评估(QA)来进行性能比较。5 个指标分别是 2D 图像/视频 QA 模型。两个指标是合成视图的三维图像质量评价模型。在二维图像质量评价模型中，使用了 PSNR、SSIM、多尺度 SSIM(MS_SSIM)和视觉信息保真度(VIF)。在三维图像 QA 模型中，采用了视图合成质量评价(VSQA)和 3DSwIM。请注意，每一帧图像 QA 模型都应用了二维和三维图像 QA 模型。然后，取所有帧的客观评价得分的平均值，得到最终的质量分数。

上表显示了所提出的和现有的质量指标的预测性能。在表中，性能评价结果显示，所提出的 CTI 指数与 IRCCyN/IVCDIBR 数据库中合成视频的主观 MOS 具有较高的相关性(PLCC 为 0.7217，SROCC 为 0.7218)。本文所提出的客观 QA 度量的性能优于现有的 2D 和 3DQA 度量。自然地，这些结果表明，时间上的不一致性是影响合成视频整体质量的最重要的因素之一。特别是，当 SSIM 应用于合成视频的每一帧的整个区域时，性能预测较差(PLCC 为 0.2685，SROCC 为 0.2685)。另一方面，该方法仅通过测量过度闪烁区域的结构相似度，获得了较高的预测性能。这些结果表明，特定区域的失真与合成视频的整体质量高度相关。

总结

本文提出了一种新的时间不一致性度量方法 CTI，以有效地预测无参考的合成视频的质量。所提出的 CTI 提取过度闪烁的区域。然后，测量时间相邻帧间过度闪烁区域的结构相似性，以量化时间不一致性的感知效应。实验结果表明，该方法显著提高了合成视频的质量预测性能，也说明了在特定区域的时间不一致高度影响了合成视频的整体质量。

继续阅读

阅读原文