来源:Arxiv
论文链接
https://arxiv.org/abs/2211.04894

作者
:Haoning Wu,Chaofeng Chen等

论文题目
:Disentangling Aesthetic and Technical Effects in Video Quality   Assessment for User Generated Content

内容整理
:贾荣立
目录
  • 方法
    • 视图有限的有偏监督
    • 美学质量评估(AQE)
    • 技术质量评估(TQE)
    • 融合策略
  • 实验结果展示
  • 总结
一般来说,用户生成内容(UGC)视频可能会出现美学和技术两方面的质量问题,如图1所示。图一(a)中展示由于美学因素导致的视频体验质量低下,而图一(b)则展示了由于技术因素导致的视频体验质量低下。
在传统的视频质量评价中,美学质量和技术质量一直是独立研究的。在美学质量评价中,照片一般是由专业的技术设备拍摄的,因此其质量很大程度上取决于照片中对象的语义,以及拍摄手法是否专业。相比之下,技术质量评价的对象通常使用各种不同的拍摄设备或处理算法,包含如模糊、噪声、伪影、抖动、闪烁等技术方面的失真。对于UGC视频,这两个方面是同时存在的。如图2所示,在数据集YouTube-UGC中,对于质量分数很低的视频,其美学质量问题和技术质量问题是同时存在的。尽管这种纠缠是客观存在的,但是大多数VQA算法忽略了该问题,这使得我们很难理解感知质量的下降到底是由美学问题还是由技术问题造成的。
图二:UGC-VQA的美学和技术因素的纠缠性质
针对这一问题,本文提出了针对美学视图的美学质量评估器(AQE)和基于技术质量的评估器(TQE),融合用于UGC视频的整体质量评估,得到最终的客观UGC视频质量评价(DOVER),其基础框架如图三所示:
图三:DOVER的基础框架

方法

视图有限的有偏监督

美学和技术质量问题与不同的因素有关。具体来说,审美感知通常与对象的意义、组织、组成有关,这属于高级语义视觉感知。相比之下,技术质量在很大程度上受到低级视觉失真的影响,如模糊、噪声、压缩伪影、闪烁等。此外,解纠缠表示学习的研究和发展表明,通过输入数据学习目标的不同因素的归纳偏差,可以实现不同因素的解纠缠。受上述研究的启发,提出了视角分解策略(View Decomposition strategy),以对美学和技术问题施加输入水平的归纳偏差。
首先,我们将原始视频分解为两个特定的视角:美学特定视角(),它对美学相关的感知敏感,但对低水平技术失真的敏感性降低;以及技术特定视点(),它对技术失真敏感,但破坏了视频的美学结构,因此对美学相关因素不敏感。
基于分解的观点,我们在上构建了美学质量评价器(AQE,),在上构建了技术质量评价器(TQE,),分别学习美学质量预测和技术质量预测,记为:
带有归纳偏差的分解视角确保了单独的评估可以与质量问题的一个方面相关。因此,当我们分别用整体质量分数对两个评价器进行监督时,每个评价者应该能够了解其各自的质量问题对整体质量的影响。因此,我们提出了有限视角偏置监督(LVBS),最小化独立预测和MOS之间的距离(),表示M中的参数:

美学质量评估(AQE)

为了保持美学相关的感知并去除技术相关效应,我们阐述了美学特定视角(),并进一步引入了额外的正则化目标。
由于审美感知与对象的意义和对象之间的组成有关,我们需要在特定的美学视角中充分保留语义信息(即大多数物体仍然可识别)和上下文信息(即所有物体的原始位置)。根据该原理,我们通过空间降采样和时间稀疏帧采样,保留了原始视频的语义和组成,获得了美学特定的视图。
为了进一步降低AQE中的技术相关感知,我们建议在纹理相关的技术质量信息较少的情况下,将视频过采样到SA↓中。SA↓和SA同时用于训练,以规范AQE来预测质量,而降低技术质量问题的影响。
此外,现有的研究表明,不同尺度之间的特征差异与技术质量有关。因此采用交叉尺度约束(LCR),通过鼓励SA↓和SA的特征相似性,进一步消除技术影响,AQE的目标函数如下:
其中, 和 是 和 的输出特征。

技术质量评估(TQE)

在TQE中,我们希望保留技术失真,但忽略视频的美学信息,以便主要关注技术质量问题。因此采用的策略如下。
技术特定的视图。我们引入fragments作为 TQE 的技术特定视图。这些片段是由随机裁剪的原始补丁拼接在一起,以保留技术失真。此外,它丢弃了大部分语义级内容,对剩余内容的位置关系进行打乱,严重破坏了视频中的审美信息。在时间上,我们也采用连续帧采样,以保留时间上的技术失真。
一个固定的原始视频可以被随机采样到 和 中,由于随机采样的关系,因此两次采样结果保留了不同的物体。此外, 和 在原始视频中的位置关系也存在差异,进一步破坏了美学相关信息。结合这两个因素,片段的随机性有助于更好地消除TQE中的审美效应,这是一种类似于在SA↓和SA上的多尺度学习的内隐增强。

融合策略

我们进一步为两个评估器设计了融合策略,以评估 DOVER 对准确整体质量的预测能力。我们提出了线性加权融合来融合来自两个评估者的预测分数,即分数水平的融合。给定AQE和TQE分别为和 = 1−的估计权重,通过优化以最小化分数级融合后的预测与MOS值之间的距离:
为了进一步验证融合后AQE和TQE的表示和的泛化能力,我们将它们分别转移到具有可学习回归头( 和 )的下游小数据集中,即表示级融合。由于回归头已经有了重新加权分数的能力,我们不需要额外的标量权重,并最小化从 和 回归的分数的直接和与MOS值之间的距离:
我们设计了两种具有不同参数 的传输策略来进行优化,如下图所示:

实验结果展示

当所有方法都使用LSVQ的作为训练集时,与现有方法进行比较
通过对较小的UGC-VQA数据集和CVD2014上的迁移学习比较,评估Dover中的融合表示

总结

在本文中,我们尝试厘清UGC-VQA问题中,美学因素和技术因素各自的影响,在没有各部分监督信息的情况下,有效的分离了视频的美学质量和技术质量,也使得整体的质量评估结果在各个数据集上达到先进水平。
继续阅读
阅读原文