作者
:Pavan C. Madhusudana等

来源
:TIP2022

论文题目
:Image Quality Assessment Using Contrastive Learning

内容整理
:贾荣立
目录
  • 引言
  • 方法
    • 辅助任务
    • 多尺度学习和剪裁
    • 保持图像质量的数据增强
    • 现实场景失真
    • 块特征
    • 评价表示
  • 实验结果

引言

一直以来,限制深度学习模型性能提高的关键因素之一就是标注数据集的规模有限,在图像质量评价领域也是如此。因此,如果能够通过没有标注的数据训练得到性能尚可甚至超过有监督学习的模型,将大大推动自然语言处理、计算机视觉等的下游任务的发展。对比学习就是目前较为常用的无监督学习方法。
本文提出了通过对比学习的方式获得图像质量表示的问题。使用预测失真类型和失真程度作为一个辅助任务,从一个包含合成失真和真实失真的未标记图像数据集中学习特征。然后,训练一个深度卷积神经网络,利用对比成对的目标来解决辅助问题,将所提出的训练框架和由此产生的 IQA 模型称为 CONTRIQUE 。在最终的评估中,CNN的权重被冻结,利用一个线性回归器将学习到的表示映射到无参考质量分数。
通过大量的实验表明,与 SOTA 的无参考图像质量模型相比,即使没有任何额外的 CNN backbone 的微调,对比模型也取得了颇具竞争力的性能。学习到的特征表示是高度鲁棒的。本文的结果表明,具有感知相关性的强大的质量表征可以通过无标注图像获得,而不需要大规模标记主观图像质量数据集。

方法

图一:算法框架
我们的目标是在不使用任何 ground truth 质量分数的情况下,学习可以用来预测图像质量的表示。

辅助任务

辅助任务是指和主要任务不同但密切相关的任务。在本文中,主要任务指的是预测图像的质量分数,而辅助任务是预测图像的失真类型以及对应的失真程度。因此,可以把该辅助问题转化为一个分类问题,其中每个类都由具有相似失真类型和相似失真程度的图像组成,辅助任务的目标是学习能够根据失真类型和程度将图像区分为不同类的特征,在训练中,使用cross-entropy实现。
给定一个原始的高质量图片 , 利用不同的失真 和 不同的失真程度 得到失真图像 。因此,辅助任务转化为将给定图片分 个类(全部失真类型和程度+无失真源图像)。
为了提取 embeddings ,我们在深度模型中使用两个部分:编码器 encoder 和projector ,encoder 可以是任何流行的 CNN 框架,如VGG,Resnet等,projector 是多层感知机(MLP)。 和 分别表示 encoder 和projector ,那么对于给定的图像,深度模型的输出为:
是 B 维的 encoder 输出,在输入进MLP之前,使用 normalized 。模型的输出向量为 K 维,我们的目的是对于同一类的图像,获得相似的表示 ,一对向量之间的相似性可以使用点积测量: 。损失函数是一个归一化的温度尺度交叉熵(NT-Xent),对于图像 ,损失函数定义为
其中 是每一个 batch 中的图像数量, 是指示函数, 是温度参数, 是与 属于同一类别的图像的索引集合。例如,如果 是一个被 σ = 10 的加性高斯白噪声(AWGN)损坏的图像,那么 将包含被AWGN σ = 10损坏的 batch 中出现的所有图像的索引(不包括索引 本身)。

多尺度学习和剪裁

图像本质上是多尺度的,图像失真也是如此,图像质量受到局部特征和全局细节的共同影响。在 CONTRIQUE 中,我们采用两种尺度:原生/全分辨率,以及在两个维度上降采样2倍获得的半尺度分辨率。为了避免混叠伪影,在降采样前使用了抗混叠滤波器。在这个调整大小的操作中保留了图像纵横比,因为修改这个比例可能会影响底层图像的质量。
然后对图像进行随机裁剪,其中输入图像被裁剪成随机固定大小的 M×M。这里做的一个简化假设是,裁剪版本继承了与原始版本相同的失真类型。虽然裁剪版本不需要代表与原始图像相同的感知质量,但我们假设失真类几乎保持相同,并且不受裁剪操作的影响。对于每个输入图像,在全尺寸和半尺寸上获得两种随机 crops 。对于图像大小小于 M×M 的情况,整个图像采用零填充,以保持相同的分辨率。通过剪裁,获得了一批固定分辨率的图像,便于后续的深度网络的训练。

保持图像质量的数据增强

(2)中的目标函数的目标是学习图像嵌入,以显示属于不同类别的图像之间的鉴别行为,同时显示对质量保持变换的不变性。不修改图像质量的图像操作,我们统称为质量保留变换。在对比框架中,我们采用了两种变换:水平翻转和色彩空间转换。
使用不同色彩空间背后的动机是提取可以在不同领域中呈现的互补的质量信息。在本框架中,采用了4个色彩空间:RGB、LAB、HSV和灰度。每个颜色空间都有不同类型的感知相关性。我们还采用了一个带通变换(band-pass transform),使用局部平均减法(MS)获得。质谱系数已被证明可以捕获由于图像中的失真而引起的统计偏差。
pipeline如图一所示,每次输入图像随机选择色彩空间。通过在训练过程中使用不同的色彩空间,在测试过程中使用任何色彩空间都会得到相似的表示,即对于CONTRIQUE来说,对同一图像的不同的色彩空间表示具有不变性。
在这里,我们避免使用 aggressive 的增强技术,如颜色抖动,高斯模糊,随机调整大小,MixUp,AutoAugment等。由于这些方法在一定程度上改变了失真信息,因此不保持原来的图像质量。

现实场景失真

上文使用了关于合成失真的先验知识来学习图像质量嵌入。然而,对于包含真实失真的图像,如用户生成的内容(UGC)图像,通常包含多种混合失真,无法获得关于失真的信息。因此,(2)中假定的合成失真类不适用于UGC图像。
在对照框架中,每个UGC图像被视为一个独特的类,通过多重失真的独特组合获得,与其他UGC图像以及具有合成失真的图像不同。因此,对于一个给定的UGC图像 ,只有它的缩放(和转换后的)图像 属于同一个类。为了反映这一差异,重新定义了对比目标为:
在这里,对于每个UGC图像都有两个转换版本(全尺度和半尺度)。因此,至少有两个数据样本属于同一类,使得目标非零。其中 为 batch 中出现的图像数量, 为判断输入图像是否为非合成失真(UGC)的指示函数。在训练过程中,为了避免偏差,我们在每次迭代中随机采样等数量的合成失真图像和UGC图像。

块特征

图像 patch 中存在的局部细节在决定全局图像质量方面起着重要的作用。为了更细节的捕获图像失真特征和图像质量特征,将每个输入图像分成不重叠的补丁,大小为 P×P ,通过编码器获得局部特征。与裁剪操作类似,我们假设合成图像和实际失真图像都继承了原始图像的失真类标签。请注意,补丁不需要继承原始版本的感知质量,只假定失真类别是相同的。

评价表示

我们通过将其应用于质量预测问题来评估学习到的表示,使用人类判断与预测的质量分数的相关性作为表示质量的代理。
一旦训练结束,projector 网络 被丢弃,并使用编码器网络 的输出作为图像表示。我们使用一个正则化的在冻结编码器网络之上训练的线性回归器。回归权重是在一个包含真实质量分数的 IQA 数据库上学习的。回归表达式如下:
其中 表示真实质量分数, 表示预测分数, 为与 维度相同的可训练向量, 为正则化参数, 为 的维数, 为训练集中存在的图像数。与训练类似,我们遵循多尺度约定,特征在两种分辨率下计算:全尺度和半尺度,最终的表示是两种尺度的连接。在评估过程中,所有的表示都以输入图像的原生分辨率计算,并且不执行额外的数据增强。

实验结果

在本节中,我们通过进行一系列的实验来评估 CONTRIQUE 的性能。
在包含真实失真的IQA数据集上,与不同的无参考图像质量评价模型进行性能比较。根据所使用的特征类型将无参考质量评价方法进行分类。在每一列中,三个BEST模型都用粗体表示。
真实失真IQA数据集
在包含合成失真的IQA数据集上,与不同的无参考图像质量评价模型进行性能比较。在每一列中,三个BEST模型都用粗体表示。
合成失真IQA数据集
继续阅读
阅读原文