作者
:Oliver Wiedemann,Vlad Hosu等

来源
:Arxiv

论文链接
:https://arxiv.org/abs/2212.05813

论文题目
:KonX: Cross-Resolution Image Quality Assessment

内容整理
:贾荣立
目录
  • 引言
  • KonX 数据集
  • 模型架构
  • 实验结果
  • 总结

引言

尺度不变性是许多计算机视觉子领域中的问题。例如,在分类任务中,对象标签应该在不同尺度上保持不变,但不同尺度的图像会给模型预测带来一定的偏差;对于ground-truth随着图像尺度变化而变化的任务,如图像质量评价任务来说,尺度不变性问题将会更加的重要。
在图像质量评价(IQA)中,降采样可以减弱损伤,如模糊或压缩伪影,从而提高主观实验中的人类感知质量分数。因此,为了准确预测感知图像质量,多分辨率IQA方法必须同时考虑由模型不足引起的分辨率依赖误差,以及ground-truth的感知分数的变化。
缩放会同时影响人类感知质量和IQA模型的预测质量
本文基于这个问题,设计了全新的跨分辨率的IQA数据集,找到由分辨率变化引起的人类主观感知质量分数变化的经验证据;说明了先前的IQA方法具有尺度偏差,降低了它们的预测性能;并提出了一个多尺度、多列的深度学习网络结构,相比于之前的IQA模型,性能达到了SOTA水平。

KonX 数据集

针对上述问题,提出了新型跨分辨率IQA数据集 KonX 。KonX 对三种不同分辨率的图像进行了主观标注,作为IQA模型的基准,强调了注释的可靠性。
KonX 包括210张来自 Flickr 的图像和210张来自 Pixabay 的图像,以补充高质量的范围。图像采用基于离散元数据和其他图像属性的分层方法进行采样,以达到丰富多样化内容和感知质量水平的目的。通过裁剪所选择的图片,将其设置高宽比为4:3,然后利用Lanczos插值将这些数据降采样到三种分辨率:2048×1536px,1024×768px 和 512×384px。
KonX数据集基本信息

模型架构

不同CNN层特征的特性及其尺度依赖性,以及对于迁移学习的影响是不同的。对于单独的filter来说,尺度依赖性是非常明显的,通常意味着他们只能检测到某些固定大小的模式,而对于深度卷积网络中使用的filter组或卷积级联来说,尺度依赖性则并不明显。例如,Imagenet模型在最后一层中达到了一定程度上的尺度不变性。基于此,我们考虑了多个方面的困难:
  1. 训练-测试规模差异:经过训练的更接近测试分辨率的对象分类模型在微调后表现更好。
  2. 尺度不可知论特征:根据格拉齐亚尼等人对尺度不变性的观察,晚期特征可能不利于质量评估。
  3. 多级绑定:主干网络和头部网络之间的连接传统上是基于单个后期层的输出,跨任务学习可能会受到限制。
  4. 分辨率过拟合:针对NR-IQA的现代深度学习网络体系结构一次接受一个输入大小。在有限的实验中发现,在多种分辨率上训练这些模型并不能提高它们的跨分辨率性能,相反,往往会使得性能降低。
基于上述考虑,我们最终设计的网络结构如下:我们使用一个在 600×600px 大小的图片数据集上预训练的 EfficientNet-B7 作为backbone,并训练了一个不同的输入分辨率,类似于用于尺度不变的两列检测网络,从而深度集成列级MLSP类型的特征。
Effnet-2C-MLSP双列NR-IQA架构
所提出的Effnet-2C-MLSP如上图所示。它由两列的 MLSP block 组成,这两个 block 都在 ImageNet-1000 上用 600x600px 大小的图像预训练,并使用 512x384px 和 1024x768px 的图像进行微调。两列都使用一个级联多层感知器(MLP)头部。所得到的特征通过全局平均池(GAP)对 project_bn 层的激活进行采样。由于前面的两层使用了dropout 归一化,所以从 dropout 层之前的两层中提取输出特征。
project_bn 特征维度大约为12000,在将每个列传递到MLP头之前,通过单独的 dense layers 将其缩小到1024,从而大大减少了所需参数的数量。与简单地将特征加起来相比,这种分层组合允许通过反向传播来提高列特性的逐尺度区分级别。模型预测一个单一的平均意见得分(MOS),并通过损失函数MSE进行学习。

实验结果

在KonIQ-10k上进行训练,并对各自的数据集进行测试
在不同分辨率下进行训练和测试时,在KonX子集上的相关性

总结

本文介绍了跨分辨率下的 NRIQA 问题,在预测不同尺寸的真实失真图像的质量方面取得了重大进展。本文首先引入了一个专门为跨分辨率 IQA 而设计的基准数据集 KonX,它包括来自两个数据集的 420 张图像,并通过主观研究在三种表示分辨率下进行了可靠的注释。此外,设计并使用 Effnet-2C-MLSP 模型对多分辨率图像进行质量预测,并在跨分辨率数据集 KonX 上实现了 SOTA 性能。
继续阅读
阅读原文