本文介绍了图像视频质量评估的基本概念和评价意义,主要涉及到主观质量评估中数据集的产生过程,以及客观质量评估中典型的全参考和无参考评估模型的设计方法。
01
质量评估意义
数字图像和视频在采集、压缩、传输和存储等过程中会发生各种各样的畸变,任何失真都可能导致视觉感知质量的下降。图像视频的质量失真,通常使用质量评估 (Quality Assessment, QA) 算法来建模。质量评估算法能准确地衡量编解码模型、通信传输系统、图像增强和重建算法的优劣,更能在社交媒体共享平台普及的今天,进行用户终端的图像视频质量监控。
图像质量评估依据给出分数的主体不同可以分为主观评估 (Subjective Image Quality Assessment, S-IQA) 和客观评估 (Objective Image Quality Assessment, O-IQA)。客观质量评估又可根据源图像参考信息比例分为:全参考 (Full Reference Image Quality Assessment, FR-IQA)、半参考 (Reduced Reference Image QualityAssessment, RR-IQA) 和无参考 (No Reference Image Quality Assessment, NR-IQA)。
02
主观质量评估

主观图像质量评估是根据观众的主观感受来对一张图像的质量给出评价。
国际上已有成熟的主观评价技术和国际标准,就视频质量主观评价过程中的测试序列、人员、距离以及环境做了详细规定。
主观评估方法主要可分为两种:绝对评价和相对评价。绝对评价是由观察者根据自己的知识和理解,按照某些特定评价性能对图像的绝对好坏进行评价。在具体执行过程中通常采用双刺激连续质量分级法 (Double Stimulus Continuous Scale, DSCQS) 将待评价图像和原始图像按一定规则交替播放持续一定时间给观察者,然后在播放后留出一定的时间间隔供观察者打分,最后将所有给出的分数取平均作为该序列的评价值。
相对评估中没有原始图像作为参考,是由观察者对一批待评价图像进行相互比较,从而判断出每个图像的优劣顺序,并给出相应的评价值。在具体执行过程中通常采用单刺激连续质量评价方法 (Single Stimulus Continuous QualityEvaluation, SSCQE) 将一批待评价图像按照一定的序列播放,此时观察者在观看图像的同时给出待评图像相应的评价分值。
均意见得分 (Mean Opinion Score, MOS) 是图像质量最具代表性的主观评价方法,它通过对观察者的评价归一判断图像质量。类似的评价方式还有平均主观得分差异 (Differential mean opinion score, DMOS)。

研究主观评估的重要意义在于丰富质量评估研究的数据集。数据集通常由参考图像、失真图像和对应平均主观评分 (MOS或DMOS) 组成,被用于客观质量评估模型研究,是开发、校准和评价客观评估模型的重要基础。这里展示了常用的图像数据集和视频数据集。
这里展示了常用图像数据集和视频数据集的内容。
03
客观质量评估

客观评估的思想是使用某种特定的数学模型给出参考图像和评估图像之间的差异量化值。在实际应用的时候检验一种客观图像评估算法是否可靠的标准是它“是否与人的主观质量判断相一致”,即通过客观评价模型给出分数高的图像同时也会有高的主观评价分数。
为了确认某种客观评价指标和主观得分之间的一致性关系,学界使用了四种一致性判断指标,分别为斯皮尔曼一致性 (Spearman rank-order, SROCC),肯达尔一致性 (Kendall rank-order, KROCC),皮尔森一致性 (Pearson linear, PLCC) 和均方根误差 (Root mean squared error, RMSE)。它们常被用来评价一种指标的准确性和一致性。同时使用这四种判断指标能够更全面和准确地反映出一种客观评价指标打分与主观感受之间的相关性。
前三个指标取值范围为[-1,1],绝对值越大,说明相关性(正相关或负相关)越强。RMSE取值范围为[0,1], 值越小,说明客观模型预测的分数与MOS值越接近。
目前常用的全参考图像质量指标都采用两阶段框架。第一阶段计算局部结构相似度/质量指标,第二阶段根据视觉显著性对局部结构相似度进行合并取平均,以得到一个总的最终质量评分。客观评价标准的设计中无法回避的一个问题是如何确定合适的可见性误差 (visibility of error) 函数——例如在PSNR中这个函数就是均方误差。可见性误差函数会以某种标准计算参考图像和失真图像之间的某种特征的差距,最终计算结果将作为图像质量的打分来反映失真情况。
PSNR是目前视频/图像处理领域应用最为广泛的客观数值评估指标之一,它的特点是概念直观且计算简便。但是这同时也是它的局限性所在,由于使用了非常简单的数学模型,它没法模拟人眼的观看习惯。PSNR是基于逐像素点信息比较的,一幅图像中的每个像素点对图像质量结果造成的影响是等值的,这很不合理,因为这没有对于信息的强度进行区别处理。例如一幅人像图片中人脸区域的像素噪声和大面积平坦远景区域的像素噪声在同等幅度下,人的主观感受通常是觉得前者难以忍受,而后者对于人眼其实没有什么大的刺激性。同时人的视觉系统对于亮度信息的敏感度是明显强于色度信息的,而不是像PSNR采用的数学模型那样对于所有的通道一视同仁。
PSNR存在巨大的局限性,即与主观感受之间的割裂性。即便是在具有相同MSE的情况下,人眼观看感受也可能天差地别,因此研究者们提出了新的评估标准。结构相似度 (Structure SIMilarity Index, SSIM) 的概念在论文[3]中被提出,是一种更符合人类观看直觉的图像质量评价标准。
结构相似度SSIM的提出是基于以下的客观事实:人眼的观看习惯总是倾向于先对整个画面进行大致信息提取后再对细节进行进一步的观察;人眼对于较高频信息(存在某个范围区间)更敏感,而对于平坦和缓慢变化的区域不会分配过多的注意力。于是SSIM提出者们便考虑将这些特性通过评估模型反映出来。
SSIM由亮度对比、对比度对比、结构对比三部分组成。这里展示了具体的计算流程和公式。

自从SSIM被提出之后,由于其具有优秀的性能而受到了许多研究者的关注。同时,许多基于SSIM进行改良的图像质量评价指标也被提出。
MS-SSIM (Multi-Scale SSIM) 在SSIM的基础上,引入了多尺度的概念。它的提出者指出观看者给出的主观评价分数受到图像到观看者的距离、显示屏分辨率和图像信息密集程度等因素的影响。
IW-SSIM (Information-weighted SSIM) 的提出者认为,通常图像中不同区域有不同的视觉显著性,而人眼系统HVS会更加注重信息量较大的区域,因此提出了基于信息量加权的合并方案。它的思路是在计算SSIM之前首先对图像的信息量分布进行一次感知,即区分出纹理复杂/稀疏的区域,然后给信息量大的区域内像素赋予高权重,以该权重模板来计算结构相似度。
GSSIM (Gradient SSIM) 基于梯度信息对SSIM作进一步改进。梯度图中包含非常重要的信息,局部对比度和局部结构能够很好地反映在梯度图中,因此利用梯度图来计算SSIM指标中的局部对比度相似性和结构相似性是一种自然的改进方案。
FSIM (Feature SSIM) 算法相比于SSIM的进步之处在于引入了HVS对于图像特征理解的优先度概念,一张图片中特征并不是等权重的,位于物体轮廓的像素能够帮助人眼确定和理解物体的结构,而背景区域的像素由于带有的信息量更少,因此在计算一张图片的质量分数的时候应该也理应对它们做出区分。FSIM注意到了HVS理解图像信息时的特征优先度,因此它对SSIM改进的内容为考虑如何区分这些不同重要性的像素并给它们赋予合适的权重。
VMAF是Netflix提出的,融合了两个能够衡量单个视频帧质量的指标和一个能够衡量连续帧质量的指标。
视觉显著性指标 (Visual Saliency-Induced Index, VSI) 是一种利用图像显著性特征图失真情况来对图像质量进行评估的全参考评价标准。研究发现质量失真会引起视觉显著性 (Visual Saliency, VS) 的改变,提出了使用VS的MSE失真值来反映图像失真情况的标准,但是该方法在某些失真类型下效果不明显,并且如果图像本身具有较高的对比度,那么该方法便会失效。采用了额外的特征作为补充来增强VSI的鲁棒性,一种普遍采用的方式是结合梯度幅值 (Gradient Modulus, GM) 和色度特征。
由于没有无失真源图像的参考信息,无参考质量评估方法 (No Reference Quality Assessment) 仅根据失真图像来学习预测图像质量分数,难度大于全参考和部分参考评估方法。近年来社交自媒体平台如雨后春笋般发展,无失真源内容无从获得、失真类型复杂未知的图像也涌入大众视野,无参考质量评估方法也因此被越来越多的学者关注、研发和衡量。
早期的传统方法通过假设存在特定某一类型的失真来评价图像质量,即量化特定失真类型,如块效应、模糊、振铃效应、噪声、压缩或传输损伤等。JNBM、CPBDM和LPCM专注于评价Blur类型的失真图像,NJQA和JPEG-NR分别评价噪声失真和JPEG压缩损伤失真。
近年来表现优良的无参考图像质量评估模型大部分都是基于自然场景统计特性 (Natural Scene Statistics, NSS),在不对失真类型做任何假设的前提下设计提取图像特征,通过机器学习回归算法进行质量预测。所选特征具有广泛的感知相关性,且合适的回归模型能自适应地将特征映射到数据集中的主观质量分数,因此基于NSS特征的无参考图像质量评估方法比早期的模型更加通用和一般化。NSS表明经过适当规范化的高质量真实世界摄像图像会遵行一定的统计规律,基于NSS统计量的特征量更能准确预测图像失真。
不同于以上基于NSS特征提取模型,传统无参考图像质量评估的另一个方向是词袋 (Bag of Words, BOW) 模型。CORNIA通过从一组未标记图像中提取的原始图像块聚类来学习字典/码本,并通过应用额外的时间滞后池学习帧级质量分数,进而应用到视频质量评估。类似地,HOSA基于码本,采用统计聚类,码本小且性能好。
Completely Blind方法,不需要在数据集上进行训练来学习特征到MOS分数的映射,而是能够通过待测图像或者视频直接输出得到质量分数。
TLVQM是手工提取特征类型中独树一帜的方法,并不基于NSS,而是精心设计每一个维度的特征,捕捉不同类型的失真,在运动量大的视频数据集上表现很好。
基于深度学习的BIQA方法通过设计神经网络结构,从原始图像数据中自动提取最适合预测质量分数的特征表示。
BRISQUE是第一篇将图像的自然场景统计特性应用到图像质量评估上的模型。BRISQUE将自然图像的亮度进行归一化计算,发现其经验分布符合高斯统计特性。自然图像的亮度归一化系数近似服从高斯分布,而这样的经验分布会因人工合成或失真畸变等变化,因此量化经验分布的拟合参数能够准确预测质量分数。首先将图像进行MSCN的归一化计算,用广义高斯分布来拟合MSCN的分布,GGD的形状参数α和分布方差sigma。接下来对MSCN系数进行二阶分析,在垂直、水平、主对角和次对角方向上进行非对称广义高斯分布的拟合,分别得到表征分布形状的四个参数。这样在原图像尺度上得到18个特征。图像和视频本质上是多尺度的,失真可以在不同的尺度上表现得不同。因此在降采样2倍的图像上再次提取18维度的特征,这样BRISQUE的特征集是36维。通过机器学习训练出能够从高维特征映射到低维MOS分数上的回归模型。
受BRISQUE启发,研究者们还进行了其他尝试,比如在不同空域比如色度域,梯度域,高斯拉普拉斯域上进行NSS特征提取,用不同统计分布模型提取NSS特征。

NIQE是首个提出的完全盲模型。首先进行MSCN归一化,然后利用sigma的特定域值选出图像中信息最丰富的patch,在自然无失真图像集中提取出的patch上进行基于NSS的特征提取,用多元高斯模型MVG拟合出Pristine的模型参数,niu和sigma,即平均值和协方差矩阵。在实际进行质量评估时,只需要在待测图像上进行同样的特征提取过程和MVG拟合过程,得到distortion的参数niu和sigma。通过计算两组参数的距离,来判断待测图像的失真程度。
STEM基于视觉感知线性度的假设,将视频的每一帧经过LGN模型的计算,再经过PCA降维,得到每一帧的特征表示向量。当前帧的前若干帧特征向量经过线性预测模型得到当前帧的特征向量预测值,与当前帧的实际向量进行RMSE计算得到预测值和实际值的差距,差距越小,线性度越好,视频质量越高,这是时域特征的设计。空域上,认为越靠近当前帧的视频帧质量,对当前帧的质量判断影响越大,因此对于每一帧的NIQE score,用这样的加权平均再次进行修正得到空域的分数。时域和空域的质量分数都是越小,表示视频越好,因此简单平均得到STEM的最终分数。

这个模型是谷歌发表于CVPR2021论文里的,与此同时论文还改善了Youtube-UGC数据集,在新的UGC数据集上这个模型表现很好。这篇文章认为一个UGC视频的衡量与视频内容,失真类型和压缩程度有关。网络模型中的三个独立NET分别输出特征以及这三个方面的考量结果(label或者Level),最后经过aggregation net得到最终的质量分数。

对于第一个视频,三个Net对应输出了压缩等级,内容标签和失真类型。从这张表展示了独立使用三个net输出的feature进行质量分数的预测,和将三部分feature联合起来进行预测。

腾讯的图灵实验室提出了一个既能做全参考也能做无参考,既能评估图像,也能评估视频的的网络模型。Backbone 可以选择在Imagenet数据集上进行过预训练的Mobilenet, Shufflenet, ResNet-18等等。GAP将特征向量展平,再输入到全连接层,输出预测分数。无参考模型的输入是待测失真内容,全参考的输入由两部分组成,一部分是待预测的失真内容,一部分是reference和distortion的信息差。进行视频评估时,将每帧视频输入到模型中,预测的分数进行平均得到这个视频的分数。损失函数由两部分组成,LMAE是一个Batch size里所有图像或视频的预测分数与MOS之间的绝对值差的平均。LRANK遍历batch里的任意一对图像或视频的预测分数和MOS差距的差值,比如,任意两个图像的预测分数之差,和实际MOS分数之差,越接近,表明预测越精准。
04
总 结

总的来说,在人们在学习工作和休闲等各个方面都对视频的视觉体验要求越来越高,在不同场景下的视频质量评估和质量感知优化的需求都越来越多,不仅需要主观质量评估研究的人员更快跟进现有需求,推出不同场景的视频数据集,也需要客观质量评估研究的人员来探索不同场景视频的失真特点和最能表征失真程度的特征。比如UGC 是指User generated content,即用户生成内容。不同于传统的数据集,是利用一小部分参考视频,用人工可控的方法来进行失真调制,得到不同类型失真的视频。UGC数据集是直接由非专业摄影的大众拍摄的视频构成,这些视频失真类型复杂且未知,但也是目前在大众手机上各种APP如抖音快手b站上非常活跃的视频内容。目前UGC的数据集也很多,UGC视频质量评估的客观模型也应运而生。
对视频失真特性的新的建模方法。比如STS是spatial-temporal slice,是将视频看作一个三维立方体,传统的时域特性研究方法是在时间T的维度上进行切割,分离出视频帧,而STS是在高或者宽的维度上进行切割,从而使得切割出来的二维map里也包含了motion的因素。ST-CHIP的方法大同小异,只是将视频立方体切割为更小的立方体,得到Localized ST特性。以及还有更多的新颖的建模方法,有待探索。
以下是参考文献。

关 注 我 们 
实验室网站:http://viplab.fudan.edu.cn/
OpenASIC官方网站:www.openasic.org
知乎专栏:http://zhuanlan.zhihu.com/viplab
微信公众号:OpenASIC
继续阅读
阅读原文