本次推送介绍一篇发表于2021年ACM TOG的论文,该论文提出了联合去马赛克,去噪,色调映射(ISP pipelines)和下游图像分析任务的优化框架,本文重点说明了图像理解任务结合AI-ISP处理的潜力。本文的模型在低光照和其他具有挑战性的成像条件下,输出的图像能够帮助提升后续图像分析任务的性能。
1
主要贡献
1. 验证真实低光环境下,使用现在的ISP成像结果,会使CV模型性能显著下降。
2. 提出Anscombe 网络,这是一种用于去马赛克和去噪的轻量级AI-ISP,在不同摄像头架构和拍摄设置中有泛化能力。当以分类任务精度为目标进行训练时,ISP模型在传统图像感知质量评价上会变差。但当以感知质量为目标进行训练时,本文模型在低光成像实现了SOTA的图像质量,展示出了本文方法在指定领域下的成像潜能。
3. 实验展示了结合CV模型对 Anscombe 网络进行fine-tuning比直接使用在 RAW 数据或传统 ISP 成像结果或近期SOTA的AI-ISP的成像结果作为输入时,CV任务性能显著更优。
2
算法模型
01
成像模型

文章提出了如下式(1)所示的低光成像模型,对待处理的问题进行建模。 
下面图像成像模型由线性部分Ax组成,并根据传感器的噪声特性进行非线性采样。不同的相机架构可以通过改变A来表示。基于成像模型中蕴含的图像噪声模型,降低光照水平会增加 α,通过增加 ISO 来保持动态范围不变,用 P(Ax/α) 乘以α 表示。
x:向量化下隐式表示的彩色图像;
N:像素个数;
y: 经过了镜头和sensor得到的Raw图。
(现在我们能获取到raw图y,但需要去寻找未知的图像信号x,作为图像分析任务的输入。)
α:泊松分布参数;
σ:高斯分布参数;
Ec:色彩通道提取操作(类似CFA),c∈{R,G,B};
kc:点扩散函数;
*:对应于向量化输入上的 2D 卷积的线性算子;
Sc:对传感器滤色器阵列上的滤色器 c 进行空间二次采样;
A:对拍摄时所有光学效应进行建模的矩阵。
公式(1)中的图像形成模型是通用的,适用于各种不同的相机架构,从传统的bayer CFA 相机到隔行扫描 HDR 传感器,每种都可以根据给定的相机架构来改变linear forward model A。
上述成像模型中,α和σ需要标定。参考《A. Foi. 2009. Clipped noisy images: Heteroskedasticmodeling and practical denoising.》使用具有棋盘特征的伯努利噪声图校准了方程 (1) 中的光学像差k,遵循 Mosleh 等人用于空间变化的 PSF 校准《2015 CVPR Camera intrinsicblur kernel estimation: A reliable framework. 》。
02
算法模型
数学模型如下所示。

Λ的优化对象x,会作为下游cv任务的输入。
低层优化任务argmin G,以贝叶斯方法作为优化算法框架,以本文给出的概率图像成像模型得到y和先验Ω(ϑ)来估计隐式的三通道色彩图x。该贝叶斯模型假定x服从ϑ参数化的先验分布 Ω(ϑ) (该先验分布Ω(ϑ)是由Anscombe Net隐式学习的) 。
高层优化损失L与我们选择的最终优化目标有关,可以使用不同的图像理解任务的损失,也能使用图像质量感知损失,选用后者则本文模型可以视为一种可学习的ISP模型(类似deep isp)。
Anscombe Net将图像重建作为统计估计问题。Anscombe layer的输入y代表raw图,注:Anscombe是一种VST(variance stabilizing transform),可以将一个服从泊松分布(Poisson distribution)的随机变量变为一个近似标准高斯分布。(详细公式推导见原论文)。
假设y服从本文提到的相机图像成像模型,那么一个未知图像信号 x 产生一个raw图观测 y 的后验概率如下。
式(6)也就是上述数学模型中的低层优化任务argmin G。对式(6)这类问题模型的处理算法,多数都是迭代算法(ADMM, Chambolle-Pock, FISTA),本文将proximal optimization algorithms的计算流程中先验映射的过程交由CNN完成,由此得到了本文级联的模型结构,即每个级联U-Net模型都是在进行ALGORITHM的第1至第4行的 prior step。(详细推导见原论文)
此外,相比于标准的CNN模型,Anscombe layer使本文模型能独立于光源环境,展开(unrolled)的优化模型因为不需要重新训练,使之能够在不同相机间有更好的泛化能力。模型架构图如下。
3
实验设置与结果
(1)低光实验条件设置
固定的3lux,6lux用于评价模型在低光环境的性能;
变化的2-20lux,2-200lux用于评估模型在变化的低光光照水平的泛化能力 。
(2)合成数据
基于图像成像模型来训练和评估ImageNet的噪声版本,其中成像模型的参数由Nexus 5 rear camera在给定光照条件下进行标定得到。
01
低光环境ISP+分类模型结果对比
对比的baseline是本文模型,Joint Anscombe Network and MobileNet-v1,与以下模型进行对比:
  • 传统的ISP的输出+预训练的mobileNet-V1分类模型;
  • 针对每种噪声场景中的图像质量进行了微调的end2end;ISP(DeepISP)+对DeepISP输出结果 fine-tuning的MobileNetv1分类模型;
  • 直接在Raw图噪声数据上重新训练的MobileNetv1模型;
  • Joint Anscombe Network and MobileNet-v2。
由Table 1可以分析如下。
①关于性能的讨论
(1)第3,4行:联合现有的针对人眼感知质量优化的ISP与预训练的分类模型(mobileNetv1)在低光环境下分类性能显著下降。
(补充材料数据:与几乎未处理的双线性插值彩色图像相比,使用针对人眼感知质量进行调整的ISP,处理RAW图数据后,会降低分类性能。这些发现也适用于由于光学像差引入的图像劣化)。
(2)第1,5,6行:在ISP预处理图像之上fine-tuning分类模型并不比直接在RAW噪声数据(只经过双线性插值)上训练分类模型好。而且这样的fine-tuning,并没有很好的泛化性。第5,6行实验在变化的光照条件下,分类模型的性能也只有直接在raw噪声数据重新训练的模型的一半。
(3)第1,2,9行:本文提出的模型比在raw图数据从头训练的分类模型有更好的性能,即使是与更大capacity的模型(mobileNetv2)相比也更优。
注:对于第1,2行的对比,在较大的 2 到 200 lux照明范围,确实观察到了mobileNetv2比v1有更差的性能,作者将其归因于较大的模型,由于模型对数据记忆的能力更强更容易过拟合。
通过第2行和第9行对比,可以认为Anscombe 网络在恢复中间图像表示方面非常有效,这些表示是针对不同噪声场景的下游任务量身定制的。
(4)第7,8,9行:本文提出的模型也比 联合基于学习的ISP(deepISP)和fine-tuning后的分类模型的效果更好。
注意第8行,虽然对基于学习的ISP增加人眼感知损失增加了对动态光照水平的鲁棒性,但本文的方法仍比DeepISP++percLoss+分类的方法好很多,而且本文方法具有更小的参数量。
②关于计算量的讨论
对Darktable和movidius,计算量只考虑了分类模型。但硬件ISP本身需要大量的工程技巧才能提升能效,本文的模型可以跑到60fps(在同样配置下,原始mobileNetv1能跑到80fps)。
③定性分析
可以看到,本文的算法模型不仅能完成去噪任务,同时能够增强目标的结构特征!而且关键在于anscombe layer的设计,本文作者给出的猜想是:Anscombe Network可以通过选择性地增强目标类结构周围的对比度同时去除大平滑区域中的噪声来定制处理分类任务。这个选择过程就是是独立于噪声或光照水平恢复目标类结构的关键,这解释了本文的模型在不同光照水平下的鲁棒性。
此外可以看到,本文模型得到的图像在PSNR和SSIM上的得分并不高,但这些质量评价指标对高层的图像理解任务没有帮助。
02
使用pixel相机获取的真实数据
结论相近,但可以看到相比在合成数据上的实验,即使是本文模型的性能也下降了。
同时进行了消融实验:本文模型不使用anscombe layer时性能会下降,以及在基于学习的ISP模型中使用anscombe layer时其性能显著上升。
4
总结
本文提出一种在端到端优化框架中重新设计ISP pipelines的方法,该方法结合并受益于物理图像形成模型的知识。未来,相机和其他成像系统拍摄的大部分图像将被图像分析任务消耗,而不是被人类消耗,因此。鉴于这一重大变化,需要重新审视图像处理的基本假设。本文网络模型有着扎实的数学模型作为支撑,每步设计作者都有详细的解释。实验环节论证充分,证明了 Anscombe 网络可以泛化到跨相机架构,包括不同的 CFA 模式、光学系统和噪声模型,并可以为跨计算成像的其他传感器模式开发AI-ISP,例如TOF相机、多光谱 相机和传感器融合系统,也展示了实际落地应用的情况。
本文方法处理的对象是已经得到的Raw图像,没有处理ISP中的动态控制部分,如白平衡,自动曝光等。这些模块应该被包含,因为图像分析任务的反馈可能会严重影响这类高度ill-posed问题的性能。
5
参考文献
Diamond S, Sitzmann V, Julca-Aguilar F, et al. Dirty pixels: Towards end-to-end image processing and perception[J]. ACM Transactions on Graphics (TOG), 2021, 40(3): 1-15.
 关 注 我 们 
实验室网站:http://viplab.fudan.edu.cn/
OpenASIC官方网站:www.openasic.org
知乎专栏:http://zhuanlan.zhihu.com/viplab
微信公众号:OpenASIC
继续阅读
阅读原文