以下文章来源于：信息门下奶狗@知乎

作者：信息门下奶狗

链接：https://www.zhihu.com/question/493246711/answer/2209905715

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

针对暗光场景下的high-level vision task中存在的一些问题：1.图像质量差 2.图像增强手段容易失效 3.数据集规模小，作者提出了一种新的多任务自动编码转换（MAET）模型。该工作已经收录于ICCV2021。

ICCV 2021: Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection，一篇针对于暗光场景目标检测任务的paper。

纯粹的low-level vision task已经有很多好的工作了，推荐一下自己今年的ICCV 2021的paper，暗光场景在增强之外还有高层次视觉任务可以做，做的是暗光场景下的high-level-vision task目标检测任务。

暗光场景下的high-level vision task，比如检测分割分类这种，往往受限于三个显著的缺点，第一是环境中的光子数量很少，而且相机中的in-camra noise很大。第二是直接用图像增强手段，增强的评价指标是PSNR和SSIM（人眼视觉），而High-level-vision task的评价指标是mAP和IOU这类（机器视觉），导致了评价指标不一致性。第三是暗光场景下的数据集很少，无法像COCO，ImageNet那样有大规模的数据集训练。

图1. 暗光增强方法的效果往往容易失效。

我2021年的ICCV 2021 paper就是为了解决以上问题而写出，无需增强，直接训练，也可以达到SOTA 效果。写贴一下论文和代码地址：

论文：Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection

论文链接：https://openaccess.thecvf.com/content/ICCV2021/papers/Cui_Multitask_AET_With_Orthogonal_Tangent_Regularity_for_Dark_Object_Detection_ICCV_2021_paper.pdf

代码地址：https://github.com/cuiziteng/ICCV_MAET

在这篇工作中，针对上述的三个问题（1.图像质量差 2.图像增强手段容易失效 3.数据集规模小）。我们采用了另辟蹊径的手段：没有直接把enhancement应用到图像上，而是采用传统相机图像信号处理(image signal processor, ISP)的方法，把大规模数据集(如COCO)上面的正常图像转化为暗光图像，这里面涉及到把图像从RGB空间转换到RAW空间(Unprocess过程)，并且在RAW空间上完成了Low-light Degradation，最终再通过一个正向的ISP过程把RAW还原为暗光RGB。

图2.暗光图像合成流程

其次，我们把正常图像和其合成的暗光图像一起输入到一个孪生神经网络里面进行自监督学习训练，我们采用的自监督学习方法是AET (Auto-Encoding Transformation, CVPR 2019)。我们通过在backbone后面接入的变换预测decoder来预测光照变换中涉及的参数从而完成自监督训练。我们采用检测数据集MS COCO来完成暗光图像的合成步骤，并且参与自监督training，在检测网络的backbone(E)上面同时接入了目标检测的decoder(Dobj)和AET变换预测的decoder(Ddeg)，训练的时候同时优化E, Dobj和Ddeg的参数，进行一个multi-task的训练学习，并且在后续真实数据集上(EXDark ,UG2+ Dark Face)上面直接进行fine-tuing。

图3.同时完成自监督和合成数据集上的目标检测

实验部分我们在EXDark 和 UG2+人脸检测数据集上都做了探究，只用暗光图像作为输入，不需要任何预处理和辅助的增强手段。在对比实验的增强手段中，无监督增强手段（如Zero-DCE）更适合暗光目标检测任务，这也许是因为无监督方法的泛化性能更好。最终我们的方法在EXDark和UG2+数据集都取得了理想的效果。

图4.EXDark数据集实验效果图,(a)是原始暗光图(b,c,d)是不同增强手段(e)是原始暗光图输入到MAET中

值得一提的是，我们后续在BMVC 2022上做了一篇Transformer来完成暗光增强新论文，借鉴目标检测中的DETR结构，利用了attention query机制来学习ISP流程的相关参数，并且在这篇我们研究中我们同时探究了暗光增强，暗光场景下的目标检测与暗光场景下的语义分割任务，并且这篇的结构所需参数量和速度都十分轻量，链接如下：

You Only Need 90K Parameters to Adapt Light: A Light Weight Transformer for Image Enhancement and Exposure Correction (BMVC 2022)

https://arxiv.org/abs/2205.14871

https://github.com/cuiziteng/Illumination-Adaptive-Transformer