以下章来源于:信息门下奶狗@知乎
作者:信息门下奶狗
链接:https://www.zhihu.com/question/493246711/answer/2209905715
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
针对暗光场景下的high-level vision task中存在的一些问题:1.图像质量差 2.图像增强手段容易失效 3.数据集规模小,作者提出了一种新的多任务自动编码转换(MAET)模型。该工作已经收录于ICCV2021。
ICCV 2021: Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection,一篇针对于暗光场景目标检测任务的paper。
纯粹的low-level vision task已经有很多好的工作了,推荐一下自己今年的ICCV 2021的paper,暗光场景在增强之外还有高层次视觉任务可以做,做的是暗光场景下的high-level-vision task目标检测任务。
暗光场景下的high-level vision task,比如检测分割分类这种,往往受限于三个显著的缺点,第一是环境中的光子数量很少,而且相机中的in-camra noise很大。第二是直接用图像增强手段,增强的评价指标是PSNR和SSIM(人眼视觉),而High-level-vision task的评价指标是mAP和IOU这类(机器视觉),导致了评价指标不一致性。第三是暗光场景下的数据集很少,无法像COCO,ImageNet那样有大规模的数据集训练。
图1. 暗光增强方法的效果往往容易失效。
我2021年的ICCV 2021 paper就是为了解决以上问题而写出,无需增强,直接训练,也可以达到SOTA 效果。写贴一下论文和代码地址:
论文:Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection
论文链接:https://openaccess.thecvf.com/content/ICCV2021/papers/Cui_Multitask_AET_With_Orthogonal_Tangent_Regularity_for_Dark_Object_Detection_ICCV_2021_paper.pdf
代码地址:https://github.com/cuiziteng/ICCV_MAET
在这篇工作中,针对上述的三个问题(1.图像质量差 2.图像增强手段容易失效 3.数据集规模小)。我们采用了另辟蹊径的手段:没有直接把enhancement应用到图像上,而是采用传统相机图像信号处理(image signal processor, ISP)的方法,把大规模数据集(如COCO)上面的正常图像转化为暗光图像,这里面涉及到把图像从RGB空间转换到RAW空间(Unprocess过程),并且在RAW空间上完成了Low-light Degradation,最终再通过一个正向的ISP过程把RAW还原为暗光RGB。
图2.暗光图像合成流程
其次,我们把正常图像和其合成的暗光图像一起输入到一个孪生神经网络里面进行自监督学习训练,我们采用的自监督学习方法是AET (Auto-Encoding Transformation, CVPR 2019)。我们通过在backbone后面接入的变换预测decoder来预测光照变换中涉及的参数从而完成自监督训练。我们采用检测数据集MS COCO来完成暗光图像的合成步骤,并且参与自监督training,在检测网络的backbone(E)上面同时接入了目标检测的decoder(Dobj)和AET变换预测的decoder(Ddeg),训练的时候同时优化E, Dobj和Ddeg的参数,进行一个multi-task的训练学习,并且在后续真实数据集上(EXDark ,UG2+ Dark Face)上面直接进行fine-tuing。
图3.同时完成自监督和合成数据集上的目标检测
实验部分我们在EXDark 和 UG2+人脸检测数据集上都做了探究,只用暗光图像作为输入,不需要任何预处理和辅助的增强手段。在对比实验的增强手段中,无监督增强手段(如Zero-DCE)更适合暗光目标检测任务,这也许是因为无监督方法的泛化性能更好。最终我们的方法在EXDark和UG2+数据集都取得了理想的效果。
图4.EXDark数据集实验效果图,(a)是原始暗光图(b,c,d)是不同增强手段(e)是原始暗光图输入到MAET中
值得一提的是,我们后续在BMVC 2022上做了一篇Transformer来完成暗光增强新论文,借鉴目标检测中的DETR结构,利用了attention query机制来学习ISP流程的相关参数,并且在这篇我们研究中我们同时探究了暗光增强,暗光场景下的目标检测与暗光场景下的语义分割任务,并且这篇的结构所需参数量和速度都十分轻量,链接如下:
You Only Need 90K Parameters to Adapt Light: A Light Weight Transformer for Image Enhancement and Exposure Correction (BMVC 2022)
https://arxiv.org/abs/2205.14871
https://github.com/cuiziteng/Illumination-Adaptive-Transformer

推荐阅读

AI融资 | Aidlux智能物联网公司阿加犀获得高通融资

Yolov5应用 | 家庭安防告警系统全流程及代码讲解
江大白 | 这些年从0转行AI行业的一些感悟
白夜 | 一文看懂AI项目流程及边缘设备开发

注意:大白梳理对接AI行业的一些中高端岗位,年薪在50W~120W之间,图像算法、搜索推荐等热门岗位,欢迎感兴趣的小伙伴联系大白,提供全流程交流跟踪,各岗位详情如下:
《AI未来星球》陪伴你在AI行业成长的社群,各项福利重磅开放:
(1)198元《31节课入门人工智能》视频课程;
(2)大白花费近万元购买的各类数据集;
(3)每月自习活动,每月17日星球会员日,各类奖品送不停;
(4)加入《AI未来星球》内部微信群;
还有各类直播时分享的文件、研究报告,一起扫码加入吧!
人工智能行业,研究方向很多,大大小小有
几十个方向
为了便于大家学习交流,大白创建了一些不同方向的行业交流群
每个领域,都有各方向的行业实战高手,和大家一起沟通交流。
目前主要开设:Opencv项目方面、目标检测方面模型部署方面,后期根据不同领域高手的加入,建立新的方向群!
大家可以根据自己的兴趣爱好,加入对应的微信群,一起交流学习!
© THE END 
大家一起加油!
继续阅读
阅读原文