传统的图像融合算法可以分为基于多尺度变换 (MST) 的方法、基于稀疏表示的方法 (SR)基于子空间的方法、基于优化的方法和混合方法。随着机器学习的发展,也涌现出了许多基于深度学习的图像融合方法,许多文章通过改进损失函数和网络结构在做不停的迭代更新,但是似乎都忽略了一个重要的问题:图像融合往往是为后续的高层次视觉任务做准备的。今天要介绍的这篇文章以一种新的视角审视图像融合问题,即使用语义分割任务驱动融合网络。
 如图所示,与单纯使用可见光图像或者红外图像相比,图像融合能够为语义分割提供更高质量的输入图像,从而提升分割结果的质量。而现有的融合算法倾向于追求更好的视觉质量和更高的评价指标,但很少系统地考虑是否可以促进高级视觉任务(如目标检测、追踪、行人检测和语义分割等等),一些研究表明,仅考虑视觉质量和量化指标对高级视觉任务没有帮助;此外,现有的网络架构在提取细粒度细节特征方面并不有效;最后,现有的许多融合算法在努力提高视觉质量和评估指标的同时,忽略了实时图像融合的需求。
 本文设计了一种新的语义感知的红外和可见光图像融合框架,该框架在图像融合和高级视觉任务中都能有效地取得优异的性能。并且设计了梯度剩余稠密块,以提高网络对细粒度细节的描述能力,实现特征重用。同时提出的SeAFusion是一种能够实现实时图像融合的轻量级模型,这允许它作为高级视觉任务的预处理模块进行部署。最后文章提出了一种任务驱动的评价方式,从高级视觉任务的角度评价图像融合的性能。
整个算法的框架如图所示。首先,两路源图像会被送入Fusion Network中进行特征提取、特征融合、图像重建,得到一幅融合图像;这张融合图像会作为Segmentation Network的输入,得到语义分割的结果。计算融合图像与源图像之间的内容损失,计算分割结果和labels之间的语义损失,内容损失与语义损失共同指导融合网络的训练,语义损失指导分割网络的训练。
损失函数由两部分组成:内容损失和语义损失。内容损失衡量的是融合图像的视觉保真度,由强度损失和纹理损失组成;语义损失衡量的是融合图像对高级视觉任务的贡献程度,与原语义分割网络的损失函数完全相同。
融合网络的结构如图所示。两路源图像分别经过由卷积层和GRDB组成的特征提取部分,再通过简单的concatenation把两路融合在一起,再通过由卷积层构成的图像重建部分,生成最终的融合图像。其中GRDB的全称是 gradient residual dense block,它的主数据流的密集连接方式可以最大可能复用提取到的特征,梯度残差数据流能够强化细节提取,它的1x1卷积是为了消除通道维度数的差异。
作者设计了低高层联合自适应训练策略来对网络进行训练。与one-stage或者是固定住分割网络的训练方式不同,训练需要进行M次迭代,每次迭代中有p次的对融合网络的训练和q次的对分割网络的训练。其中每次训练融合网络时,都要进行一次β参数(语义损失占总损失的比例)的更新,γ是一个用于调节语义损失和内容损失的平衡的常数,由于分割网络随着迭代次数的增加更适合fusion融合模型,并且语义损失可以更准确地指导融合网络的训练,因此随着训练的进行,语义损失的权重系数β是逐渐增加的。
  接下来是实验验证部分,作者做了大量的对比实验、泛化实验、任务驱动实验和消融实验。
  首先是一组白天场景,绿框是突出目标,红框是放大的纹理细节。可以看出(c)(g)纹理细节非常微弱,(g)对突出目标没有锐化,(d)的背景会被热辐射信息污染,而本文的方法在这些方面都表现优异。
在夜晚场景中,(c)(g)会模糊突出目标的轮廓,(c)中的纹理信息被污染了。
在定量实验中,本方法在六个指标中取得了四个指标 (EN, MI, VIF and 𝑄𝑎𝑏𝑓) 的最优表现。
接下来是泛化实验,即用其他数据集来验证现在已训练模型的效果。划线的都是在背景区域中被热辐射信息干扰了,还有(c)(g)的显著目标都被削弱了强度信息,边缘钝化,且本文的方法在背景区域是最接近可见光的。
接下来是高层次任务驱动的实验验证。将不同图像融合方法的融合结果输入语义分割网络,以mIoU为指标评估各融合图像的语义分割质量。可以看出本文方法的融合图像能够为语义分割提供可信赖的图像质量。
这是语义分割的可视化结果,每两行为一组图像。其中第一组中的汽车、第二组中的圆锥和自行车、第三组中的自行车都可以体现本文方法为语义分割带来的质量提升。
接下来的这个实验是直接把融合后的图像送到一个已经完全(在另外的数据集上)训练好的语义分割网络中。由于训练集是一个可见光图像集,所以能够抗热辐射信息干扰的融合图像会表现更好,如第一组的天空。而第二组的交通标志说明本文的方法能够增强语义信息。
另外,也检测了另一种机器视觉任务——目标检测的效果,把融合图像直接送入YOLOv5。毫无疑问“人”的检测精度在红外图像中是最高的,本文的方法仅次之。对于“车”,本文的方法也是优于现有方法的。
如果仔细观察目标检测的结果,本文方法产生的融合图像的目标检测拥有比源图像更高的置信度,说明其可以提供更多的语义信息。
关于运行速度,本文的网络是一个轻量级的网络,运行速度在现有融合方法中位居前列,因此它可以很容易部署为高级视觉任务的预处理模块。
在消融实验中,作者验证了以下因素对整个算法的重要性:
•语义损失
•GRDB
•训练策略
如图表所示,语义损失的加入、GRDB的使用和特殊训练策略都会为显著目标和细节纹理的留存起促进作用。
总的来说,本文提出了一个语义感知的图像融合框架,即SeAFusion,以实现红外和可见光图像的实时融合。一方面,设计了一个梯度残差密集块GRDB来提高融合网络对细粒度细节的描述能力。结合精心设计的内容损失,融合网络有效地实现了突出目标强度的维护和纹理细节的保留。另一方面,引入了语义损失,以提高融合结果对高层视觉任务的促进作用。更具体地说,语义损失允许高层语义信息回流到图像融合模块,这有利于高层视觉任务在融合结果上取得优异的表现。
此外,文章提出了一种low-level和high-level的联合自适应训练策略,以便在图像融合和各种高层次视觉任务中同时取得优异的表现。充分的比较和泛化实验证明了SeAFusion在主观效果和定量指标上都优于state-of-the-arts。此外,丰富的任务驱动评估实验揭示了本框架在促进高层视觉任务方面的天然优势。此外,在运行效率方面的显著优势使该算法可以很容易地作为高级视觉任务的预处理模块进行部署。
关 注 我 们 
  实验室网站:http://viplab.fudan.edu.cn/
  OpenASIC官方网站:www.openasic.org
  知乎专栏:http://zhuanlan.zhihu.com/viplab
  微信公众号:OpenASIC
继续阅读
阅读原文