AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
多模态融合是多模态智能中的基础任务之一。
多模态融合的动机在于联合利用来自不同模态的有效信息提升下游任务的准确性和稳定性。传统的多模态融合方法往往依赖高质量数据,难以适应现实应用中的复杂低质的多模态数据。
由天津大学、中国人民大学、新加坡科技研究局、四川大学、西安电子科技大学以及哈尔滨工业大学(深圳)共同发布的低质多模态数据融合综述《Multimodal Fusion on Low-quality Data:A Comprehensive Survey》从统一视角介绍了多模态数据的融合挑战,并针对低质多模态数据的现有融合方式及该领域潜在的发展方向进行了梳理。
arXiv链接:
http://arxiv.org/abs/2404.18947
awesome-list链接:
https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning
传统多模态融合模型‍‍‍
人类通过融合多个模态的信息对世界进行感知。
即使某些模态的信号不可靠时,人类也具备处理这些低质量多模态数据信号并感知环境的能力。
尽管多模态学习已取得了长足的发展,多模态机器学习模型仍缺乏有效融合真实世界中低质量多模态数据的能力。实践经验中,传统多模态融合模型的性能在以下场景下会存在显著下降:
(1)噪声多模态数据:部分模态的某些特征受噪声扰动而丢失了原有的信息。真实世界中,未知的环境因素、传感器故障、信号在传输过程中的丢失都可能引入噪声的干扰,进而损害多模态融合模型的可靠性。
(2)缺失多模态数据:由于各种现实因素,实际收集到的多模态数据样本的某些模态可能存在缺失。例如在医学领域,病人的各项生理检查结果所构成的多模态数据可能存在严重的缺失现象,某些病人可能从未做过某一项检查。
(3)不平衡多模态数据:由于模态之间的异质编码属性和信息质量差异存在不一致的现象,进而导致模态间学习不平衡问题的出现。多模态融合过程中,模型可能过度依赖某些模态,而忽视其他模态所包含的潜在有效信息。
(4)动态低质的多模态数据:由于应用环境的复杂多变,不同样本、不同时空,模态质量具有动态变化特性。低质模态数据的出现往往难以提前预知,这为多模态融合带来了挑战。
为了充分刻画低质量多模态数据的性质及处理方法,该文章对目前的低质量多模态融合领域的机器学习方法进行了总结,系统回顾了该领域的发展过程,并进一步展望了需进一步研究的问题。 

图1. 低质量多模态数据分类示意图,黄色和蓝色代表两个模态,颜色越深代表质量越高
多模态融合中的去噪方法
问题定义:
噪声是导致多模态数据质量下降的最常见原因之一。
本文主要关注两类噪声:
(1)模态相关的多模态噪声。这类噪声可能是由于传感器误差(如医疗诊断中的仪器误差)、环境因素(如自动驾驶中的雨雾天气)等因素导致,噪声局限于某个特定的模态内部的某些特征层面上。
(2)语义级别的跨模态噪声。这类噪声是由模态之间高层语义的不对齐现象导致,相比于特征层的多模态噪声更难以处理。幸运的是,由于多模态数据模态之间的互补性和信息的冗余性,在多模态融合过程中,联合多个模态的信息进行去噪已被证明是行之有效的策略。
方法分类:
特征级别的多模态去噪方法高度依赖于实际任务中所涉及到的具体模态。
本文主要以多模态图像融合任务为例进行说明。在多模态图像融合中,主流的去噪方法包括加权融合及联合变分两大类。
加权融合方法考虑到特征噪声具有随机性而真实数据服从特定分布,进而通过加权求和的方式消除噪声的影响;
联合变分方法则是对传统单模态图像变分去噪的拓展,能够将去噪过程转化为优化问题的求解过程,并利用来自多个模态的互补性信息来提升去噪效果。语义级别的跨模态噪声由弱对齐或不对齐的多模态样本对导致。
例如,在联合RGB和热感图像的多模态目标检测任务中,由于传感器的差异,尽管同一个目标在两个模态中都有出现,但是其精准的位置和姿态在不同的模态中可能略有不同(弱对齐),为精准估计位置信息带来了挑战。
在社交媒体的内容理解任务中,一个样本(例如一条微博)的图像和文本模态所包含的语义信息可能相差甚远,甚至毫不相干(完全不对齐),这进一步为多模态融合带来更大的挑战。处理跨模态语义噪声的方式包括规则过滤、模型过滤、噪声鲁棒的模型正则化等方法。
未来展望:
尽管对数据噪声的处理早已在经典机器学习任务中得到了广泛的研究,但在多模态场景下,如何联合利用模态之间的互补性和一致性以弱化噪声的影响依然是一个亟待解决的研究问题。
此外,与传统的特征级别的去噪不同,如何在多模态大模型的预训练和推断过程中解决语义级别的噪声是有趣且极富挑战性的问题。
表1. 针对噪声的多模态融合方法分类
缺失多模态数据融合方法
问题定义:
真实场景下所收集的多模态数据往往是不完整的,由于存储设备损坏、数据传输过程的不可靠等各种因素,多模态数据时常不可避免的丢失掉部分模态的信息。
例如:在推荐系统中,用户的浏览记录和信用等级等构成了多模态的数据,然而,由于权限和隐私问题,往往无法完全收集到用户所有模态的信息来构建多模态学习系统。
在医疗诊断中,由于某些医院的设备有限、特定的检查成本较高,不同的病人的多模态诊断数据往往也是高度不完整的。
方法分类:
按照「是否需要显式的对缺失多模态数据进行补全」的分类原则,缺失多模态数据融合方法可分为:
(1)基于补全的多模态融合方法
基于补全的多模态融合方法包括模型无关的补全方法:例如直接通过对缺失模态填充0值或残余模态的均值的补全方法;
基于图或核的补全方法:这类方法不直接学习如何补全原始多模态数据,而是为每个模态构造图或核,进而学习样本对之间的相似度或关联度信息,进而对缺失数据进行补全;
直接在原始特征级别进行补全:部分方法利用生成模型,如生成对抗网络GAN及其变体直接补全缺失的特征。
(2)无需补全的多模态融合方法。
与基于补全的方法不同,无需补全的方法重点关注如何利用未缺失的模态所包含的有用信息融合出尽可能好的表征,这类方法往往对期望学习到的统一表征添加约束,使得此表征能够体现可观察到的模态数据的完整信息,以绕开补全过程进行多模态融合。
图2. 基于补全的缺失多模态数据融合方法分类
未来展望:
尽管目前国内外已提出了许多方法来解决聚类、分类等经典机器学习任务中的不完整多模态数据融合问题,但依然存在一些更深层次的挑战。
例如:关于缺失模态补全方案中的补全数据的质量评估通常被忽视。
此外,利用先验缺失数据位置信息屏蔽缺失模态的策略本身难以弥补模态缺失带来的信息鸿沟和信息不平衡问题。
表2. 针对缺失多模态数据的融合方法分类
平衡的多模态融合方法
问题定义:
在多模态学习中,通常用联合训练的方式整合不同模态数据以提高模型的整体性能和泛化表现。然而,这类广泛采用的、使用统一学习目标的联合训练范式忽略了不同模态数据的异质性
一方面,不同模态在数据来源及形式方面的异质性,使得它们在收敛速度等方面具有不同的特点,从而使所有模态难以同时得到很好的处理和学习,给多模态联合学习带来了困难;
另一方面,这种差异也反映在单模态数据的质量上。尽管所有模态都描述了相同的概念,但它们与目标事件或目标对象相关的信息量却各不相同。基于最大似然学习目标的深度神经网络具有贪婪学习的特点,导致多模态模型往往依赖于具有高判别信息的、较易学习的高质量模态,而对其他模态信息建模不足。
为了应对这些挑战并提高多模态模型的学习质量,平衡多模态学习的相关研究最近得到了广泛关注。
方法分类:
按照平衡角度的不同,可将相关方法分为基于特性差异的方法基于质量差异的方法
(1)广泛使用的多模态联合训练框架往往忽视了单模态数据固有的学习属性差异,这可能会对模型的性能产生负面影响。基于特性差异的方法是从每种模态在学习特性上的差异入手,在学习目标、优化、架构方面尝试解决这一问题。
(2)最近的研究进一步发现,多模态模型往往严重依赖于某些高质量信息模态,而忽略了其他模态,导致对所有模态学习不足。基于质量差异的方法从这一角度入手,从学习目标、优化方法、模型架构和数据增强的角度尝试解决这一问题并促进多模态模型对不同模态的均衡利用。
表3. 平衡多模态数据融合方法分类
未来展望:
平衡多模态学习方法主要针对多模态数据的异质性所导致的不同模态间学习特性或数据质量上的差异。这些方法从学习目标、优化方法、模型架构和数据增强等不同角度提出了解决方案。
平衡多模态学习当前是一个蓬勃发展的领域,有很多理论和应用方向还没有得到充分探索。例如,目前的方法主要局限于典型的多模态任务,其大多是判别性任务和少数生成性任务。
除此以外,多模态大模型也需要联合具有不同质量的模态数据,也存在这种客观上的不平衡问题,据此期望在多模态大模型场景中扩展现有研究或设计新的解决方案。
动态多模态融合方法
问题定义: 
动态多模态数据指的是模态的质量随输入样本、场景的不同而动态改变。例如自动驾驶场景中,系统通过RGB和红外传感器获取路面和目标信息,在光照较好的情况下,RGB摄像头由于能够捕捉目标的丰富纹理和色彩信息,可以更好地支持智能系统的决策;
然而在光照不足的夜间,红外传感器提供的感知信息则更为可靠。如何使得模型能够自动感知到不同模态质量的变化,从而进行精准和稳定的融合,是动态多模态融合方法的核心任务。
表4. 动态多模态融合方法分类
方法分类:
动态多模态融合方法可以大致分为三类: 
(1)启发式动态融合方法:
启发式动态融合方法依赖算法设计者对多模态模型应用场景的理解,一般通过针对性地引入动态融合机制来实现。
例如,在RGB/热感信号协同的多模态目标检测任务中,研究者启发式地设计了光照感知模块以动态评估输入图像的光照情况,并基于光照强度动态调节RGB和热感模态的融合权重进行环境适应。当亮度较高时,主要依赖RGB模态进行决策,反之则主要依赖热感模态进行决策。
(2)基于注意力机制的动态融合方法:
基于注意力机制的动态融合方法主要聚焦于表示层融合。注意力机制本身就具有动态特性,因此,可以自然地用于多模态动态融合任务。
Self-attention、Spatial attention、Channel attention以及Transformer等多种机制被广泛用于多模态融合模型的构建。这类方法在任务目标的驱动下自动地学习如何进行动态融合。基于注意力机制的融合,在缺乏显式或者启发式引导情况下也能够一定程度上适应动态低质量的多模态数据。
(3)不确定性感知的动态融合方法:
不确定性感知的动态融合方法往往具有更加清晰、可解释的融合机制。与基于注意力机制的复杂融合模式不同,不确定性感知的动态融合方法依靠对模态的不确定性估计(如证据、能量、熵等)来适应低质量多模态数据。
具体地,不确定性感知能够用于刻画输入数据各个模态的质量变化情况。当输入样本的某个模态质量变低时,模型基于该模态决策的不确定性随之变高,为后续融合机制设计提供明确指导。此外,相比于启发式和注意力机制,不确定性感知的动态融合方法可以提供良好的理论保证。
未来展望:
尽管在传统的多模态融合任务中,不确定性感知的动态融合方法的优越性已经从实验和理论上得到了证明,但是,在SOTA的多模态模型(不限于融合模型,如CLIP/BLIP等)中,动态性的思想还具有较大挖掘和应用潜力。
此外,具有理论保证的动态融合机制往往局限于决策层面,如何使得其在表征层发挥作用也值得思考和探索。
© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
继续阅读
阅读原文