CVPR 2024 | 多模态合作学习的新视角：样本级模态的评估与协同

©作者 | 卫雅珂

单位 | 人大高瓴GeWu-Lab

论文题目：

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

论文链接：

https://arxiv.org/pdf/2309.06255

代码链接：

https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation

概述：样本级多模态差异的评估与解决

不平衡多模态学习问题（imbalanced multimodal learning problem）在近年已经引起了广泛关注。具体来说，在多模态学习中，往往采用联合训练的方式对各个模态同时进行学习。而模态间在特性、信息量等方面的差异导致在联合训练中，往往存在更易于学习的模态，模型对其的偏好主导了训练进程，导致其他模态未能被充分学习，抑制多模态学习的性能。

对于这一问题，近年来已经有许多研究者从优化、目标函数等方面给出了不同的解决方案（包括本实验室的论文：CVPR 2022 [1]，ICASSP 2023 [2] 及 ICLR 2024）。在现有的方法中，往往从数据集整体的角度考虑这一问题，即对整个数据集而言，某个模态总是易学习、被模型所偏好的。

但在实际场景中，模态间的差异在样本间很可能不同。例如在图 1(a) 和 (b) 中，我们给出了两个同属于类别“motorcycling”的音视频样本。对于图 1(a) 的样本来说，摩托车较远，其视觉信息并不明显。而对于图 1(b) 的样本来说，其视觉信息为摩托车的近距影像，视觉信息明确且清晰。因此，可以想见，在对这两个样本的分类中，前者将主要依靠音频信息，而后者视觉信息明确，主要依赖视觉信息。

但在现有方法中，该样本级的模态差异并未被关注，也难以被观测。如何评估并缓解这种细粒度的样本级模态差异是亟待解决的问题。因此，本文聚焦于多模态合作学习的新视角--样本级的模态评估与协同。

▲ 图1. 样本级模态差异示例

在本文中，我们首先提出基于夏普利值（Shapley value）的细粒度模态差异评估方法，该方法能够在样本级别评估各个模态对于最终正确预测的贡献。根据图 1(c) 所示，对于刚才提到的两个样本，其模态间对最终正确预测的贡献差异的确恰恰相反：即使是同一类别的样本，都可能会发生样本间模态贡献差异不同的现象。

此外，通过对数据集中所有样本某模态的贡献取均值，我们的方法依然也可以验证数据集级别上的模态差异。例如，根据图 1(d) 所示，在代表性多模态数据集（Kinetics Sounds 和 UCF-101）上，模态整体的差异明显存在。在 Kinectics Sounds 数据集上，音频模态在所有样本的平均贡献高于视觉模态。在 UCF-101 数据集上，RGB 模态在所有样本的平均贡献高于光流模态。

进一步的，为了更好评估细粒度模态间差异，我们提出了整体均衡但存在样本级模态差异的 MM-Debiased 数据集。该数据集有音频和视觉两个模态。根据图 1(d) 所示，在所有样本的贡献均值上，音频和视觉模态较为均衡。

在图 2 中，我们给出了现有不平衡学习方法在不同数据集上相对 Concatenation baseline 的效果增益。不出意外的是，虽然现有不平衡学习方法在典型多模态数据集，例如 Kinetics Sounds 上取得了增益，但在整体模态贡献均衡的 MM-Debiased 数据集上并未有效果的提升，甚至导致模型效果下降。

▲ 图2. 不平衡学习方法在不同数据集上相对Concatenation baseline的效果增益

因此，本文提出了样本级采样方法，结合细粒度模态贡献差异评估的结果，通过针对性采样的策略，促进样本级模态差异的缓解。具体来说，如图 3 所示，当两个模态合作完成预测时，通过评估我们发现，其中某个模态为低贡献模态，对正确预测并未作出足够贡献，说明多模态间合作存在不均衡，低贡献模态的学习需要针对性增强。

因此，我们通过针对性采样策略增强对低贡献模态的学习，从何使得模态贡献更加均衡，达到了更好的多模态合作效果。根据图 2 所示，我们的方法在典型多模态数据集 Kinetics Sounds 以及整体模态贡献均衡的 MM-Debiase 数据集上都取得了良好的效果。

▲ 图3. 评估并针对性增强低贡献学习，以达到更均衡的模态贡献及更好的模态间合作

细粒度模态贡献差异评估

本节介绍所提出的基于夏普利值（Shapley value）的细粒度模态差异评估方法。对于是一个有个模态的样本。其真实标签为。记是一个由样本所有模态输入构成的有限非空集合。将多模态模型记做。

假设为由输入模态构成的集合，。那么，当采用作为输入时，多模态模型的预测标签记做。函数为多模态预测结果到其收益（benefits）之间的映射：

当预测正确时，收益为所输入模态集合中模态的个数。为了考虑某个模态在所有可能情况下的预测结果的收益，我们将所有模态可能的排列记做。当模态个数为时，。对于样本的模态的第个模态，我们将其在某排列中的前序模态 (predecessors) 记做，即。那么，该模态在该排列中的边际贡献记做：

边际贡献度量了当引入模态后，多模态预测的收益的变化量。对模态在所有可能的排列中的边际贡献取平均，得到其对样本的贡献为：

需要注意的是，所有模态贡献的总和实际上就是以所有模态作为输入时正确预测的收益。因此，对于以所有模态为输入的一般多模态模型来说，当一种模态的贡献增加时，其他模态的贡献也会相应减少。借助该细粒度模态贡献评估指标，我们就可以合理地观察每个样本中各个模态的贡献。

重采样增强策略

根据此前在不同数据集上对模态贡献的估计（如图 1 所示），多模态数据集中往往存在低贡献模态，对多模态模型的预测贡献不足。根据本文分析，提升低贡献模态的判别性可以扩大其贡献。

因此，我们提出在训练过程中，有针对性地对各个样本的低贡献模态进行重采样，提升对低贡献模态的学习。具体来说，为了确保基本的辨别能力，我们首先对多模态模型进行几轮 warmup。而后，在每一个 epoch 之前进行一次细粒度模态贡献估计，观察各个样本中各个模态的贡献，进而在该 epoch 的训练中对低贡献模态的输入重新采样，最终有针对性地提高对低贡献模态的学习。

在本文中，我们提供了精细高效的样本级重采样方法和低耗但有效的模态级重采样方法。

样本级重采样

经过细粒度模态贡献评估后，每个样本的低贡献模态就能被很好地区分出来，我们就能在样本级对其学习进行促进。具体的重采样频数由当前epoch其贡献值动态决定。具体来说，对于特定样本，模态的重采样频数为：

其中为单调递增函数。对低贡献低模态的重采样频数与其贡献值成反比，即贡献值越低，重采样频数越高。在重新采样过程中，我们只采样低贡献模态，其他模态的输入会被置 0，以确保有针对性的学习。

▲ 图4. 样本级重采样方法

模态级重采样

虽然样本级模态估值可以提供精细的单模态贡献，但当数据集规模相当大时，逐个样本进行贡献评估可能会产生较高的额外计算成本。因此，我们还提出了更高效的模态级方法来降低计算成本。如图 1(d) 所示，除了样本之间的贡献差异外，低贡献模态的现象也具有数据集级偏好。因此，我们提出了模态级再采样策略，即随机抽取训练样本的子集进行模态贡献估值来近似估计平均单模态贡献，以减少额外的计算成本。

具体来说，我们在训练集中随机抽取包含个样本的子集，借此模态的平均贡献可以被近似估计。具有较低平均贡献的模态可以被识别出来。而后，其他模态保持不变，在训练过程中以特定概率对样本中的模态进行动态重新采样：

其中。首先，将具有较低平均贡献模态与其他模相比的平均贡献差异首先进行归一化，然后送入输出值介于 0 与 1 之间的单调递增函数。

▲ 图5. 模态级重采样方法

部分实验结果展示

与其他不平衡多模态学习方法的比较

我们在多个不同的数据集上与其他不平衡多模态学习方法进行了比较。我们的方法具有明显优势，尤其是在整体模态差异不明显但仍具有样本间模态差异的 MM-Debiased 数据集上。

▲ 表1. 和其他不平衡多模态学习方法的比较

同时，如图 6 所示，相较其他方法，我们的方法在均衡模态间差异方面更加有效。

▲ 图6. 使用不平衡多模态学习的方法前后模态间贡献差异比较

样本级差异评估

此外，如图 7 中所示，我们的细粒度样本级方法可以很好得捕捉并相应均衡样本级别的模态贡献差异。虽然具有一定的计算成本，但能够很好解决细粒度的样本差异。

▲ 图7. 对图1(a/b)中两个样本的贡献评估

未来展望

在本文中，我们借助博弈论中的夏普利值理论，引入了一种样本级模态估值，以度量模态贡献，进而促进和改善模态之间的协同。本文提出了两种方法来提升低贡献模态被抑制的贡献，从而改善多模态合作。

但在本文中，暂未考虑模态之间自然存在的信息量的差异。例如，对于类别为 drawing picture 的音视频样本来说，视觉模态天然比音频模态具有更高的判别信息。因此，即使对音频模态加强学习，也无法使其贡献与视觉模态均等。因此，在未来的工作中，在均衡各个模态的学习时，需要进一步考虑模态信息量的天然差异。