论文标题：

MM-LLMs: Recent Advances in MultiModal Large Language Models

论文链接：

https://arxiv.org/abs/2401.13601

实时网站：

https://mm-llms.github.io

引言

多模态（MM）预训练研究在最近几年取得了显著进展，持续推动了各种下游任务的性能边界。然而，随着模型规模和数据集的不断扩大，传统的多模态模型在从头开始训练时会产生大量的计算成本。

考虑到多模态研究处于各种模态的交集，一个合理的方法是利用现成的预训练单模态基础模型，特别强调强大的大型语言模型（LLMs）。这一策略旨在减轻训练开销并增强多模态预训练的效力，从而催生了一个新颖的领域：MM-LLMs。

MM-LLMs 利用 LLMs 作为认知核心，赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习（ICL）等可取特性。与此同时，其他模态的基础模型提供了高质量的表示。

考虑到不同模态的基础模型是单独预训练的，MM-LLMs 面临的核心挑战是如何有效地连接 LLMs 和其他模态的模型，以实现协同推理。在这一领域中，主要关注点是通过多模态预训练（MM PT）+ 多模态指令调整（MM IT）pipeline 来优化模态之间的对齐，以及与人类意图的对齐。

随着 GPT-4（Vision）和 Gemini 的问世，展示了令人印象深刻的多模态理解和生成能力，MM-LLMs 的研究热情被点燃。

最初的研究主要集中在多模态内容理解和文本生成方面，涵盖了诸如图像-文本理解（例如 BLIP-2，LLaVA，MiniGPT-4 和 OpenFlamingo 等工作）；视频-文本理解（例如 VideoChat，Video-ChatGPT 和 LLaMA-VID 等工作）；以及音频-文本理解（例如 Qwen-Audio）等任务。

随后，MM-LLMs 的能力扩展到支持特定模态生成。这包括具有图像-文本输出的任务，例如 GILL，Kosmos-2，Emu 和 MiniGPT-5 等；以及具有语音/音频-文本输出的任务，例如 SpeechGPT 和 AudioPaLM 等工作。

最近的研究努力集中在模仿类人任意-任意模态转换，为人工通用智能之路照明。一些工作旨在将 LLMs 与外部工具结合起来，实现接近任意-任意的多模态理解和生成，例如 Visual-ChatGPT，HuggingGPT 和 AudioGPT 等。

为了减少级联系统中的传播错误，一些工作（例如 NExT-GPT，CoDi-2 和 ModaVerse）已经开发出任意模态的端到端 MM-LLMs。MM-LLMs 的时间轴如图 1 所示。

在本文中，我们提出了一个全面的综述，旨在促进对 MM-LLMs 的进一步研究。为了为读者提供对 MM-LLMs 的整体理解，我们首先从模型架构（第 2 节）和训练流程（第 3 节）中勾勒出一般的设计方案。

我们将一般模型架构分解为五个组件：模态编码器、输入映射器、LLM 骨干、输出映射器和模态生成器。训练流程阐明了如何增强预训练的纯文本 LLM 以支持 MM 输入或输出，主要包括两个阶段：MM PT（第 3.1 节）和 MM IT（第 3.2 节）。

在该部分，我们还总结了用于 MM PT 和 MM IT 的主流数据集。接下来，我们建立了一个分类体系，包括 122 个最新技术（SOTA）MM-LLMs，每个都具有特定的公式，并在第 4 节总结了它们的发展趋势。在第 5 节，我们全面审查了主流基准测试中主要 MM-LLMs 的性能，并提炼了增强 MM-LLMs 效力的关键训练配方。在第 6 节，我们提供了 MM-LLMs 研究的有前途的方向。

此外，我们建立了一个网站 https://mm-llms.github.io，以追踪 MM-LLMs 的最新进展，并促进众包更新。最后，我们在第 7 节总结了整篇文章，并在附录 A 中讨论了有关 MM-LLMs 的相关综述。我们希望我们的调查能帮助研究人员深入了解这一领域，并激发设计更有效的 MM-LLMs 的灵感。

模型架构

在本节中，我们提供了一份详细的概述，涵盖了构成一般模型架构的五个组件，以及每个组件的实现选择，如图 2 所示。包括模态编码器，负责对来自各种模态的输入进行编码；输入映射器，将其他模态的编码特征与文本特征空间对齐；LLM 骨干，执行语义理解和推理；输出映射器，将生成模型与 LLM 的输出指令对齐；以及模态生成器，负责在特定模态生成输出。

强调多模态理解的 MM-LLMs 仅包括前三个组件。

在训练过程中，模态编码器、LLM 骨干和模态生成器通常保持冻结状态。主要的优化重点在于输入和输出映射器。鉴于映射器是轻量级组件，与总参数数量相比， MM-LLMs 中可训练参数的比例明显较小（通常约为 $2$\%）。总参数数量取决于在 MM-LLMs 中使用的核心 LLM 的规模。因此，MM-LLMs 可以被高效地训练，以赋予各种多模态任务能力。

训练Pipeline

MM-LLMs 的训练流程可以划分为两个主要阶段：MM PT 和 MM IT。

3.1 MM PT

在 PT 阶段，通常利用 X-Text 数据集，通过优化预定义的目标来训练输入和输出映射器，以实现各种模态之间的对齐。X-Text 数据集包括图像-文本、视频-文本和音频-文本。X-Text 数据集的详细信息见表 3。

3.2 MM IT

MM IT 是一种通过使用指令格式的数据集对预训练的 MM-LLMs 进行微调的方法。通过这个过程，MM-LLMs 可以通过遵循新的指令来泛化到未见过的任务，从而提高 zero-shot 性能。

MM IT 包括监督微调（SFT）和根据人类反馈进行强化学习（RLHF），旨在与人类意图保持一致，并增强 MM-LLMs 的交互能力。SFT 将部分 PT 阶段的数据转换为一个受指令影响的格式。然后，使用相同的优化目标对预训练的 MM-LLMs 进行微调。SFT 数据集可以构造为单轮 QA 或多轮对话。

在 SFT 之后，RLHF 涉及对模型进行进一步微调，依赖于有关 MM-LLMs 响应的反馈（例如，手动或自动标记的自然语言反馈（NLF）。该过程使用强化学习算法有效地集成了不可微分的 NLF。模型被训练以在 NLF 的条件下生成相应的响应。SFT 和 RLHF 数据集的统计数据见表 4。

现有 MM-LLMs 在 MM PT 和 MM IT 阶段使用的数据集比较多样，但它们都是表 3 和 4 中数据集的子集。

SOTA MM-LLMs

如图 3 所示，我们从功能和设计角度对 122 个 SOTA 的 MM-LLMs 进行分类。

在设计划分中，“使用工具”表示将 LLM 视为黑匣子，并通过推理提供对某些 MM 专家系统的访问，以执行特定的 MM 任务，而“端到端”表示整个模型以端到端的方式进行联合训练。基于先前定义的设计方案，我们还对其中 43 个 SOTA 的 MM-LLMs 的架构和训练数据集规模进行了全面比较，如表 1 所示。

现有 MM-LLMs 的发展趋势：

1. 从专注于多模态理解到生成特定模态，进一步发展成为任意-任意模态转换（例如，MiniGPT-4 -> MiniGPT-5 -> NExT-GPT）；

2. 从 MM PT 进展到 SFT，再到 RLHF，训练流程不断完善，努力更好地与人类意图保持一致，并增强模型的对话交互能力（例如，BLIP-2 -> InstructBLIP -> DRESS）；

3. 接纳多样化的模态扩展（例如，BLIP-2 -> X-LLM 和 InstructBLIP -> X-InstructBLIP）；

4. 加入更高质量的训练数据集（例如，LLaVA -> LLaVA-1.5）；（5）采用更高效的模型架构，从 BLIP-2 和 DLP 中复杂的 Q- 和 P-Former 输入映射模块过渡到 VILA 中更简单但同样有效的线性映射器。

基准和性能

为了提供全面的性能比较，我们编制了一张表格，列出了从各种论文中收集到的 18 个主要 Vision-Language (VL) benchmark 上的主要 MM-LLMs，如表 2 所示。

接下来，我们将提取关键的训练配方，以提升 MM-LLMs 的效果，从 SOTA 模型中获取见解。

训练配方：首先，更高的图像分辨率可以为模型提供更多的视觉细节，有利于需要细粒度细节的任务。例如，LLaVA-1.5 和 VILA 使用了 336*336 的分辨率，而 Qwen-VL 和 MiniGPT-v2 则采用了 448*448 的分辨率。然而，更高的分辨率会导致更长的令牌序列，增加额外的训练和推理成本。MiniGPT-v2 通过在嵌入空间中连接 4 个相邻的视觉令牌来减少长度。

最近，Monkey 提出了一种解决方案，可以增强输入图像的分辨率，而无需重新训练高分辨率的视觉编码器，仅利用低分辨率的视觉编码器，支持分辨率高达 1300*800。为了增强对丰富文本图像、表格和文档内容的理解，DocPedia 引入了一种方法，将视觉编码器的分辨率增加到 2560*2560，克服了开源 ViT 中低分辨率性能差的局限性。

其次，高质量的 SFT 数据的融合可以显著提高特定任务的性能，正如表 2 所示，LLaVA-1.5 和 VILA-13B 添加了 ShareGPT4V 数据。

此外，VILA 揭示了几个关键发现：1）对 LLM 骨干执行 PEFT 促进了深度嵌入对齐，对 ICL 至关重要；2）交错的图像-文本数据证明是有益的，而仅使用图像-文本对是次优的；3）在 SFT 期间，重新混合纯文本指令数据（如 unnatural instruction）与图像-文本数据不仅可以解决纯文本任务的退化问题，还可以提高 VL 任务的准确性。

未来方向

更强大的模型：我们可以从以下四个关键方面增强 MM-LLMs 的实力：

1. 扩展模态：当前的 MM-LLMs 主要支持以下模态：图像、视频、音频、3D 和文本。然而，现实世界涉及到更广泛的模态。扩展 MM-LLMs 以适应额外的模态（例如，网页、热图和图表）将增加模型的通用性，使其更具普适性；

2. 多样化 LLMs：整合各种类型和大小的 LLMs 为从业者提供了根据其具体需求选择最合适的 LLM 的灵活性；

3. 提高 MM IT 数据集质量：当前的 MM IT 数据集有很大的改进和扩展空间。多样化指令的范围可以增强 MM-LLMs 在理解和执行用户命令方面的效果。

4. 加强 MM 生成能力：目前大多数的 MM-LLMs 主要是面向多模态理解的。虽然一些模型已经整合了 MM 生成能力，但生成的响应质量可能受到 LLDMs 能力的限制。探索检索式方法与生成过程的整合具有重要的潜力，有可能提高模型的整体性能。

更具挑战性的基准测试：现有的基准测试可能无法充分挑战 MM-LLMs 的能力，因为许多数据集在 PT 或 IT 集中已经以不同程度出现过。这意味着模型在训练过程中可能已经学习了这些任务。此外，当前的基准测试主要集中在 VL 子领域。因此，对于 MM-LLMs 的发展来说，建立一个更具挑战性、规模更大的基准测试，包括更多的模态，并使用统一的评估标准至关重要。

例如，GOAT-Bench 用于评估各种 MM-LLMs 在识别和回应表现在表情中的社会虐待微妙方面的能力。MathVista 在视觉环境中评估 MM-LLMs 的数学推理能力。

此外，MMMUS 和 CMMMU 分别推出了面向专家人工通用智能的英文和中文版本的大规模多学科 MM 理解和推理基准测试。而 fan et al. 还通过多面板 VQA 挑战了 MM-LLMs。BenchLMM 对 MM-LLMs 的跨样式视觉能力进行了基准测试。此外，liu et al. 还对 MM-LLMs 的光学字符识别能力进行了深入研究。

移动/轻量级部署：在资源受限的平台上部署 MM-LLMs 并同时实现最佳性能，比如低功耗移动设备和物联网设备，轻量级实现至关重要。在这方面的一个显著进展是 MobileVLM。这种方法战略性地对 LLaMA 进行了降级处理，使其能够轻松地进行现成的部署。MobileVLM 进一步引入了一个轻量级的降采样投影器，由不到 2000 万个参数组成，有助于提高计算速度。

最近，有许多类似的研究致力于轻量化 MM-LLMs，在性能相当或几乎没有损失的情况下，实现了高效的计算和推理，包括 TinyGPT-4、Vary-toy、Mobile-Agent、MoE-LLaVA 和 MobileVLM V2。然而，这一途径需要进一步探索以实现进一步的发展。

具身智能：具身智能旨在通过有效理解环境、识别相关对象、评估它们的空间关系和制定全面的任务计划，复制类似于人类感知和与周围环境互动的过程。具身智能任务，如具身规划、具身视觉问答和具身控制，使机器人能够通过利用实时观察自主地执行扩展计划。

这个领域的一些典型工作包括 PaLM-E 和 EmbodiedGPT。PaLM-E 通过训练一个 MM-LLM 引入了一个多具身智能体。除了作为一个具身决策者的功能之外，PaLM-E 还展示了处理通用 VL 任务的能力。EmbodiedGPT 引入了一种经济高效的方法，其特点是采用了一种 CoT 方法，增强了具身智能体与现实世界的互动能力，并建立了一个将高层规划与低层控制相连接的闭环。

虽然基于 MM-LLM 的具身智能在与机器人集成方面取得了进展，但仍需要进一步探索以增强机器人的自主性。

连续学习：由于庞大规模的训练成本，MM-LLMs 不易频繁进行重新训练。然而，为了赋予 MM-LLMs 新技能并使其与快速发展的人类知识保持同步，更新是必要的。因此，需要进行连续学习，使模型足够灵活，能够有效地并连续地利用新出现的数据，同时避免重新训练 MM-LLMs 所带来的巨大成本。

MM-LLMs 的连续学习可以分为两个阶段：连续 PT 和连续 IT。最近，提出了一个连续MM IT 基准测试，用于连续对 MM-LLMs 进行微调以适应新的 MM 任务，同时在原始 MM IT 阶段学习的任务上保持优异性能。这引入了两个主要挑战：1）灾难性遗忘，即当学习新任务时，模型会遗忘先前的知识，以及 2）负向前向迁移，表示当学习新任务时，未见任务的性能会下降。

减轻幻觉：幻觉是指在没有视觉线索的情况下生成不存在物体的文本描述，表现在各种类别中，比如描述中的错误和不准确性。这些幻觉的起源是多方面的，包括训练数据中的偏见和注释错误。

此外，Skip\n 强调了与段落分隔符相关的语义漂移偏见，当故意插入时可能导致幻觉。目前减轻这些幻觉的方法包括利用自我反馈作为视觉线索。然而，挑战仍然存在，需要在准确和幻觉输出之间进行微妙的辨别，以及在训练方法方面的进展来增强输出的可靠性。