2 月 6 日，清华联合智谱训练并发布了多模态大模型 CogCoM，一个可进行细粒度视觉推理的通用多模态大模型。该工作提出了一种视觉推理范式 —— 操纵链（Chain of Manipulations），使得训练后的视觉语言模型可以主动操纵处理图像以推理最终答案。

与人类解决复杂视觉问题相似，该工作训练视觉语言模型赋予其通过一系列操纵来解决视觉问题的能力，这些操纵或来源于前期的预训练（如 grounding），或来源于对人类行为的模仿（如 zoom in）。

通过大量分析，研究者发现大部分视觉问题的求解可以通过几类基本的操纵组合叠加来完成。因此，他们预定义了五类基本操纵，并允许模型在推理阶段自定义操纵以便求解。

这种可交互的视觉推理方式完全与纯语言思维链兼容。研究发现，视觉语言模型基于这种方式可以解决多个类别的视觉推理问题，包括：细节识别、时间识别、图表识别、物体个数计算以及文字识别等（如下图 1 所示）。

▲ 图1: CogCoM 解决多类视觉推理问题，包括细节识别、时间识别、图表识别、物体个数计算以及文字识别

为了促进社区的发展，该工作将模型代码、CogCoM-17B 多个版本的模型权重、推理链数据构造过程全部进行了开源。

论文地址：

https://arxiv.org/pdf/2402.04236.pdf

代码地址：

https://github.com/THUDM/CogCoM

模型地址：

https://huggingface.co/qijimrc/CogCoM

视觉推理

得益于大规模的预训练和基于文本指令问答的对齐训练，大规模视觉语言模型（VLMs）已经在广泛的多模态场景中展现了其有效性。然而，这种面向文本结论式的对齐训练致使 VLMs 忽略了视觉推理的中间过程，进而会导致模型在细节问题上的失败、不忠实的答案、以及视觉幻觉。

例如，针对图 1 中的图像询问视觉语言模型“穿黑色上衣的男子面前的柱子上写着什么字？”，传统视觉语言模型可能会直接地给出错误的答案：“禁止吸烟”。这种幻觉性错误可能来源于 VLMs 在预训练时获得的视觉或语言先验（即办公室内柱子上文字通常为“禁止吸烟”）。

▲ 图2: 与传统 VLMs 相比，CogCoM 基于操纵链进行证据推理以求解最终答案

人类通常通过标记或处理图像，以解决复杂的视觉推理问题。例如，人们通过参照物来寻找目标物体，通过缩放以关注图像细节。大部分视觉语言模型在预训练阶段已经获得了多种基本能力（如 grounding、OCR 等），通过进一步模仿人类行行为，VLMs 就可以实现这种类人的证据推理。

因此，研究提出了一种通用的视觉推理机制——操纵链（Chain of Manipulations），其赋予视觉语言模型通过主动操纵图像来推理最终答案的能力。要实现这一目的，需要：高效地构造大规模的推理链数据，设计能够多次输入图像并基于超长历史进行推理的模型，并混合多种数据训练通用视觉语言模型。

该研究首先提出了一个高效的推理链数据生产框架，其次提出了一个基于 KV-memory 的与以往 VLMs 兼容的多图多轮视觉语言模型框架、然后在混合了四种能力（instruction-following、OCR、detailed captioning、CoM）的数据上训练通用视觉语言模型。

研究在涵盖 3 类能力的 8 个 benchmarks 进行了广泛的实验，实验显示 CogCoM 在需要推理或细节识别的 benchmarks，GQA、TallyVQA、TextVQA、ST-VQA和POPE上取得了 SOTA，并在 RefCOCO/RefCOCO+/RefCOCOg 的 6 个子集上取得了 SOTA。

视觉语言模型CogCoM

▲ 图3：数据生产框架及模型架构

2.1 数据生产

该工作提出了一套高效的推理链数据生产框架，该框架包含三个主要阶段：

1. 在第一阶段，针对每一个视觉问题 Q，该研究基于语言标注者（Linguistic Annotators）让其选择性地利用操纵（Manipulations）来撰写推理步骤，其中操纵所请求的结果以变量代替；

2. 在第二阶段，该研究基于视觉标注者（Visual Annotators）来补充第一阶段中操纵所请求的视觉内容。视觉标注将使得线性推理步骤变成由同一请求所返回的多个视觉内容来分叉的数

3. 在第三阶段，该研究对已经完成语言和视觉标注的树进行遍历，获得那些叶子节点与答案 A 相同的路径，作为最终有效推理链。

通过采用 GPT4 作为语言标注者，GroundingDINO 和 PaddleOCR 作为视觉标注者，该框架可以高效、自动地构建大规模的推理链数据。同时，同样的方式以人类作为标注者也为构建更加复杂的推理链提供可能。

另外，由于图像缩放是人类行为，该研究在最终操纵链中满足一定条件（如 box 小于原图的 1/6）的操纵之前随机插入缩放操纵（CropZoomIn）以补充。基于这种方式，该工作构建了 70k 条推理链数据，并对数据进行了全面的分析。

2.2 模型架构

CogVLM 是一个通用的大规模视觉语言模型框架，其通过引入视觉专家（Visual Experts）来对不同的模态进行深度融合。本工作的模型框架基于 CogVLM，具体来讲，模型包含四部分：1）Vicuna-7B-1.5 的语言基座；2）EVA2-CLIP-E 的视觉编码器；3）基于 SwiGLU 的映射层；4）视觉专家模块。模型总体包含 17B 参数，其中视觉专家模块占比 6.5B。

在此基础之上，该研究设计了基于 KV-memory 的多图多轮视觉语言模型架构。具体来讲，在训练阶段，在包含多次图片输入的一个推理链轮次，其保存 Transformer 每一层的 KV-memory 的累积，并在每一步的 attention 计算时考虑当前累积的 KV-memory。

当有新图片输入时，模型无需输入历史文本，而基于固定的 prompt 来要求模型基于历史 memory 进行推理。这种方式使得模型能够在兼容已有 VLMs 架构的同时接受多次图片输入，并有效缓解了上下文序列过长带来的问题。

CogCoM 基于两个主要阶段的训练，以构建具备推理能力的同时能够解决多个多模态任务的通用视觉语言模型。

在第一阶段，其首先基于由 LAION-2B 和 COYO-700M 获得的 1.5B 图文对模型进行预训练，其次基于由 LAION-115M 获得的 40M 清洗数据对模型进行 grounding 训练。

在第二阶段，该研究通过混合涵盖四种能力（instruction-following、OCR、detailed-captioning、CoM）的 570K 数据对模型进行对齐训练。

实验分析

为了验证模型的适用性和有效性，作者在涵盖 3 方面能力的 8 个 benchmarks 上进行了实验，包括 1）推理或细节视觉问答：GQA、TextVQA、ST-VAQA、GQA；2）Visual Grounding：RefCOCO、RefCOCO+、RefCOCOg；3）幻觉性评测 POPE。

此外，由于缺少视觉推理链评测资源，该工作还基于本文框架构建一个推理链评测数据集以及相应的基于关键点的评测指标计算方法。实验结果显示，CogCoM 在具备细节推理能力的同时，在多个已有的 benchmarks 上获得了 SOTA。

▲ 表1：CogCoM 在推理及细节视觉问答评测集上的效果

▲ 表2：CogCoM 在 Visual Grounding 评测集上的效果

此外，研究还对 CogCoM 进行了 case 分析，以展示模型在其他多模态任务场景上的能力，包括 Visual Grounding、Grounded Captioning、image Captioning、Multi-choice QA 和 Detailed Image Captioning。结果显示 CogCoM 在具备证据视觉推理能力的同时，能够准确地完成多个视觉任务。