NeurIPS 2023 | 基于双重结构知识图的视觉语言模型高效迁移

©作者 | 李鑫

单位 | 中国科学技术大学

来源 | IMCL研习社

基于适配器（Adapter）的高效迁移方案在视觉语言模型高效迁移中取得了优异的性能。利用视觉语言模型强大的表征能力，其仅需要借助少量样本、少量参数即可挖掘适配下游任务的丰富知识。

然而，如图 1，现有 Adapter 风格的高效迁移方法存在两个局限：1）仅从单一模态对下游任务的特定知识建模；2）忽视了下游任务类间关系的利用，因此导致了次优的效果。

为了解决上述问题，本文提出了 GraphAdapter，一种基于图的高效迁移策略，通过显式地建模文本和视觉的双重结构知识图，实现对于文本分类器的微调。本文在 11 个标准下游任务数据集上验证了我们 GraphAdapter 的有效性，代码已经开源。

论文标题：

GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph

论文地址：

https://arxiv.org/abs/2309.13625

代码地址：

https://github.com/lixinustc/GraphAdapter

方法描述

为了将下游任务的多模态结构知识引入特征适配器，我们引入了双重结构知识图。它由文本结构知识子图和视觉结构知识子图组成，用于获取并存储下游任务中文本结构知识和视觉结构知识。然后，视觉语言模型的文本分类特征可以提取这两种模态中的结构知识，从而调整自己，使其对下游任务进行更好的建模和适配。

我们的 GraphAdapter 框架如图 2 所示，它由两部分组成，包括双重结构知识图的建立和基于适配器的 CLIP 分类模型。具体来说，双重结构知识图在整个训练过程中只建立一次，并且在获取每个类别对应的文本表征时，CLIP 的文本编码器也只需要运行一次。

在优化过程中，给定一个文本分类特征，它与双重结构知识图中的节点之间的关系将作为条件，来融合下游任务结构知识图中各个节点的知识，然后利用该知识以残差形式对 CLIP 的文本分类特征进行调整，从而实现对下游任务的高效迁移。

结构知识图构建-这里以文本结构知识图为例：为了挖掘下游任务的结构知识，我们构建了文本结构知识子图，其中节点旨在捕捉不同类别的语义，而边用来衡量不同节点间的关系。

值得注意的是，CLIP 的分类是通过不同类别对应的文本提示特征来实现的。给定类下游任务，每个节点是通过每个类内的提示的平均特征构建的，任意两节点的边时通过特征余弦相似度计算得到。通过上述过程，我们可以构建文本结构知识图。

实验分析

我们在 11 个基准数据集上将 GraphAdapter 与几项最先进的工作进行比较，其中包括 Zero-shot CLIP、CoOp、CLIP-Adapter 、Tip-Adapter-F，实验结果如图 3 所示，我们可以观察到我们的 GraphAdapter 在 1/2/4/8/16-shot 设置上都超越之前的高效迁移的工作。

▲ 图3. 与SOTA方法在少样本学习上的性能比较

特别是，在 16-shot 设置上，我们的 GraphAdapter 平均性能达到 76.22%，超过了 Tip-Adapter-F 约 0.57%。即使对于最具挑战性的 FGVC Aircraft 的细粒度分类数据集，我们的 GraphAdapter 仍然比上述方法表现得更好，充分证明我们方法在高效迁移上的能力。

并且我们方法在提升泛化能力上也表现了比较好的性能，如下图所示：

结论

在本文中，我们全面回顾了在少样本设置下，已有基于 Adapter 高效迁移方法的，这些局限性包括：1）先前的研究只使用单一模态来建模下游任务的领域知识；2）忽视了下游任务中结构知识（即不同语义/类别间的关系）的利用，而这对于数据效率型任务至关重要。

基于这些分析，我们提出了一种全新的高效迁移策略，用于视觉语言模型的高效迁移。称为 GraphAdapter，它引入了双重知识图来建立文本和视觉模态中的下游任务的结构知识。通过融合的文本和视觉结构知识，以及图卷积网络（GCN），CLIP 的文本分类器可以有效地适应下游任务。我们在 11 个基准数据集上的实验展示了我们的 GraphAdapter 在少样本学习和泛化方面的有效性。

更多阅读