©PaperWeekly 原创 · 作者 | 吴大衍

单位 | 中国科学院信息工程研究所

研究方向 | 多媒体大数据分析

借助对语义信息的深度挖掘，行人重识别技术取得了令人瞩目的进展。这些方法专注于提取图像中与语义紧密相关的部分，如人体的姿态、服饰等细节，从而实现了更加精准的对齐和匹配。

然而，当前的方法仍受限于单一图像模态的利用，缺乏直观且有效的语义引导。这导致模型在关注区域时，往往只聚焦于某些特定的局部判别部分，而无法全面而精准地捕捉所有与语义相关的区域。若想利用掩模或人体关键点作为引导方向时，就不可避免地需要额外的、耗时且劳动密集的手动标注。

得益于视觉-语言模型 CLIP 强大的多模态理解能力，来自中科院信工所的研究团队提出了基于文本提示的语义引导方法（PromptSG），旨在利用自然语言描述来引导模型关注语义一致性区域。该工作已入选 CVPR 2024 Highlight。

动机

随着大型视觉语言（VL）模型的崛起，CLIP 模型通过提供如 ‘A photo of a [CLASS]’ 这样的文本提示，展现出了卓越的零样本分类性能。这不禁让我们思考：我们能否进一步通过自然语言描述，如 ‘A photo of a person’，来引导模型关注感兴趣的区域呢？

然而，由于 CLIP 生成的视觉表示往往缺乏更细粒度的信息，直接将 CLIP 应用于行人重识别并非易事。此外，当使用 ‘A photo of a person’ 这样的查询时，由于缺乏具体的描述符，我们很难为个体身份识别提供个性化的提示。

已有工作 CLIP-ReID 尝试在 CLIP 基础上进行自动化的提示工程，然而，该方法存在两点局限性：（1）采用预定义的软提示可能不足以表征指定行人的整个视觉上下文。（2）解耦式的 Prompt 使用方式使得在推理过程中仅依赖视觉嵌入，导致其对于开放场景下的未见身份无效。

因此，如下图（b）中所示，模型关注的区域可能无法完全包含身体部分，甚至包含无关的背景元素，如汽车和场景中的其他行人。

为了解决这些问题，文本直接尝试通过明确的文本提示来激活模型对图像中关键区域的关注。我们通过注入交叉注意力图来优化图像中的 patch tokens，从而确定哪些 patch 与对应的语义相关。这样，模型就能够更准确地捕捉与行人身份相关的语义信息。

然而，仅仅依靠语义信息是不够的。在行人重识别中，外观信息同样至关重要。因此，我们进一步引入了 Textual Inversion 技术，通过学习特定的 token 来表示视觉上下文。通过一个轻量级的 Inversion Network，我们可以将图像映射到伪 token，并将其融入文本提示中，从而生成一个与原始图像紧密匹配的嵌入。

值得一提的是，我们的方法无需提供额外的信息，如掩模、边界框或精确描述。这大大降低了方法的复杂性和成本，使其在实际应用中更具可行性。

方法介绍

1. 个性化的身份特定提示学习：已有研究表明，词嵌入空间具备丰富的表达能力，足以涵盖基础的图像概念。在此基础上，我们创新性地提出了利用 Textual Inversion 技术学习伪 token 的方法，使其精准地与查询图像的上下文相契合。

具体而言，我们构建了一个由参数化的 Inversion Network ，其目标是将 CLIP 视觉空间中的全局视觉嵌入映射到文本空间的一个伪 token 。随后，这个伪令牌可以被整合到自然语言句子中，得到对于输入图像的语言提示 “A photo of a person”。

为确保学习到的伪 token 能够精准地传达图像的上下文信息，并有效地捕捉属于同一身份的视觉细节，我们采用了对称的有监督对比损失来实现 Inversion Network 的重建目标。

2. 基于文本的语义引导：我们的核心思想是通过语言精细地引导图像特征，显式地确定图像的哪个区域与语言提示对齐。直觉上，我们认为与“人”这一语义紧密相关的图像块应该在身份区分和识别过程中发挥着至关重要的作用。基于此，我们精心设计了一种交互模块，旨在多模态环境中实现图像块与语言提示之间的高效交互。

具体而言，我们采用了一个语言引导的跨注意力模块，该模块使用文本嵌入作为查询，将视觉编码器的逐块嵌入作为键和值。给定一对图像和提示，我们首先将图像输入视觉编码器，得到一系列块嵌入。这里，表示全局视觉嵌入，而其余的，属于局部块嵌入。类似地，将提示输入文本编码器以得到文本嵌入。

随后，文本嵌入被投影到一个查询矩阵，而图像块嵌入则通过三个不同的线性投影层投影到键矩阵和值矩阵。这样，通过交叉注意力的机制，我们可以实现图像块与文本提示之间的深入交互。这一交互过程通过计算注意力图来凸显出那些与语言描述高度相关的图像区域，从而实现对图像特征的语义引导。