用伪语言标签对CLIP进行自步课程自适应，实现到定位任务的无监督迁移

论文题目：

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding

发表期刊：

IEEE Transactions on Multimedia 中科院/JCR一区顶刊

工作内容：

基于自步课程学习实现多模态大模型 CLIP 在多模态视觉语言理解与定位任务上的迁移研究

论文链接：

https://ieeexplore.ieee.org/abstract/document/10269126

arXiv链接:

https://arxiv.org/abs/2305.08685

代码链接：

https://github.com/linhuixiao/CLIP-VG（已开源）

第一作者：

肖麟慧（中科院自动化所博士）

通讯作者：

徐常胜

作者单位：

中国科学院自动化所多模态人工智能系统全国重点实验室；鹏城实验室；中国科学院大学人工智能学院

摘要

视觉定位（VG）是视觉语言领域的一个重要课题，它涉及到在图像中定位由表达句子所描述的特定区域。为了减少对人工标记数据的依赖，无监督的方法使用伪标签进行学习区域定位。然而，现有的无监督方法的性能高度依赖于伪标签的质量，并且这些方法总是遇到可靠性低多样性差的问题。

为了利用视觉语言预训练模型来解决定位问题，并合理利用伪标签，我们提出了一种新颖的方法 CLIP-VG，它可以使用伪语言标签对 CLIP 进行自步式课程自适应。

我们提出了一个简单而高效的端到端网络架构来实现 CLIP 到视觉定位任务的迁移。在以 CLIP 为基础的架构上，我们进一步提出了单源和多源课程自适应算法，这些算法可以逐步找到更可靠的伪语言标签来学习最优模型，从而实现伪语言标签的可靠度和多样性之间的平衡。

我们的方法在单源和多源场景下的 RefCOCO/+/g 数据集上都明显优于当前最先进的无监督方法，提升幅度分别为从 6.78% 至 10.67% 和 11.39% 至 14.87%。同时，我们的方法甚至优于现有的弱监督方法。此外，我们的模型在全监督设置下也具有一定的竞争力，同时达到 SOTA 的速度和能效优势。代码和模型可在下方链接获得：

https://github.com/linhuixiao/CLIP-VG

▲ 图1. CLIP-VG 的主要思想，它在自步课程自适应的范式中使用伪语言标签来实现 CLIP 在视觉定位任务上的迁移学习

引言

视觉定位（Visual Grounding，VG），又称指代表达理解（Referring Expression Comprehension，REC），或短语定位（Phrase Grounding, PG），是指在特定图像中定位文本表达句子所描述的边界框（bounding box，即 bbox）区域，这一技术已成为视觉问答、视觉语言导航等视觉语言（Vision-Language, V-L）领域的关键技术之一。

由于其跨模态的特性，定位需要同时理解语言表达和图像的语义，这一直是一项具有挑战性的任务。考虑到其任务复杂性，现有的方法大多侧重于全监督设置（即，使用手工三元组数据作为监督信号）。

然而，有监督的定位要求使用高质量的手工标注信息。具体来说，表达句子需要与 bbox 配对，同时在指代上是唯一的，并且需要具有丰富的语义信息。为了减少对手工高成本的标记数据的依赖，弱监督（即，仅给定图像和查询对，没有配对的 bbox）和无监督定位（即，不使用任何与任务相关的标注信息去学习定位图像区域）最近受到越来越多的关注。

现有的无监督定位方法主要是利用预训练的检测器和额外的大规模语料库实现对未配对数据的指代定位。最先进的无监督方法提出使用人工设计的模板和空间关系先验知识来匹配目标和属性检测器，再与相应的目标 bbox 匹配。这将生成文本表达和 bbox 的伪配对数据，它们被用作为伪标签，进而以监督的方式学习定位模型。

然而，这些现有方法中的伪标注信息有效与否严重依赖于在特定数据集上预训练的目标或属性检测器。这可能会限制语言词汇和匹配模式的多样性，以及上下文语义的丰富度，最终损害模型的泛化能力。

在过去的几年里，视觉语言预训练（Vision-Language Pre-trained, VLP）基础模型（如 CLIP）通过适应（adapting）或提示（prompting）的范式在使用少量任务相关数据的基础上进行迁移，在许多下游任务上取得了出色的结果。

这些基础模型的主要优点是，它们可以通过自监督约束从网络数据和各种下游任务数据（例如，BeiT-3）中学习通用的知识。这启发我们考虑迁移 VLP 模型（本工作中使用 CLIP），以无监督的方式解决下游定位问题。然而由于缺乏与任务相关的标记数据，因此，这是一项具有挑战性的任务。

一个直接的解决方案是利用以前的无监督定位方法中生成的伪标签来微调预训练模型。然而，这将影响预训练模型的泛化能力，因为特定的伪标签和真实特定任务的标签之间存在差距。

在本文中，我们提出了 CLIP-VG，如图 1 所示，这是一种新颖的方法，它可以通过利用伪语言标签对 CLIP 进行自步地课程自适应，进而解决视觉定位问题。

首先，我们提出一个简单而高效的端到端纯 Transformer 且仅编码器的网络架构。我们只需要调整少量的参数，花费最少的训练资源，就能实现 CLIP 向视觉定位任务的迁移。

其次，为了通过寻找可靠的伪标签来实现对 CLIP 网络架构更稳定的自适应迁移，我们提出了一种评估实例级标签质量的方法和一种基于自步课程学习（SPL）的渐进自适应算法，即可靠度评估（III-C 部分）和单源自步自适应算法（SSA，III-D 部分）。

实例级可靠度被定义为特定标签源学习的评估器模型对其样本正确预测的可能性。具体而言，我们学习一个初步的定位模型作为可靠度评估器，以 CLIP 为模型的主干，然后对样本的可靠度进行评分，构建可靠度直方图（RH）。接下来，根据构建的直方图，以自步的方式执行 SSA 算法，逐步采样更可靠的伪标签，以提高定位的性能。

为了有效地选择伪配对的数据子集，我们设计了一种基于改进的二叉搜索的贪心样本选择策略，以实现可靠度和多样性之间的最优平衡。

我们所提出的 CLIP-VG 的一个主要优点是其渐进式自适应框架，其不依赖于伪标签的特定形式或质量。因此，CLIP-VG 可以灵活扩展，从而可以访问多个伪标签源。在多源场景中，我们首先独立学习每个伪标签源特定源的定位模型。然后，我们提出了源级复杂度的评估标准。

具体而言，在 SPL 的不同步骤中，我们根据每个表达文本中实体的平均数量，从简单到复杂逐步选择伪标签源。在 SSA 的基础上，我们进一步提出了特定源可靠度（SR）和跨源可靠度（CR），以及多源自适应（MSA）算法（III-E 节）。

特定源的可靠度定义为使用当前标签源学习的定位模型正确预测当前伪标签的近似可能性。相应的，交叉源可靠度的定义是通过与其他标签源学习的定位模型正确预测当前源伪标签的近似可能性。因此，整个方法可以渐进式地利用伪标签以由易到难的课程范式来学习定位模型，最大限度地利用不同源的伪标签，从而保证基础模型的泛化能力。

在 RefCOCO/+/g、RefitGame 和 Flickr30K Entities 这五个主流测试基准中，我们的模型在单源和多源场景下的性能都明显优于 SOTA 无监督定位方法 Pseudo-Q，分别达到 6.78%~10.67% 和 11.39%~14.87%。所提出的 SSA 算法和 MSA 算法的性能增益为 3% 以上。

此外，我们的方法甚至优于现有的弱监督方法。与全监督 SOTA 模型 QRNet 相比，我们仅使用其更新参数的 7.7% 就获得了相当的结果，同时在训练和推理方面都获得了显著的加速，分别高达 26.84 倍和 7.41 倍。与最新报道的结果相比，我们的模型在速度和能效方面也达到了 SOTA。综上所述，本文的贡献有四个方面：

据我们所知，我们是第一个使用 CLIP 实现无监督视觉定位的工作。我们的方法可以将 CLIP 的跨模态学习能力迁移到视觉定位上，而且训练成本很小。
我们首次在无监督视觉定位中引入自步课程学习的范式。我们提出的可靠度评估和单源自步自适应的方法可以通过使用伪标签在由易到难的学习范式中逐步增强基于 CLIP 的视觉定位模型。
我们首先提出了多源自步自适应算法来扩展了我们的方法，同时可以获取多个伪标签源的信息，进而灵活地提高语言分类的多样性。
我们进行了大量的实验来评估我们方法的有效性。结果表明，我们的方法在无监督环境下取得了显著的改进，同样，我们的模型在全监督环境下也具有一定的竞争力。

方法

我们提出 CLIP- VG，它是一种可以通过利用伪语言标签进行自步课程自适应来解决视觉定位问题的新颖方法。我们的方法主要包括：1）一个简单而高效的基于 CLIP 的纯 Transformer 的视觉定位模型；2）一个样本可靠度评估方案；3）一个单源场景下的自适应算法；4）一个进一步扩展的多源自适应算法。

A. 任务定义

我们的方法遵循之前的无监督方法 Pseudo-Q 的设置，即在训练期间不使用任何与任务相关的手工标注。

定义为未标记的图像数据集。通过利用已生成的伪标签，我们可以构造一个单源伪三元组对的集合，记为，其中，表示伪表达文本的集合，表示伪边界框（bbox）集合。测试数据集定义为。我们的目标是学习一个基于的模型，使其能够很好地泛化到测试数据：

上式中，代表损失函数，它是基于 smooth-L1 损失函数和带有系数的 Giou 损失函数，用来测定预测的 bbox 和伪 bbox 之间的距离：

在这一工作中，我们还考虑了多源伪标签的问题。假设存在多个以不同方式生成的三元配对伪标签的源，记为，其中, ，表示第个源的伪表达文本的集合，表示第个源的 bbox 的集合。那么，模型的目标变为：

B. 网络架构

▲ 图2. CLIP-VG 的模型架构

由于 CLIP 是在图像级视觉语言对比约束下进行预训练的，因此缺乏区域级的定位能力。为了使 CLIP 在定位任务上进行迁移学习，同时只适应和微调少量参数，我们只在 CLIP 后面连接一个仅 6 层的视觉语言跨模态原生的 Transformer 编码器。

CLIP-VG 的模型架构如图 2 所示。我们的模型包含两个 CLIP 编码器和一个 Transformer 编码器。为了更好地利用尺度信息，我们提出从 CLIP 图像编码器中提取多层视觉中间特征，并沿隐藏维度进行拼接。然后，我们将它投影到与跨模态 Transformer 具有相同隐藏维数的视觉嵌入空间中，用以感知多层级视觉表征：

其中，表示提取的层数，表示批处理大小，表示 CLIP 视觉特征的 token 长度，表示 CLIP 的隐藏维度大小，表示视觉投影的权值。对于语言模态，我们仅将 CLIP 文本编码器的最后一层特征通过语言投影权值将其投影到语言嵌入中：

那么，最终输入到跨模态 Transformer 的 token 顺序如下：

其中为来自的 CLIP 语言 token，为来自的 CLIP 视觉 token，为 CLIP 图像编码器生成的类别 token。表示区域 token，用于输出区域盒的回归结果，其随整个模型随机初始化后进行优化。最后一个用于回归边界框的是一个多层感知器（MLP），它是一个三层的前馈网络，每个由一个线性层和一个 ReLU 激活层组成。

为了防止灾难性遗忘和保持 CLIP 的泛化能力，我们在训练时冻结了 CLIP 编码器的参数，这样我们只需要适应少量的参数。CLIP-VG 没有使用任何其他花哨的结构（例如：ResNet, Cross-attention, Query shifts 等等在最新的视觉定位模型中使用的结构）。

C. 可靠度评估（Reliability Measurement）

我们的方法建立在通用的课程学习范式的基础上，其中模型通过利用自己过去的预测，经过多轮由易到难的训练。为了促进定位任务中的无监督迁移，我们首先利用一个在原始伪标签上训练过的模型，应用伪标签质量评估来选择伪标签子集，然后在自训练循环中迭代重复这一过程。

在单模态任务中，我们可以很容易地通过预定义的规则来衡量数据的难度，例如句子长度、NLP 中的词性熵、CV 中的目标数量等，但由于跨模态定位数据的语义相关性，无法直接评估视觉定位中伪标签的质量。

因此，我们定义了一个度量方法来评估伪标签的质量，称为可靠度，它被定义为通过特定标签源学习到的定位模型对其本身伪标签样本正确预测的可能性。我们认为，可靠度越高，伪标签越接近正确的标签，而更加不是噪音或不可靠的数据。

在单源情况下，为了获得每个伪三元组样本的特定可靠度，我们定义了一个直接从所有伪标签中学习到的原始定位模型为可靠性评估器（Reliability Measurer）：

并定义单个样本的可靠度（Reliability）为：

其中表示伪三元组配对样本中的图像、表达文本和 bbox 数据。是一个度量函数，可以计算每个样本的预测框和伪框之间的 Jaccard 重叠。然后，我们可以计算所有样本的可靠度集合：

在考虑多源情况时，我们定义了一组可靠度评估器，其中每个评估器都是从一个特定的伪标签源学习得到：

同理，可靠度集合定义为：

其中为第个评估器对第个数据源中所有样本评估所得到的可靠度值的集合。当时，表示时的源特定可靠度（Source-specific Reliability，SR），当时，其表示跨源可靠度（Cross-source Reliability, CR）。

可靠度直方图（Reliability Histogram, RH）。为了方便自步课程学习过程中伪标签的采样，我们根据单源或多源情况下相应的可靠度集合或定义每个伪标签源的可靠度直方图或。包含个区间，每个区间代表可靠度值在对应区间内的样本个数。

▲ 图3. 利用伪语言标签和自步课程学习实现无监督视觉定位

图中，（a）伪语言标签的示意图；（b）单源自步自适应（Single-source self-paced Adapting, SSA）利用视觉语言定位模型（VLGM）对伪模板标签进行可靠度评估和贪心样本选择，通过寻找可靠的伪标签实现对 CLIP 的自适应迁移；（c）多源自适应（Multi-source Self-paced Adapting, MSA）在 SSA 的基础上进一步提出了特定源可靠度（SR）和跨源可靠度（CR）。它依次进行伪标签源选择、可靠度评估器选择和贪心样本选择，从而达到可靠度和多样性的最佳平衡。

D. 单源自步课程自适应算法（Single-source Self-paced Adapting，SSA)

算法1. 单源自步课程自适应算法（SSA算法）

为了通过寻找可靠的伪标签来实现对基于 CLIP 的网络架构的稳定自适应，我们提出了单源自步课程自适应算法（Single-source Self-pace Curriculum Adapting algorithm, SSA），通过基于可靠度评估的课程选择的方式，逐步采样可靠的三元组伪标签。

SSA 的流程和公式如图 3-（b）和算法 1 所示。我们首先以自训练的方式为所有单源伪标签训练一个可靠度评估器，然后基于学习到的评估器对所有样本进行可靠度评分。根据可靠度结果，构建可靠度直方图，进而完成对伪标签的排序。后续的工作即是根据可靠度直方图找到能够优化模型性能的伪标签。

为了方便采样，我们定义了一个可靠度阈值，并使用它从伪标签源中采样一个子集。具体来说，我们定义为根据可靠度直方图从当前伪标签源中提取的子集，其中每个样本的可靠度值属于区间，这一子集的样本数可以统计为：

特别地，当时，所有数据都被选择。然后，其目标是找到在验证集上具有最佳性能的最佳可靠度阈值：

贪心样本选择（Greedy Sample Selection）：如果阈值在区间上进行遍历，其训练代价是无法承受的。因此，我们提出了一种基于改进二分搜索的贪心样本选择策略。具体来说，我们将、和定义为三个临时阈值。值得注意的是，实验结果表明，模型性能通常在可靠度阈值附近趋于饱和。

因此，我们初始化为，并固定，以及。然后，通过尝试不同的值，贪婪地求解上述等式。我们不断更新或，直到获得比和更好的性能。基于该策略，我们可以快速找到性能次优且合适的可靠度阈值，以降低模型训练成本，从而保证可靠和不可靠样本之间的平衡。

E. 多源自步课程自适应算法（Multi-source Self-paced Adapting，MSA）

算法2. 多源自步课程自适应算法（MSA算法）

我们提出的自步自适应算法不依赖于伪标签的具体形式和质量，因此可以灵活扩展用于访问多个伪标签源。使用多个伪标签源将增加语言分类和匹配模式的多样性，以及上下文语义的丰富性，从而提高视觉定位模型的泛化能力。在真实场景中，从各种视觉和语言上下文中获取多个来源的伪语言标签并不困难（如大规模语料库、视觉问答、图像描述、场景图生成、视觉语言导航等）。我们将在实验部分中详细介绍如何获得多个伪语言标签源。

随着多源伪标签的加入，不可靠数据的影响将更加严重。此外，由于不同标签源在语言分类上的分布差异，解决这一问题并不容易。因此，我们提出了基于 SSA 的多源自适应算法（MSA），如图 3-（c）和算法 2 所示。

伪标签源选择。在执行 MSA 之前，我们需要决定使用哪个标签源进行自适应训练。我们提出计算每个标签源中平均每个表达文本中实体的数量作为源级别的难度标准，可用于将标签源从简单到复杂进行排序。我们假设在当前 MSA 步骤中选择的数据源是。然后，我们可以从简单到复杂逐步考虑一个标签源，在 MSA 的每一步中学习定位模型。

可靠度评估器选择。从不同的伪标签源中学习的可靠度评估器对给定的源表现出不同的区分能力。如第 III-C 节所介绍的，我们可以由不同可靠度评估器对数据源获得多个可靠度。因此，我们需要在当前 MSA 步骤处理的数据源中选择一个最优的可靠度评估器来采样伪标签。

我们首先设置一个可靠度阈值（例如，通常），并使用它从当前数据源中选择伪样本子集。具体来说，我们将定义为根据从第个数据源中提取的子集。其样本数目的计算与上式相似，即：

接下来，我们将选择的子集加入后，通过模型训练和验证，最终选择在验证集上性能最佳的最优可靠度评估器：

上式中，是在当前 MSA 步骤之前已选择的伪样本的整个子集，其初始化为空。

贪心样本选择。在确定最优可靠度评估器后，我们进一步根据相应的可靠度直方图从当前数据源中选择伪样本。具体而言，我们找到在验证集上具有最佳性能的最优可靠度阈值：

本步骤同样采用与第 III-D 节的 SSA 相同的贪心样本选择策略。然后，我们从直方图中选择信度值在区间内的伪样本。最后，我们将选择的伪样本加入到整个样本集中：

在自步课程学习结束时，我们将得到伪标签的最终子集，该子集可用于学习最终的定位模型：

实验

▲ 图4. RefCOCO/+/g 数据集（val split）中 ground-truth 查询标签的文本特征和定位难度定性对比图

A. 与最先进方法的比较

在本节中，我们在五个主流基准上验证了我们的方法，分别是 RefCOCO/+/g，ReferItGame 和 Flickr30K Entities。图 4 显示了 RefCOCO/+/g 数据集中的验证样本，这可以清晰表明三种数据集的真实定位查询标签的语言特征和定位困难程度存在显著差异。从 RefCOCO 到 RefCOCOg，随着语言实体数量的增加，其语言复杂度也增加。

我们将我们的方法应用于单源伪模板标签和多源伪语言标签，以验证我们的方法在无监督设置中的有效性。此外，我们同样使用手工高质量的三元组手工标注在全监督设置下比较目前主流的 SOTA 模型，以证实我们的模型在速度和能效方面的优势。

▲ 表1. 与 SOTA 方法在 RefCOCO/+/g 三个数据集上 Top-1 精度（[email protected]%）的对比结果

A.1 RefCOCO / RefCOCO + / RefCOCOg

如表 1 所示，我们在全监督和无监督两种情况下都提供了实验结果。我们将我们的方法与现有的 SOTA 无监督方法 Pseudo-Q 在单源和多源场景下进行了比较。虽然 Pseudo-Q 与之前的工作相比有了很大的提升，但我们所提方法在三个数据集上的性能都优于 Pseudo-Q，在单源数据集上分别提升了 6.78%（testA）、10.67%（testA）、7.37%（test-u），在多源数据集上分别提升了 14.65%（testA）、14.87%（testA）、11.39%（test-u）。

伪标签很容易导致模型过拟合，从表中可知，从单源到多源，由于不可靠数据的影响，Pseudo-Q 的性能下降（参见表 VIII），而我们的模型避免了多源不可靠伪标签的影响。此外，我们的结果也优于所有的弱监督方法，并且这一模型在全监督环境下也具有竞争力。

值得注意的是，我们没有在全监督的情况下比较 MDETR，因为 MDETR 利用预训练方法通过使用来自多个数据集的混合定位数据来重新训练主干。因此，将其结果与我们的工作进行比较是不公平的。

▲ 表2. 与 SOTA 方法在 RferItGame 和 Flickr30K Entity 两个数据集上基于 Top-1 精度（[email protected]%）的对比结果

A.2 ReferItGame 和 Flickr30K Entity

在表 II 中，在单源数据集和多源数据集上，我们所提方法分别比 Pseudo-Q 方法提高了 7.31% 和 4.1%，以及 9.77% 和 9.85%，并且优于所有弱监督方法。

▲ 表3. 模型的能效、推理训练速度的优势对比

B. 训练/推理成本和速度

如表 III 所示，我们比较了目前基于 Transformer 的竞争模型在视觉和语言主干、模型参数、训练成本和推理速度方面的差异。其结果是在单个 NVIDIA 3090 GPU上得到的。Pseudo-Q、TransVG 和 MDETR 使用的预训练主干是 Resnet、BERT 和 DETR，而 QRNet 使用 Resnet、Swin Transformer 和 BERT，而我们只使用 CLIP-ViT-B/16。

从结果中我们可以看到，现有的全监督 SOTA 模型（如 QRNet，MDETR）在训练和推理方面都特别慢。与 QRNet 相比，我们仅更新了其 7.7% 的参数，并取得了出色的训练和推理速度，分别高达 26.84 倍和 7.41 倍，同时还获得了具有竞争力的结果。基于 YORO 报告的结果，我们的模型在速度和能效方面也是最先进的。

▲ 图5. 特定源可靠度和跨源可靠度分布直方图

C. 可靠度直方图的可视化

图 5 给出了伪语言标签在范围内的单源可靠度（SR）和跨源可靠度（CR）的直方图，其中每个细箱条代表样本的数量。从图中可以看出，不同源的伪标签由于其特定的标签质量和语言分类词汇差异而表现出不同的分布（如图 5-（a1）-（b2）-（c3）），而不同的可靠度评估器对同一标签源的伪标签具有不同的区分能力（如图 5-（a1）-（b1）-（c1））。这为我们的方法的性能提升提供了一个解释。

▲ 图6. 利用 t-SNE 对 RefCOCO/+/g 数据集上的伪语言标签和真实查询标签的 CLIP 文本特征可视化对比图

D. MSA泛化能力的可视化

如图 6 所示，我们使用 t-SNE 可视化 RefCOCO/+/g 数据集上伪语言标签和真值查询标签的 CLIP 文本特征。图 6-（a1）是在 RefCOCO 数据集上的三个伪标签的特征，图 6-（b1）是在 RefCOCO/+/g 在验证集上的 ground-truth 查询标签的特征，我们分别展示了 3 个伪标签源的特征分布与 3 个真实查询标签的特征分别的差异。

图 6-（a2）至（a4）和图 6-（b2）至（b4）分别是在RefCOCO/+/g数据集上使用 MSA 前后三个伪标签来源和真实查询标签的特征分布对比。在 MSA 算法执行前，伪语言标签和真实查询标签的分布差异较大，但在 MSA 算法执行后，分布差异明显变小。这表明 MSA 可以有效地选择更可靠或更接近真实查询标签分布的伪标签。

▲ 图7. 在 RefCOCO/+/g 数据集上执行 SSA 算法时，可靠性阈值 h 在 0.9~0 之间的结果。

E. 性能-可靠度(P-R)曲线与收敛性

在 SSA 和 MSA 算法的贪婪样本选择过程中，我们对可靠度直方图的区间内的伪标签进行抽样，然后将所选样本添加到子集中构造一个临时子集，其中为当前 SSA 或 MSA 步骤之前所选伪样本的集合。我们绘制了性能-可靠度曲线（Performance-Reliability, P-R）来反映由不同可靠度阈值 h 得到的临时子集训练的模型的性能。贪心样本选择的目的是希望找到 P-R 曲线上一个局部极值点对应的可靠度阈值，以平衡可靠和不可靠伪标签。

图 7 给出了可靠度阈值从 0.9 到 0 时，SSA 执行贪心样本选择时的训练损失和性能曲线。在图 7-（a）中, 更高的值导致了更快的模型收敛性和较小的收敛损失。对于图 7-（b）中的 P-R 曲线,该模型在的范围内达到性能饱和，这是的原因。

F. 最不可靠样本分析

最不可靠的伪标签数据用表示。如图 7-（b）所示，当趋于时，准确率明显下降。我们的算法过滤掉了最不可靠的数据，如表 7-（b）所示，从而防止其有害的影响。

▲ 图8. 在 RefCOCOg 全监督数据集上执行 SSA 算法时，可靠性阈值 h 在 0.9~0 之间的结果。

G. 全监督设置下不可靠样本分析

如图 7 所示，我们将 SSA 算法应用在全监督场景下，也发现一些有趣的实验结果。值得注意的是，由于人工标注的高质量，其可靠性阈值的性能饱和点（即）小于伪标签的性能饱和点（即）。当可信度阈值接近时，准确率会出现下降，这在一定程度上反映了在人工标注的数据集中仍然存在一定比例的不可靠样本。

这表明了在 RefCOCO/+/g 数据集上的性能边界。如图 8-（b）中的 P-R 曲线所示，模型在范围内达到了性能饱和，这为 SSA 算法在全监督环境下提供了一个先验，即应设置为。

▲ 图9. 最不可靠伪模板标签示意图

▲ 图10. 最不可靠伪关系标签示意图

▲ 图11. 最不可靠伪标题标签示意图

H. 不可靠伪语言标签的定性分析

在本部分，我们研究已经被我们的 SSA 和 MSA 算法成功过滤和消除的最不可靠的伪语言标签，同时还提供了这些最不可靠数据的可视化特征。在实验中我们发现，大量伪标签集中在可靠度处，模型的性能显著下降（如图 7-（b）的 P-R 曲线所示）。当时，意味着所涉及的区域无法定位，这将严重阻碍模型获取正确的知识。

通过使用 SSA 和 MSA 消除这些不可靠的数据点，进而无论是伪标签还是人工标注的数据都可以进一步提高模型的性能。具体的最不可靠伪语言标签（）如图 9 至 11 所示。

在伪模板标签（图9）中，我们将不可靠数据大致分为四类：（a）. 表达文本不明确，即缺乏唯一性；（b）. 检测结果不正确导致的错误标签；（c）. 先验信息不完整（例如，Pseudo-Q 中定义的空间关系，如“前端”、“中间”、“底部”等不准确）；（d）. 其他问题，如偏僻的词汇、不重要或小规模的目标等。

在伪关系标签（图10）中，我们将不可靠数据大致分为（a）、模棱两可的表达文本和（b）、不显著或小尺度的目标。

在伪标题标签（图11）中，我们将不可靠数据大致分为（a）、描述整个图像的伪语言标签和（b）、边界框与标题之间的不匹配。

在各种类型的不可靠伪语言标签中，指代歧义的频率最高，特别是在具有相似分类目标的图像中。如果未来的研究希望进一步提高模型性能，解决模糊性是一个关键问题。