AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval，全面审视开放词汇目标检测模型的泛化能力

随着近年来视觉-语言预训练的发展，目标检测领域的研究范式正在经历从确定标签集合的闭集（closed set labels）向开放词汇检测（open-vocabulary detection，简称 OVD）的转变。然而，现有的 OVD 评测方法和数据集仅限于评测 OVD 模型在不同物体类别和指代描述（referfal expression）上的泛化性，不能对 OVD 模型的能力给出系统的细粒度评估。

由赵天成博士领衔的浙大滨江研究院团队意识到现有评测基准的不足，设计了名为 OVDEval 的全新 benchmark，以全面地重新审视 OVD 模型的泛化能力。主要贡献与亮点如下：

数据资源方面，贡献了全面而有挑战性的细粒度测试数据：OVDEval 包含 9 个子集、6 类细粒度属性，首次在 OVD 模型的评估中引入了常识、属性理解、位置理解、物体关系理解等细粒度方面的属性标签，而且包含挑战性高的难负例；
评测指标方面，设计了更适合细粒度标签的新指标 NMS-AP：指出了传统的目标检测评测指标平均准确率（Average Precision，简称 AP）在细粒度评测上的不足，设计了新指标非极大值抑制平均准确率（Non-MaximumSuppression Average Precision，简称 NMS-AP）来解决该问题，为 OVD 模型的细粒度评测提供更可靠的指标；
评测结果方面，指出了现有 OVD 模型在细粒度新任务上的泛化性有待提升：GLIP、Grounding DINO、OmDet 和 Detic 等流行的 OVD 模型在 OVDEval 上的评测结果显示，它们在除简单的物体类别外的细粒度新任务上的表现都是失败的，这表明现有 OVD 模型的泛化性能还有巨大的提升空间，为目标检测领域未来的研究指明了新方向。

日前，OVDEval 成果论文被人工智能国际顶会 AAAI 2024 录用，数据已开源。本文将详细解读 OVDEval 在开放词汇目标检测模型的评测数据资源、评测指标与对现有模型评测结果三方面的贡献。

论文标题：

How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection

收录会议：

AAAI 2024

论文链接：

https://arxiv.org/pdf/2308.13177.pdf

数据开源：

https://github.com/om-ai-lab/OVDEval

数据资源：首个系统的细粒度评测基准数据集，OVD研究的新灯塔

随着视觉-语言预训练技术的发展，GLIP [1]、Grounding DINO [2]、OmDet [3] 等多模态预训练模型已经可以在 COCO 这样的目标检测经典数据集上取得出色的零样本推理效果，这类预训练的开放词汇检测（open-vocabulary detection，简称 OVD）模型的性能甚至超过了部分传统的闭集有监督模型的性能 [3]。

然而，评测基准的发展却没有跟上快速提升的模型能力，研究者评估强大的 OVD 模型时依然使用 COCO、LVIS、RefCOCO 等传统目标检测和视觉定位任务的基准数据集。它们虽然对传统模型富有挑战性，但由于以下缺点，已经不适合用来评测强大的多模态预训练 OVD 模型：

1. 缺乏对模型泛化能力的系统性测试：理想的 OVD 模型应该能够理解语言输入中的细粒度语义（如物体类型、视觉属性、物体关系等），而现有的目标检测基准数据集主要关注物体类型，忽略了模型在对细粒度任务的泛化能力；

2. 缺乏符合真实应用需求的难负例：现有的视觉定位数据集假设输入文本和图像是配对的（图像中肯定有相对应的物体），而现实世界中，语言输入描述的物体可能根本在图像中不存在，OVD 模型应该能够识别这种难负例。

现有工作评估 OVD 模型时，一般只在上述数据集上测试，报告所有标签上的平均准确率（AP），无法刻画 OVD 模型对细粒度属性的建模能力和对难负例的鉴别能力。考虑到现有评测基准的缺陷，赵天成博士团队以全面刻画细粒度属性、引入有挑战性的难负例为目标，设计了名为 OVDEval 的一套新 benchmark 以评价 OVD 模型的泛化能力。

OVDEval 包括九个子数据集，分别关注以下六类细粒度属性：物体类型、物体属性（包括颜色和材质）、专有名词（包括地标、Logo 和名人）、物体关系、位置和否定式描述（negation）。整个 benchmark 共有 2 万张图片，各子集统计信息如下：

▲ OVDEval九个子集的数据分布统计信息

除了物体类型这一常见属性直接采用没有负例的 COCO 测试集外，其他属性对应的子集里都提供了精心标注的难负例，也就是对某个自然语言标签，仅变换该子集关心的属性形成难负例，如物体颜色的子集中，“white shoe” 的难负例是 “blue/red/yellow/brown/green shoe”：

▲ 各种细粒度标注与相应的难负例

有了 OVDEval 这样一套覆盖全方位细粒度属性、并包含富有挑战性的难负例的 benchmark，OVD 模型们将迎来一场更贴合真实世界应用需求、更考验全方位泛化能力的“大考”，而目标检测领域的研究也将告别在 COCO 等较简单的传统数据集上过度刷点的困境。

如同当年横空出世、引领了整个计算机视觉和深度学习领域发展的 ImageNet，OVDEval 这样富有挑战性的高质量评测资源如同研究航程中的指路灯塔，将持续指引 OVD 研究的前程。

▲ 高质量的评测基准数据集像灯塔一样，指引着本领域的研究航程。

评测指标：新指标NMS-AP，更适合细粒度评估的量尺

有了高质量的评测数据资源之后，我们需要考虑采取何种评测指标才能精准地量化模型能力。目标检测领域传统上一般使用平均准确率（Average Precision，简称 AP）指标，即准确率-召回率曲线下的面积。

具体来说，近期的研究工作一般使用 COCO AP，考虑了从 0.5 到 0.95（步长为 0.05）的一些列 IoU 阈值下的平均 AP 值 mAP。但是，在设计细粒度属性的目标检测评测中，作者发现存在一条欺骗 mAP 指标的“捷径”（作者称之为 AP 通胀，The Inflated AP Problem）：模型可以不顾真正重要的细粒度属性，对单个物体打上所有可能的相近标签，来获取虚高的 mAP 值。

作者举的例子是，如果图像中有一辆红车和一辆蓝车，模型可以完全不顾颜色这一重要属性，给两辆车都打上“红车”和“蓝车”的 bounding box（共4个），假设 bounding box 和标签区域的 IoU 都高于 0.95，则模型在完全没有理解颜色属性的情况下，也获得了 0.5 的 mAP 值，这显然是对模型能力的高估。

为了防止 mAP 指标高估 OVD 模型的细粒度泛化能力，作者提出了使用忽视类别的非极大值抑制（C-NMS）算法来去除冗余的预测，再计算 mAP 指标，最后得到的新指标称为非极大值抑制平均准确率（Non-Maximum Suppression Average Precision，简称 NMS-AP）。

具体来说，作者在与真实标签 IoU 大于 0.5 的预测上运行了 C-NMS，来处理上面例子中提到的对同一个物体预测多个 bounding box 的问题，整体算法如下：

▲ NMS-AP指标的计算过程

下图在 GLIP 的一个 case 上展示了应用 C-NMS 前后预测结果的对比，可以看出 C-NMS 可以有效去除冗余的预测，提高 mAP 指真实衡量模型泛化性的能力：

▲ 例：NMS（非极大值抑制）可以去除 GLIP 预测结果中冗余的 bounding box，使 AP 指标更真实地反映模型的能力。

评测结果：现有OVD模型纷纷失败，期待高难度基准引领未来研发

有了 OVDEval 这样一套高质量的评测基准数据和 NMS-AP 这一适合细粒度评测的指标，作者系统测评了 GLIP [1]、Grounding DINO [2]、OmDet [3]、MDETR [4]、FIBER [5] 和 Dectic [6] 这六个具有代表性的视觉-语言预训练 OVD 模型的泛化性。主要结果如下面的主表和雷达图：

▲ 现有主流 OVD 模型在 OVDEval 上的细粒度评测结果

▲ 比较现有模型在各子集上泛化能力的雷达图

我们可以看出：

在物体类别（object）这一最简单的维度，除了 MDETR 外，各模型的表现都很好；
然而，所有的模型在 logo/benchmark/celebrity 这三类专有名词属性上都表现很差，尤其是在 celebrity 上面，NMS-AP 值都接近 0。值得注意的是，Dectic在 logo 和 benchmark 上表现相对来说最好；
在其他包含难负例的细粒度属性对应的子集上，各模型的总体表现也很差；
OmDet 在 color/material/relationship 上的的相对表现较好，可能归功于它预训练阶段使用的包含物体属性的 VAW 数据集和带物体关系的 HOI-A 数据集；
GroundingDINO 在 position 上的表现远超其他模型，可能归功于其预训练阶段使用的带定位信息的 RefCOCO 数据集；
总的来说，在除 COCO（物体类型）之外的子集上，现有 OVD 模型的泛化能力都还有很大提升空间，OVDEval 这样全面的细粒度评测基准对发现模型不足、继续提升模型能力意义重大。

结语与思考

OVDEval 是一篇非常出色的 Resource & Benchmark 类型的研究工作，这类研究工作虽然较少提出新的模型和算法，但对相应的领域发展十分重要。历史上，正是有了 CV 领域的 ImageNet、NLP 领域的 GLUE 和 SuperGLUE 这样高质量的评测基准数据集，研究者们才得以快速评估、迭代新的模型和训练算法，推动了整个深度学习领域的蓬勃发展。

笔者也曾参加过 benchmark 类型的研究工作，认为该类型的杰出工作一般包含三方面的亮点：

1. 资源方面，贡献与已有数据不同的、可以揭示之前被忽略的某方面能力的新数据；

2. 评测指标方面（可选），分析现有指标是否适用于新的评测场景，如果不行，分析其失败原因、设计有效的新指标；

3. 实验评测方面，全面地评估现有前沿模型在新数据上的泛化能力，对比分析它们的成果与不足之处，为未来的改进提供 insight。

从这三个维度来看，OVDEval 都非常出色：在资源方面贡献了 OVD 这一重要领域首个系统考虑细粒度属性、包含难负例的基准数据集，在指标方面分析了 mAP 的不足、提出了对细粒度评估更有效的 NMS-AP，在实验评测方面指出了现有 OVD 模型在细粒度属性上的泛化能力还有很大提升空间，为了 OVD 领域的持续发展提供了新的基础资源和方向指引。

我们期待后续 OVD 领域的研究者们以 OVDEval 为标杆，研发出一个真正的“六边形战士”，不惧现实世界中各种细粒度难负例的挑战。

参考文献

[1] Li, Liunian Harold, et al. "Grounded language-image pre-training." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[2] Liu, Shilong, et al. "Grounding dino: Marrying dino with grounded pre-training for open-set object detection." arXiv preprint arXiv:2303.05499 (2023).

[3] Zhao, Tiancheng, et al. "Omdet: Language-aware object detection with large-scale vision-language multi-dataset pre-training." arXiv preprint arXiv:2209.05946 (2022).

[4] Kamath, Aishwarya, et al. "Mdetr-modulated detection for end-to-end multi-modal understanding." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[5] Dou, Zi-Yi, et al. "Coarse-to-fine vision-language pre-training with fusion in the backbone." Advances in neural information processing systems 35 (2022): 32942-32956.

[6] Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

更多阅读