顶刊IJCV 2024！通过提问学习基于知识的新物体识别

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和扩散模型】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

作者：凤凰AI
https://zhuanlan.zhihu.com/p/677841513

在现实世界的物体识别中，有大量的物体类别需要识别。传统的基于监督学习的图像识别方法只能识别训练数据中存在的目标类别，在现实世界中的适用性有限。另一方面，人类可以通过提问和获取关于它们的知识来识别新物体。受此启发，本文研究了一种通过问题生成获取外部知识的框架，可帮助模型立即识别新对象。该流程由两部分组成:目标分类器和问题生成器，前者用于进行基于知识的目标识别，后者用于生成知识感知的问题以获取新知识。本文还提出了一种基于目标分类器知识感知预测置信度的问题生成策略。为了训练问题生成器，构建了一个数据集，其中包含关于图像中物体的知识感知问题。实验表明，与几个基线相比，所提出的管道有效地获取了关于新对象的知识。

目标类别识别一直是计算机视觉研究的核心问题。传统上，目标识别是通过使用图像标签对的大型数据集进行监督学习来解决的。然而，使用有监督的方法，该模型只能识别一组固定的对象类别，不适用于存在大量对象类别的现实世界的对象识别。最近，出现了利用图像-文本对数据集基于对比学习的图像识别方法。通过对数亿个图像-文本对进行训练，这些模型已经获得了卓越的零样本识别能力用于各种各样的物体。然而，这些模型可以识别预训练数据集中常见的物体，但对于稀有物体却不那么有效。考虑到数据收集和计算的成本，收集新数据并重新训练整个模型以使这些模型识别新对象是不切实际的。因此，开发一种方法至关重要，该方法使模型能够识别新对象，同时保持低数据收集成本，并尽可能避免模型重新训练。

当人类获得关于世界的知识时，提出问题和明确地获取知识是涉及的重要技能。受此启发，探索了通过提问来动态增加图像识别知识的方法。与传统的监督学习方法相比，该方法有以下几个优点:(1)由于系统只获取它需要的知识，因此获取知识只需要少量的数据;(2)由于系统本身寻找所需的数据，因此数据收集成本较低。

本文提出了一个由基于知识的目标分类器(OC)和问题生成器(QG)组成的管道，用于知识获取。根据之前对结构化知识的研究，将知识表示为知识三元组，即由三个单词或短语组成的列表:头、关系和尾，如<dog、IsA、mammali>。训练OC从知识源中检索知识，输出知识源中相应的头作为预测的目标类(例如，< IsA，哺乳动物> !狗)。然后，QG模型生成问题，将新知识添加到知识源，以实现新物体识别。在QG模型中，我们在问题生成中使用了两种模式:确认和探索，如图1所示。首先，当未知对象与a比较接近时，使用“确认”已知对象类别。例如，如果模型知道"狗"，那么一个新类别"吉娃娃"被认为是与"狗"接近的概念。在这种情况下，模型可以推断出合理的知识(例如，"吉娃娃"和"狗"都是一种哺乳动物)，并提出问题来确认，例如"图像左侧的哺乳动物是什么? "相比之下，“探索”模式用于未知物体距离现有物体类别很远(例如，“泰迪熊”可能不像任何已知的物体类别)。在这种情况下，模型无法估计适当的知识，并试图通过提问(“坐在狗旁边的物体是什么做的?”)来获得所有必要的知识。

本文的贡献和发现可以总结如下:提出了一种新的管道，通过提问来获取关于新对象的知识。

我们设计了基于CLIP的OC模型和作为Transformer的QG模型的文本生成模型。

我们构建了一个新的数据集来训练QG模型，即Professional K-VQG。该数据集包含各种注释，如对象标签、边界框、知识和知识感知问题。

将所提出的管道与几个基线进行了比较，表明通过问题生成获得的知识对新目标识别是有效的。

该系统由一个对象分类器(OC)和一个问题生成器(QG)组成。首先，我们描述系统的整体管道(图2)。然后，我们在以下部分中描述每个模块的细节。

QG模型负责生成关于图像中物体的问题，并获取对新物体有用的知识识别。为此，我们用部分知识来约束QG，这掩盖了部分知识。

一旦得到生成问题的答案，将获得的知识 K' 添加到模型的原始知识源K中，OC的知识源更新为 K+ = K+ K' 。然后，在下一个推理阶段，OC根据更新后的知识源K+对知识和标签进行预测。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！
▲扫码加入星球学习
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

继续阅读

阅读原文