看图说话

当前的计算机视觉任务如目标检测和图像分割大多关注在视觉场景感知的层面,需要提升对场景语义级别的理解能力。在实际的 AI 落地场景中,包括智慧城市,智能驾驶,智慧工厂的视觉感知任务中,除了需要对场景中的目标进行分割外,还需要对图像中各个主体的相互关系做推理和预测。与传统检测分割任务不同,本竞赛赛题提出全场景图生成任务,要求参赛者根据给定的复杂场景图片生成场景图和对应的全景分割图,进而实现更高阶视觉任务的理解和推理算法研究。
赛题内容
目前的计算机视觉任务大多关注在图像感知的层面。例如目标检测和图像分割任务只要求模型识别出图中存在的物体并找到其位置。
然而,仅凭借这样的模型难以对场景进行全面和深入的理解。以下图 1 为例,如果人工智能模型只检测出图片中的人、大象、栅栏、树木等,该模型还远远达不到理解的层次,也无法基于对图片的理解进行下一步决策。
场景图生成(scene graph generation)在目标检测的基础上增加了对物体间关系进行预测的要求(如图 2)。
传统的场景图生成任务的数据集通常对物体有一个检测框的标注,同时标注检测框之间的关系。
然而,这类任务有几个固有缺陷:
(1)检测框无法对物体进行准确的定位:如图 2 所示,检测框在标注人的时候不可避免地将人周围的物体包括在内;
(2)无法对背景进行标注:如图 2 所示,大象后方的树丛用检测框标注会包括几乎全图,因此涉及背景的关系都不能被准确标出,这也让场景图无法全面涵盖图片的所有信息,无法做到全面的场景理解。
在很多实际的 AI 落地场景中,包括智慧城市,智能驾驶,智慧工厂的视觉感知任务中,除了需要对场景中的目标进行分割外,还需要对图像中各个主体的相互关系做推理和预测。
例如在智慧城市的监控图像中判断,一个人是否有违反文明出行的行为,例如跨越护栏,践踏草坪,投喂飞鸟等;在智能驾驶应用中,需要分析路边的行人是推着自行车、骑着自行车、还是只是靠近自行车,图像主体之间不同的关系对视觉任务的理解和推理非常重要;在智慧工厂应用中,需要判断操作员是否正确和周围环境交互,是否在安全区域内,是否与不安全设备有接触,是否在工作场景与其他人交谈分心。
现有的方法是手动设置一些业务规则,例如设置感兴趣区域等方法,进行粗略的图像主体关系判断。而不是通过数据驱动的方法自动从数据中学习,所以目前的方法缺乏泛化性以及难以适应具体业务落地的复杂性。
因此,在这个比赛中,我们提出了全场景图生成(panoptic scene graph generation)。如图 3 所示,该任务利用全景分割对物体和背景进行全面且准确的定位,从而解决场景图生成任务的固有缺陷,以推动领域向全面深入的场景理解的进步。
全场景图生成作为一个建立在传统检测分割任务上的新的上层任务,是一个非常有挑战的视觉任务,有以下几个难点有待参赛者解决。
1
问题抽象程度高
相比于纯检测分割问题,全场景图生成的关键在于对图片中关系的推断和识别,因此引入了如下的挑战。
关系的模糊性:有一些关系的意思难以被准确定义。例如 crossing 可以使用在airplane crossing sky, car crossing road,person crossing road。模型需要学习到“穿过”这种模糊关系的含义。
关系的相似性:一些关系和其他关系的差异不显著。例如 running 和 walking,有 parked on 和 driving on。模型需要通过一些视觉细节来做出选择。
关系的准确性:我们在标注测试集时要求标注员能标更准确的关系(例如 walking on)就不标注更模糊的关系(例如 on)。这就要求模型不能简单地预测模糊的关系,而要更加注重对图中关系的准确描述。
2
数据复杂度高
长尾效应:根据真实世界的数据分布,本任务提供的数据有天然的长尾效应。具体上讲,长尾效应同时表现在关系和物体/背景类别上。解决长尾问题可有效提升 mean recall @ 20 这个评价指标。
不准确的分割标注:本任务提供的数据集基于 coco 全景分割。分割中存在分割标注不准确,漏标的问题。参赛者需要考虑如何避免噪声标注的影响。
三元组的不完全标注:本任务的训练集并不是完全标注,即有一些图片的部分关系没有标出。参赛者需要考虑处理这类不完全标注的问题。
3
算法复杂度高
对算法速度的要求: 如果算法先检测物体后再预测关系,假设检测出了n个物体,两两比较关系需要进行 n × (n-1) 比较,这会让推断速度很慢,不利于实际生产。任务要求设计的算法有较快的速度。
关注远距离物体之间的关:有时图片上的关系出现在两个较远的物体之间。算法需要处理远距离物体之间的关系。
关系的层级结构:关系大体可以分成位置关系和动作关系。算法可能需要对关系的层级结构进行建模,以避免对一个种类的关系的忽视。
利用视觉推理进行关系识别:算法可能需要利用视觉推理进行关系识别,这是目前计算机视觉领域尚未全面探索的领域。
避免算法误入捷径:模型在预测关系时容易走捷径。这包括模型会不根据图片的实际内容,而只根据分割出的物体类别预测高频关系(如检测到 person 和 bicycle就认为一定是 riding,然而图片实际是 person carrying bicycle),或倾向于输出简单关系。算法需要规避这一点。
赛题描述
图4
本次赛题要求根据给定的复杂场景图片生成这张图的场景图(scene graph)和对应的全景分割图(panoptic segments)。其中,全景分割图的每一个分割块对应场景图的一个结点(node),即图像中的物体或背景。我们希望模型准确全面地识别出图中存在的关系。注意到场景图其实是由很多主谓宾三元组构成。模型在生成场景图时实质上是在输出若干主谓宾三元组,如上图 4 所示。

数据集说明
我们为参赛者提供了 46322 张训练图片和 2186 张验证集图片(向选手公开)。每张图片都进行了全景分割图和场景图的标注。整个数据集有 133 个物体/背景类别和 56 个关系类别。具体类别如下。我们保留 1000 张测试集图片供评价使用(非公开)。我们希望参赛者仅通过提供的数据集进行模型训练,在我们提供的测试集上达到好的效果。
比赛时间
大赛分为初赛和决赛两个比赛环节
初赛时间:2022年8月初-10月7日
决赛时间:2022年11月1日-11月15日
参赛详情将于开赛前在大赛官网及官方公众号发布,敬请关注。

继续阅读
阅读原文