边界框标注将死，未来属于像素精度标注

选自medium

作者：Vahan Petrosyan

机器之心编译

参与：胡曦月、张倩

边界框标注是目前主流的一种标注方式，但这种方式数据需求量大、精度低，而且费时费力。在这篇文章中，作者分享了当前最先进的标注方法、趋势和未来方向，并指出像素精度的标注才是图像标注的未来。

图像标注简介

图像标注是指选择图像中的物体并按名称进行标记的过程，它是用人工智能实现计算机视觉的基础，例如，自动驾驶汽车软件准确识别图像中的各种物体——比如一个行人——需要数十万到数百万张经过标注的行人图像。其它用例还包括无人机/卫星影像分析、安全监控、医学成像、电子商务、在线图像/视频分析、增强现实／虚拟现实（AR / VR）等等。

随着图像数据和计算机视觉应用的增加，训练数据的需求量也越来越大。据统计，在人工智能和机器学习项目中，数据准备工作和工程类任务所消耗的时间占比在 80％以上。近年来，为满足该市场需求，许多数据标注类服务和工具应运而生。据调查，数据标注市场在 2018 年为 15 亿美元，预计到 2023 年将增长到 50 亿。

主流标注方法：边界框

边界框是最常见的标注技术，也就是在目标对象周围拟合出一个紧密的矩形框的过程。由于边界框相对简单，许多目标检测算法都是基于这种方法开发的（如 YOLO、Faster R-CNN 等），因此这也是最常用的标注方法。所有标注公司都提供边界框标注（服务或软件）的解决方案，但是边界框标注方法还存在下列主要缺点：

为了达到 95％以上的检测精度，往往需要相对较大数量（通常在 100000 的数量级）的边界框。例如在自动驾驶行业中，人们通常要收集数百万个汽车、行人、路灯、车道、锥形路标等物体的边界框。
无论使用多少数据，基于边界框标注的方法通常都无法超过人类的检测精度。这主要是因为物体周围的附加噪声也被包含在了边界框区域中。
在物体遮挡的情况下检测会变得极其复杂。在许多情况下，边界框区域中目标物体覆盖不到 20％，其余部分就成为噪声，这就会使检测算法产生混淆，使其难以找到正确的目标物体（见下面绿色框中的示例）。

边界框失效示例：绿色框——高度遮挡行人的情况；红色框——高噪声的情况。

像素精度的图像标注

上述边界框标注存在的问题可以通过像素精度的标注方法来解决。然而，最常使用这种方法的工具往往严重依赖于耗时的逐点对象选择工具，标注人员必须用它描出整个物体的边界。这不仅非常费时、昂贵，而且对人为错误非常敏感。相比较而言，这种标注任务的花费通常是边界框标注的 10 倍左右。此外，使用像素精度标注同样多的数据时，时间上也需要多花 10 倍。因此，边界框标注仍然是各种应用中最常用的标注方法。

然而，深度学习算法在过去七年中取得了长足的进步。虽然 2012 年时，当时最先进的算法（Alexnet）只能对图像进行分类，现在的算法已经可以在像素精度上准确地识别目标（参见下面的图像）。对于这种精度的目标检测，完美像素（pixel-perfect）标注是其关键。

过去 7 年深度学习的演变

基于 AI /分割的方法

有一些逐像素标注的方法使用基于分割的解决方案（比如 SLIC Superpixels、基于 GrabCut 的分割）。然而，这些方法基于像素颜色进行分割，并且在诸如自动驾驶之类的现实场景中往往性能和结果都不尽如人意，因此在标注任务中用的不多。

在过去三年中，英伟达（NVIDIA）与多伦多大学针对像素精度标注的解决方案进行了广泛的研究。他们的研究主要聚焦于从给定的边界框生成像素精度的多边形，研究成果包括以下论文：

Polygon RNN（https://arxiv.org/pdf/1704.05548.pdf）；
Polygon RNN ++（https ：//arxiv.org/pdf/1803.09693.pdf）；
Curve-GCN（https://arxiv.org/pdf/1903.06874.pdf）

论文分别于 2017 年、2018 年、2019 年发表于 CVPR。在最好的情况下，使用这些工具生成多边形需要至少两次精确的点击（即生成边界框），然后期望它能准确地捕获目标对象。但是，生成的多边形往往不够准确，从而可能要比预期花费更多的时间（参见下面的示例）。

目标受遮挡情况下使用 Polygon RNN++工具的示例

这种多边形方法的另一个问题是难以选择类似于「甜甜圈」（Donut）这样的目标（拓扑学来说），此时至少需要两个多边形才能加以描述。

一种逐像素标注新方法

最简单快捷的逐像素标注方法应该是只点击一次即可选择物体对象。我在瑞典 KTH 读博时专门研究了这个问题。2018 年 11 月，在我博士的最后阶段我们制作了一个简单的工具原型，只需点击一次即可选择对象。初步实验表明，它可以将逐像素标注加速 10-20 倍而不影响选择质量。以下是它如何在与上文所示相同的图像上工作的示例。

SuperAnnotate 标注

经过仔细分析，我们的解决方案与其它基于 AI 或分割的方法相比具有以下优势：

我们的算法速度允许实时分割和标注高达 1000 万像素的图像。
与 SLIC superpixels 不同，我们的分割解决方案能够准确生成非均匀区域，无论物体大小，用户都只需点击一下即可选择。
我们的软件允许瞬间改变分割区域的数量，即使最小的物体也可以选择。
算法的自学习特性进一步提高了分割精度。即使只有几百个标注，也可以观察到分割精度的显著变化。这进一步加速了标注过程。
与上面讨论的基于边界框到多边形的技术相比，我们的软件对于甜甜圈类型的物体也只需点击一次。
最重要的是，随着已标注数据的增多，我们的软件能够进行自动像素精度标注。

即使在基本的边界框标注中也至少需要 2 次精确点击来标注一个物体，与此相比，我们的方法只需要在分割区域中进行 1 次近似点击，它比生成边界框还快。

通过这个方法，我们将逐像素标注的成本降低到边界框的成本水平，同时还能够达到边界框难以企及的超越人类的检测精度。

此外，由于像素精度下没有噪声，因此将模型训练到一定准确度时所需的数据量，与边界框标注相比至少要少 10 倍。

我们的软件将于 2019 年 6 月发布。随着这款软件成为主流，我们预计，对边界框标注的需求最终将会消失。像素精度的标注将引领新的范式。

原文链接：https://medium.com/@vahavp/why-pixel-precision-is-the-future-of-the-image-annotation-12a891367f7b

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：[email protected]

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：[email protected]

继续阅读

阅读原文