无需Grouping，中科大和微软亚研院提出Group-Free的三维物体检测方法，性能远超之前最好方法…

©PaperWeekly 原创 · 作者｜刘泽

学校｜微软亚洲研究院实习生

研究方向｜计算机视觉与深度学习

无需 Grouping，中科大和微软亚研院提出 Group-Free 的三维物体检测方法，性能远超之前最好方法。

论文标题：

Group-Free 3D Object Detection via Transformers

论文链接：

https://arxiv.org/pdf/2104.00678

代码地址：

https://github.com/zeliu98/Group-Free-3D

近年来，从三维点云中直接检测三维物体得到了越来越多的关注。为了从不规则的点云中提取物体的特征，目前的方法通常都会借助点聚合操作（Point Grouping）为某个候选物体聚合对应的点，进而可以从聚合的点中提取候选物体的特征。

人们提出了许多不同的聚合策略，Frustum-PointNet [1] 首先使用二维图像生成二维候选框，再将二维候选框包含的三维空间中的点聚合在一起；Point R-CNN [2] 直接生成三维候选框，并将三维候选框中的点聚合在一起；VoteNet [3] 则通过 Hough Voting 将 voting 到同一或空间相近的物体中心的点聚合在一起。

尽管这些人工设计的聚合策略在目前的三维物体检测器中起到了至关重要的作用，但真实场景的复杂和多样性往往会导致这些点聚合方法产生错误（例如图1），并损害检测器的性能。

▲ [图1] 在人工设计的点聚合方法中，RoI-Pooling 的蓝色框和 Voting 的蓝色球中的所有点都被聚合到同一候选物体，从而产生了错误。本文的无需聚合（Group-Free）方法可以自动学习每个点对每个物体的贡献，从而可以缓解手工设计的聚合方法的弊端。

本文提出了一种简单而有效的方法从点云中直接检测三维物体，而不需要借助手工设计的点聚合策略。我们方法的核心在于使用 Transformer [4] 中的注意力机制来利用点云中的所有点来计算物体特征，每个点对物体的贡献通过网络训练而自动学习获得。

为了进一步发挥 Transformer 架构的优势，本文还提出了迭代式边界框预测（Iterative Box Prediction）与多阶段预测整合（Ensemble Multi-stage Predictions），进一步提升了物体检测的准确度。

我们提出的方法在两个被广泛使用的三维物体检测基准测试 ScanNet V2 和 SUN RGB-D 中都取得了目前最好的表现。其中，SUN RGB-D 取得了 62.8 [email protected] 和 42.3 [email protected]，ScanNet V2 则取得了 69.1[email protected] 和 52.8 [email protected]，远超之前的方法。

方法介绍

在基于点云的三维物体检测中，检测器的输入是个点的集合，目标是检测出点云中三维物体的边界框以及物体类别。

本文的整体架构如图 2 所示，它主要由三部分构成：一个主干网络（backbone network），用来提取点云中每个点的特征；一个初始候选物体采样模块（initial object candidates sampling module）；一组堆叠的注意力模块（stacked attention modules），用于从所有点中迭代提取并改进候选物体的特征。

▲ [图2] 整体架构示意

1.1 骨干网络（Backbone Network）

为了与其他方法做公平的比较，本文选取了 PointNet++ [5] 作为主干网络，并采用了一个编码-解码器的结构。它以 N 个点作为输入，首先通过 4 阶段的集合抽象层（set abstraction layer）逐渐降采样 8 倍（例如得到 256 个点），再通过特征传播层（feature propagation layer）上采样 2 倍（例如得到 1024 个点）。

通过骨干网络最终产生 2 倍降采样的每个点的维特征，这些特征会进一步被初始候选物体采样模块与堆叠的注意力模块所使用。

1.2 初始候选物体采样（Initial Object Candidate Sampling）

本文通过自底向上的方式从点云中直接采样初始的候选物体，并提供了一种简单高效的采样方式：K 最近点采样（k-Closest Points Sampling，KPS）。

在本方法中，每个点会去分类他们属于某个物体的概率，并采样分类概率较高的点。分类的标签由点离真值框中心的距离决定，每个真值框最近的 k 个点定义为正样本，其余点为负样本。

1.3 基于Transformer解码器进行迭代的物体特征提取和边界框预测（Iterative Object Feature Extraction and Box Prediction by Transformer Decoder）

利用采样得到的初始候选物体，本文采用 Transformer 作为解码器，利用点云上的所有点来计算每个候选物体的特征。Transformer 由一系列堆叠的多头自注意力（multi-head self-attention）模块和多头交叉注意力（multi-head cross-attention）模块以及前馈网络（feed-forward network，FFN）构成，如图 3 所示。

其中自注意力模块在不同物体之间交互信息，而交叉注意力模块则可以利用点特征更新物体特征，前馈网络则进一步变换每个物体的特征。

▲ [图3] 注意力模块示意

在原始的 Transformer 中，空间位置编码（spatial encoding）是固定的。而在本文中，我们提出了一种迭代改进式的空间位置编码方法。

具体来说，本文在每个解码器阶段都会进行边界框的预测，而上一阶段的预测框可被用来产生当前阶段同一物体改进后的位置编码，同时该位置编码还会与当前阶段解码器的输出特征结合，作为下一阶段解码器的输入特征。

在实验中，我们发现这种迭代式的空间位置编码方法可以在 ScanNet V2 中提升 1.6 [email protected] 和 5.0 [email protected]。

多阶段的预测还带了另外一个好处，即可以将不同阶段的预测结果进行整合。具体来说，不同阶段的预测框将被组合在一起进行非极大值抑制（NMS）并得到最后的预测结果。本文发现在 SUN RGB-D 上，该方法可以提高 3.9 mAP@0.25。

实验分析

2.1 系统比较

表 1 展示了 ScanNet V2 上的系统比较结果。

▲ [表1] 在 ScanNet V2 上与目前最先进方法的比较。4×PointNet++ 表示使用了 4 个独立的PointNet++；PointNet++w2× 表示骨干网络的宽度增大一倍；L 为解码器深度，O 为候选物体个数。

可以看到，在使用标准 PointNet++ 作为骨干网络的情况下，本文的基础模型（6 层解码器以及 256 个候选物体）达到了 67.3 [email protected] 和 48.9 [email protected]，比之前使用同样骨干网络的最好的方法分别高 2.8 和 5.5。进一步提高至 12 层解码器，[email protected] 的差距进一步拉大到 6.3。

在使用更强的骨干网络（PointNet++w2×）以及更多候选物体（512 个）的情况下，本文放大达到了69.1 [email protected] 和 52.8 [email protected]，远远超出之前最好方法。

表 2 展示了 SUN RGB-D 上的系统比较结果。

▲ [表2] 在 SUN RGB-D 上与目前最先进方法的比较，其中 imVoteNet 使用了额外的 RGB 图像数据。

在 SUN RGB-D 上，本文的基础模型达到了 62.8 [email protected] 和 42.3 [email protected]，超过之前所有只用点云作为输入的方法。

2.2 与点聚合方法的比较

RoI-Pooling 以及 Voting 是两种被广泛使用的点聚合方法，表 3 展示了本文方法与这两种方法的比较。可以看到，RoI-Pooling 效果好于 Voting，但仍然落后本文方法 1.2 [email protected] 与 4.1 [email protected]，这证明了我们方法相较于基于点聚合方法的优势。

▲ [表3] 与基于点聚合的方法的比较

2.3 可视化结果

图4展示了不同解码器阶段检测结果的定性展示。可以看到随着解码器变深，检测结果越来越精确。

▲ [图4] 不同解码器阶段检测结果的定性展示

图 5 展示了不同解码器阶段学习到的交叉注意力权重，我们可以看到低阶段往往集中在相邻点上，而通过多次改进模型将注意力更多集中在物体本身，从而可以提取更好的物体特征。

▲ [图5] 不同解码器阶段交叉注意力权重的可视化。绿点表示参考点，红色表示权重较高区域。

参考文献

[1] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas J Guibas. Frustum pointnets for 3d object detection from rgbd data. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 918–927, 2018.

[2] Shaoshuai Shi, Xiaogang Wang, and Hongsheng Li. Pointrcnn: 3d object proposal generation and detection from point cloud. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–779, 2019.

[3] Charles R Qi, Or Litany, Kaiming He, and Leonidas J Guibas. Deep hough voting for 3d object detection in point clouds. In Proceedings of the IEEE International Conference on Computer Vision, pages 9277–9286, 2019.

[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need, 2017.

[5] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NIPS, 2017.

更多阅读