会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
◆ ◆ ◆ ◆
Pix2Vox: 基于上下文感知的3D重建网络
谢浩哲,姚鸿勋,孙晓帅,周尚辰,张盛平
ICCV 2019
推荐理事:姚鸿勋
源代码:https://github.com/hzxie/Pix2Vox
◆ ◆ ◆ ◆
背景介绍
三维重建在机器人、计算机辅助设计、虚拟现实和增强现实都非常重要。传统的三维重建方法(例如Structure from Motion,SLAM)在重建时完全依赖特征匹配。然而,对于弱纹理的物体或者视图差异较大时,特征匹配变得非常具有挑战性。在这种情况下,传统的方法难以恢复三维物体的结构。近几年,随着深度学习和大规模3D数据集(如ShapeNet [1])的出现,三维重建可以不再依赖特征匹配,并得以借助从大规模数据中学到的形状先验进行重建。因此,利用深度学习技术从单个或者多个视图恢复某个物体的三维结构在过去的几年中被广泛研究。
主流的工作(如3D-­R2N2[2])借助于循环神经网络(RNN)按照顺序融合多个图片的特征。随着视图数量不断增多,重建的结果被不断改善(如图1所示)。
图1 3D-R2N2总体框架图(摘自原文)
然而,基于RNN的方法存在3个问题:
  • RNN的结果不是排列不变的。对于同一组输入图片但输入顺序不同时,基于RNN的方法无法给出稳定的重建结果;
  • RNN存在长时记忆消失问题当输入大量的图片时,部分的图片会被RNN所遗忘,因此基于RNN的方法无法充分利用全部的图片进行重建;
  • RNN难以进行并行计算。由于RNN的输出依赖于上一时刻的输入,因此基于RNN的方法会存在效率低下的问题。
为了解决这些问题,我们提出了一个新的框架:Pix2Vox。它可以从任意长度的输入图片中重建物体的三维模型。首先,一个精心设计的编码器­解码器(Encoder-Decoder)为每张图片预测出一个粗略的三维模型。接着,上下文感知融合(Context-aware Fusion)模块可以从这些粗略的三维模型中选择出最佳的重建部分,并将其组合成一个融合的三维模型。最后,一个微调器(Refiner)进一步微调了融合的三维模型生成最终的重建结果。在ShapeNet和Pix3D的实验结果表明,所提出的Pix2Vox显著地超越了目前所有的state-­of­-the-­art方法。另外,所提出的方法的反向传播速度是3D-R2N2的24倍。在未见过的物体上,Pix2Vox也表现出更好的泛化性能。
方法概述
图2 Pix2Vox总体框架图
所提出的Pix2Vox用于从单张或者多张任意视角的图像中恢复物体的三维结构。其中,物体三维结构是使用体素表示的。在体素中,0和1分别表示一个体素点是未被填充的和被填充的。Pix2Vox核心模块如图2所示。首先,编码器(Encoder)将每张图像编码成一个特征向量;接着解码器(Decoder)从每个特征向量都恢复出一个粗略的三维模型;然后所恢复出的一个或者多者三维模型被输入至上下文感知融合(Context-­aware Fusion)模块,这个模块从粗略的三维模型中自适应地选择出每个模型恢复地最好的部位,并融合成一个三维模型;最后,微调器(Refiner)通过Skip Connections形成一个残差网络,从而用于进一步改进融合后的重建结果。
图3 Pix2Vox-F和Pix2Vox-A的网络结构图
考虑到效率与精度上的平衡,我们设计了2个版本的网络,分别命名为Pix2Vox-F和Pix2Vox-A。Pix2Vox-F拥有更高的效率,而Pix2Vox-A拥有更高的精度。二者的网络结构如图3所示。
上下文感知融合模块
图4 上下文感知融合模块的可视化及网络结构
对于同一个物体,不同视角所观察到的部位是不同的。对于不可见的部位,它的重建质量会略低于可见的部位。受到这点的启发,我们提出了上下文感知融合,它可以从多个三维体素中选择高质量的重建部位,这些部位被用于组建成一个融合的三维模型(如图4a所示)。如图4b所示,给定一个或者多个三维体素模型,上下文感知融合模块可以为体素中的每一个点输出一个得分,这些得分会被用于加权,以融合多个三维体素的值。在这个过程中,不同三维体素的空间约束得以保留,使得Pix2Vox可以更好地利用多个视图的信息恢复物体的三维结构。具体来说,上下文感知融合模块将第r个三维模型
对应的上下文
作为输入,上下文由解码器最后两层的输出拼接而成。上下文评分网络(Context Scoring Network)为第r个模型的上下文生成得分
。这个网络由5个3D卷积块,每个卷积块中包含 Batch Normalization 和 ReLU,其中的每个卷积层的 Kernel Size 为
,Padding为1。这5个卷积层的输出通道数分别为 9,16,8,4,1. 网络对每个
的输出
会使用Softmax函数进行归一化。第r个体素中坐标为
的得分
可以通过如下公式计算得到:
其中n表示输入图片的数量。最终的加权输出结果
可以由每个点的得分和对应位置的体素值加权得到:
实验结果
表1 在ShapeNet上的单视图重建结果
表2 在ShapeNet上的多视图重建结果
为了验证Pix2Vox在合成数据集上的性能,我们在 ShapeNet和3D-R2N2[1]、PSGN[3]、OGN[4]、DRC[5]进行了对比。为保证对比的公平性,我们在测试时使用了相同的图片(除了PSGN[3])。尽管PSGN在训练时使用了更多的数据,Pix2Vox-­A依然表现出比它更好的性能。表1和表2分别表示了在ShapeNet数据集上从单视图和多视图恢复三维物体结构的结果。单视图重建的实验结果表明(表1),Pix2Vox­-F和Pix2Vox-­A都显著地超过了其他方法。相比于3D-­R2N2,Pix2Vox­-A在IoU上有18%的性能提升。在多视图重建上,Pix2Vox-­F和Pix2Vox­-A的性能在所有的视图上都超越了3D-­R2N2。
图5 在ShapeNet上的重建结果的可视化
图5展示了一些在ShapeNet上有代表性的重建结果。Pix2Vox­-F和Pix2Vox­-A都可以更好地恢复出物体的纤细部位,如台灯和桌子腿。和Pix2Vox-­F相比,Pix2Vox­-A拥有更高维度的特征向量和更多的参数,也拥有更好的重建性能。另外,多视图重建的实验结果表明Pix2Vox-­F和Pix2Vox­-A的性能都超越了3D­-R2N2。
表3 在ShapeNet上的训练时间、运行时间及内存占用的对比
如表3所示,在计算效率上,我们所提出的方法也具有更好的表现。Pix2Vox-F和Pix2Vox-A的推理速度是3D-R2N2的8倍;在反向传播速度上,Pix2Vox-F和Pix2Vox-A的速度分别是3D-R2N2的24倍和4倍。
参考文献
[1] Z.Wu et al., "3D ShapeNets: A deep representation for volumetric shapes", CVPR 2015.
[2] C.B.Choy et al., "3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction", ECCV 2016.
[3] H.Fan et al., "A Point Set Generation Network for 3D Object Reconstruction from a Single Image", CVPR 2017.
[4] M. Tatarchenko et al., "Octree Generating Networks: Efficient Convolutional Architectures for High-resolution 3D Outputs", ICCV 2017.
[5] S. Tulsiani et al., "Multi-view Supervision for Single-View Reconstruction via Differentiable Ray Consistency", CVPR 2017.
往期精选
征文
第二十届全国图象图形学学术会议(NCIG2020)征文通知
丨更多
预告
”智能图形与交互前沿进展与应用“讲习班开始报名
丨更多
通知
2020年“CSIG图像图形中国行”承办方征集
丨更多
速览
ICLR2019 | Slimmable Neural Networks
丨更多
速览
ICCV2019 | 基于深度综合相关性挖掘的图像聚类算法
丨更多
速览
ICCV2019 | EMANet:期望最大化注意力网络
丨更多
-长按注册会员-
-立享会员优惠-
继续阅读
阅读原文