Point2Pix：通过神经辐射场进行逼真的点云渲染

作者
：Tao Hu, Xiaogang Xu 等

来源
：ArXiv 2023

论文题目
：Point2Pix: Photo-Realistic Point Cloud Rendering via Neural Radiance Fields

论文链接
：https://arxiv.org/abs/2303.16482

内容整理
：王秋文

引言
算法

点引导的采样
多尺度辐射场
融合解码
损失函数

实验

与点渲染器比较
与基于 NeRF 的合成比较

引言

点云渲染的⽬的是在给定的相机参数下从点云合成图像，这在 3D 可视化、导航和增强现实中经常使⽤。点云表⽰有很多优点，例如其具有灵活的形状并通⽤的 3D 先验。然⽽，由于点云通常由 3D 扫描仪（RGBD 或 LiDAR）或由图像的多视图⽴体（MVS）⽣成，因此这些点通常稀疏地分布在3D场景。尽管传统的基于图形的渲染器可以在不进⾏训练或微调的情况下将点云渲染为图像，但质量并不令⼈满意，存在孔伪影和缺失细节的问题。最近，神经辐射场 (NeRF) 被提议⽤于 3D 表⽰和⾼保真新视图合成。它采⽤隐函数直接将每个点的空间信息（位置和⽅向）映射到属性（颜⾊和密度）。在这项⼯作中，作者将点云和 NeRF 相结合，从⽽提出了⼀种名为 Point2Pix 的新型点云渲染器，可以从彩⾊点云合成逼真的图像。与⼤多数基于 NeRF 的⽅法相⽐，本文的⽅法不⼀定需要多视图图像或室内场景的微调程序。本文的主要贡献有以下四点：

提出了 Point2Pix 方法从而将点云渲染为逼真的图像
提出了一种有效的光线采样策略以及融合解码器以减少每条光线上的采样点的数目以及光线的总数，加速了渲染过程
提出了多尺度辐射场，其可以在任意三维空间的位置处提取可辨别的三维先验
在室内数据集上进行的实验可以说明所提出的方法都有效性和泛化性

算法

对于一个有个点的点云（，）来说，本文的目标是在给定相机参数时使用所提出的渲染器渲染出逼真的图像：

点引导的采样

本文所提出的模型基于点云结构，其具有相对精细的场景形状先验。因此，作者提出了一种点引导的采样以在点云的引导下提高光线采样的效率。对于任意的查询点，寻找到在点云中距离它最近的点，检查是否在附近的半径为的球状区域：

如果这一条件满足的话，那么查询点就被认为是一个有价值的点，别切获得这个点的特征。如果在一条光线上没有有价值的点，那么则从近到远进行均匀采样。采取这样的采样策略可以降低计算和存储成本。

多尺度辐射场

作者通过重建多尺度辐射场来提取有判别力的三维点和光线特征，包括点的编码以及基于 NeRF 的特征渲染。

点的编码的目的是对于每一个有价值的采样点。本文使用 ME（Minkowski Engine）中的 3D 的稀疏 Unet 作为点编码器的骨干，其可以对为从点云转换而来的稀疏 tensor 建立一个 3D CNN。如图 1 所示，点编码器从原始点云的个不同的尺度种提取多个 3D 特征体，并在尺度下选择特征来重建多尺度辐射场。

对于每一个在尺度下有价值的采样点，作者在中查询特征以获得该点经过插值的特征并使用隐式函数来推断点的密度和最终的点的特征：

接下来，则需要将查询的三维点的特征渲染为二维特征图。在每个特征尺度下，作者将密度和使用体渲染聚集以得到二维特征图：

这样，可以获得个渲染特征图，其中和分别表示特征高度和宽度，是通道数。

融合解码

尽管本文提出了一种可以减少存储消耗的有效的光线采样策略，但算法依旧需要超过 20GB 的 GPU 内存来渲染一张的图。另外，渲染得到的二维图像中依旧有许多空洞需要被填补。为了解决以上的两个问题，作者设计了一个包含条件卷积和上采样模块的融合解码器作为从渲染得到的特征图合成最终图像的神经渲染器。

本文的条件卷积将前面层的特征与渲染得到的特征相融合，其中条件化的输入是每个层渲染得到的特征。这一模块使用层归一化实现。具体来说，对与渲染得到的特征图，作者通过二维卷积计算条件参数，包括尺度和偏移。对于前面阶段的特征，作者对其使用层归一化，并按照进行缩放。最终，融合得到的特征可以通过加上偏移量获得：

在上采样部分，作者使用了 PixelShuffle 来对融合后的特征在每个阶段上采样两次。PixelShuffle 经常被用于超分辨率任务，该方法利用卷积层来扩展通道大小并将其重塑为空间大小：

最后，使用大型的生成模型作为后处理过程的解码器渲染得到最后的渲染图像。

损失函数

从整体上说，作者使用了点云损失、神经渲染损失以及感知损失来训练所提出的点编码器和融合解码器的参数：

所有在原始点云数据中的点提供了从坐标到密度和颜色的真实映射关系。记通过 Point2Pix 得到的点的查询点的密度和颜色为和，则点云损失可以被表示为：

使用这一损失可以鼓励点处预测的密度可以大于某一个设定的阈值。

是经过融合解码器得到的渲染图像与实际图像间的均方误差损失：

是一种图像合成中经常使用的损失，它提高了生成的真实性：

其中，指的是提取VGG特征。

实验

与点渲染器比较

在非微调评估的条件下，将本文的方法与不同的点渲染方法进行比较。经过训练后，所有方法都直接在新颖的场景中进行测试。评估结果如表 1 所示。本文的解决方案比其他解决方案的精度高得多，这反映了其在实际应用中的巨大优势。与其他点渲染器和基于 NeRF 的合成方法进行定性比较。可视化如图 3 所示。基于图形的点渲染器通常会生成带有孔的图像，因为点很稀疏。由于缺少3D先验，生成的图像不真实。本文的算法择达到了最佳的视觉质量，这显示了Point2Pix的卓越性能

与基于 NeRF 的合成比较

为了在新场景中实现通用视图合成，将本文的方法与其他基于 NeRF 的方法进行比较，本文的算法达到了所有方法中最高的性能。尽管NeRF、NSVF和PlenOctres的结果是可比的，但它们的训练时间要长得多。当在20分钟内训练Instant NGP、Plenoxels、Point NeRF 和 Point2Pix 时，Point2Pix 的性能会更好。该实验证明了点云先验与NeRF相结合的优势

继续阅读

阅读原文