点击上方“计算机视觉life”,选择“星标”
快速获得最新干货
本文作者:马克斯普朗克计算机所的研究员占方能(已授权)

作者:马克斯普朗克计算机所的研究员占方能

近期,神经场(Neural Fields)领域的巨大进展,已经显著推动了神经场景表示和神经渲染的发展。为了提高3D场景的计算效率和渲染质量,一个常见的范式是将3D坐标系统映射到另一种测量系统,例如2D流形和哈希表,以建模神经场。本文将这种坐标或者测量系统的转换定义为“规范变换”(gauge transformation)。这种规范变换通常采用预定义的函数,例如EG3D中的垂直投影和Instant-NGP中的空间哈希函数。然而,这种预先定义的函数往往并非最优选择,所以一个很自然的问题浮现出来:是否能以端到端的方式直接学习规范变换,让它与神经场一同进行优化?本研究将此问题拓展为一个广义的范式,包括连续型和离散型规范变换,并设计了统一的学习框架以共同优化规范变换和神经场。
论文地址:https://arxiv.org/abs/2305.03462
GitHub地址:https://github.com/fnzhan/Neural-Gauge-Fields
项目地址:https://fnzhan.com/Neural-Gauge-Fields/

Part1介绍

规范通常表示一种测量标准或测量系统,比如温度测量中的华氏度和摄氏度。而两种规范之间的转换则被称为规范变换,比如华氏度和摄氏度之间的转换。在物理领域中,各种坐标系统的变换也可以被称之为规范变换,如图一所示的局部和总体的规范变换。
图一:物理中的规范变换
而在神经场领域中,规范变换的定义可以进一步扩展为连续变换和离散变换,如图二。
图二:神经场的规范变换
连续规范变换:如果目标规范(测量系统)是连续的,那么这种变换定义为连续规范变换。这种连续规范变换,基本等同于坐标变换。对于一个原始3D空间中的点x,可以通过一个神经网络M对它进行规范变换,从而得到它在目标规范中的新坐标即M(x)或者x+M(x)。这个新坐标可以用来索引神经场,包括隐式神经场(MLP-based)和显式神经场(grid-based)。连续规范变换的典型应用包括UV纹理映射和学习TriPlane映射。对于UV纹理映射,规范变换具体定义为3D空间到2D UV空间的映射,由于神经场是在2D UV空间进行索引,所以我们通过在UV空间进行均匀点采样可以得到每个点的颜色,从而得到显式的UV,同时可以对2D UV进行编辑(如图)。
图三:学习2D UV映射和进行UV编辑
对于TriPlane映射也是类似,我们采用三个单独的网络来分别学习3D空间到2D平面的映射。我们发现这种可学习的变换可以提升TriPlane神经场的渲染效果和模型收敛速度,如图四所示。
图四:学习3D空间到TriPlane的规范变换
以上只是列举出两种应用,实际上这种可学习的连续规范变换可以根据目的灵活地嵌入到各种NeRF模型当中,比如动态场景NeRF,和基于NeRF的本征分解。
离散规范变换:如果目标规范是离散的(比如哈希表空间),那么这种变换定义为离散规范变换。由于离散空间的索引参数是离散的,我们不能像连续规范变换那样直接通过网络预测索引参数值。所以,对于3D空间中的一个点x,我们用神经网络预测这个点在哈希表上的离散概率分布,然后通过Top-1操作得到最大概率点对应的哈希表索引。由于Top-1操作是不可微分的,所以需要通过重参数技巧来得到近似梯度进行模型优化,算法流程图五所示。
图五:离散规范变换学习中的正向/反向传播
离散规范的主要应用包括Instant-NGP的模型压缩,可泛化NeRF等。对于可泛化NeRF,由于哈希映射变得可学习,所以多个场景都可以学习映射到同一个哈希表中,从而实现场景泛化NeRF。

Part2可视化分析

尽管证明了学习规范变换是可行的,但是学习到的规范变换具体遵循什么样的规律依然不清楚,所以这里对学习到的规范变换进行了可视化。对于3D空间和2D流形(球面或者平面)的规范变换,我们学习一个逆映射将2D流形上均匀采样的点投影到3D空间,如图六所示。
图六:规范变换可视化
通过观察,我们发现学习到的规范变换和场景的几何(或者说密度)有很明显的关系,物体表面的点(也就是密度比较大的点)会被很好的投影到目标平面即占有率很高,而密度小的点所在空间会被高度压缩并在目标平面只有很低的占有率。这个结果也符合直觉:物体表面对渲染结果影响最大,所以渲染损失函数倾向于让物体表面更多地占用目标平面的特征,同时压缩对渲染影响很小的低密度空间。

Part3信息不变性规范

理想情况下,我们期望3D空间信息能在规范变换中保证保持不变(Information Invariant, or InfoInv),一半情况下这个很难实现,这里我们通过推导证明了神经场中的位置编码实际上实现了规范变换中的相对信息不变性,从而有助于神经场建模。而本质上,这种不变性规范是对神经场坐标施加了一个相位变换ei(mθ) :
如图七所示,将位置编码简单地和Grid或者MLP-based神经场结合都能显著提高模型效果。近期的PET-NeuS等工作也证明了这种方法的有效性。
图七:信息不变性规范与Grid和MLP-based神经场结合

Part4总结

这篇文章主要介绍了神经场中的规范变换,尤其是如何通过渲染损失联合优化神经场景表示和规范变换。通过应用和实验,证明了这种可学习规范变换的优点和广泛适用性,包括UV映射,TriPlane神经场等。基于这种可学习的规范变换,还有大量神经渲染任务值得深入探索和应用。
以上内容来自小六的机器人SLAM学习圈知识星球每日更新内容
如果你还不是【小六的机器人SLAM圈】成员,扫描加入↓“长按”“扫描”下方二维码,加入即可开始学习~3天内无条件退款~ 购买后务必加客服领取其他权益和加交流群,现在加入免费送近千页5年机器人SLAM答疑手册 

最后介绍一下我们最近的几个学习活动:(点击下方标题即可快速获取)
管道内单目视觉SLAM尺度漂移较明显,定位挑战很大。学完本项目,你可以动手做到:利用管道的圆柱形结构约束,基于ORB-SLAM2改进地图点位置估计,从而优化SLAM算法精度。详情点击 从小白到老手,我如何搞定管道机器人位姿估计?
LVI-SAM是MIT团队的TixiaoShan等人开源的一个紧耦合的激光雷达视觉惯导SLAM系统,可以实时高精度鲁棒的进行状态估计和建图。哈工大博士带你学习,1个月的学习挑战赛,详情点击 MIT团队开源的这个激光雷达视觉惯导SLAM系统,太香了!
FAST-LIO2是香港大学火星实验室(MARS)发表在IEEE-RAL和IEEE-TRO的两篇论文,是一种具有高计算效率、高鲁棒性的雷达惯性里程计(LIO)本课程中上海交通大学博士王泽霖推出为期1个月的学习挑战赛第2期,从原理到实战快速掌握,详情点击 香港大学开源的这个激光雷达惯性SLAM,太强了!
本项目对ALOAM进行改进,融合众多新技术,ALOAM+ LINK3D + CSF + BALM,纯激光雷达SLAM效果逼近LIO-SAM。详情点击 我用纯LiDAR SLAM实现逼近LIO-SAM的效果,如何做到?

10月14日下午,成都电子科技大学,清水河校区,不见不散!报名链接 定了!这周六,成都线下交流会,快来报名!

继续阅读
阅读原文