NeRF&Beyond 10.4日报（HAvatar，MMPI， PARF，PC-NeRF，MIMO-NeRF，逆渲染等）

NeRF与三维重建相关

HAvatar: High-fidelity Head Avatar via Facial Model Conditioned Neural Radiance Field

https://arxiv.org/abs/2309.17128

Xiaochen Zhao, Lizhen Wang, Jingxiang Sun, Hongwen Zhang, Jinli Suo, Yebin Liu

清华大学

在轻量级设置下建模可动画 3D 人体头部头像的问题非常重要，但尚未得到很好的解决。现有的 3D 表示要么在人像图像合成的真实感方面表现良好，要么在表情控制的准确性方面表现良好，但无法两者兼而有之。为了解决这个问题，我们引入了一种新颖的混合显式-隐式 3D 表示，面部模型条件神经辐射场，它集成了 NeRF 的表达能力和参数模板的先验信息。在我们表示的核心，提出了一种基于合成渲染的条件方法，将参数模型的先验信息融合到隐式场中，而不限制其拓扑灵活性。此外，基于混合表示，我们妥善克服了现有方法中出现的形状不一致问题，提高了动画稳定性。此外，通过采用基于 GAN 的整体架构，使用图像到图像转换网络，我们实现了动态头部外观的高分辨率、真实性和视图一致的合成。实验表明，与之前的方法相比，我们的方法可以实现 3D 头部头像动画最先进的性能。

MMPI: a Flexible Radiance Field Representation by Multiple Multi-plane Images Blending

https://arxiv.org/abs/2310.00249

Yuze He, Peng Wang, Yubin Hu, Wang Zhao, Ran Yi, Yong-Jin Liu, Wenping Wang

清华大学、香港大学、上海交通大学、Texas A&M University

本文提出了一种基于多平面图像（MPI）的神经辐射场的灵活表示，用于复杂场景的高质量视图合成。具有归一化设备坐标（NDC）参数化的 MPI 因其定义简单、计算方便以及表示无界场景的强大能力而广泛应用于 NeRF 学习中。然而，现有的 NeRF 作品采用 MPI 表示进行新颖的视图合成，只能处理简单的前向无界场景，其中输入摄像机都在相似的方向上进行观察，相对平移较小。因此，将这些基于 MPI 的方法扩展到更复杂的场景（例如大范围甚至 360 度场景）非常具有挑战性。在本文中，我们探索了 MPI 的潜力，并表明 MPI 可以合成具有不同摄像机分布和视图方向的复杂场景的高质量新颖视图，而不仅限于简单的前向场景。我们的关键思想是使用面向不同方向的多个 MPI 对神经辐射场进行编码，并通过自适应混合操作将它们混合。对于场景的每个区域，混合操作为那些具有较强局部表示能力的优势 MPI 赋予较大的混合权重，而为那些具有较弱表示能力的 MPI 赋予较低的权重。这种混合操作自动调制多个 MPI 以适当地表示不同的局部密度和颜色信息。KITTI 数据集和 ScanNet 数据集上的实验表明，我们提出的 MMPI 可以合成来自不同相机姿势分布的高质量图像，并且训练速度快，优于之前用于新颖视图合成的快速训练 NeRF 方法。此外，我们还表明 MMPI 可以编码极长的轨迹并生成新颖的视图渲染，展示了其在自动驾驶等应用中的潜力。

PARF: Primitive-Aware Radiance Fusion for Indoor Scene Novel View Synthesis

https://arxiv.org/abs/2309.17190

Haiyang Ying, Baowei Jiang, Jinzhi Zhang, Di Xu, Tao Yu, Qionghai Dai, Lu Fang

清华大学、华为云

本文提出了一种快速场景辐射场重建方法，具有强大的新颖视图合成性能和方便的场景编辑功能。其关键思想是充分利用语义解析和图元提取来约束和加速辐射场重建过程。为了实现这一目标，提出了一种基元感知混合渲染策略，以享受体积渲染和基元渲染的最佳效果。我们进一步为每个输入帧迭代重建管道行为原始解析和辐射场学习，成功地将语义、原始和辐射信息融合到单个框架中。广泛的评估证明了我们的方法的快速重建能力、高渲染质量和方便的编辑功能。

Predicting Future Spatiotemporal Occupancy Grids with Semantics for Autonomous Driving

https://arxiv.org/abs/2310.01723

Maneekwan Toyungyernsub, Esen Yel, Jiachen Li, Mykel J. Kochenderfer

斯坦福大学

为了让自动驾驶车辆主动规划安全轨迹并做出明智的决策，它们必须能够预测当地环境的未来占用状态。然而，占用预测的常见问题包括预测移动物体消失或变得模糊，特别是在较长的时间范围内。我们提出了一个环境预测框架，其中包含用于未来占用预测的环境语义。我们的方法首先对环境进行语义分割，并使用该信息以及占用信息来预测环境的时空演变。我们在现实世界的 Waymo 开放数据集上验证了我们的方法。与基线方法相比，我们的模型具有更高的预测精度，并且能够在更长的预测时间范围内保持预测中的移动对象外观。

PC-NeRF: Parent-Child Neural Radiance Fields under Partial Sensor Data Loss in Autonomous Driving Environments

https://arxiv.org/abs/2310.00874

Xiuzhong Hu, Guangming Xiong, Zheng Zang, Peng Jia, Yuxuan Han, Junyi Ma

北京理工大学

重建大规模 3D 场景对于自动驾驶汽车至关重要，尤其是在部分传感器数据丢失的情况下。尽管最近开发的神经辐射场（NeRF）在隐式表示方面显示出了引人注目的结果，但使用部分丢失的 LiDAR 点云数据进行大规模 3D 场景重建仍然需要探索。为了弥补这一差距，我们提出了一种新颖的 3D 场景重建框架，称为父子神经辐射场 (PC-NeRF)。该框架包含两个模块，即父 NeRF 和子 NeRF，以同时优化场景级、段级和点级场景表示。通过利用子 NeRF 的分段级表示功能，可以更有效地利用传感器数据，即使观察有限，也可以快速获得场景的近似体积表示。经过大量实验，我们提出的 PC-NeRF 被证明可以在大规模场景中实现高精度 3D 重建。此外，PC-NeRF可以有效解决部分传感器数据丢失的情况，并且在训练时间有限的情况下具有较高的部署效率。

Multi-task View Synthesis with Neural Radiance Fields

https://arxiv.org/abs/2309.17450

Shuhong Zheng, Zhipeng Bao, Martial Hebert, Yu-Xiong Wang

University of Illinois Urbana-Champaign、CMU

多任务视觉学习是计算机视觉的一个重要方面。然而，目前的研究主要集中在多任务密集预测设置上，忽视了内在的3D世界及其多视图一致结构，缺乏灵活的想象能力。针对这些限制，我们提出了一种新颖的问题设置——多任务视图合成（MTVS），它将多任务预测重新解释为一组针对多个场景属性（包括 RGB）的新颖视图合成任务。为了解决 MTVS 问题，我们提出了 MuvieNeRF，这是一个结合多任务和跨视图知识来同时合成多个场景属性的框架。MuvieNeRF 集成了两个关键模块，即跨任务注意力（CTA）和跨视图注意力（CVA）模块，从而实现跨多个视图和任务的信息的高效利用。对合成和现实基准的广泛评估表明，MuvieNeRF 能够同时合成具有良好视觉质量的不同场景属性，甚至在各种设置中优于传统的判别模型。值得注意的是，我们表明 MuvieNeRF 在一系列 NeRF 主干中表现出普遍适用性。

Adaptive Multi-NeRF: Exploit Efficient Parallelism in Adaptive Multiple Scale Neural Radiance Field Rendering

https://arxiv.org/abs/2310.01881

Tong Wang, Shuichi Kurabayashi

Cygames Research

神经辐射场 (NeRF) 的最新进展证明了将 3D 场景外观表示为隐式神经网络的巨大潜力，从而能够合成高保真新颖的视图。然而，冗长的训练和渲染过程阻碍了这种有前景的技术在实时渲染应用中的广泛采用。为了解决这个问题，我们提出了一种有效的自适应多 NeRF 方法，旨在加速由于场景复杂性不同而导致工作负载不平衡的大型场景的神经渲染过程。我们的方法使用树层次结构方法自适应地将场景细分为轴对齐的边界框，根据每个场景部分的复杂性将较小的 NeRF 分配给不同大小的子空间。这确保了底层神经表示特定于场景的特定部分。我们通过采用引导密度网格来优化场景细分，该网格平衡每个多层感知器（MLP）的表示能力。因此，可以对每条射线生成的样本进行排序和收集以进行并行推理，从而实现适合小型 MLP 的平衡工作负载，并具有一致的尺寸以进行常规和 GPU 友好的计算。我们 aosl 展示了一种高效的 NeRF 采样策略，该策略本质上适应提高并行性、利用率和减少内核调用，从而实现更高的 GPU 利用率并加速渲染过程。

How Many Views Are Needed to Reconstruct an Unknown Object Using NeRF?

https://arxiv.org/abs/2310.00684

Sicong Pan, Liren Jin, Hao Hu, Marija Popović, Maren Bennewitz

University of Bonn、Lamarr Institute for Machine Learning and Artificial Intelligence、Intel Asia-Pacific Research & Development Ltd.

神经辐射场 (NeRF) 由于其卓越的内存效率和仅需要摆好姿势的 RGB 输入的要求，在在线主动对象重建方面获得了极大的兴趣。以前基于 NeRF 的视图规划方法表现出计算效率低下，因为它们依赖于迭代范式，包括（1）当新图像到达时重新训练 NeRF；(2) 仅规划通往下一个最佳视图的路径。为了解决这些限制，我们提出了一种基于所需视图数量（PRV）预测的非迭代管道。我们的方法背后的关键思想是重建对象所需的视图数量取决于其复杂性。因此，我们设计了一个名为 PRVNet 的深度神经网络来预测所需的视图数量，使我们能够根据对象的复杂性定制数据采集并规划全局最短路径。为了训练 PRVNet，我们使用 ShapeNet 数据集生成监督标签。模拟实验表明，我们基于 PRV 的视图规划方法优于基线，实现了良好的重建质量，同时显着降低了移动成本和规划时间。我们进一步证明了我们的方法在现实世界实验中的泛化能力。

MIMO-NeRF: Fast Neural Rendering with Multi-input Multi-output Neural Radiance Fields

https://arxiv.org/abs/2310.01821

Takuhiro Kaneko

NTT Corporation

神经辐射场（NeRF）在新颖的视图合成方面显示出了令人印象深刻的结果。然而，它们依赖于重复使用单输入单输出多层感知器 (SISO MLP)，该感知器以样本方式将 3D 坐标和视图方向映射到颜色和体积密度，这会减慢渲染速度。我们提出了一种多输入多输出 NeRF（MIMO-NeRF），通过用 MIMO MLP 替换 SISO MLP 并以分组方式进行映射来减少运行的 MLP 数量。这种方法的一个显着挑战是，每个点的颜色和体积密度可能会根据组中输入坐标的选择而有所不同，这可能会导致一些明显的模糊性。我们还提出了一种自监督学习方法，该方法使用多个快速重构的 MLP 来规范 MIMO MLP，以在不使用预训练模型的情况下减轻这种模糊性。包括比较和消融研究在内的综合实验评估结果表明，MIMO-NeRF 在合理的训练时间下在速度和质量之间取得了良好的权衡。然后，我们通过将 MIMO-NeRF 应用于两个代表性的快速 NeRF，即具有样本缩减的 NeRF (DONeRF) 和具有替代表示的 NeRF (TensoRF)，证明 MIMO-NeRF 与 NeRF 的先前进步兼容并互补。

Neural Processing of Tri-Plane Hybrid Neural Fields

https://arxiv.org/abs/2310.01140

Adriano Cardace, Pierluigi Zama Ramirez, Francesco Ballerini, Allan Zhou, Samuele Salti, Luigi Di Stefano

University of Bologna、斯坦福大学

在神经场用于存储和通信 3D 数据的吸引人的特性的推动下，直接处理它们以解决分类和零件分割等任务的问题已经出现，并在最近的工作中得到了研究。早期的方法采用由在整个数据集上训练的共享网络参数化的神经场，实现了良好的任务性能，但牺牲了重建质量。为了改进后者，后来的方法侧重于参数化为大型多层感知器（MLP）的单个神经场，然而，由于权重空间的高维性、固有的权重空间对称性和对随机的敏感性，这些神经场的处理具有挑战性初始化。因此，结果明显不如通过处理显式表示（例如点云或网格）所获得的结果。与此同时，混合表示，特别是基于三平面的混合表示，已成为实现神经场的更有效和高效的替代方案，但其直接处理尚未得到研究。在本文中，我们证明了三平面离散数据结构编码了丰富的信息，可以通过标准深度学习机器有效地处理。我们定义了一个广泛的基准，涵盖多个领域，例如占用率、有符号/无符号距离，以及首次的辐射场。在处理具有相同重建质量的字段时，我们实现的任务性能远远优于处理大型 MLP 的框架，并且第一次几乎与处理显式表示的架构相当。

WaterNeRF: Neural Radiance Fields for Underwater Scenes

https://arxiv.org/abs/2209.13091

Advaith Venkatramanan Sethuraman, Manikandasriram Srinivasan Ramanagopal, Katherine A. Skinner

University of Michigan

水下成像是海洋机器人执行的一项关键任务，其应用范围广泛，包括水产养殖、海洋基础设施检查和环境监测。然而，水柱效应（例如衰减和反向散射）会极大地改变水下拍摄图像的颜色和质量。由于水条件的变化以及这些效果的范围依赖性，恢复水下图像是一个具有挑战性的问题。这会影响下游感知任务，包括深度估计和 3D 重建。在本文中，我们推进了神经辐射场（NeRF）领域的最先进技术，以实现基于物理的密集深度估计和颜色校正。我们提出的方法 WaterNeRF 估计水下图像形成的基于物理的模型的参数，从而形成数据驱动和基于模型的混合解决方案。确定场景结构和辐射场后，我们可以生成退化和校正的水下图像的新视图，以及场景的密集深度。我们在真实的水下数据集上定性和定量地评估所提出的方法。

Enabling Neural Radiance Fields (NeRF) for Large-scale Aerial Images -- A Multi-tiling Approaching and the Geometry Assessment of NeRF

https://arxiv.org/abs/2310.00530

Ningli Xu, Rongjun Qin, Debao Huang, Fabio Remondino

Ohio State University、3D Optical Metrology

神经辐射场 (NeRF) 提供了有益于 3D 重建任务的潜力，包括航空摄影测量。然而，对于大规模航空资产，推断几何的可扩展性和准确性并没有得到很好的记录，因为此类数据集通常会导致非常高的内存消耗和缓慢的收敛速度。在本文中，我们的目标是大规模扩展 NeRF缩放航空数据集并提供 NeRF 的全面几何评估。具体来说，我们引入了特定位置采样技术以及多相机平铺（MCT）策略，以减少 RAM 图像加载、GPU 内存表示训练期间的内存消耗，并提高平铺内的收敛速度。MCT 将大帧图像分解为具有不同相机型号的多个平铺图像，允许这些小帧图像根据特定位置的需要输入到训练过程中，而不会损失准确性。我们在代表性方法 Mip-NeRF 上实现了我们的方法，并将其几何性能与两个典型航空数据集上的三个摄影测量 MVS 管道与 LiDAR 参考数据进行了比较。定性和定量结果都表明，所提出的 NeRF 方法比传统方法产生更好的完整性和对象细节，尽管到目前为止，它在准确性方面仍然存在不足。

Inverse Rendering

Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering

https://arxiv.org/abs/2310.00362

Linjie Lyu, Ayush Tewari, Marc Habermann, Shunsuke Saito, Michael Zollhöfer, Thomas Leimkühler, Christian Theobalt

MPI、MIT、Reality Labs Research

逆渲染，即从图像推断场景属性的过程，是一个具有挑战性的逆问题。该任务是不适定的，因为许多不同的场景配置可以产生相同的图像。大多数现有解决方案将先验纳入逆向渲染管道中以鼓励合理的解决方案，但它们没有考虑固有的模糊性和可能分解的多模态分布。在这项工作中，我们提出了一种新颖的方案，它将在自然光照图上预训练的去噪扩散概率模型集成到涉及可微路径追踪器的优化框架中。所提出的方法允许从照明和空间变化的表面材料的组合中进行采样，这些材料都是自然的并且可以解释图像观察结果。我们进一步对先前逆渲染工作中使用的不同光照先验进行了广泛的比较研究。我们的方法擅长恢复材料并生成高度真实且多样化的环境地图样本，忠实地解释输入图像的照明。

Human Modeling

HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation

https://arxiv.org/abs/2310.01406

Xin Huang, Ruizhi Shao, Qi Zhang, Hongwen Zhang, Ying Feng, Yebin Liu, Qing Wang

西北工业大学、清华大学

最近采用扩散模型的文本转 3D 方法在 3D 人类生成方面取得了重大进展。然而，由于文本到图像扩散模型的局限性，这些方法面临着挑战，该模型缺乏对 3D 结构的理解。因此，这些方法很难实现高质量的人类生成，从而产生平滑的几何形状和卡通般的外观。在本文中，我们观察到使用法线贴图微调文本到图像的扩散模型使其能够适应文本到法线的扩散模型，从而增强 3D 几何的 2D 感知，同时保留从大规模数据集中学到的先验知识。因此，我们提出了 HumanNorm，这是一种通过学习法线扩散模型（包括法线自适应扩散模型和法线对齐扩散模型）来生成高质量且逼真的 3D 人体的新方法。法线自适应扩散模型可以生成与具有视图相关文本的提示相对应的高保真法线贴图。法线对齐扩散模型学习生成与法线贴图对齐的彩色图像，从而将物理几何细节转换为真实的外观。利用所提出的法线扩散模型，我们设计了渐进式几何生成策略和从粗到细的纹理生成策略，以提高 3D 人体生成的效率和鲁棒性。全面的实验证实了我们的方法能够生成具有复杂几何形状和逼真外观的 3D 人体，在几何形状和纹理质量方面显着优于现有的文本到 3D 方法。

3DHR-Co: A Collaborative Test-time Refinement Framework for In-the-Wild 3D Human-Body Reconstruction Task

https://arxiv.org/abs/2310.01291

Jonathan Samuel Lumentut, Kyoung Mu Lee

Seoul National University、SNU-LG AI Research Center, Korea

利用参数化姿势和形状表示的 3D 人体重建（简称 3DHR）领域近年来取得了重大进展。然而，应用 3DHR 技术来处理现实世界的多样化场景（称为野外数据）仍然面临局限性。主要的挑战是，由于各种因素，为野外场景策划准确的 3D 人体姿势地面实况 (GT) 仍然很难获得。最近的 3DHR 测试时细化方法利用初始 2D 现成人类关键点信息来支持对野外数据缺乏 3D 监督的情况。然而，我们观察到，仅额外的 2D 监督就可能导致常见 3DHR 主干网的过度拟合问题，使得 3DHR 测试时细化任务看起来很棘手。我们通过提出一种策略来应对这一挑战，该策略可以在协作方法下补充 3DHR 测试时细化工作。具体来说，我们最初应用预适应方法，通过在单个框架中协作各种 3DHR 模型来直接改进其初始输出。然后，该方法进一步与特定设置下的测试时适应工作相结合，最大限度地减少过度拟合问题，以进一步提高 3DHR 性能。整个框架完成为 3DHR-Co，在实验方面，我们表明所提出的工作可以显着提高常见经典 3DHR 主干的分数，最高可达 -34 mm 位姿误差抑制，使它们跻身国际排名前列。- 狂野的基准数据。这样的成就表明我们的方法有助于揭示常见经典 3DHR 主干的真正潜力。基于这些发现，我们进一步研究了所提出框架的各种设置，以更好地阐述我们的协作方法在 3DHR 任务中的能力。

Reconstructing 3D Human Pose from RGB-D Data with Occlusions

https://arxiv.org/abs/2310.01228

Bowen Dang, Xi Zhao, Bowen Zhang, He Wang

西安交通大学、University College London

我们提出了一种从带有遮挡的 RGB-D 图像重建 3D 人体的新方法。最重要的挑战是由于身体和环境之间的遮挡而导致 RGB-D 数据的不完整性，从而导致令人难以置信的重建，并遭受严重的人体场景渗透。为了重建语义和物理上合理的人体，我们建议根据场景信息和先验知识来减少解空间。我们的关键思想是通过分别考虑被遮挡的身体部位和可见的身体部位来约束人体的解决方案空间：对被遮挡的身体部位不穿透场景的所有合理姿势进行建模，并使用深度数据约束可见的身体部位。具体来说，第一个组件是通过神经网络实现的，该神经网络估计名为“自由区域”的候选区域，这是一个从开放空间中划分出来的区域，在该区域内可以安全地搜索不可见身体部位的姿势，而无需担心渗透。第二个组件使用扫描身体点云的“截断阴影体积”来约束可见的身体部位。此外，我们建议使用体积匹配策略来将人体与受限区域相匹配，该策略比表面匹配具有更好的性能。我们在 PROX 数据集上进行了实验，结果表明，与其他方法相比，我们的方法产生了更准确、更合理的结果。

About Us

NeRF and Beyond微信交流群现已有1800从业人员交流群，加入我们，请添加我的微信：jiheng_yang，我会拉大家进群。

Jason陪你练绝技B站更新地址：https://space.bilibili.com/455056488

NeRF相关工作整理Github repo：https://github.com/yangjiheng/nerf_and_beyond_docs

继续阅读

阅读原文

关键词

图像

数据集

辐射场

arxiv.org

结果