NeRF&Beyond 11.7日报（InstructPix2NeRF，VR-NeRF，Consistent4D等）

NeRF相关

InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image

https://arxiv.org/abs/2311.02826

Jianhui Li, Shilong Liu, Zidong Liu, Yikai Wang, Kaiwen Zheng, Jinghui Xu, Jianmin Li, Jun Zhu

清华大学、ShengShu AI

随着神经辐射场 (NeRF) 在 3D 感知肖像编辑中的成功，各种作品在质量和 3D 一致性方面都取得了可喜的成果。然而，这些方法在将自然语言作为编辑指令处理时严重依赖于每个提示的优化。由于缺乏带标签的人脸 3D 数据集和有效的架构，以端到端方式对开放世界肖像进行人工指导的 3D 感知编辑领域仍未得到充分探索。为了解决这个问题，我们提出了一种名为 InstructPix2NeRF 的基于端到端扩散的框架，它可以通过人工指令从单个开放世界图像中进行 3D 感知肖像编辑。其核心在于一个条件潜在 3D 扩散过程，通过学习配对图像差异与三元数据指令之间的相关性，将 2D 编辑提升到 3D 空间。借助我们提出的令牌位置随机化策略，我们甚至可以通过一次传递实现多语义编辑，同时保留肖像身份。此外，我们还提出了一个身份一致性模块，直接将提取的身份信号调制到我们的扩散过程中，从而提高了多视图 3D 身份一致性。大量的实验验证了我们的方法的有效性，并在定量和定性方面显示了其相对于强基线的优越性。

VR-NeRF: High-Fidelity Virtualized Walkable Spaces

https://arxiv.org/abs/2311.02542

Linning Xu, Vasu Agrawal, William Laney, Tony Garcia, Aayush Bansal, Changil Kim, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Aljaž Božič, Dahua Lin, Michael Zollhöfer, Christian Richardt

香港中文大学、Meta

我们提出了一个端到端系统，用于使用神经辐射场对虚拟现实中的步行空间进行高保真捕获、模型重建和实时渲染。为此，我们设计并建造了一个定制的多摄像头装置，以高保真度密集捕捉可步行空间，并以前所未有的质量和密度提供多视图高动态范围图像。我们使用新颖的感知色彩空间来扩展即时神经图形基元，以学习准确的 HDR 外观，并使用高效的 mip 映射机制来实现具有抗锯齿的细节级别渲染，同时仔细优化质量和速度之间的权衡。我们的多 GPU 渲染器能够在我们的定制演示机上以双 2K×2K、36 Hz 的全 VR 分辨率对神经辐射场模型进行高保真体积渲染。我们在具有挑战性的高保真数据集上展示了我们结果的质量，并将我们的方法和数据集与现有基线进行了比较。我们在项目网站上发布了我们的数据集。

Animating NeRFs from Texture Space: A Framework for Pose-Dependent Rendering of Human Performances

https://arxiv.org/abs/2311.03140

Paul Knoll, Wieland Morgenstern, Anna Hilsmann, Peter Eisert

HHI、Humboldt University of Berlin、Johannes Kepler University Linz

从多视图 RGB 视频创建高质量的可控 3D 人体模型是一项重大挑战。神经辐射场 (NeRF) 在静态和动态场景的重建和自由视点渲染方面表现出了卓越的品质。动态人类表现的可控综合的扩展提出了一个令人兴奋的研究问题。在本文中，我们介绍了一种基于 NeRF 的新颖框架，用于对人类表现进行姿势相关的渲染。在我们的方法中，辐射场围绕 SMPL 体网格扭曲，从而创建新的表面对齐表示。除了姿势相关外观的视点之外，我们的表示还可以通过提供给 NeRF 的骨骼关节参数进行动画处理。为了实现这一点，我们的表示包括网格纹理图上相应的 2D UV 坐标以及查询点和网格之间的距离。为了在映射模糊性和随机视觉变化的情况下实现有效学习，我们引入了一种新颖的重新映射过程来细化映射坐标。实验表明，我们的方法可以为新颖的视图和新颖的姿势合成提供高质量的渲染。

Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

https://arxiv.org/abs/2311.02848

Yanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, Yao Yao

CASIA、南京大学、复旦大学

在本文中，我们提出了 Confluence4D，这是一种从未校准的单目视频生成 4D 动态对象的新方法。独特的是，我们将 360 度动态对象重建视为 4D 生成问题，从而消除了繁琐的多视图数据收集和相机校准的需要。这是通过利用对象级 3D 感知图像扩散模型作为训练动态神经辐射场 (DyNeRF) 的主要监督信号来实现的。具体来说，我们提出了 Cascade DyNeRF，以促进在沿时间轴离散的监督信号下的稳定收敛和时间连续性。为了实现空间和时间的一致性，我们进一步引入了插值驱动的一致性损失。它通过最小化 DyNeRF 渲染帧与预训练视频插值模型插值帧之间的差异进行优化。大量的实验表明，我们的 Confluence4D 可以与现有技术的替代方案相媲美，为从单目视频生成 4D 动态对象开辟了新的可能性，同时也展示了传统文本到 3D 生成任务的优势。

Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images

https://arxiv.org/abs/2311.02892

Yingzhi Tang, Qijian Zhang, Junhui Hou, Yebin Liu

香港城市大学、清华大学

单视人体重建研究领域的最新趋势致力于学习受显式体形先验约束的深层隐式函数。尽管与传统的处理流程相比，性能有了显着的提高，但现有的学习方法在灵活性、泛化性、鲁棒性和/或表示能力方面仍然表现出不同方面的局限性。为了全面解决上述问题，在本文中，我们研究了一种称为 HaP 的显式基于点的人体重建框架，该框架采用点云作为目标几何结构的中间表示。从技术上讲，我们的方法的特点是在 3D 几何空间中进行完全显式的点云估计、操作、生成和细化，而不是模糊且难以控制的隐式学习过程。整个工作流程经过精心组织，专门设计了相应的专业学习组件和处理流程。大量实验表明，与当前最先进的方法相比，我们的框架实现了 20% 至 40% 的定量性能改进，以及更好的定性结果。我们有希望的结果可能表明范式回滚到完全显式和以几何为中心的算法设计，这使得能够利用各种强大的点云建模架构和处理技术。

IPVNet: Learning Implicit Point-Voxel Features for Open-Surface 3D Reconstruction

https://arxiv.org/abs/2311.02552

Mohammad Samiul Arshad, William J. Beksi

The University of Texas at Arlington

3D 开放表面（例如，非水密网格）的重建是计算机视觉中尚未开发的领域。最近基于学习的隐式技术通过实现任意分辨率的重建消除了以前的障碍。然而，此类方法通常依赖于区分表面的内部和外部，以便在重建目标时提取零水平集。在开放表面的情况下，这种区别通常会导致伪影，例如表面间隙的人为闭合。然而，现实世界的数据可能包含由显着表面间隙定义的复杂细节。回归无符号距离场的隐式函数在重建此类开放表面方面显示出了前景。尽管如此，当前的无符号隐式方法依赖于原始数据的离散化表示。这不仅将学习过程限制在表示的分辨率上，而且还在重建中引入了异常值。为了在不引入异常值的情况下准确重建开放表面，我们提出了一种基于学习的隐式点体素模型（IPVNet）。IPVNet 通过利用原始点云数据及其离散体素对应物来预测 3D 空间中表面与查询点之间的无符号距离。对合成和真实世界公共数据集的实验表明，IPVNet 的性能优于现有技术，同时在重建结果中产生的异常值要少得多。

MuSHRoom: Multi-Sensor Hybrid Room Dataset for Joint 3D Reconstruction and Novel View Synthesis

https://arxiv.org/abs/2311.02778

Xuqian Ren, Wenjia Wang, Dingding Cai, Tuuli Tuominen, Juho Kannala, Esa Rahtu

Tampere University、香港大学、Aalto University

元宇宙技术需要在消费级硬件上进行准确、实时和身临其境的建模，以实现非人类感知（例如无人机/机器人/自动汽车导航）和 AR/VR 等沉浸式技术，既需要结构精度又需要真实感。然而，如何在统一的框架中应用几何重建和真实感建模（新颖的视图合成）方面存在知识差距。

为了解决这一差距并促进消费级设备的稳健、沉浸式建模和渲染的发展，首先，我们提出了一个真实世界的多传感器混合房间数据集（MuSHRoom）。我们的数据集提出了令人兴奋的挑战，需要最先进的方法具有成本效益、对噪声数据和设备具有鲁棒性，并且可以共同学习 3D 重建和新颖的视图合成，而不是将它们视为单独的任务，从而使它们成为理想的选择对于现实世界的应用程序。其次，我们在数据集上对几个著名的管道进行了基准测试，以进行联合 3D 网格重建和新颖的视图合成。最后，为了进一步提高整体性能，我们提出了一种新方法，在两个任务之间实现了良好的权衡。我们的数据集和基准测试在促进以稳健且计算高效的端到端方式融合 3D 重建和高质量渲染的改进方面显示出巨大的潜力。

LDM3D-VR: Latent Diffusion Model for 3D VR

https://arxiv.org/abs/2311.03226

Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal

Intel实验室

潜扩散模型已被证明在视觉输出的创建和操作方面是最先进的。然而，据我们所知，与RGB联合生成深度图仍然有限。我们推出 LDM3D-VR，这是一套针对虚拟现实开发的扩散模型，包括 LDM3D-pano 和 LDM3D-SR。这些模型能够分别根据文本提示生成全景 RGBD 以及将低分辨率输入升级为高分辨率 RGBD。我们的模型是根据包含全景/高分辨率 RGB 图像、深度图和标题的数据集上的现有预训练模型进行微调的。两种模型都通过与现有相关方法的比较进行了评估。

3D-Aware Talking-Head Video Motion Transfer

https://arxiv.org/abs/2311.02549

Haomiao Ni, Jiachen Liu, Yuan Xue, Sharon X. Huang

The Pennsylvania State University、The Ohio State University

头部说话视频的运动传输涉及生成具有主题视频的外观和驾驶视频的运动模式的新视频。当前的方法主要依赖于有限数量的主题图像和 2D 表示，从而忽略了充分利用主题视频固有的多视图外观特征。在本文中，我们提出了一种新颖的 3D 感知头部说话视频运动传输网络 Head3D，它通过使用循环网络从 2D 主题帧生成视觉上可解释的 3D 规范头部，充分利用主题外观信息。我们方法的一个关键组成部分是自我监督的 3D 头部几何学习模块，旨在从 2D 主题视频帧预测头部姿势和深度图。该模块有助于在规范空间中估计 3D 头部，然后可以对其进行转换以与驾驶视频帧对齐。此外，我们采用基于注意力的融合网络将主题帧的背景和其他细节与 3D 主题头部相结合，以生成合成目标视频。我们对两个公共头部说话视频数据集进行的广泛实验表明，Head3D 在实际的跨身份设置中优于 2D 和 3D 现有技术，有证据表明它可以轻松适应姿势可控的新颖视图合成任务。

Continual Learning of Unsupervised Monocular Depth from Videos

https://arxiv.org/abs/2311.02393

Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz

Eindhoven University of Technology、TomTom、Wayne

空间场景理解，包括单目深度估计，是机器人和自动驾驶等各种应用中的一个重要问题。虽然无监督单目深度估计的改进可能允许在不同的众包视频上训练模型，但这仍然没有得到充分探索，因为大多数方法都利用标准训练协议，其中模型在收集新数据后从头开始对所有数据进行训练。相反，根据顺序收集的数据持续训练模型将显着降低计算和内存成本。然而，幼稚的持续训练会导致灾难性的遗忘，当模型在新领域学习时，旧领域的性能会恶化，这凸显了模型稳定性和可塑性之间的权衡。虽然已经提出了几种技术来解决图像分类中的这个问题，但深度估计的高维和时空相关输出使其成为一个独特的挑战。据我们所知，目前不存在专注于深度估计中持续学习问题的框架或方法。因此，我们引入了一个框架来应对持续无监督深度估计（CUDE）的挑战，并定义评估模型性能所需的指标。我们提出了一种基于排练的双记忆方法 MonoDepthCL，即使在相机内在参数未知的情况下，该方法也利用时空一致性来持续学习深度估计。

About Us

NeRF and Beyond微信交流群现已有1900从业人员交流群，加入我们，请添加我的微信：jiheng_yang，我会拉大家进群。

Jason陪你练绝技B站更新地址：https://space.bilibili.com/455056488

NeRF相关工作整理Github repo：https://github.com/yangjiheng/nerf_and_beyond_docs

继续阅读

阅读原文