NeRF&Beyond 9.27日报（NeRF3D密度梯度，ITEM3D，DriveSceneGen，LEXIS等）

NeRF与三维重建相关

3D Density-Gradient based Edge Detection on Neural Radiance Fields (NeRFs) for Geometric Reconstruction

https://arxiv.org/abs/2309.14800

Miriam Jäger, Boris Jutzi

Karlsruhe Institute of Technology

从神经辐射场 (NeRF) 生成几何 3D 重建受到大量关注。然而，基于密度值的准确且完整的重建具有挑战性。网络输出取决于输入数据、NeRF 网络配置和超参数。因此，直接使用密度值，例如通过使用全局密度阈值进行过滤，通常需要实证研究。在密度从非物体到物体区域增加的假设下，相对值的密度梯度的利用是显而易见的。由于密度表示位置相关参数，因此可以各向异性地处理它，因此体素化 3D 密度场的处理是合理的。在这方面，本文基于密度梯度来解决几何 3D 重建，而梯度是由一阶和二阶导数的 3D 边缘检测滤波器（即高斯的 Sobel、Canny 和拉普拉斯算子）产生的。梯度依赖于所有方向上的相对相邻密度值，因此与绝对大小无关。因此，梯度滤波器能够沿着较宽的密度范围提取边缘，几乎独立于假设和实证研究。我们的方法展示了实现几何 3D 重建的能力，在物体表面上具有高几何精度和卓越的物体完整性。值得注意的是，Canny 过滤器有效地消除了间隙，提供了均匀的点密度，并在整个场景的正确性和完整性之间取得了良好的平衡。

生成式AI相关

ITEM3D: Illumination-Aware Directional Texture Editing for 3D Models

https://arxiv.org/abs/2309.14872

Shengqi Liu, Zhuo Chen, Jingnan Gao, Yichao Yan, Wenhan Zhu, Xiaobo Li, Ke Gao, Jiangjiang Lyu, Xiaokang Yang

上海交通大学、阿里

纹理编辑是 3D 建模中的一项关键任务，它允许用户自动操纵 3D 模型的表面材质。然而，3D 模型固有的复杂性和模糊的文本描述给这项任务带来了挑战。为了应对这一挑战，本文提出了 ITEM3D，这是一种照明感知模型，用于根据文本提示自动编辑 3D 对象。利用扩散模型和可微渲染，ITEM3D将渲染图像作为文本和3D表示的桥梁，并进一步优化解开的纹理和环境贴图。以前的方法采用绝对编辑方向得分，即蒸馏采样（SDS）作为优化目标，不幸的是，这导致了噪声出现和文本不一致。为了解决文本歧义引起的问题，本文引入了相对编辑方向，即由源文本和目标文本之间的噪声差异定义的优化目标，以释放文本和图像之间的语义歧义。此外，本文在优化过程中逐渐调整方向，以进一步解决纹理域中意外的偏差。定性和定量实验表明，ITEM3D 在各种 3D 对象上优于最先进的方法。作者还执行文本引导的重新照明以显示对照明的明确控制。

DriveSceneGen: Generating Diverse and Realistic Driving Scenarios from Scratch

https://arxiv.org/abs/2309.14685

Shuo Sun, Zekai Gu, Tianchen Sun, Jiawei Sun, Chengran Yuan, Yuhang Han, Dongen Li, Marcelo H. Ang Jr

新加坡国立大学

大量真实且多样化的交通场景对于自动驾驶系统的开发和验证至关重要。然而，由于数据收集过程中存在诸多困难以及对密集注释的依赖，现实世界的数据集缺乏足够的数量和多样性来支持不断增长的数据需求。这项工作介绍了 DriveSceneGen，这是一种数据驱动的驾驶场景生成方法，可以从现实世界的驾驶数据集中学习并从头开始生成整个动态驾驶场景。DriveSceneGen 能够生成新颖的驾驶场景，与现实世界的数据分布保持一致，具有高保真度和多样性。与真实世界数据集相比，5k 生成场景的实验结果突出了生成质量、多样性和可扩展性。据作者所知，DriveSceneGen 是第一种从头开始生成涉及静态地图元素和动态交通参与者的新颖驾驶场景的方法。

A novel approach for holographic 3D content generation without depth map

https://arxiv.org/abs/2309.14967

Hakdong Kim, Minkyu Jee, Yurim Lee, Kyudam Choi, MinSung Yoon, Cheongwon Kim

Sejong University、Selvers、Daejeon

在准备观察全息 3D 内容时，在使用快速傅立叶变换 (FFT) 算法时，需要为每个场景获取一组 RGB 颜色和深度图图像，以生成计算机生成的全息图 (CGH)。然而，在现实情况下，这些成对的 RGB 颜色和深度图图像格式并不总是完全可用。我们提出了一种基于深度学习的方法，仅使用给定的 RGB 图像来合成体积数字全息图，这样就可以克服部分提供 RGB 颜色和深度图图像的环境。该方法仅使用 RGB 图像的输入来估计其深度图，然后顺序生成其 CGH。通过实验，本文证明在只能提供 RGB 颜色数据的情况下，通过提出的模型生成的体积全息图比竞争模型更准确。

SLAM相关

Volumetric Semantically Consistent 3D Panoptic Mapping

https://arxiv.org/abs/2309.14737

Yang Miao, Iro Armeni, Marc Pollefeys, Daniel Barath

ETH、微软

本文引入了一种在线 2D 到 3D 语义实例映射算法，旨在生成适合非结构化环境中自主代理的全面、准确且高效的语义 3D 地图。所提出的方法基于最近算法中使用的体素-TSDF 表示。它引入了在映射过程中集成语义预测置信度的新方法，生成语义和实例一致的 3D 区域。通过基于图优化的语义标记和实例细化实现了进一步的改进。所提出的方法在公共大规模数据集上实现了优于现有技术的准确性，改进了许多广泛使用的指标。我们还强调了最近研究评估中的一个缺陷：使用地面实况轨迹作为输入而不是 SLAM 估计的轨迹会极大地影响准确性，从而在报告的结果与真实世界数据的实际性能之间产生巨大差距。

Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time Visual Scene Understanding

https://arxiv.org/abs/2309.15065

Christina Kassab, Matias Mattamala, Lintong Zhang, Maurice Fallon

牛津大学

多功能和自适应语义理解将使自治系统能够理解周围环境并与之交互。现有的固定级别模型限制了室内移动和辅助自主系统的适应性。在这项工作中介绍了 LEXIS，这是一种实时室内同时定位和建图 (SLAM) 系统，它利用大语言模型 (LLM) 的开放词汇性质来创建场景理解和地点识别的统一方法。该方法首先构建环境的拓扑 SLAM 图（使用视觉惯性里程计），并在图节点中嵌入对比语言图像预训练 (CLIP) 功能。本文使用这种表示形式进行灵活的房间分类和分割，作为以房间为中心的位置识别的基础。这使得闭环搜索能够定向到语义相关的位置。本文提出的系统使用公共、模拟数据和真实世界数据进行评估，涵盖办公室和家庭环境。它成功地对具有不同布局和尺寸的房间进行分类，并超越了最先进的技术 (SOTA)。对于位置识别和轨迹估计任务，本文实现了与 SOTA 相同的性能，所有这些任务都使用相同的预训练模型。最后展示了该系统的规划潜力。

About Us

NeRF and Beyond微信交流群现已有1800从业人员交流群，加入我们，请添加我的微信：jiheng_yang，我会拉大家进群。

Jason陪你练绝技B站更新地址：https://space.bilibili.com/455056488

NeRF相关工作整理Github repo：https://github.com/yangjiheng/nerf_and_beyond_docs

继续阅读

阅读原文

关键词

图像

方法

模型

数据集

arxiv.org