NeRF&Beyond 10.25日报（NVS质量评价，GNeSF，LiCROM，多模态3D场景理解，Wonder3D）

NeRF、三维重建相关

Perceptual Quality Assessment of NeRF and Neural View Synthesis Methods for Front-Facing Views

https://arxiv.org/abs/2303.15206

Hanxue Liang, Tianhao Wu, Param Hanji, Francesco Banterle, Hongyun Gao, Rafal Mantiuk, Cengiz Oztireli

剑桥大学、ISTI-CNR

神经视图合成 (NVS) 是合成自由视点视频最成功的技术之一，能够仅从一组稀疏的捕获图像中实现高保真度。这一成功催生了该技术的许多变体，每种技术通常使用 PSNR、SSIM 或 LPIPS 等图像质量指标在一组测试视图上进行评估。目前还缺乏关于 NVS 方法如何在感知视频质量方面表现的研究。我们提出了第一个关于 NVS 和 NeRF 变体感知评估的研究。在这项研究中，我们收集了在受控实验室环境和野外捕获的两个场景数据集。与现有数据集相比，这些场景带有参考视频序列，使我们能够测试时间伪影和细微的失真，这些在仅查看静态图像时很容易被忽视。我们在良好控制的感知质量评估实验中测量了多种 NVS 方法合成的视频质量，以及许多现有的最先进的图像/视频质量指标。我们对 NVS 评估的数据集和指标选择的结果和建议进行了详细分析。

GNeSF: Generalizable Neural Semantic Fields

https://arxiv.org/abs/2310.15712

Hanlin Chen, Chen Li, Mengqi Guo, Zhiwen Yan, Gim Hee Lee

新加坡国立大学

基于神经隐式表示的 3D 场景分割最近出现，具有仅在 2D 监督上进行训练的优点。然而，现有的方法仍然需要昂贵的每个场景优化，这阻碍了推理过程中对新场景的泛化。为了解决这个问题，我们引入了一种基于隐式表示的通用 3D 分割框架。具体来说，我们的框架采用多视图图像特征和语义图作为输入，而不仅仅是空间信息，以避免过度拟合特定于场景的几何和语义信息。我们提出了一种新颖的软投票机制来聚合每个 3D 点不同视图的 2D 语义信息。除了图像特征之外，我们的框架中还编码了视图差异信息来预测投票分数。直观上，这使得来自附近视图的语义信息比远处视图贡献更多。此外，可见性模块还设计用于检测和过滤掉遮挡视图中的有害信息。由于我们提出的方法的通用性，我们可以合成语义图或仅通过 2D 语义监督对新场景进行 3D 语义分割。实验结果表明，我们的方法实现了与特定于场景的方法相当的性能。更重要的是，我们的方法甚至可以优于现有的仅具有 2D 注释的强监督方法。

LiCROM: Linear-Subspace Continuous Reduced Order Modeling with Neural Fields

https://arxiv.org/abs/2310.15907

Yue Chang, Peter Yichen Chen, Zhecheng Wang, Maurizio M. Chiaramonte, Kevin Carlberg, Eitan Grinspun

多轮多大学、MIT、Meta Reality Lab

线性降阶建模 (ROM) 通过使用简化的运动学表示来近似系统的行为，从而简化了复杂的仿真。通常，ROM 在使用特定空间离散化创建的输入模拟上进行训练，然后用于加速具有相同离散化的模拟。这种离散化依赖性是有限制的。

独立于特定的离散化将提供在训练数据中混合和匹配网格分辨率、连接性和类型（四面体、六面体）的灵活性；通过训练期间未见的新颖离散化来加速模拟；并加速临时或参数改变离散化的自适应模拟。

我们提出了一种灵活的、独立于离散化的降阶建模方法。与传统的 ROM 一样，我们将配置表示为位移场的线性组合。与传统的 ROM 不同，我们的位移场是从参考域上的每个点到相应位移矢量的连续映射；这些图被表示为隐式神经场。

通过线性连续 ROM (LiCROM)，我们的训练集可以包含经历多种加载条件的多个几何形状，而与它们的离散化无关。这为降阶建模的新颖应用打开了大门。我们现在可以加速在运行时修改几何形状的模拟，例如通过切割、打孔，甚至交换整个网格。我们还可以加速训练过程中未见过的几何形状的模拟。我们演示了一次性泛化，对单个几何体进行训练，然后模拟各种看不见的几何体。

3D场景理解相关

Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation

https://arxiv.org/abs/2310.15676

Yinjie Lei, Zixuan Wang, Feng Chen, Guoqing Wang, Peng Wang, Yang Yang

四川大学、University of Adelaide、成都电子科技大学

多模态3D场景理解因其在自动驾驶、人机交互等多个领域的广泛应用而受到广泛关注。与传统的单模态 3D 理解相比，引入额外的模态不仅提高了场景解释的丰富性和精确度，而且还确保了更稳健和有弹性的理解。这在变化多端且充满挑战的环境中变得尤为重要，在这些环境中，仅依靠 3D 数据可能是不够的。虽然过去三年来多模态 3D 方法的发展激增，特别是那些集成多摄像机图像（3D+2D）和文本描述（3D+语言）的方法，但全面而深入的综述值得注意缺席的。在本文中，我们对弥合这一差距的最新进展进行了系统调查。我们首先简要介绍正式定义各种 3D 多模态任务的背景，并总结其固有的挑战。之后，我们提出了一种新颖的分类法，根据模式和任务对现有方法进行彻底分类，探索它们各自的优点和局限性。此外，还提供了几个基准数据集上最新方法的比较结果以及富有洞察力的分析。最后，我们讨论了未解决的问题，并为未来的研究提供了几种潜在的途径。

Diffusion相关

Wonder3D: Single Image to 3D using Cross-Domain Diffusion

https://arxiv.org/abs/2310.15008

Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, Wenping Wang

香港大学、清华大学、VAST、米哈游、宾大、上海科技大学、MPI、Texas A&M University

在这项工作中，我们介绍了 Wonder3D，这是一种从单视图图像高效生成高保真纹理网格的新颖方法。最近基于分数蒸馏采样 (SDS) 的方法已经显示出从 2D 扩散先验恢复 3D 几何形状的潜力，但它们通常会受到耗时的每个形状优化和不一致的几何形状的影响。相比之下，某些作品通过快速网络推理直接产生 3D 信息，但其结果往往质量较低且缺乏几何细节。为了全面提高图像到 3D 任务的质量、一致性和效率，我们提出了一种跨域扩散模型，可以生成多视图法线图和相应的彩色图像。为了确保一致性，我们采用多视图跨域注意力机制，促进跨视图和模式的信息交换。最后，我们引入了一种几何感知法线融合算法，该算法可以从多视图 2D 表示中提取高质量的表面。我们的广泛评估表明，与之前的工作相比，我们的方法实现了高质量的重建结果、稳健的泛化和相当好的效率。

About Us

NeRF and Beyond微信交流群现已有1900从业人员交流群，加入我们，请添加我的微信：jiheng_yang，我会拉大家进群。

Jason陪你练绝技B站更新地址：https://space.bilibili.com/455056488

NeRF相关工作整理Github repo：https://github.com/yangjiheng/nerf_and_beyond_docs

继续阅读

阅读原文