统一所有模态的3D范式来了！Any2Point：仅需训练1％的参数量，超越SOTA！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和3D视觉】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

论文标题: Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding

作者单位：上海人工智能实验室，北京大学，西北工业大学，中国电信

代码：https://github.com/Ivan-Tang-3D/Any2Point

论文：https://arxiv.org/pdf/2404.07989

现有的框架主要针对2D预训练模型迁移到3D领域而设计，缺乏通用的任意模态迁移到3D的统一范式。本文介绍了一种参数高效的Any2Point框架，解决了目前空间几何损失和高计算成本的限制，可使任何模态的大模型（视觉、语言、音频）进行3D理解, 仅需训练1%的参数量就可以在下游任务上实现超越目前SOTA的性能结果！

一．背景和动机

由于缺乏大规模的3D数据，3D基础模型的研究相对于语言和2D视觉明显滞后。获取和标注高质量3D数据需要昂贵的资源和人力，而合成3D数据则分布多样性不足。因此，一些工作将预训练模型从其他模态（主要是2D视觉）转移到3D模态。现有的2D模态迁移到3D的工作可以分为两类。1. 数据模态转换。这种方法涉及将 3D 点云投影到 2D 图像，随后将其输入到 2D 预训练模型中，模态转换过程不可避免地会导致 3D 数据中空间信息的丢失。2. 跨模态知识蒸馏。这些方法涉及从 2D 或视觉语言模型到3D模型的预训练知识转移。它们不仅需要在训练过程中前向传播 2D 和 3D 模型，而且高度依赖大规模配对的 2D-3D 数据。因此，我们提出一个问题：能否开发一种通用的任意模态到 3D 范式，使任意模态大型模型能够实现高效的点云理解？

为了解决这一问题，我们提出了Any2Point，一个统一的任意模态到3D框架，采用参数高效微调（PEFT）将任何1D（语言）或2D（图像/音频）大模型迁移到3D领域。与之前的方法不同，我们的Any2Point避免了点云投影，从而减少了3D信息的损失，并直接对源模态的预训练模型进行微调。广泛的实验表明，我们的Any2Point框架在各种任务中的性能超越了当前的3D预训练模型，同时只使用了1.0％的可训练参数。通过利用预训练的CLIP文本编码器，Any2Point仅微调了0.9M参数，就在ScanObjectNN上达到了91.9％，并在ModelNet40上达到了94.3％。我们的贡献如下：

1. 提出了一个名为Any2Point的统一跨模态PEFT框架，将预训练的大型模型从任何模态（如2D视觉、语言和音频）转移到3D点云任务。

2. 引入了两种技术，即3D到任意模态的虚拟投影和任意模态到3D引导的适配器，有效克服了当前方法中的3D几何信息损失和资源消耗过大等问题。

3. Any2Point在多种任务中的表现优于以往的SOTA 3D预训练模型。

二．方法

总体流程：给定来自任何模态（如视觉、语言和音频）的预训练Transformer，我们寻求一种参数高效的解决方案以避免全参数量微调，因为庞大的参数量可能会导致高计算成本和在有限的3D数据集上过度拟合的问题。

为了编码输入的点云，我们放弃了原始Transformer中的嵌入模块，采用一个3D小型网络进行点云标记化。在此基础上，编码的3D Token首先被输入到一个3D到任意模态的虚拟投影模块进行位置编码，然后输入到带有任意模态到3D引导适配器的冻结的Transformer Block中。前者机制旨在为每个3D Token分配源模态(1D/2D)内的位置信息，后者设计用于适应性1D/2D引导的3D表征学习。值得注意的是，只有最初的标记化网络和插入的适配器是可学习的。

3D到任意模态的虚拟投影模块: 因为预训练模型是与其原始的1D/2D空间中的位置编码一起预训练的，这导致了冻结的1D/2D权重与新学习的3D 位置编码之间的语义差异。为了解决这个问题，我们将3D Token虚拟投影到源模态，并获得相应的1D/2D 位置编码以更好地与模型对齐。对于2D视觉和音频模态中的Transformer，我们将每个3D Token虚拟投影到M个视图，得到相应的2D坐标

。M个不同的视角能够提供2D空间内的多样位置关系。我们不真正生成投影的多视图图像，而只是旨在获得虚拟的2D位置。然后，我们为每个3D Token分配M个不同的2D位置编码，表示为

。类似地，对于语言模态中的1D Transformer，我们将3D坐标虚拟投影到不同的1D线上。为简单起见，我们假设点云中心为原点，M条线的单位方向向量为

，并将3D点坐标向量化。然后，3D点在1D线上坐标由方向向量和点坐标向量点积给出。通过这种方式，每个3D Token分配M个不同的1D位置编码，表示为

。获得相应的1D/2D 位置编码后，我们将它们平均为一个整体位置指示器，并将其与3D Token相加结合。

任意模态到3D引导适配器: Transformer的自注意力机制通常专注于全局上下文中的长距离标记交互，然而精细的空间几何也对3D形状的细粒度理解至关重要。为了弥补这一差距，我们利用所提出的适配器层专门捕获局部邻域内的3D语义。此外，由于预训练模型由1D/2D位置编码驱动，原始的FPS和K-NN用于3D局部分组可能会导致位置不一致。因此，我们进一步设计了一个1D/2D引导的聚合策略和一个适应性任意模态到3D集成方法以实现健壮的3D细粒度编码。1D/2D引导的聚合策略: 在适配器内，首先根据1D/2D位置先验将3D Token分组到不同的局部邻域中，以更好地对齐采用的1D/2D位置编码。对于M个不同的视图/线条，我们进行M个并行的局部聚合过程以充分利用不同的投影视角。具体来说，对于2D Transformer，我们将每个虚拟投影的图像划分为均匀的局部2D块，并根据它们的2D位置将同一块内的3D Token聚集到一个邻域中。对于1D Transformer，我们类似地将每条虚拟投影的线划分为均匀的局部1D段，并根据它们的1D位置将不同段内的3D Token聚集到不同的邻域中。在此基础上，我们采用池化和传播操作将局部聚集的特征传播到同一邻域内的每个点。适应性任意模态到3D集成方法: 在并行的局部聚合之后，我们获得了M组3D Token，每组代表一个2D视图或1D线条，我们要将每个Token的M个特征聚合起来。为了适当地指示每个视图/线条的相对重要性，我们另外采用一个独立的3D特征转换分支。这个非参数分支只包含3D空间的局部分组、组内的特征平均池化和传播操作，将输出作为特征基线和M组3D Token通过余弦相似度计算不同视图/线条的相对权重，并最终聚合它们的特征，获得最终输出。

三．实验

结果如表所示:

1. 在3D真实世界物体数据集ScanObjectNN上，Any2Point框架基于语言（CLIP-Text）、2D视觉（DINO V2-B）和音频（ImageBind-Audio）模态分别达到91.9%、87.7%和87.0%的准确率。与先前的最佳方法（ReCon）相比，使用1D语言预训练的Any2Point在仅有0.9M可学习参数的情况下提高了1.3%。对于2D（视觉/音频）模态，Any2Point显著优于仅在3D数据集上预训练的最佳方法Point-M2AE，分别提高了0.6%和1.3%。

2. 在3D合成物体数据集ModelNet40上，通过语言、2D视觉和音频模态，我们的Any2Point框架分别达到94.3%、93.2%和92.7%。我们的框架仅使用1D语言模态中的一个预训练模型，比之前的最佳方法（ReCon）提高了0.2%，并减少了42.7M可学习参数。

3. 令人惊讶的是，无论是在ScanObjectNN还是ModelNet40数据集上，Any2Point框架都保持了1D模态（语言）表现优于2D模态（图像和音频）的性能趋势。为了进一步验证我们的发现，我们在ScanObjectNN数据集的“PB-T50-RS”上选择RoBERTa（1D）、DeiT（2D Vision）和SSAST（音频）作为预训练模型，微调设置与我们之前的实验一致。这些模型的性能分别为 89.7%、87.3% 和 87.1%。观察到跨模态的性能趋势：1D语言 > 2D视觉 > 2D音频。我们怀疑，由于预训练数据的原因，大型语言模型与其他模态相比拥有更强的语义信息，这有利于深入理解不同的3D对象。

如表所示，与提示调整(Prompt Tuning)相比，Any2Point实现了2.8%和1.3%的提升；与适配器调整(Adapter Tuning)相比，实现了2.3%和1.8%的提升；与低秩适应（LoRA）相比，它分别实现了5.6%和2.6%的提升。与其他方法不同，我们的框架利用1D/2D空间引导来聚集3D Token的局部语义，捕获3D对象的局部细粒度信息。

四．结论

Any2Point支持任意模态的预训练大模型（例如 2D 视觉、语言和音频）实现高效的 3D 理解。在Any2Point框架中，我们引入了两种技术，即3D到任意模态虚拟投影和任意模态到3D引导适配器，以提取 3D 结构知识，同时有效地微调预训练模型。这使我们能够克服当前方法中的问题，例如 3D 几何损失和资源成本过高。与之前的SOTA 3D预训练模型相比，Any2Point具有卓越的性能和效率, 仅用一小部分可训练参数即可取得显著的结果。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和医学影像交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和医学影像微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者医学影像+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！
▲扫码加入星球学习
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

继续阅读

阅读原文

统一所有模态的3D范式来了！Any2Point：仅需训练1％的参数量，超越SOTA！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba和3D视觉】微信交流群

何恺明在MIT授课的课件PPT下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和3D视觉】微信交流群