空间智能：能否成为具身智能技术的下一个里程碑？

机器之心PRO · 会员通讯 Week 19

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 空间智能：能否成为具身智能技术的下一个里程碑？

为什么说「空间智能」是推动具身智能技术突破的关键动力？空间智能是什么？「空间智能」和具身智能两者是同一回事吗？「空间智能」的核心技术空间计算是什么...

2. AI 搜索要怎么卷才能吃饱饭？

OpenAI 终于要发搜索引擎了？PerpLexity 从谷歌手里抢到蛋糕了？搜索的话题为何会时不时翻红热度？AI 搜索新秀都在做什么？...

3. 深度解析：AI 技术对全球研究潜在影响的报告都讲了哪些重点？

PCAST 的报告都关注了哪些方向？AI 如何帮助理解宇宙基础物理学？AI 会怎么影响半导体设计？AI 的变革会带来什么问题？...

...本期完整版通讯含 3 项专题解读 + 34 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 10 项，国外方面 12 项。

本期通讯总计 26084 字，可免费试读至 9 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① 空间智能：能否成为具身智能技术的下一个里程碑？

日期：5 月 4 日

事件：近日，据路透社报道，著名计算机科学家李飞飞正在创建一家「空间智能」方向的初创公司，旨在利用类似人类的视觉数据处理方式，使 AI 能够进行高级推理。

为什么说空间智能是推动具身智能技术突破的关键动力？

1、按照李飞飞的描述，我们大致理解空间智能为是一种新兴的 AI 技术，使机器能够像人类一样进行更复杂的视觉推理和行动规划，且关键点在于在真实世界中，机器人在未经预先训练的情况下，即能直接执行任务。[1]

2、现阶段，具身智能机器人通常借助雷达传感器、重力传感器、光线传感器、速度传感器等各种传感器，例如，波士顿动力等在内的智能机器人路线，均使用了大量的智能传感器来帮助获得空间信息。AI 大模型无法理解 3D 世界的运行逻辑，而李飞飞提出的「空间智能」算法则是「纯视觉推理」，无需传感器、额外的数据或训练，以李飞飞团队推出的 VoxPoser 系统为例，将大模型接入至机器人，直接将复杂指令转化为具体的行动规划。

① 推特「Andrew Hung」称，机器人在未经预先训练的情况下能直接执行任务，这可能会彻底改变人形机器人和自主性，并可能使得此前对计算能力上的巨额投资变得过时。[2]

3、除了对具身智能领域的影响，空间智能同样会对元宇宙（VR/AR）产生突破性地影响。空间计算作为空间智能的核心基座技术，Simon Greenwold 在论文《Spatial Computing》将其定义为「人类与机器的交互，机器保留并操纵真实物体和空间的参照物。」[3]

① 去年 6 月，苹果发布了首个空间计算设备 Apple Vision Pro，苹果首席执行官蒂姆·库克表示，空间计算「将数字内容与物理世界无缝融合，同时允许用户保持存在并与他人保持联系。」

② 空间计算推动了从传统的屏幕交互向更自然的三维空间交互转变，用户可以通过手势、眼神、语音等更符合直觉的方式与虚拟对象互动。空间计算技术对交互方式的革新，将对元宇宙产生极大地影响。此外，空间计算的关键技术，如三维重建技术使得虚拟对象能够根据真实世界的三维形状进行精确建模，极大地提升了虚拟内容与现实世界的融合度；空间感知技术允许设备理解其在空间中的位置和周围环境，为 AR/VR 提供了精确的定位和导航能力。

「空间智能」是什么？

1、李飞飞在 TED 大会上阐述了新概念「空间智能」，据描述，「空间智能」算法可以合理地推断出图像和文字在三维环境中的样子，并根据这些预测采取行动。李飞飞补充解释，「在空间智能的驱动下，大自然创造了这种看与做的良性循环。我们在斯坦福大学的实验室正试图教计算机如何在三维世界中行动，例如，利用大型语言模型让机械臂执行任务，如根据口头指令开门和制作三明治。」

2、李飞飞在 2024 年英伟达 GTC 开发者大会的炉边谈话中，同样谈及了「空间智能」的概念，李飞飞认为，

① 如果将大语言模型的 Scaling Law 应用于多模态数据，那随着获取的世界数据越来越多，需要的模型也将越来越大。

② 因此，要真正创造出空间智能，创造出今天仍然缺乏的世界模型，「当我们用大数据进行扩展时，我想看到的是结构化建模，或者说偏向于三维感知和结构的模型与大数据相结合。」[4]

「空间智能」和具身智能是一回事吗？

1、「空间智能」的新概念和具身智能有所相似，借助 AI 技术来控制机器人，将指令转化为具体行动规划，从而执行任务，但两者有着细微的差异。

2、对于具身智能的定义，是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。[5]

① 具身智能关注从机器人身体出发的感知和交互、致力于从环境交互的数据中学习执行物理任务的能力。

② 强调的是有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。

3、在具身智能领域，具身执行目前包括以下几种研究路径：

① 直接控制：直接利用 LLMs 或 VLMs 来控制智能体，不经过与行动数据的微调，目前是具有挑战性的；

② 导航任务中的运动规划：例如，ReasonedExplorer 和 Not Train Dragon 为导航任务提出了使用 LLMs 作为评估扩展前沿的界面，这些前沿被定义为探索中的潜在路径点。李飞飞团队的 VoxPoser 项目则应用 VLMs 获取用于运动规划的可操作功能函数；

③ 直接输出低层级行动：一些研究探索了使用 LLMs 直接输出较低层级行动的可能性。Prompt2Walk 通过少量提示直接输出关节角度，探索了 LLMs 作为低层次控制器的功能。但对不同智能体形态的普适性仍有待探讨；

④ 语言到奖励的转换：与直接通过 LLMs 生成行动相比，使用 LLMs 生成强化学习策略的奖励函数是一种更通用的方法。例如，Eureka 展示了这种方法使智能体能够学习人类难以设计奖励的复杂技巧，如旋转笔的任务。

4、帝国理工学院戴森机器人实验室的 Andrew J。 Davison 教授，曾在 2018 年的论文《FutureMapping: The Computational Structure of Spatial AI Systems 》中提到了「Spatial AI（空间人工智能）」，他认为，「Spatial AI」由视觉 SLAM（Simultaneous Localisation and Mapping）演变而来，未来会成为下一代智能机器人、移动设备等产品的基础技术。Spatial AI 系统的目标不是抽象的场景理解，而是连续地捕获正确的信息，并构建正确的表示，以实现实时的解释和行动。[6] [7] [8]

继续阅读

阅读原文

关键词

模型

智能体

任务

数据

人类