具身智能是香饽饽？两篇综述看清基础模型+机器人发展路径

专题解读
事件：12 月 13 日和 14 日，两组研究团队接连在 arxiv 发布了以基础模型+机器人主题的综述论文，探讨基础模型在机器人研究领域的发展情况和未来挑战。两篇论文均有谷歌 DeepMind 成员参与。

12 月 13 日，来自斯坦福大学、普林斯顿大学、UT Austin、英伟达、Scaled Foundations、谷歌 DeepMind、上海交大等机构的研究者于 arxiv 上传了综述文章《Foundation Models in Robotics: Applications， Challenges， and the Future》。该工作的作者还包含朱玉可、宋舒然、吴佳俊、卢策吾等具身智能领域知名的华人学者。

于12 月 14 日上传的《Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis》由 CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐（Fei Xia）领导的研究团队发布，其他作者分别来自博世 AI 中心、SAIR Lab、佐治亚理工、FAIR 高校和机构。该论文在次日（12 月 15 日）进行了一轮更新。

两篇综述有何异同？

1、两篇综述文章均梳理了基础模型（如 LLM、VLM）在机器人领域的应用情况，试图理解基础模型能怎样帮助或缓解机器人领域的核心挑战。

2、CMU 与谷歌 DeepMind 领导的研究团队将「用于机器人的基础模型」分为两种，涵盖：

① 机器人用的基础模型（Foundation Model Used in Robotics）：用于机器人的现有的（主要）视觉和语言模型，主要是通过零样本和上下文学习；

② 机器人基础模型（Robotics Foundation Models，RFMs）：使用机器人生成的数据专门开发和利用机器人基础模型，以解决机器人任务。

3、两篇文章均在未来需要关注的挑战中着重探讨了数据稀缺、泛化能力局限这两个问题，并在文中分别对实时性能及安全性等其他问题进行了不同程度的讨论。

4、CMU 与谷歌 DeepMind 领导的工作在除了总结用于机器人的基础模型的相关论文中的方法，还对这些论文的实验结果进行了元分析（meta-analysis），得到了以下发现：

① 研究社区对机器人操作任务（Manipulation）的关注存在不平衡

② 各类模型的泛化能力（Generalization）和稳健性需要提升

③ 现有工作对低层动作（Low-level Control）的探索很有限

④ 现有工作的控制频率太低（<15Hz），无法部署在真实机器人中（一般需要 100Hz）

⑤ 目前缺乏统一的测试基准（Metrics）和测试平台（Simulation or Hardware），使得对比变得非常困难。

CMU 组关注的挑战有哪些？

以 CMU 和谷歌 DeepMind 领导的文章《Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis》分析并梳理了典型机器人系统的不同模块所面临的五大核心挑战。

图：可通过基础模型解决的机器人技术挑战分类法。研究者在第二层列出了五大挑战，以及每项挑战的部分关键词。

1、挑战一：泛化问题。

① 机器人系统往往难以准确地感知和理解其环境。它们也没有能力将在一个任务上的训练成果泛化到另一个任务，这会进一步限制它们在真实世界中的实用性。

② 由于机器人硬件不同，将模型迁移用于不同形态的机器人也很困难。通过将基础模型用于机器人，可以部分地解决泛化问题。而在不同机器人形态上泛化这样更进一步的问题还有待解答。

2、挑战二：数据稀缺问题。

① 人们已经尝试从现实世界收集大规模数据集，包括自动驾驶、机器人操作轨迹等。但人类收集数据的成本很高，大规模收集数据还有操作复杂，安全隐患，数据量不足等一系列问题。

② 许多工作尝试了在模拟环境中生成合成数据，但仍存在局限性，尤其是在物体的多样性方面，这使得所学到的技能难以直接用于真实世界情况。

③ 一种颇具潜力的方法是协作式数据收集，即将不同实验室环境和机器人类型的数据收集到一起。但是，该团队深度研究了 Open-X Embodiment Dataset，发现在数据类型可用性方面仍存在局限性。

3、挑战三：模型和原语（Primitives）要求。

① 以往基于学习的方法（如模仿学习和强化学习）是以端到端的方式训练策略，也就是直接根据感官输入获取控制输出，这样能避免构建和使用模型。

② 这些方法能部分解决依赖明确模型的问题，但它们往往难以泛化用于不同的环境和任务。

③ 上述情况引出了两个问题：（1）怎么学习能很好泛化的与模型无关的策略？（2）怎么学习好的世界模型，以便应用经典的基于模型的方法？

4、挑战四：任务规范问题。

① 训练通用型智能体的一大关键挑战是理解任务规范并将其根植于机器人对世界的当前理解中。通常而言，任务规范由用户提供，但用户只能有限地理解机器人的认知和物理能力的局限性。

② 这种情况会带来很多问题，包括...

基础模型+机器人有哪些值得讨论的未来研究方向?... 具身智能与传统 Robotics 有何不同?... 通用 Embodied Agent 又有哪些新的机遇与技术挑战？...查看完整解读请前往「机器之心PRO」业内通讯 · 2023年度#Week 52

「机器之心PRO」业内通讯 · 2023年度#Week 52

本期通讯总计 30246 字，包含 3 项专题解读 + 30 项 AI&Robotics 赛道要事收录。

1. 多模态趋势下，Transformer 架构并非唯一解

CNN 和 Transformer，做多模态谁更强？基于 Transformer 的多模态模型有哪些局限性？新的 CNN 架构「UniRepLKNet」有哪些优势？...

2. Google DeepMind 的基础模型+机器人综述二连击

两篇综述分别作者都有谁？两篇综述对同一主题的讨论有何异同？什么是 RFM？两篇综述分别关注哪些瓶颈和未来研究方向？...

3. 大模型推理加速方法一览

苹果提出的通过在闪存中存储模型参数来加速大模型推理，有哪些独特之处？现阶段，LLM 推理加速方法都有哪些？...

↓↓↓ 关注「机器之心 PRO 会员」服务号，点击菜单栏「收件箱」查看往期通讯。

继续阅读

阅读原文