模仿学习：OpenAI 放弃的路线是否已进入新篇章？

机器之心PRO · 会员通讯 Week 02

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 模仿学习：OpenAI 放弃的路线是否已进入新篇章？

炒虾机器人的核心价值是什么？模仿学习对具身智能的价值又是什么？OpenAI 此前在模仿学习方向有多领先？模仿学习近期都有哪些发展？...

2. 大模型只靠 RAG 技术能实现知识学习模式的革新吗？

RAG 能解决 LLM 哪些问题？RAG 和 PE、FT 等优化技术有何异同？RAG 架构本身有哪些局限性？...

3. 从谷歌 Deepmind 具身智能新成果，看通往 AGI 的技术路径

做具身智能，有哪些技术路径？谷歌 Deepmind 走的是哪条路径，有哪些优劣势？谷歌 Deepmind 具身智能新成果有哪些技术细节值得关注？...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 8 项，国外方面 8 项...

本期通讯总计 27957 字，可免费试读至 10%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①模仿学习：OpenAI 放弃的路线是否已进入新篇章？

时间：1 月 5 日

事件：斯坦福的研究者近期开发了低成本全身远程操控系统 Mobile ALOHA，将模仿学习扩展至需要全身协调的双臂移动机器人任务，引起社区热议。

Mobile ALOHA 的核心突破是什么？

研究团队在介绍中表示，Mobile ALOHA 是在人类进行远程操纵下得以完成类似烹饪「滑蛋虾仁」「打蛋」等复杂任务。但对于一些简单的任务，如炒一只虾仁（有且只有一只）、拿块抹布、摆放好椅子，Mobile ALOHA 无需人类指点也能完成。

1、从前作 ALOHA 到 Mobile ALOHA，其核心突破在于 table-top manipulation → mobile manipulation，解锁具身智能体通过模仿学习实现复杂移动操作任务的能力。

① 研究者表示，使用前作的静态数据集，即 static ALOHA 中收集的示教数据进行联合训练，能够使机器人在移动操作任务上有更好的表现；

2、MIT 研究者沈马成博士曾于 2023 年 12 月发布文章，讨论了具身智能的发展情况。[1]

① 沈马成在文章中指出，目前具身智能体解决的大多任务均以视觉背景为桌面的环境（table-top scenario）为前提，这一设置大幅简化了对视觉认知能力的要求，智能体学到的策略无法直接用到复杂的非结构化背景；

② 文章还指出，对比任何动物能够自主学习新技能，尚无表明目前基于模仿学习的方法能够通过大规模的预训练涌现出训练集中从未出现过的技能。

3、Mobile ALOHA 的另一项突破在于实现了低成本的远程操控系统。

① 设施层面，Mobile ALOHA 的总成本约为 32000 美元，折合人民币约 22 万元，类似功能的机器人，如 PR2 和 TIAGo 的价格可能超过 200,000 美元。

② 算法层面，该工作使用前作 ALOHA 的静态数据集进行联合训练，减少了模仿学习对新的示教数据量的需求，进而节约成本。

什么是模仿学习？

强化学习（RL）是目前人工智能研究领域最主流的方向之一，而模仿学习（IL）又是其最为重要的分支。浙江大学的研究者于 2023 年 6 月发布了综述《模仿学习综述：传统与新进展》，对模仿学习的年度发展，从行为克隆、逆强化学习、对抗式模仿学习、基于观察量的模仿学习和跨领域模仿学习等多个角度进行深入探讨，介绍了模仿学习在实际应用上的最新情况。此外，澳大利亚肯迪大学的研究者在 2023 年 9 月也发布了同样主题的综述，梳理了模仿学习的发展情况。

1、模仿学习是强化学习与监督学习的结合，目标是通过观察专家演示，学习专家策略，从而加速强化学习。通过引入任务相关的额外信息，模仿学习相较于强化学习，可以更快地实现策略优化，为缓解低样本效率问题提供了解决方案。

2、传统模仿学习方法包括行为克隆、逆强化学习和对抗式模仿学习等。这些方法在技术路线和框架上相对简单，能在简单任务上取得良好效果。

3、随着计算能力的提升和图形图像任务的进步，结合多种技术的模仿学习方法不断出现，并被广泛应用于更复杂的任务。新进展主要包括基于观察量的模仿学习和跨领域模仿学习等。

4、模仿学习的应用：目前主要集中在游戏 AI、机器人控制和自动驾驶等领域。最新的图形图像学研究成果，如目标检测、视频理解等，显著提升了智能体的识别和感知能力，为模仿学习带来了新的进展和应用。

5、目前，许多研究者开始探索直接使用 IL 提高图形/图像任务的性能，如 3D/2D 模型与图像配准、医学影像衰减校正和图像显著性预测等，这种结合极大地扩展了研究范围，为解决许多难题提供了新的可能性。

图：模仿学习研究历史时间线，展示了该领域的主要成就[2]

模仿学习对具身智能的价值几何？

1、在深度学习范式下，具身智能的研究主要集中在模仿学习（Imitation Learning）和强化学习（Reinforcement Learning， RL）两大块。[1]

① 模仿学习实现技能学习的过程涉及收集特定任务的轨迹数据集，并使用深度神经网络来拟合从状态（state）或观测（例如，第一视角图像）的时间序列到动作（action）的映射。通常，这一过程的数据采集成本较高。

② 强化学习通过智能体与环境的直接交互来学习新技能。在这一过程中，智能体会优化预先定义的、与特定任务相关的奖励函数。设计奖励函数通常需要多次迭代，而且与模仿学习相比，强化学习的样本效率通常较低。

2、模仿学习对具身智能的意义在于它提供了一种方法，使智能体能够通过观察和模仿人类专家的行为来学习新技能。

① 这种学习方式对智能体来说是直观且高效的，它减少了智能体需要从零开始通过试错来学习的需求；

② 在具身智能的背景下，模仿学习帮助智能体快速适应环境，理解问题，并掌握执行任务所需的复杂动作；

③ 模仿学习特别适用于那些难以定义清晰奖励函数的任务；

④ 它使智能体能够通过模仿捕捉任务的细微之处，而不是仅依赖于奖励的反馈；

⑤ 模仿学习也可以作为智能体学习过程的一部分，为强化学习提供一个良好的起点。

3、目前，模仿学习已被广泛应用于各种机器人控制场景，如城市驾驶、高速赛车、自主无人机特技飞行、模仿动物学习运动技能，以及通过对抗性模仿学习获得的四足机器人敏捷技能。

具身智能领域近期还有谁在研究模仿学习？

1、2023 年 11 月，京东探索研究院团队提出了一种具身多模态智能体 EMMA，通过交互式跨模态模仿学习方法在具身视觉世界中对 VLM 进行微调。[4]

① 该工作指出，行为克隆、逆强化学习等模仿学习方法都假设专家和模仿者以相同的模态理解世界，忽略来自其他模态的互补知识往往会显著提高模型的准确性和泛化性这一事实；

② 该工作通过跨模态微调 VLM，使其成为与世界动态对齐的具体化智能体，这个过程涉及从 LLM 专家提取知识，解决了现有基础模型通常只能在静态文本或图像数据集上预训练的限制；

③ 该工作解决了具身智能体在动态环境中的应用问题，特别是任务奖励的稀疏性、噪声视觉表示、VLM 的幻觉问题，以及 VLM 的静态表示与视觉世界动态不对齐的问题。

2、2023 年 10 月，英伟达和 UT Austin 的研究者提出了一项机器人训练数据生成系统，称为 MimicGen。该系统通过对人类演示进行处理，自动生成不同场景下的大规模数据集，进而用于机器人的模仿学习。[6]

① MimicGen 可以在各种新的场景配置、对象实例和机械臂上生成高质量数据，并通过模仿学习训练出熟练的智能体；

② MimicGen 会取一小部分人类演示，并将它们划分为以对象为中心的片段，然后在不同物体姿态的新场景选择一个人类演示变换其以对象为中心的片段，然后缝合形成一个新演示；

③ 研究者表明，这种模式虽然简单，但在生成跨越多样化场景的大型数据集方面极为有效，而这些数据集可以用来通过模仿学习训练更聪明的智能体。

3、2023 年 9 月，特斯拉展示了其人形机器人 Optimus 的进展演示视频，包括完成做瑜伽和自动按颜色分类等任务。英伟达高级 AI 科学家 Jim Fan 分享了他对该视频逆向工程后的分析[5] ：

① Jim Fan 表示 Optimus 流畅的手部动作几乎可以肯定是通过人类操作员的模仿学习（"行为克隆"）训练所得；

② 基于上述结论，Jim Fan 表示其中至少有四种方法可以收集「人类演示」，分别是「定制远程操作系统」「动作捕捉（MoCap）」「戴手套和用记号笔」「VR 头显」

③ Jim Fan 表示定制远程操作系统是特斯拉团队最可能采用的办法，而这种方法的代表性开源实例就是斯坦福团队提出的 ALOHA。

4、此外，近期的模仿学习还有英伟达的 HITL-TAMP，字节跳动的 MOMA-Force、AI2 的 SwiftSage 等。

解散机器人团队前，OpenAI 曾有多少模仿学习的突破？

OpenAI 于 2021 年解散了机器人团队，该公司联创 Wojciech Zaremba 在一档播客节目中透露了这个消息，解散的理由是「数据不够丰富」。Wojciech Zaremba 表示：「事实证明，只要能够访问数据，以及借助机器学习、无监督和强化学习，我们就可以取得巨大的进步…… 实际上有很多领域的数据非常丰富。而数据问题阻碍了我们在机器人技术方面的发展。」在此之前，OpenAI 机器人团队曾在机器人领域有过很多技术突破，其中不乏模仿学习方向的工作进展。[7]

继续阅读

阅读原文

关键词

机器人

任务

智能体

数据集

团队