PRO | 模仿学习：OpenAI 放弃的路线是否已进入新篇章？

2023年，几乎 AI 的每个领域都在以前所未有的速度进化，同时，AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。
多模态趋势下，Transformer 作为 AI 大模型主流架构的局面是否会撼动？为何探索基于 MoE （专家混合）架构的大模型成为业内新趋势？大型视觉模型（LVM）能否成为通用视觉的新突破？...
我们从过去的半年发布的2023年机器之心PRO会员通讯中，挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读，助您在新的一年里为大展宏图做好准备。

本篇解读来自2024年 Week02 业内通讯 👇

专题解读模仿学习：OpenAI 放弃的路线是否已进入新篇章？

时间：1月5日

事件：斯坦福的研究者近期开发了低成本全身远程操控系统MobileALOHA，将模仿学习扩展至需要全身协调的双臂移动机器人任务，引起社区热议。

MobileALOHA的核心突破是什么？

研究团队在介绍中表示，MobileALOHA是在人类进行远程操纵下得以完成类似烹饪「滑蛋虾仁」「打蛋」等复杂任务。但对于一些简单的任务，如炒一只虾仁（有且只有一只）、拿块抹布、摆放好椅子，MobileALOHA无需人类指点也能完成。

1、从前作ALOHA到MobileALOHA，其核心突破在于table-topmanipulation→mobilemanipulation，解锁具身智能体通过模仿学习实现复杂移动操作任务的能力。

①研究者表示，使用前作的静态数据集，即staticALOHA中收集的示教数据进行联合训练，能够使机器人在移动操作任务上有更好的表现；

2、MIT研究者沈马成博士曾于2023年12月发布文章，讨论了具身智能的发展情况。[1]

①沈马成在文章中指出，目前具身智能体解决的大多任务均以视觉背景为桌面的环境（table-topscenario）为前提，这一设置大幅简化了对视觉认知能力的要求，智能体学到的策略无法直接用到复杂的非结构化背景；

②文章还指出，对比任何动物能够自主学习新技能，尚无表明目前基于模仿学习的方法能够通过大规模的预训练涌现出训练集中从未出现过的技能。

3、MobileALOHA的另一项突破在于实现了低成本的远程操控系统。

①设施层面，MobileALOHA的总成本约为32000美元，折合人民币约22万元，类似功能的机器人，如PR2和TIAGo的价格可能超过200,000美元。

②算法层面，该工作使用前作ALOHA的静态数据集进行联合训练，减少了模仿学习对新的示教数据量的需求，进而节约成本。

什么是模仿学习？

强化学习（RL）是目前人工智能研究领域最主流的方向之一，而模仿学习（IL）又是其最为重要的分支。浙江大学的研究者于2023年6月发布了综述《模仿学习综述：传统与新进展》，对模仿学习的年度发展，从行为克隆、逆强化学习、对抗式模仿学习、基于观察量的模仿学习和跨领域模仿学习等多个角度进行深入探讨，介绍了模仿学习在实际应用上的最新情况。此外，澳大利亚肯迪大学的研究者在2023年9月也发布了同样主题的综述，梳理了模仿学习的发展情况。

1、模仿学习是强化学习与监督学习的结合，目标是通过观察专家演示，学习专家策略，从而加速强化学习。通过引入任务相关的额外信息，模仿学习相较于强化学习，可以更快地实现策略优化，为缓解低样本效率问题提供了解决方案。

2、传统模仿学习方法包括行为克隆、逆强化学习和对抗式模仿学习等。这些方法在技术路线和框架上相对简单，能在简单任务上取得良好效果。

3、随着计算能力的提升和图形图像任务的进步，结合多种技术的模仿学习方法不断出现，并被广泛应用于更复杂的任务。新进展主要包括基于观察量的模仿学习和跨领域模仿学习等。

4、模仿学习的应用：目前主要集中在游戏AI、机器人控制和自动驾驶等领域。最新的图形图像学研究成果，如目标检测、视频理解等，显著提升了智能体的识别和感知能力，为模仿学习带来了新的进展和应用。

5、目前，许多研究者开始探索直接使用IL提高图形/图像任务的性能，如3D/2D模型与图像配准、医学影像衰减校正和图像显著性预测等，这种结合极大地扩展了研究范围，为解决许多难题提供了新的可能性。

图：模仿学习研究历史时间线，展示了该领域的主要成就

模仿学习对具身智能的价值几何？

1、在深度学习范式下，具身智能的研究主要集中在模仿学习（ImitationLearning）和强化学习（ReinforcementLearning，RL）两大块。

①模仿学习实现技能学习的过程涉及收集特定任务的轨迹数据集，并使用深度神经网络来拟合从状态（state）或观测（例如，第一视角图像）的时间序列到动作（action）的映射。通常，这一过程的数据采集成本较高。

②强化学习通过智能体与环境的直接交互来学习新技能。在这一过程中，智能体会优化预先定义的、与特定任务相关的奖励函数。设计奖励函数通常需要多次迭代，而且与模仿学习相比，强化学习的样本效率通常较低。

2、模仿学习对具身智能的意义在于它提供了一种方法，使智能体能够通过观察和模仿人类专家的行为来学习新技能。

①这种学习方式对智能体来说是直观且高效的，它减少了智能体需要从零开始通过试错来学习的需求；

②在具身智能的背景下，模仿学习帮助智能体快速适应环境，理解问题，并掌握执行任务所需的复杂动作；

③模仿学习特别适用于那些难以定义清晰奖励函数的任务；

④它使智能体能够通过模仿捕捉任务的细微之处，而不是仅依赖于奖励的反馈；

⑤模仿学习也可以作为智能体学习过程的一部分，为强化学习提供一个良好的起点。

3、目前，模仿学习已被广泛应用于各种机器人控制场景，如城市驾驶、高速赛车、自主无人机特技飞行、模仿动物学习运动技能，以及通过对抗性模仿学习获得的四足机器人敏捷技能。

具身智能领域近期还有谁在研究模仿学习？

1、2023年11月，京东探索研究院团队提出了一种具身多模态智能体EMMA，通过交互式跨模态模仿学习方法在具身视觉世界中对VLM进行微调。[4]

①该工作指出，行为克隆、逆强化学习等模仿学习方法都假设专家和模仿者以相同的模态理解世界，忽略来自其他模态的互补知识往往会显著提高模型的准确性和泛化性这一事实；

②该工作通过跨模态微调VLM，使其成为与世界动态对齐的具体化智能体，这个过程涉及从LLM专家提取知识，解决了现有基础模型通常只能在静态文本或图像数据集上预训练的限制；

③该工作解决了具身智能体在动态环境中的应用问题，特别是任务奖励的稀疏性、噪声视觉表示、VLM的幻觉问题，以及VLM的静态表示与视觉世界动态不对齐的问题。

2、2023年10月，英伟达和UTAustin的研究者提出了一项机器人训练数据生成系统，称为MimicGen。该系统通过对人类演示进行处理，自动生成不同场景下的大规模数据集，进而用于机器人的模仿学习。[6]

①MimicGen可以在各种新的场景配置、对象实例和机械臂上生成高质量数据，并通过模仿学习训练出熟练的智能体；

②MimicGen会取一小部分人类演示，并将它们划分为以对象为中心的片段，然后在不同物体姿态的新场景选择一个人类演示变换其以对象为中心的片段，然后缝合形成一个新演示；

③研究者表明，这种模式虽然简单，但在生成跨越多样化场景的大型数据集方面极为有效，而这些数据集可以用来通过模仿学习训练更聪明的智能体。

3、2023年9月，特斯拉展示了其人形机器人Optimus的进展演示视频，包括完成做瑜伽和自动按颜色分类等任务。英伟达高级AI科学家JimFan分享了他对该视频逆向工程后的分析[5]：

①JimFan表示Optimus流畅的手部动作几乎可以肯定是通过人类操作员的模仿学习（"行为克隆"）训练所得；

②基于上述结论，JimFan表示其中至少有四种方法可以收集「人类演示」，分别是「定制远程操作系统」「动作捕捉（MoCap）」「戴手套和用记号笔」「VR头显」

③JimFan表示定制远程操作系统是特斯拉团队最可能采用的办法，而这种方法的代表性开源实例就是斯坦福团队提出的ALOHA。

4、此外，近期的模仿学习还有英伟达的HITL-TAMP，字节跳动的MOMA-Force、AI2的SwiftSage等。

解散机器人团队前，OpenAI曾有多少模仿学习的突破？

OpenAI于2021年解散了机器人团队，该公司联创WojciechZaremba在一档播客节目中透露了这个消息，解散的理由是「数据不够丰富」。WojciechZaremba表示：「事实证明，只要能够访问数据，以及借助机器学习、无监督和强化学习，我们就可以取得巨大的进步……实际上有很多领域的数据非常丰富。而数据问题阻碍了我们在机器人技术方面的发展。」在此之前，OpenAI机器人团队曾在机器人领域有过很多技术突破，其中不乏模仿学习方向的工作进展。

......

完整版专题解读「模仿学习：OpenAI 放弃的路线是否已进入新篇章？」已上架至机器之心Pro会员收件箱。新用户订阅限时特惠，单期低至 2.99 元！

Step 1：关注「机器之心PRO 会员」服务号
Step 2：进入服务号，点击菜单栏「收件箱」
Step 3：进入「收件箱」，点击「参考」板块，畅读往期所有专题解读

继续阅读

阅读原文