Diffusion Policy 做具身控制会比 VLM 更有前途吗？

机器之心PRO · 会员通讯 Week 17

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. Diffusion Policy 做具身控制会比 VLM 更有前途吗？

大佬用了 Diffusion Policy 也说好？Diffusion Policy 是什么？扩散模型做具控制优势在哪？VLM 效果不好吗？还有谁在用扩散做具身智能？大佬辩论还聊了什么？...

2. 开闭源并非「二元论」，谁开源才是关键

开源模型会越来越落后？不同阵营，有哪些观点在博弈？开源和闭源模型的关键差距在哪？开源模型生态靠什么盈利？开闭源到底在争论什么？投资人如何看？...

3. 黄仁勋在「CadenceLIVE 硅谷 2024」大会上透露了哪些关键信息？

黄仁勋为何更看好人形机器人赛道？黄仁勋认为 AI 技术的下一个风口是什么？...

...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 10 项，国外方面 9 项。

本期通讯总计 26744 字，可免费试读至 15 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①Diffusion Policy 做具身控制会比 VLM 更有前途吗？

日期：4 月 26 日

事件：黄仁勋近期对人形机器人的预测使业界对具身智能的讨论又开始升温。就具身智能领域当前的进展，许多工作聚焦于通过基础模型解决具身感知、导航等任务。但在 CoRL 2023 的一场辩论中，MIT CSAIL 机器人中心主任、丰田研究院副总裁 Russ Tedrake 却反复强调了一种 Diffusion Policy 对具身控制（manipulation）带来的价值。

Diffusion Policy 是被忽略的具身控制明珠吗？

1、Coral 2023 大会举办了一场「大模型能带来通用机器人吗？( Will Scaling Solve Robotics?）」主题的辩论会。[1]

① 正方辩手大多是 Robot Learning 领域的大佬，包含 Sergey Levine、Chelsea Finn。但第三位辩手 Russ Tedrake 的偏向控制领域，他在开场玩笑性地调侃为什么自己会坐在正方。

② 反方辩手大多是机器人控制理论和基于模型控制领域的大佬，包含 Scott Kuindersma、Stefan Schaal、Emo Todorov。

2、Russ Tedrake 多次提及了一项 Diffusion policy 技术对具身控制的帮助。[2]

① Tedrake 表示：基于扩散策略的突破性生成式人工智能方法显著提高了机器人的效用，是构建机器人「大行为模型（LBMs）」迈出的一步，类似于最近彻底改变了对话人工智能的大型语言模型（LLMs）。

3、Diffusion Policy 在处理多模态动作分布、适用于高维动作空间以及展示出色的训练稳定性方面具有强大的优势。[4]

① 根据 Diffusion Policy 的论文，该方法在在四个不同的机器人操纵基准的 12 项任务中表现优于其他 SOTA 方法，平均改进 46.9%。

4、在 Diffusion Policy 相关的视频演示中，机械臂能够实现用稳定的速度完成摊披萨、摆正各种角度的杯子。其最突出的特点是机器人执行操作的路径始终比其他方法更加连贯。[4]

5、丰田研究院（TRI）在 2023 年度发布了基于 Diffusion Policy 的具身控制成果，并强调了该技术的优势[3] ：

① 支持多模态演示，允许人类演示者自然地教授行为，而不必担心破坏机器人的学习。

② 适用于高维动作空间，使机器人能够及时计划并避免不稳定的行为。

③ 稳定可靠，适合大规模训练机器人。

什么是 Diffusion Policy？

Diffusion Policy 是哥伦比亚大学宋舒然团队和 MIT 教授 Russ Tedrake 带领的丰田机器人研究院共同创作。该论文于 2023 年 3 月上传至 ArXiv，截止 2024 年 3 月已更新了 5 版。

1、在具身智能领域，机器人操作的执行（action）是木桶最短的板，而 Diffusion Policy 的核心价值在于改善了具身控制面对的多模态分布、时序相关性和训练稳定性的挑战。[5]

① Diffusion Policy 的一作迟宬表示：这个技术解决的是机器人输出的问题，过往很多工作都注重在解决输入的问题，但机器人最终要执行，我们的工作就在于解决机器人动作和输出的问题。

② 迟宬是哥伦比亚大学的计算机科学博士生，在宋舒然教授的指导下做机器人操纵和感知相关的研究。

2、Diffusion Policy 可以理解为扩散模型在机器人控制中的应用，能够结合模仿学习，通过观察人类专家的演示来学习策略。[4]

① Diffusion Policy 是一种机器人行为生成方法（Robot Action Generation），将机器人的视觉动作策略（Visuomotor Policy）表示为条件去噪扩散过程（Conditional Denoising Diffusion Process）。

② 该方法使用视觉编码器将原始图像数据转换为潜在的观察嵌入，这些嵌入随后用于条件去噪过程。

③ 在每次迭代中，噪声预测网络（εθ）预测当前噪声样本的噪声梯度，然后用于更新样本，逐步去噪。

④ 通过随机 Langevin 动力学步骤，Diffusion Policy 迭代地优化动作序列，直到生成最终的动作。

3、为了充分发挥扩散模型在物理机器人视觉运动策略学习中的潜力，该工作还提出了三项关键技术，分别是 receding horizon control，visual conditioning，和 time-series diffusion transformer。[4]

① Receding Horizon Control 是一种优化策略，它用于生成有限时间范围内的动作序列，而非整个任务的动作序列。

② Visual Conditioning 指将视觉观察数据作为条件信息输入至 Diffusion Policy，以此来指导动作的生成，用于增强决策过程，同时减少计算量。

③ Time-Series Diffusion Transformer 专门设计来处理时间序列数据，尤其适应需要高频动作变化和速度控制的任务。

4、经测试，Diffusion Policy 在所有测试的基准测试中实现 SOTA，平均改进率达到了 46.9%。即使在高维动作空间中，Diffusion Policy 也能够生成一致和准确的动作序列。[4]

① 实验涉及 15 个不同的机器人操作任务，覆盖 4 个不同的机器人操作基准测试

② 实验不仅在模拟环境中进行，也在真实世界的机器人平台上进行，以验证模型的泛化能力和实用性。

为什么 Diffusion Policy 对具身控制特别有效？[5]

1、最简单的形式来看，从演示中学习策略可以被表述为学习将观察映射到动作的监督回归任务。但在实践中，预测机器人动作存在多模态分布、时序相关性和训练稳定性的要求。

① 在机器人学习领域，常用的机器人控制方法有直接回归（regression）、分类预测（classification）和生成式模型，但均存在局限。

2、解决机器人多模态分布方面，Diffusion Policy 的优势在于引入概率分布，允许一个输入对应多个可能的输出，提供了更大的灵活性，能够表示各种概率分布。

① Multi-Modal 可以概括为现实世界中解决某一特定任务的方式可以有多种，但传统神经网络预测只能给出单一的方式，无法应对可能有多种方式的任务情况。

② 扩散模型本身就表示概率分布的优质方法，由此增加的自由度对提高算法稳健性有很大影响。

3、解决动作空间可扩展性问题方面，DIffusion Policy 能够一次性预测多步动作，避免了高维空间中分类方法的高成本，同时解决了连续控制中的动作一致性问题。

① Action Space Scalability 或 Sequential Correlation 问题可以归纳为机器人对未来动作的预测不应仅限于眼前几步，而应具有前瞻性，能够预测更远未来的多步动作。

② 传统分类方法一次只能预测一步，将连续值问题转化为分类问题虽然可行，但随着维度的增加，计算成本呈指数级增长。

4、解决训练稳定性方面，相比于其他生成模型（如 GAN），Diffusion Policy 的训练过程非常稳定，不需要精细调整参数即可获得有效的输出。

① 理论上所有的生成模型都可以预测连续的多模态分布，但 GAN 因训练不稳定性需要耗费大量成本进行调参，也有 VAE 方法也有自己的局限。

5、Diffusion Policy 的另一项优势在于，作为一种策略逻辑，它适用于输入图像并输出相应动作的情境，与机器人控制中常用的强化学习和模仿学习两条路径并不冲突。

① 论文中展示了 Diffusion Policy 结合模仿学习的方式，由人类遥控机器人执行动作，收集数据，并通过学习将其转化为策略。

① 基于强化学习的策略可能为了加速训练采用低纬度的信息作为输入，但这个状态信息在真实环境无法获得，不能直接驱动机器人。研究者对此会把 RL Policy 生成的数据训练成以图片为输入的模仿学习策略，也就是「蒸馏」。

VLM/LLM 比之 Diffusion Policy 如何？

1、自 2023 年具身智能迎来热潮，出现了许多基于基础模型的工作，但 LLM 和 VLM 的进展大多在于机器人感知和决策层面，但对具身执行并没有很大的影响。

① 以往许多采用 VLM 的方法大多针对机器人策略的视觉理解，或直接训练基于语言和图像的策略，但大多在精确定位障碍物和物体方面存在局限，导致执行任务时失败。

2、Diffusion Policy 的作者迟宬同样参与了谷歌 RT-X 的工作，但表示相比之下使用扩散模型进行具身控制更有优势。

3、在 Meta、东大和谷歌 DeepMind 的研究者在 2024 年 2 月发表综述，讨论了基础模型在真实世界机器人应用中的使用情况。综述将机器人的行为分为感知、规划和控制三个部分，并讨论了如何将基础模型应用于这些领域。

表：不同基础模型在真实世界机器人应用中的使用情况[6]

除了 Diffusion Policy，还有什么用扩散方法做机器人控制的工作吗？[7] [8]

1、OpenAI 投资的人形机器人创企 1X 在的机器人同样采用了 Diffusion Policy 来实现机器人控制。

① 1X 公司于 2024 年 1 月完成了 1 亿美元的 B 轮融资，同月份展示了其人形机器人 EVE 的倒咖啡能力，以及开发中的新型号 NEO 的简要情况。

② 1X 在 4 月发布了 youtube 视频，介绍了用于机器人操作任务的 SUSIE 方法，该工作采用 Diffusion Policy 来训练策略。

2、1X 提出的 SuSIE 方法旨在通过结合预训练的图像编辑模型和低级目标条件策略，解决在未结构化环境中的零试操作能力。SUSIE 方法通过子目标生成和完成子目标两个阶段来实现。

3、子目标生成环节采用预训练的图像编辑扩散模型（InstructPix2Pix），根据机器人的当前观察和语言指令生成中间「子目标」图像，用于指导下一步动作。

4、完成子目标环节则通过机器人数据上训练的低级目标条件策略执行动作，完成子目标。该策略只需学习视觉-运动关系，无需指令文本输入来帮助理解任务的语义。

① 该环节使用的低级策略基于 BridgeData V2 机器人数据集训练所得。

② 训练策略使用了 Diffusion Policy 作为算法，其输入为当前状态的图像和上一阶段生成的子目标图像；输出则是一系列机器人动作。

③ 由此训练的策略能够精确执行动作以达到特定视觉目标。该策略能够对单个动作进行决策，也能够在连续的时序步骤中维持策略一致性和连贯性。

5、经测试，SuSIE 在 CALVIN 基准测试和真实世界操纵任务中实现 SOTA，其零试泛化、任务精度和低级技能执行方面的表现均优于现有技术

除了 Diffusion Policy，大佬在 CORL 辩论会上还聊了什么？[2]

在 CoRL 2023 的辩论环节中，各方大佬围绕「Is scaling enough to deploy general-purpose robots？」的主题，讨论了基础模型和 Scaling Law 在解决机器人问题上是否可行。正方辩手有 Sergey Levine、Chealse Finn、Russ Tedrake。反方辩手有 Stefan Schaal，Scott Suindersma 和 Emo Todorov。

1、正方认为 Scaling 有效，用大规模的数据集训练大型神经网络能解决机器人的问题。

① Scaling 在计算机视觉（CV）和自然语言处理（NLP）中已经获得成功，在机器人学中也可能有效。最近的模型如 GPT4-V 和 SAM 展示了在大量数据上训练大型模型可以取得惊人的进展。

继续阅读

阅读原文

关键词

方法

领域

任务

数据

扩散模型