Robot Transformers 是什么 Transformer？

专题解读
事件：
2023 年 12 月中旬，斯坦福大学和普林斯顿大学等多所大学以及英伟达和 Google DeepMind 等多家企业的一个联合研究团队发布了一篇综述报告，总结了基础模型在机器人研究领域的发展情况和未来挑战。

为何要关注Robot Transformer？

在综述《Foundation Models in Robotics: Applications， Challenges， and the Future》中，研究者探讨了基础模型如何为机器人系统带来突破性的改进，以及这些模型在感知、预测、规划和控制等方面的潜在应用。

对于不同种类的基础模型，Robot Transformers 与另四类任务共同被归类于「直接用于机器人的基础模型」。

在背景介绍部分，研究者将用于机器人领域的基础模型分为两类。

一类是间接机器人研究相关联的基础模型，涉及感知（perception）和具身智能（Embodied AI）方向的研究。感知方面基础模型涉及处理「开放词汇对象检测和 3D 分类」、「开放词汇语义分割」、「开放词汇 3D 场景表示」和「可供性（affordances）」；具身智能方面的基础模型则有 Statler、EmbodiedGPT、Voyage、ELLM 等代表性工作。

另一类是直接用于机器人领域的基础模型，Robot Transformer 也归属于此。

图：利用了基础模型的机器人任务概述

所以什么是 Robot Transformers？

研究者在介绍Robot Transformers的小节中指出，通过一个整合感知、决策制定和动作生成的框架，这种基于 Transformer 架构的基础模型能够用于机器人的端到端控制。

综述在该小节列举了近期一系列 Robot Transformers 的工作，如RT系列、PACT、SMART等，探讨了这种基础模型在解锁机器人端到端控制的潜力，相关工作的探索方向包含：

1、自监督视觉预训练：通过使用真实世界的图像进行自监督视觉预训练，学习直接从像素输入进行机器人操纵任务的控制技能，无需任务特定的微调。

2、多模态输入处理：能够处理图像和自然语言指令作为输入，支持机器人根据视觉和语言信息生成动作。

3、泛化能力：通过在多样化的真实世界数据上训练，获得的表征能够适用于广泛的机器人应用。

4、跨领域数据吸收能力：能够有效地吸收和利用来自不同领域（包括仿真和不同机器人）的数据，增强模型的适应性和稳健性。

Robot Transformers 类型的工作是如何探索端到端机器人控制的？

1、机器人操纵任务方面，Xiao 等人和 Radosavovic 等人的工作证明了自监督预训练的优势，解锁了基础模型从多样化和非结构化的视觉数据中学习的可能，进而生成更家稳健和可转移的表征，用于机器人系统中的马达控制任务。

① Xiao 等人的工作《Masked visual pre-training for motor control》针对机器人操纵任务提出的方法无需对预训练的编码器进行任何任务特定的微调，即可直接从像素输入学习马达控制任务。

② Radosavovic 等人的工作《Real-world robot learning with masked visual pre-training》发现在野外多样化视频上使用自监督视觉预训练获得的表征在不同任务和机器人平台上泛化性良好，展示了自监督预训练对真实世界机器人应用的广泛适用性。

2、泛化性方面，RT-1 的工作使用大型的数据集训练了具备可扩展性的模型。它可以在变化的环境中保持稳健，并执行长期的指令，实现在新任务上的适应性。

① RT-1 还展示了该模型具有学习不同领域数据的能力，如仿真和不同类型机器人的数据...

RT-2、RT-X 是如何进一步探索机器人控制能力的？RT 系列之外还有哪些Robot Transformer 的工作？这些工作实现了哪些层面的突破？...查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 05

本期完整版通讯含 3 个专题解读 + 29 项 AI & Robotics 赛道要事收录

1. 「Foundation Agent」是下一个 AI 前沿还是「吹水」？

Foundation Agent 是什么新兴概念？相比于以往的各类 Agent 有哪些关键特点？Foundation Agent 和 Foundation Model 到底是不是一个东西？...