当机器人遇上大模型，“智能”的齿轮开始转动

具身智能（Embodied Intelligence）概念自1950年被图灵提出以来，经历了漫长的多学科发展与融合。随着生成式AI和大模型进阶，唤醒人们对具身智能的更多期待，学术界、科技公司亦积极投入。

概括定义，具身智能指的是通过自身身体体验来产生智能的能力。其中，AI和机器人的深度融合是重要趋势——机器人成为大模型的重要载体；大模型也重构了机器人的开发流程，实现通用场景、多任务、快开发的模式。

更远的未来，通用机器人有望彰显出高度智能和实用价值——不仅具有感知、理解、推理、决策等能力，也能与物理世界真实互动、高效执行指令和任务，这将为人类的智能生活带来更大的想象空间。

当然，具身智能距离真正落地仍有诸多挑战，涉及机器人本体、算法、数据、计算等维度。

近日，高榕资本榕汇举办『具身智能』产学研线上研讨会，来自科研界、人工智能计算企业和人形机器人厂商的专家，从各自视角分享在具身智能领域的前沿探索实践。

以下为部分嘉宾分享精华（经整理）：

今天很多具身智能体已经在某些特定场景有非常强的能力，乃至成为“专家”；但我们真正期待的具身智能体，可能是一个通用机器人（general robot），我们希望他们可以在1000个场景（工厂、实验室、厨房等）里去解决1000种任务，并且要处理各种各样的物体。

但是为何绝对的通用机器人仍然没有到来，我们依然无法让机器人实现这样的泛化能力？举个例子，一个机器人打开冰箱，会看到各种各样的食物、饮料瓶等等，我们在训练场景中很难涉及如此复杂的物体，更不用说真实世界的场景更为复杂。

目前我们从实际遇到的问题中抽象出具身智能三个泛化需求：视觉外观（Visual Appearance）、六维位姿（6D Poses）以及物体性质（Object Types），对应地我们也提出了一些解决方案。

1）视觉外观泛化

我们知道，在计算机视觉领域，ImageNet作为图形分类基准数据集对这一领域的发展起到了重要的助推作用，那么我们就想，是否可以搭建一个面向具身智能视觉泛化的强化学习基准平台？

因此我们推出RL-ViGen，在这一平台上，具身智能算法可以进行比较和测评，初步验证谁能够泛化到足够多样的场景，进而有潜力从实验室走进千家万户。

目前RL-ViGen集成了丰富的任务类别，包括机械臂操作、自动驾驶、灵巧手操作、四足或双足机器人，以及室内外导航等。更进一步，RL-ViGen也提供了多个泛化类型，包括外观（颜色、纹理等）、相机视角、光照、结构和本体。

此外，我们也提出一种基于预训练图像编码器的可泛化视觉强化学习方法（简称PIE-G）。

以往我们在对具身智能体进行预训练和测试时，输入不同视觉场景会导致模型泛化能力出现显著差异。如何在保证训练效率的同时，训练出更为鲁棒和泛化性能更强的模型？PIE-G直接利用ImageNet的预训练模型生成的表征，嵌套在视觉强化学习算法里。通过使用early layer和更新Batch Norm的统计参数，进一步突破智能体泛化能力瓶颈。

PIE-G在泛化性能上比现有方案平均有55%的提升，最高可达127%。可视化的角度来看，无论是在MetaWorld还是自动驾驶模拟器CARLA中，PIE-G都可以应对各种背景的变化。

2）类内物体和位姿泛化

找到对应关系是实现6D位姿泛化的关键要素。所谓位姿泛化，举个例子，作为人类如果我们学会使用一把刀，那么也就会使用其他的刀，原因是能够识别菜刀的关键特征点（刀柄、刀尖等）。也因此，为了实现位姿泛化，我们需要找到关键点的对应关系。

在计算机视觉领域已经有很多成熟的方法，例如利用无监督方式（如KeypointDeformer）找到物体的关键特征点。但是在现实世界中，受到低质量点云、位姿旋转等因素影响，这些特征点比较难真正发挥作用。

我们提出了一个Teacher-Student Framework。利用经典“教师”网络架构PointNet++去提取一个物体的特征，基于无监督方式得到一系列关键点，“学生网络”再去模仿学习关键点（有监督方式），且对于任何旋转输入都可以保持同样的输出。

这一框架，让我们能够找到类内物体关键点的对应关系，进而完成类内物体任何位姿的泛化。

3）多种物体泛化

再进一步，具身智能如何实现多种物体的泛化？目前一个初步的尝试是，可以设计特定机器人构型，比如我们从零构建的触觉控制机器人ArrayBot。

ArrayBot采取分布式的结构，如同一个阵列，通过读取物体的触觉信息，无需考虑重力和视觉干扰等问题；此外基于强化学习，我们在仿真环境下对机器人进行了大规模训练，得出的策略可以直接用以操作不同的现实物体。

ArrayBot有望在工业场景中作为智能传送带，或家庭场景中的智能桌子。当然ArrayBot只是其中一种构型尝试，其他诸如软体机器人等构型也有望解决多种物体泛化的问题。

相关论文：
RL-ViGen: A Reinforcement Learning Benchmark for Visual Generalization, 2023.
USEEK: Unsupervised SE(3)-Equivariant 3D Keypoints for Generalizable Manipulation, 2023.
ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch, 2023.

具身智能有几个关键特点：以第一视角为基础，使得个体能够理解环境、做决策，最重要的是能够与环境互动、从互动中学习知识，进而执行底层动作。与此同时，具身智能的任务也是非常广泛的，包括视觉导航、桌面操作、物品摆放、具身问答、移动操作、指令跟随等等。

因此，我们尝试去打造一个能够实现广泛任务的通用具身智能系统，他一方面有机会具身地完成各种各样的任务；对于现有机器人来说，接入之后可以在智能层级上进行全面的提升。

针对通用具身智能系统目前面临的几大核心挑战，我们尝试提出了若干解决方案。

1）第一视角下的具身认知

以往计算机视觉，更多是第三人称视角的“感知”能力；第一人称视角的“认知”能力，除了能够看到和理解物体的类别、位置、轮廓等，还可以学会如何与对象交互，具有可操作性。比如在开抽屉时，更关注把手等可操作性的部分。

也因此，我们需要一个具备第一视角细粒度和强交互性的数据集来支持训练。为此，我们打造了EgoCOT数据集。这一数据集包含了2900多个小时的细粒度视频文本标注数据。数据通过第一人称视角采集，并且在非常丰富的场景下与各种各样的物体进行交互。

2）通用决策规划

在构建认知系统之后，具身智能还需要在开放世界应对复杂任务、进行决策和规划，那么需要多模态通用的知识库。为此，我们推出了国内首个多模态具身智能大模型EmbodiedGPT。EmbodiedGPT具备具身规划的能力，根据视觉输入可以输出step by step的任务规划；此外还拥有Video Capture、Video Q&A乃至多轮对话的能力。

EmbodiedGPT基于ViT视觉模型和LLaMA语言模型，更加匹配高校和中小企业的需求。从视觉到语言端，我们设计了Embodied-Former和Language Mapping去进行两个模态的衔接。比较独特的是，我们通过可学习的Embodied Queries和视觉特征以及文本特征之间的attention机制，能够提取出与当前任务最相关的特征信息，并将其通过language mapping layer传递给语言模型。

此外模型也支持代码生成，可以直接生成step by step的指令，并且按部就班执行。

目前这一模型在一些通用场景已经显示出应用潜力，比如视觉导航、机械臂真机实验等等。

3）底层技能学习

真正的具身智能系统，我们还希望能够以非常高的学习效率掌握新的技能，并且迁移和泛化到新的场景与任务之上。为此，我们主要基于强化学习，研究高效策略学习、知识迁移、多场景泛化等算法。

相关论文：
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought, 2023.

1）软硬件平台加速机器人开发效率

NVIDIA Isaac是端到端的机器人开发平台，包括仿真平台、算法开发模块，以及中间件和底层加速库。无论是从0到1搭建机器人，还是实现算法操作，亦或快速补齐机器人开发应用中的模块，都有加速软件库去支持，提升机器人、尤其是AI机器人应用开发的效率。

数据对于AI机器人的开发至关重要，但很多场景的数据采集会遇到限制。Isaac Sim是基于Omniverse的机器人数字孪生仿真平台，可以帮助机器人在虚拟环境下生成标注好的数据集。在平台中，可以通过3D建模打造数字孪生环境，随机化修改环境，并通过replicator生成虚拟数据集，作为数据资产用于模型训练、数据回放等等。Isaac Sim对光线追踪、物体材质、机器人等描述都可以精准呈现，达到一个数字孪生级别的仿真平台。

2）见证大模型更多部署在机器人端侧

面对大模型和通用机器人的进阶，我们认为，机器人最终有望变成大模型推理的最佳载体，相信未来会看到更多大模型部署在机器人端侧的用例。在那个时间点，很多移动的机器人都会拥有大模型交互的能力，也是具身智能的体现。

这也对计算提出更高要求。作为人工智能计算平台，我们希望最前沿的核心技术能够应用在NVIDIA的平台，并基于这些技术推出更好的硬件架构和软件基础架构，承载对算力越来越强的需求，并基于更友好的软件生态实现兼容。此外也希望在商业化落地方面，领先的行业客户能够给予更多反馈，帮助开发者和用户更轻松实现落地。

场景和应用角度，在可预见的范围内，我们都有机会见证机器人快速爆发增长。比如人形机器人可以在仓储物流行业提升效率，也可以完成诸如排爆、电力巡检等危险工作。就像“特种兵”，成为人类的朋友和助手。

具身智能距离落地仍有诸多艰难挑战，需要长期的技术积累和研发投入。也因此，需要产学研通力合作、汇聚成河，加速这一技术走进我们的生活。

继续阅读

阅读原文

当机器人遇上大模型，“智能”的齿轮开始转动 | 榕汇产学研研讨