VLM 的下一步是会更靠向支持 Robotics 吗？

专题解读
事件：
近日，ByteDance Research 团队发布了基于多模态语言视觉大模型 OpenFlamingo 的 RoboFlamingo 机器人操作模型，仅简单、少量的微调就可以把 VLM 变成 Robotics VLM，适用于语言交互的机器人操作任务。

目前，虽然大型语言模型（LLMs）和视觉-语言模型（VLMs）作为高层规划者被纳入机器人系统中，但是直接将它们用于低层控制仍然存在挑战。大多数 VLMs 是在静态图像-语言配对上训练的，而机器人任务需要闭环控制的视频理解。

同时，VLM 的输出主要包含语言标记（token），其表示与机器人动作有很大的差异，且使用使用私有模型适应低层机器人控制的可能解决方案成本较高，需要在大量的视觉-语言数据上进行协同微调以充分展示其效果。

RoboFlamingo 有哪些核心突破？

1、ByteDance Research 提出的视觉语言操作框架 RoboFlamingo，利用预训练的 VLMs 来理解每个决策步骤的视觉观察和语言指令，使用显式策略头建模历史特征，并仅通过模仿学习在语言条件下的操作数据集上进行微调。

2、RoboFlamingo 只需要很少量的数据来使模型适应下游操作任务，而且 RoboFlamingo 还提供了对于开环控制的灵活性，并可在低性能平台上部署。

3、RoboFlamingo 仅需添加一个用于端到端微调的策略头即可适应机器人操作，解决了：

① 将基于静态图像输入的视觉-语言模型调整为视频观测；

② 生成机器人控制信号而不是仅文本输出；

③ 仅需要有限数量的下游机器人操作数据就能以数十亿个可训练参数实现高性能和通用性。

4、RoboFlamingo 包含 vision encoder、feature fusion decoder 和 policy head 三个模块。

① Vision encoder 模块先将当前视觉观测输入到 ViT 中，并通过 resampler 对 ViT 输出的 token 进行 down sample；

② Feature fusion decoder 将 text token 作为输入，并在每个 layer 中先将 vision encoder 的 output 作为 query 进行 cross attention，之后进行 self attention 以完成视觉与语言特征的融合。

③ 最后，对 feature fusion decoder 进行 max pooling 后将其送入 policy head 中，policy head 根据 feature fusion decoder 输出的当前和历史 token 序列直接输出当前的 7 DoF relative action，包括了 6-dim 的机械臂末端位姿和 1-dim 的 gripper open/close。

5、实验结果表明，RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。

VLM 是什么？

1、视觉-语言模型（VLM）是一种多模态模型，同时接受图像和文本输入。VLM 可以使用互联网上几乎无限可获得的大规模图像-文本对进行预训练，预训练的 VLM 可以直接应用于下游视觉识别任务，无需微调。

2、VLM 预训练通常由某些视觉-语言目标指导，使其能够从大规模图像-文本对中学习图像-文本对应关系。如 CLIP 采用图像-文本对比目标，并通过在嵌入空间中拉近配对的图像和文本，推远其他图像和文本来学习。通过这种方式，预训练的 VLMs 捕获丰富的视觉-语言对应知识，并可以通过匹配任何给定图像和文本的嵌入来进行零样本预测。

3、VLM 的网络架构

1）VLM 两种类型的网络架构被广泛用于学习图像特征，即基于 CNN 的架构和基于 Transformer 的架构 ......

对于具身智能来说，VLM 有哪些价值或潜力？

1、现有的机器人系统被设计用于特定任务，训练在特定数据集上，并部署在特定环境中。这些系统通常需要大量标注数据，依赖于特定任务的模型，在现实世界场景中部署时存在许多泛化问题，并且难以保持对分布变化的稳健性。

2、传统的机器人规划和控制方法通常需要仔细建模世界、自主体的动力学或其他代理的行为。由于这些模型是为每个特定环境或任务构建的，通常需要随着变化而重建，受到分布变化和泛化能力降低的困扰。

3、VLM 等基础模型引入至机器人领域乃至具身智能领域，是为了赋予机器人系统开放世界的感知、任务规划甚至运动控制能力 ......

① VLM 擅长于需要理解视觉内容和语言的任务，如开放集图像分类、目标检测、分割、视觉问答（VQA）等，通过利用大规模数据集和复杂的神经网络架构......

② 根据预训练方法大致可以分为两大类，分别为对比学习模型和生成预训练模型......

4、机器人的系统或关键组件主要包括三个方面，分别为机器人感知系统、机器人决策与规划系统、机器人动作生成系统。VLMs 通过结合视觉和语言信息，可以为机器人提供了更全面和深入的环境感知，更有效的任务规划，以及更精确的动作执行能力......

RoboFlamingo 有哪些核心突破？VLM 与具身智能的关系是什么？VLM 在具身智能领域有哪些价值和潜力？VLM 未来有哪些研究方向？... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 03