Foundation Agent 是下一个 AI 前沿还是「吹水」？

机器之心PRO · 会员通讯 Week 05

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. Foundation Agent 是下一个 AI 前沿还是「吹水」？

Foundation Agent 是什么新兴概念？相比于以往的各类 Agent 有哪些关键特点？Foundation Agent 和 Foundation Model 到底是不是一个东西？...

2. Robot Transformers 是什么 Transformer？

为何要关注 Robot Transformer？什么是 Robot Transformer？Robot Transformers 都有哪些工作？这些工作分别解锁了什么价值？...

3. 多模态大型语言模型综述：理清多模态关键技术

MM-LLM 近期的研究方向如何？MM-LLM 模型的核心架构是什么？26 个最佳 MM-LLM 都有哪些特点？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面项，国内方面项，国外方面项...

本期通讯总计 21427 字，可免费试读至 12 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① Foundation Agent 是下一个 AI 前沿还是「吹水」？

日期：1 月 24 日

事件：近日，英伟达高级科学家 Jim Fan 在一场演讲中提出「Foundation Agent（基础智能体）」概念，Jim Fan 认为「Foundation Agent」将是下一个 AI 前沿，会从根本上改变我们的生活。

先来了解下 Foundation Agent 是什么？

1、英伟达高级科学家 Jim Fan 在演讲中提出「Foundation Agent」这一概念。Jim Fan 认为，「Foundation Agent」是一个可以在虚拟世界和现实世界里泛化的通用智能体模型。「Foundation Agent」能跨越虚拟与现实世界的界限，核心是创建一个能够在虚拟和现实世界中无缝运作的 AI 模型。该技术可以在视频游戏、元宇宙、无人机和人形机器人等领域发挥重要作用，使单一模型能够在这些不同环境中掌握多种技能。

2、Jim Fan 认为，「Foundation Agent」应该在以下 3 个维度上进行扩展：

① 技能：能解决的任务数量；

② 具身：能控制的身体形态的多样性；

③ 现实：智能体能掌握的虚拟或物理空间的数量，包括有不同规则的游戏、模拟和真实世界场景。

3、Jim Fan 以坐标轴举例，在 Embodiment、Skill、Reality 三个轴上进行泛化的单一智能体，起点是 AlphaGo，最终目标则是「Foundation Agent」。

Foundation Agent 有哪些关键特点？与以往的各类 Agent 相比有没有区别？[1] [2] [3]

1、Jim Fan 认为，基础智能体的训练将与 ChatGPT 非常相似，任何语言任务均可以表达为文本输入和文本输出。

2、「Foundation Agent」包括三方面的能力：

① 具备海量的常识知识和技能，可以完成任何一个领域的基础任务；

② 没有固定的物理躯体形态，可以根据不同的任务，无障碍的控制不同形态的「身体」。

③ 可以在不同的时空和规则下完成任务，目前的理解就是既可以完成现实中的任务，也可以胜任网络中虚拟世界的角色。

3、「Foundation Agent」关键点在于需要有跨环境操作能力。Foundation Agent 的目标是开发一个能够广泛适用于各种环境的 AI 智能体，需要同一个模型可以在视频游戏、元宇宙、无人机和人形机器人等多种不同的应用场景中运作，而无需为每个场景单独设计和训练 AI 模型。

4、单从定义上来看，首先，「Foundation Agent」作为一种智能体，与以往通用意义上的 AI Agent 定义存在一定的偏差，侧重点不同。

① 「Foundation Agent」强调的是，可以在虚拟世界和现实世界里泛化的通用智能体模型。

② 在综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》中，给出的定义为「AI Agent 作为一类能够感知视觉刺激、语言输入和其他以环境为基础的数据，并能生成具有无尽智能体的有意义的实体行动的交互系统。」

③ 在综述论文《The Rise and Potential of Large Language Model Based Agents: A Survey 》中，定义则更为简洁，「AI Agent 是能够感知环境、做出决策并采取行动的人工实体」。

5、其次，AI Agent 也分为不同的类型，总结来看，包括以下几种：

① 通用智能体（Generalist Agents）：这类智能体对许多任务都非常有用，特别是在大型基础模型和交互式 AI 领域的最新进展下；为了使通用智能体真正对用户有价值，必须易于交互，并能广泛适应不同的上下文和模态。

② 具体化智能体（Embodied Agents）：这类智能体在物理或虚拟环境中具有实体表现形式；能够处理和解释视觉和上下文数据，这对于创建更复杂和具有上下文意识的 AI 系统至关重要。

③ 行动智能体（Action Agents）：这类智能体专注于执行特定的动作或任务；通常在受限的环境中进行用户行为预测和任务规划。

④ 交互智能体（Interactive Agents）：这类智能体能够与用户进行交互，例如提供聊天伴侣或客户支持服务；能够结合知识反馈，以提供更丰富的交互体验。

⑤ 模拟和环境智能体（Simulation and Environments Agents）：这类智能体在模拟环境中操作，能够进行视觉导航、环境重排列等任务。

⑥ 生成智能体（Generative Agents）：这类智能体能够生成新的内容或数据，例如在增强现实/虚拟现实/混合现实环境中的应用。

⑦ 知识和逻辑推理智能体（Knowledge and Logical Inference Agents）：这类智能体专注于使用知识和逻辑进行推理，包括情感推理和神经符号推理。

⑧ 基于大型语言模型和视觉语言模型的智能体（LLMs and VLMs Agent）：这类智能体利用大型预训练语言模型和视觉语言模型，能够在各种环境中执行复杂的动作和任务。

6、同时，针对「Foundation Agent」提出的在技能、具身、现实维度提出的 3 个能力设想，此前也有相关的研究工作提出。

1）在综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》中，研究者提到了多模态智能体 AI（Multimodal Agent AI: MAA），是一种基于理解多模态感知输入在特定环境中生成有效行为的系统。

① 研究者们着眼于通过整合外部知识、多感官输入和人类反馈来改善智能体的系统，基于此提供下一步的实体行动预测。

② 研究者们认为，通过在实际环境中开发 AI Agent 系统，可以减少大型基础模型的产生错误输出的倾向。除了智能体在物理世界中行动和互动外，人们可以轻松地创造任何虚拟现实或模拟场景，并与嵌入在虚拟环境中的智能体互动是一个趋势。

③ 研究者们开发了一个无限智能体，能够从通用基础模型（如 GPT-X，DALL-E）中传递记忆信息到新的领域或情境，以理解、生成以及在物理或虚拟世界提供交互编辑。

2）针对虚拟、现实环境的转变，论文《Agent AI: Surveying the Horizons of Multimodal Interaction》总结了当前的技术情况。

① 基于 RL 策略的具体化智能体通常在模拟环境中训练，这些模拟并不能完全复制现实世界的特性（例如，干扰、光线、重力和其他物理属性）。

② 由于模拟与现实之间的差异，模拟中训练的模型在应用于现实世界时常常难以表现良好。这个问题被称为「从模拟到现实」的问题。目前，解决该问题的方法包括领域随机化、领域适应、模拟的改进等。

3）论文《Agent AI: Surveying the Horizons of Multimodal Interaction》，提出了「Agent Transformer」的概念，即定义为能够感知、解释和以有意义的方式与环境互动的 AI 系统，旨在处理和理解多模态数据，包括视觉刺激、语言输入和其他环境相关数据。

① 研究者们不再仅使用冻结的 LLMs 和 VLMs（语言和视觉模型），尝试采用一个综合的转换模型，可以接受视觉令牌和语言令牌作为输入，同时模型的输入还增加了第三种类型「代理令牌」，代理令牌被用来在模型的输入和输出空间中保留一个特定的子空间，用以展示代理行为。

② 研究者们提出的「Agent Transformer」不再是连接冻结的子模块和使用存在的基础模型作为构建块，而是为代理系统提出了一个统一的、端到端的训练范式。

③ 「Agent Transformer」的关键优势在于能够减轻大型基础模型的局限性，如产生幻觉或环境错误输出。通过植根于现实世界环境，Agent Transformer 可以提供更准确、更具上下文意识的响应和行动。

Foundation Agent 和 Foundation Model 到底是不是就是一个东西？[4] -[6]

1、「Foundation Model」概念最早于 2021 年由斯坦福人工智能中心提出，是指「在广泛数据上训练的模型，可以适应广泛的下游任务。

2、目前业内提及「Foundation Model」时，大多指经过预训练的语言及多模态模型。这类能够完成一系列可能的任务和应用，如文本、图像或音频生成，可以是独立系统，也可以作为许多其他应用的「基础」。例如，OpenAI 的 GPT-3 和 GPT-4 是支撑对话式聊天代理 ChatGPT 的基础模型。

继续阅读

阅读原文