机器之心PRO · 会员通讯 Week 05
---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----
 1. Foundation Agent 是下一个 AI 前沿还是「吹水」? 
Foundation Agent 是什么新兴概念?相比于以往的各类 Agent 有哪些关键特点?Foundation Agent 和 Foundation Model 到底是不是一个东西?...
 2. Robot Transformers 是什么 Transformer? 
为何要关注 Robot Transformer?什么是 Robot Transformer?Robot Transformers 都有哪些工作?这些工作分别解锁了什么价值?...
 3. 多模态大型语言模型综述:理清多模态关键技术 
MM-LLM 近期的研究方向如何?MM-LLM 模型的核心架构是什么?26 个最佳 MM-LLM 都有哪些特点?...
...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面  项,国内方面  项,国外方面  项...
本期通讯总计 21427 字,可免费试读至 12 % 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读 ① Foundation Agent 是下一个 AI 前沿还是「吹水」?

日期:1 月 24 日
事件:近日,英伟达高级科学家 Jim Fan 在一场演讲中提出「Foundation Agent(基础智能体)」概念,Jim Fan 认为「Foundation Agent」将是下一个 AI 前沿,会从根本上改变我们的生活。
先来了解下 Foundation Agent 是什么?
1、英伟达高级科学家 Jim Fan 在演讲中提出「Foundation Agent」这一概念。Jim Fan 认为,「Foundation Agent」是一个可以在虚拟世界和现实世界里泛化的通用智能体模型。「Foundation Agent」能跨越虚拟与现实世界的界限,核心是创建一个能够在虚拟和现实世界中无缝运作的 AI 模型。该技术可以在视频游戏、元宇宙、无人机和人形机器人等领域发挥重要作用,使单一模型能够在这些不同环境中掌握多种技能。
2、Jim Fan 认为,「Foundation Agent」应该在以下 3 个维度上进行扩展:
① 技能:能解决的任务数量;
② 具身:能控制的身体形态的多样性;
③ 现实:智能体能掌握的虚拟或物理空间的数量,包括有不同规则的游戏、模拟和真实世界场景。
3、Jim Fan 以坐标轴举例,在 Embodiment、Skill、Reality 三个轴上进行泛化的单一智能体,起点是 AlphaGo,最终目标则是「Foundation Agent」。
Foundation Agent 有哪些关键特点?与以往的各类 Agent 相比有没有区别?[1] [2] [3]
1、Jim Fan 认为,基础智能体的训练将与 ChatGPT 非常相似,任何语言任务均可以表达为文本输入和文本输出。
2、「Foundation Agent」包括三方面的能力:
① 具备海量的常识知识和技能,可以完成任何一个领域的基础任务;
② 没有固定的物理躯体形态,可以根据不同的任务,无障碍的控制不同形态的「身体」。
③ 可以在不同的时空和规则下完成任务,目前的理解就是既可以完成现实中的任务,也可以胜任网络中虚拟世界的角色。
3、「Foundation Agent」关键点在于需要有跨环境操作能力。Foundation Agent 的目标是开发一个能够广泛适用于各种环境的 AI 智能体,需要同一个模型可以在视频游戏、元宇宙、无人机和人形机器人等多种不同的应用场景中运作,而无需为每个场景单独设计和训练 AI 模型。
4、单从定义上来看,首先,「Foundation Agent」作为一种智能体,与以往通用意义上的 AI Agent 定义存在一定的偏差,侧重点不同。
① 「Foundation Agent」强调的是,可以在虚拟世界和现实世界里泛化的通用智能体模型。
② 在综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》中,给出的定义为「AI Agent 作为一类能够感知视觉刺激、语言输入和其他以环境为基础的数据,并能生成具有无尽智能体的有意义的实体行动的交互系统。」
③ 在综述论文《The Rise and Potential of Large Language Model Based Agents: A Survey 》中,定义则更为简洁,「AI Agent 是能够感知环境、做出决策并采取行动的人工实体」。
5、其次,AI Agent 也分为不同的类型,总结来看,包括以下几种:
① 通用智能体(Generalist Agents):这类智能体对许多任务都非常有用,特别是在大型基础模型和交互式 AI 领域的最新进展下;为了使通用智能体真正对用户有价值,必须易于交互,并能广泛适应不同的上下文和模态。
② 具体化智能体(Embodied Agents):这类智能体在物理或虚拟环境中具有实体表现形式;能够处理和解释视觉和上下文数据,这对于创建更复杂和具有上下文意识的 AI 系统至关重要。
③ 行动智能体(Action Agents):这类智能体专注于执行特定的动作或任务;通常在受限的环境中进行用户行为预测和任务规划。
④ 交互智能体(Interactive Agents):这类智能体能够与用户进行交互,例如提供聊天伴侣或客户支持服务;能够结合知识反馈,以提供更丰富的交互体验。
⑤ 模拟和环境智能体(Simulation and Environments Agents):这类智能体在模拟环境中操作,能够进行视觉导航、环境重排列等任务。
⑥ 生成智能体(Generative Agents):这类智能体能够生成新的内容或数据,例如在增强现实/虚拟现实/混合现实环境中的应用。
⑦ 知识和逻辑推理智能体(Knowledge and Logical Inference Agents):这类智能体专注于使用知识和逻辑进行推理,包括情感推理和神经符号推理。
⑧ 基于大型语言模型和视觉语言模型的智能体(LLMs and VLMs Agent):这类智能体利用大型预训练语言模型和视觉语言模型,能够在各种环境中执行复杂的动作和任务。
6、同时,针对「Foundation Agent」提出的在技能、具身、现实维度提出的 3 个能力设想,此前也有相关的研究工作提出。
1)在综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》中,研究者提到了多模态智能体 AI(Multimodal Agent AI: MAA),是一种基于理解多模态感知输入在特定环境中生成有效行为的系统。
① 研究者们着眼于通过整合外部知识、多感官输入和人类反馈来改善智能体的系统,基于此提供下一步的实体行动预测。
② 研究者们认为,通过在实际环境中开发 AI Agent 系统,可以减少大型基础模型的产生错误输出的倾向。除了智能体在物理世界中行动和互动外,人们可以轻松地创造任何虚拟现实或模拟场景,并与嵌入在虚拟环境中的智能体互动是一个趋势。
③ 研究者们开发了一个无限智能体,能够从通用基础模型(如 GPT-X,DALL-E)中传递记忆信息到新的领域或情境,以理解、生成以及在物理或虚拟世界提供交互编辑。
2)针对虚拟、现实环境的转变,论文《Agent AI: Surveying the Horizons of Multimodal Interaction》总结了当前的技术情况。
① 基于 RL 策略的具体化智能体通常在模拟环境中训练,这些模拟并不能完全复制现实世界的特性(例如,干扰、光线、重力和其他物理属性)。
② 由于模拟与现实之间的差异,模拟中训练的模型在应用于现实世界时常常难以表现良好。这个问题被称为「从模拟到现实」的问题。目前,解决该问题的方法包括领域随机化、领域适应、模拟的改进等。
3)论文《Agent AI: Surveying the Horizons of Multimodal Interaction》,提出了「Agent Transformer」的概念,即定义为能够感知、解释和以有意义的方式与环境互动的 AI 系统,旨在处理和理解多模态数据,包括视觉刺激、语言输入和其他环境相关数据。
① 研究者们不再仅使用冻结的 LLMs 和 VLMs(语言和视觉模型),尝试采用一个综合的转换模型,可以接受视觉令牌和语言令牌作为输入,同时模型的输入还增加了第三种类型「代理令牌」,代理令牌被用来在模型的输入和输出空间中保留一个特定的子空间,用以展示代理行为。
② 研究者们提出的「Agent Transformer」不再是连接冻结的子模块和使用存在的基础模型作为构建块,而是为代理系统提出了一个统一的、端到端的训练范式。
③ 「Agent Transformer」的关键优势在于能够减轻大型基础模型的局限性,如产生幻觉或环境错误输出。通过植根于现实世界环境,Agent Transformer 可以提供更准确、更具上下文意识的响应和行动。
Foundation Agent 和 Foundation Model 到底是不是就是一个东西 ?[4] -[6]
1、「Foundation Model」概念最早于 2021 年由斯坦福人工智能中心提出,是指「在广泛数据上训练的模型,可以适应广泛的下游任务。
2、目前业内提及 「Foundation Model」 时,大多指经过预训练的语言及多模态模型。这类能够完成一系列可能的任务和应用,如文本、图像或音频生成,可以是独立系统,也可以作为许多其他应用的「基础」。例如,OpenAI 的 GPT-3 和 GPT-4 是支撑对话式聊天代理 ChatGPT 的基础模型。
继续阅读
阅读原文