文章来源飞哥说AI
作者高佳
创意李志飞
大模型的下半场,迎接寒武纪的Agent大爆发。
5.4亿至3.6亿年前,海洋生物破发,相比于以前的单细胞或简单多细胞生物,三叶虫、海绵和脊索动物等更高层次的智能诞生了。类似寒武纪生命大爆发,BabyGPT、AutoGPT、Generative Agents等实验性产品相继出新。
从进化的角度来看,生命体的发展主要通过单元增强和组织增强两种方式实现。这两种增强方式相辅相成,使生命具备了更多样复杂的表达形式。
如同Agent——我们希望它是在任何系统中能够独立思考并与环境交互的智能体。
现在它已经有了一颗足够智商的“大脑”,如何让Agent像人一样思考和执行——只要给定任何一个目标,它就能自动解决各种问题。是进一步提高智商,增强智能体的“自身”单元;还是借助外部模块,强化“组织”能力?
虽然今天的Agent尚无法完成通用任务,也难以如多细胞之间的社会化分工,形成动态稳定体。但在个体Agent的局部模块上,如HuggingGPT,已展示了其使用工具的能力,包括Plug-in成为实际落地的重要里程碑,在大模型的下半场,将是Agent寒武纪落地爆发的时刻。
此刻Agent的落地瓶颈在哪里?它能否从专用抵达通用?多模态会为Agent带来什么?未来格局怎样演进?
就像地球上诞生的第一个细胞一样,即使目前的Agent尚无法替代我们在实际工作中的角色,但一切的一切都源于这第一个细胞,它是智能体进化的起点。
即使对Agent的落地再迷茫,也要继续“涌现”。
因为Agent的成败将是决定这一场GPT革命是否是新一代工业革命的关键。
以下将以结构化的思维来思考,Agent何去何从。

AI Agent究竟是什么?

几天前,拥有25个Agent的AI小镇正式开源,「西部世界」AI Town随之构筑,AI Agents之间的互动,将演绎出整个文明的演化进程。
OpenAI联合创始人Andrej Karpathy也高呼:“AI Agent代表着一个疯狂的未来。”
什么是Agent?Agent一词起源于拉丁语中的Agere,意思是“to do”。在LLM语境下,Agent可以理解为在某种能自主理解、规划决策、执行复杂任务的智能体。
Agent并非ChatGPT升级版,它不仅告诉你“如何做”,更会帮你去做。如果CoPilot是副驾驶,那么Agent就是主驾驶。
一个精简的Agent决策流程,用函数表达式:

Agent:P(感知)—> P(规划)—>A(行动)
类似人类「做事情」的过程,Agent的核心功能,可以归纳为三个步骤的循环:感知(Perception)、规划(Planning)和行动(Action)
感知(Perception)是指Agent从环境中收集信息并从中提取相关知识的能力,规划(Planning)是指Agent为了某一目标而作出的决策过程,行动(Action)是指基于环境和规划做出的动作。
其中,Policy是Agent做出Action的核心决策,而行动又通过观察(Observation)成为进一步Perception的前提和基础,形成自主地闭环学习过程。
这一过程就像马克思主义的「实践论」:“认识从实践开始,经过实践得到了理论的认识,再回到实践中去。”Agent也在知行合一中进化。
一个更完整的Agent,一定是与环境充分交互的,它包括两部分——一是Agent的部分,二是环境的部分。
此刻的Agent就如同物理世界中的「人类」,物理世界就是人类的「外部环境」。

可以想象,人类与外部环境交互的过程:我们基于对这个世界的全部感知,推导出其隐藏的状态,并结合自己的记忆和对世界的知识理解,进而做出Planning、决策和行动;而行动又会反作用于环境,给我们新的反馈,人类结合对反馈的观察,继而再做决策,以此循环往复。
最直观的公式:
Agent = LLM+Planning+Feedback+Tool use
其中,在做 Planning 的过程中,除了基于现在的状态,还有要记忆、经验,一些对过往的反思和总结,同时还有世界知识。
对比今天的ChatGPT,它其实并非Agent,而是一个通用的世界知识,即用来做 Planning 的知识源,它没有基于具体的环境状态,也没有Memory,Experience和Reflection。
当然,ChatGPT基于自身的知识可以做逻辑推理和一定的规划,也可以加向量数据库解决推理问题,加 Reflection 让过程更丰富,如此看来,可将ChatGPT这个端到端的黑盒子变得显性化一点儿——其实符号就是一个非常显性的系统,基于此可以定向纠错,定向提升。
对于Feedback,Agent基于Action得到正向的或试错的反馈、阶段性结果或奖励。Feedback有多种形式,如果将与我们聊天的ChatGPT视为一个Agent,我们在文本框中敲入的回复就是一种Feedback,只不过是一种文本形式的Feedback,此时我们对于ChatGPT来说,就是一种环境。RLHF也是一种环境,一种极度简单的环境。
“人类之所以是人类,因为他会使用工具。”
作为智能体, Agent 也可以借助外部工具扩展功能,使其能够处理更加复杂的任务。比如LLM使用天气API来获取天气预报信息。如果不调用外部工具,Action和Feedback也可以直接通过学习Policy,应对环境。
可见Agent是真正主动释放LLM潜能的关键。LLM作为核心,Agent为LLM提供了行动的主观能动性。
今天的LLM要怎么落地?LLM作为一个智商引擎,其他周边工具均可作为Prompt,未来是否会是一个端到端的系统?如果周边的工具不够,是否会有一个更通用的适配框架?

Agent落地的瓶颈,是因为“智商”不够?

Agent本身用到两部分能力,一部分是由LLM作为其“智商”或“大脑”的部分,另一部分是基于LLM,其外部需要有一个控制器,由它去完成各种Prompt,如通过检索增强Memory,从环境获得Feedback,怎样做Reflection等。
Agent既需要大脑,也要外部支撑。
针对目前Agent在实际落地中的阻碍,其原因是LLM自身的“智商”不够,还是其外部的系统化程度不够?
如果外部系统化程度不够的话,它将是一个长期待解决的问题。如果只是智商不够的问题,当GPT-4成为GPT-5,有了更高的智商,即可弥补之前的问题。
那么到底Agent的主要瓶颈在哪里?
真正理解这个问题的症结,可以先做错误归因。即在实际的错误中,清晰地归因到底是LLM本身的问题,还是Prompt的方式不对。
比如向语音助手询问“天气怎么样?”,这个问题本身就存在歧义——指的是哪里的天气?是哪一天的天气?具体想要知道天气中的哪些信息?这些都不是LLM本身所能解决的问题,它需要调用外部的工具系统。
如果仅归因“智商”的话,LLM只需理解“天气怎么样”,如果有具体的上下文——如“下个月上海的天气怎么样”,LLM基于此是否能推断出准确的信息,这是“智商”问题;但具体调用什么工具,执行的参数本身是否准确,这些并非归因于“智商”。

未来是否能实现一个更加通用的Agent外部框架?

很多人将 LLM 作为 Agent 的实现方式,这太简单粗暴了。比如,仅为Agent设定一个目标,定义一些基本的条件约束之后,就期待它能完成自我规划、分解任务、自我提示,甚至调用外部的工具,并给出答案的全部过程。然而,LLM本身并不是这样训练的,必然不具备这种能力,但这并非归因于“智商”问题。
从Agent落地的角度来说,仍需要外部的逻辑框架。
虽然目前有许多类别的Agent,但大多很粗浅,不够通用。即使是最简单的Agent应用,语音助手或智能外呼系统,其复杂性以及如何引入环境Feedback等问题,都未得到有效解决。
因此,除了对错误进行更细致的分析外,我们应该研究的一个问题是:除了LLM本身足够通用之外,是否会实现一个通用的外部逻辑框架,来解决Agent真正落地的问题?
如果我们无法找到外部通用的逻辑框架,那么现在这场所谓的AGI革命可能只是一个泡沫,一个巨大无比的泡沫,它其实可能与上一代NLP并无本质区别。
现阶段Agent的落地,不只是“智商”问题,还需要如何借助外部工具从专用抵达通用——而这是更重要的问题。

Agent如何能有通用的适配环境?——是否需要一个learnable的环境小模型?

把LLM放进一个虚拟世界会怎么样?
在游戏《我的世界》中,英伟达开发最新方法Voyager,以15.3倍速点亮科技树,同时获得的独特物品是此前的3.3倍,探索范围是2.3倍。原因归功于GPT-4对游戏规则的深入理解和丰富的知识储备,它来源于预训练过程,而非后续的增强学习。
从这个视角来看,在优化Agent的过程中,除了关注Feedback,还应该考虑模型如何感知环境。那么通用大脑与环境模型之间的关系如何,怎么配合?Agent如何从专用抵达通用?
Agent目前还鲜少有很好且通用的落地效果,大多是解决特定场景的特定问题——将LLM作为一个通用大脑,通过Prompt设计为不同的角色,以完成专用的任务,而非普适性的应用。
这其中的一个关键问题,即Feedback将成为Agent落地实现的一大制约因素,这一点在Tool use中体现得尤为明显。对于一些如查询天气等简单问题,只需设计恰当的Prompt即可,但对于复杂的Tools应用,其成功概率会大大降低。
简单粗暴地用LLM做出Agent,是天方夜谭。
这种做法一方面忽视了Feedback的重要性,另一方面,即使LLM得到Feedback,凭借它的“智商”也可能并不完全理解所有的环境或Feedback,更难基于此调整自身行为。
想要真正成功落地Agent,是给予Agent一个更通用的适配环境,一种可能的解决方案是创建一个专门用于理解和适配环境的小模型,以此和LLM交互
由于最强大脑的“智商”部分——LLM(如GPT-4)因为规模太大是很难针对具体Agent进行重训的,而小模型是可以适应环境变化、多次训练的。在这个场景中,我们可将LLM看作大脑,而小模型就像小脑,作为中间层专门处理环境Feedback,与GPT-4交互。
那么,Agent从专用到通用的实现路径会是什么?
假设Agent最终将落地于100种不同的环境,在目前连最简单的外部应用都难以实现的前提下,最终能否抽象出一个框架模型来解决所有外部通用性问题?
先将某一场景下的Agent做到极致——足够稳定且鲁棒,再逐步将它变成通用框架,也许这是实现通用Agent的路径之一。‍‍

多模态在Agent的发展中有多重要?

现在的GPT-4,是将所有的内容都转化成文本语言,然后人类去Prompt它。首先,转化过程可能会丢失信息或产生错误,从而导致结果出现偏差。
GPT的下一个版本,如果它能实现多模态在理解层面的超强能力,那它会不会在一定程度上缓解今天Agent的不可靠以及信息丢失与偏差的问题?多模态与Agent的关系将是什么样的?
如果LLM不需要在真实世界中交互,而只是在虚拟世界中执行特定任务,那么多模态对于完成任务的帮助也许并不大。但如果LLM需要与真实世界交互,那么多模态无疑非常重要。
多模态只能解决Agent感知上的问题,而无法解决认知的问题。
在很多情况下,如智能客服场景,用户可能会通过多种方式提供信息,多模态具有很好的感知价值,但在解决一些逻辑、推理等核心问题,还差距尚远。
多模态是必然趋势,未来的大模型必然是多模态的大模型,未来的Agent也一定是多模态世界中的Agent。
当在进行基于文本的Agent的开发时,当多模态的分水岭时刻到来,这些Agent是在原有基于文本的基础上继续发展,进一步融入多模态特性?还是需要彻底改变原有开发Agent的理念和架构,以适应未来的多模态世界?
Agent的开发并不需要全部推倒重来,但一旦Agent拥有了多模态能力,它将会与现有模型截然不同。比如GPT的下一代版本,它可能会包含一些更加强大的图像等多模态理解功能。我们不必急于立即构建这样的模型,也可以选择先调用这样的模块,即最好将多模态理解功能内置在模型中。
半年后,我们将会看到多模态大模型的到来。而多模态Agent的到来,可能会比我们想象中更快。
首先,许多大公司都在储备军火一般地研发多模态。这种量变的积累非常容易引发质变,可能很快就会有实际的产品被推出。其次,人们期待的Agent是如同人类一般的助手,他不仅能说话,还能看到、听到、感知到。理论上,一个优秀的Agent应该能实现多感官、多模态的交互,Perception、Policy都需要多模态。
随着RT-2的发布,一种新的视觉语言动作模型VLA,它将多模态大模型塞进机械臂,实现了实体机器人版ChatGPT。‍
从趋势上看,未来的Agent一定是多模态的。Agent要成功,多模态也一定是必要的。
在多模态交互方面,数字人也提供了一个很好的示例,它展示了调用外部工具的优势。当大模型调用数字人时,因为形象都已提前设定,我们就无需担心它会突然生成某个政治人物的形象或声音,甚至包括他的幻觉。
尽管美其名曰“生成式AI”,其“生成”部分,最好调用外部工具,以保证其确定性,规避大模型的幻觉。
比如,在多模态交互中,如果想要LLM扮演特朗普,并直接生成一支祝贺视频,那么很可能存在风险。如果LLM仅生成脚本,然后调用既定的数字人和声音接口合成视频,这样更安全可控。‍‍

多Agent真的会成功吗?

现在的 Agent 还是山顶洞人,但多AI Agents互动会改变一切。
在灵感来自模拟人生游戏的 Generative Agents 实验中,其每个角色都分别由一个 AI Agent 控制,它们在沙盒环境中生活和互动,充分体现了将反馈和环境信息转化为行动的过程,实现 AI Agents 的「社交」。
其中在规划和反应的环节,AI Agents 会充分考虑彼此之间的关系,以及一个 Agent 对另一个 Agent 的观察和反馈,来采取下一步动作。
这个有趣的模拟随之引发了一些戏剧化的社会现象,比如「谣言」的扩散、关系记忆等,在实验中经常出现两个 AI Agents 在聊天中延续他们之前的话题、办Party、呼朋唤友等社交活动。
显然,Agent 的真正落地,一定是建立在对环境的感知、动态学习,以及不断更新之上的。

Agent最先在什么场景落地?

早在今年2月,一些在线教育公司开始频频活跃在大模型的讨论上。“我们的行业,如果再不行动的话就会第一个被颠覆”,在大部分公司还未感受到大模型的冲击时,一家头部在线教育公司的人先做出预判和隐忧。
而哪些行业会最先被Agent颠覆,哪些行业不会那么快?
大模型的能力众所周知,但“智商”只是Agent落地的一部分。即使OpenAI宣称AGI已经来了,如果你对行业一无所知,也很难做出实际的应用。
就像一位斯坦福的博士,如果不懂一家公司的行业和产品属性,那么工作初期的难度也会很大。所以,我们需要更深入地讨论哪些行业更适合Agent落地。
比如可以完全在线化、数字化的在线教育行业,尤其在过去的三年疫情期间,许多线下行业都遭受打击,而在线行业却因为数字化的优势得以较快发展,它也会最先被Agent颠覆。相比而言,机器人或传统行业,反而在短时间内较难被颠覆。
目前无论是中国还是美国,新的共识正在逐渐形成:第一是Agent需要调用外部工具,第二是调用工具的方式就是输出代码——由LLM大脑输出一种可执行的代码,像是一个语义分析器,由它理解每句话的含义,然后将其转换成一种机器指令,再去调用外部的工具来执行或生成答案。
尽管现在的 Function Call 形式还有待改进,但是这种调用工具的方式是非常必要的,是解决幻觉问题的最彻底的手段。

Agent的未来发展格局是百花齐放?还是Winners take all?

未来大模型的竞争格局日渐明朗,必然几家独大,或基于开源。
而未来一两年内,Agent的市场格局将会如何,会形成同等的势态么?
由于Agent并非能实现通用,Agent并非一家独大,而是将形成一个非常长尾的供应商格局。市场上将会有很多Agent,每一个 Agent 都由不同的公司运营。
如同上一代NLP,很多AI公司都提供智能客服或自动外呼服务,但每一家公司只能服务少数的客户,无法形成规模效应。基于今天对Agent的技术判断,与上一代并无太大区别。
虽然LLM的语义理解是通用的,但是我们之前讨论过的Agent的环境、领域结合并不通用,这会导致市场非常分散,没有强者越强的公司出现。
当然,Agent也分为深度(专业)和浅度(通用)两种类型。
出门问问希望做通用的Agent。在中国的市场环境下,如果做一个与企业深度结合的Agent,最终将成为“外包”,因为它需要私有化部署,集成到企业工作流里。很多公司都会去争抢保险公司、银行、汽车领域的大客户。这将与上一代AI公司的结局非常相似,边际成本很难降低,且没有通用性。
出门问问目前的魔音工坊、奇妙文等AIGC产品都属于面向内容创作者的、介于深度和浅度之间的应用,既不完全属于consumer,也不完全属于enterprise,同时还有面向企业用户的CoPilot,其定位也是在企业里找到具体的「场景」,做相对通用的场景应用。
未来是Agent的世界,在今天的Agent进程下,依然重复昨天AI的故事,私有化部署将面临挑战。
目前,我们正在筹建「飞哥说AI」大模型交流社群,欢迎一起探讨大模型时代的共识和认知,成为AGI时代的共创者。
一场聚集人工智能产业头部公司与顶级资本的对话
点击下方图片即可报名参加活动
品玩招聘作者,资深作者及编辑,并长期开放实习生招聘。

世界不平静,我们希望在变动的技术周期和商业周期里继续我们的探索,不熄灭眼里的光。
为了和更多个优秀的你一起记录和改变这个激动人心的时代,做更多有价值的报道,品玩现开放招聘。
岗位信息:全职:4人。实习生长期招聘。工作地点:北京。
一句话总结我们在招聘的岗位的工作内容,就是:
报道最重要的商业和技术新闻,并抽丝剥茧地解释给读者它们为什么重要。
一些共同的岗位要求:
1. 尊重常识。
2.对好内容有感知,有选题发明能力。
3.掌握快速搜索梳理信息的方法,有较强的文献阅读能力,能独立拓展相关资源。
4 英文流利。有阅读英文内容的习惯,可以用英文完成沟通。
5.对真实世界有感知,心智成熟,有职业精神,沟通界面良好稳定。
在招岗位:
-新经济作者、新技术作者
新经济作者负责报道互联网商业领域最新动态;新技术作者负责报道新技术领域(AI,芯片,机器人等)最新动态;
追踪钱的流动,人的变化,商业世界的竞争与合作以及科技的变革,并把它们讲述给我们的读者;
不限工作经验,不限专业背景,我们欢迎不同背景的候选人。
-资深作者/编辑
对互联网商业领域或新技术领域有自己的研究和积累;
有自己获取信息的方法体系,有持续学习的能力;
能发明选题,撰写深度文章,同时也可以辅导初级作者。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
或者,以上的描述都不能定义你,但你认为你是我们需要的那个人,也可以发邮件给我们,介绍你自己。
以上岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
同时,我们也在招聘其他岗位:
运营部门
岗位信息:全职:3人。实习生长期招聘。工作地点:北京。
内容运营
能够敏锐的捕捉互联网热点,并将其转化为出色的内容;
富有创新意识和强烈的主观能动性,重视流量在工作中的重要性;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
视频运营
具备视频的全流程的创作能力;
对各个内容平台均有深刻理解,能抓住平台规则红利;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
社区运营
有过国内外成熟知名社区的运营经验;
能够独立承担运营策略、节奏设计,结合运营目标、节点资源等因素制定精细化的社区运营规划;
对UGC的热点、流行趋势、话语体系有充分理解,能够通过创意、热点玩法、活动策划激发UGC参与。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
运营岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
商务部门
销售总监/高级销售经理
岗位职责:
1. 负责品玩线上广告、线下活动类、品牌营销、市场公关、以及定制方案的商务拓展与销售工作,通过对目标行业客户的销售完成指定收入目标;
2. 对目标行业客户进行研究、识别、接洽、需求、分析、产品演示、方案规划、谈判与签约;
3. 管理与维护指定客户(包括新客户与现有客户),提供优秀的售前与售后服务,建立长期、稳定的合作关系,对客户产品和需求进行持续性的研究与开发;
4. 与各部门保持紧密合作,回馈客户需求与最新行业动向,协助优化产品与服务;
5. 积极参加行业商务与社交活动,拓展人脉资源,持续了解与提升行业知识和洞察力
任职要求:
1. 互联网销售经验2年以上,销售经验5年以上优先;
2. 做事严谨、细心,较强的沟通协调能力;
3. 有市场营销、品牌方或者市场公关乙方工作经历优先;
4. 自我驱动,有很强的学习行业知识及专业知识的能力;
5. 具备应变能力,团队协作能力,能适应多任务处理及工作压力;
6. 拥有intel、华为、华为云、阿里、阿里云、高通等互联网行业直客资源者优先。
更多招聘信息,可以进入官网招聘页面获取。
期待品玩有你的加入。

继续阅读
阅读原文