吴恩达最新演讲：AI智能代理工作流的趋势（观点解读与演讲全文）

吴恩达指出，随着AI技术的发展，AI代理被视为一个能显著提升软件开发效率和质量的工具。

他通过展示AI代理如何在主动型工作流中超越单独模型的局限，以及多代理系统如何通过协作来解决复杂问题，强化了这一观点。

他认为，在未来，我们将看到AI代理在各种工作流程中发挥更大的作用，并且这些代理的性能和应用范围将不断扩大。

对此，人们需要学会重新设定与AI合作的期望，并充分利用AI代理快速迭代的优势。

吴恩达还预测了AI工作流程的扩展，并讨论了人类需要适应与AI代理交互的新方式。

吴恩达介绍了 AI 智能代理工作流的四种设计模式：

反思（Reflection）：LLM 检查自己的工作，以提出改进方法。
工具使用（Tool use）：LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。
规划（Planning）：LLM 提出并执行一个多步骤计划来实现目标（例如，撰写论文大纲、进行在线研究，然后撰写草稿......）。
多智能体协作（Multi-agent collaboration）：多个 AI 智能代理一起工作，分配任务并讨论和辩论想法，以提出比单个智能体更好的解决方案。

关键结论及其论据支撑：

结论 1: 主动型工作流中的AI代理可以产生比传统工作流更好的结果。

论据:

吴恩达个人实际操作时观察到的效果出人意料。

GPT-3.5在主动型工作流中表现得甚至比GPT-4还好，尽管GPT-4在零次提示下有更高的成功率。

结论 2: 多代理协作是提高AI性能的有效策略。

论据:

设计模式包括代码代理和批判代理的合作，这种模式易于实施且通用。

实验显示多代理通过协作编写代码、测试和迭代可以生成复杂的程序。

结论 3: AI代理的运用将扩大人工智能可执行任务的范围。

论据:

吴恩达期待由于代理工作流程的存在，今年AI能完成的任务集会大幅拓展。

已经存在的不同设计模式（反思、工具使用、规划和多代理协作）表明，AI代理的应用正变得越来越精细和广泛。

结论 4: 快速迭代在AI代理的使用中是关键，甚至可能比慢速迭代的更高质量模型结果更好。

论据:

LLM快速生成Token对于多代理工作流程至关重要，因为需要不断迭代。

即使是质量较低的LLM，只要迭代速度足够快，也可能产生比慢速生成Token的更高质量模型更好的结果。

结论 5: 人们需要适应耐心等待AI代理完成任务的方式。

论据:

目前人们习惯于搜索引擎式的即时回应，但与AI代理的合作需要时间来产生最佳结果。

这种适应是提高与AI代理合作效率的必要步骤。

下面是演讲全文：

《Agentic Reasoning》

我很期待与大家分享我对AI代理的看法，这是一个我认为所有从事AI开发的人都应该关注的令人兴奋的趋势，同时我也对其他的内容感到兴奋。

接下来的演示会是怎样呢？现在我们大多数人使用AI代理的方式就像一个小企业那样，带着一种非主动性的工作流程，你输入一个问题它就生成答案。这有点像你让一个人写一篇论文，然后说“请坐到键盘前，从头到尾打出这篇论文，而且不许用退格键”。

尽管这很难，但LLM实际上做得相当好。相比之下，在主动型工作流中，情况可能是这样的：AI会说，“写一个论文提纲。你自己需要做进一步的调研吗？那我们开始吧。然后写第一稿，再读你自己的第一稿，考虑哪些部分需要修改，然后修改你的草稿，如此反复。”

这种工作流程更加迭代，你可能需要AI做一些思考，然后修改文章，再做一些思考，这个过程重复多次。而许多人没有意识到的是，这实际上能得到显著更好的结果。

我自己实际操作这些主动型工作流时，也非常惊讶它们的效果。

除非你想要一个案例研究，我的团队使用一种名为“人类智能基准测试”的代码标准来分析数据，这个标准是由OpenAI几年前发布的。

这里面包含了编码问题，比如“给定一个非空整数列表，返回所有奇数元素或未偶数位置上的元素的总和”。结果是你的代码片段就像这样。

今天我们很多人会使用零次提示，意思是我们告诉AI“写代码”并让它在第一部分运行，比如谁调用了代码，我知道人类不会那样写代码，我们应该把代码打出来。也许你可以做到，但我做不到。事实证明，如果你使用GPT-3.5零次提示，它的成功率是48%，而GPT-4的表现则好得多，成功率达到67.7%。

但如果你采用一个主动型工作流环绕GPT-3.5，实际上它甚至比GPT-4做得还好。如果你将这种类型的工作流环绕在GPT-4周围，它也表现得很好。

你会注意到，在主动型工作流中GPT-3.5实际上比GPT-4的表现更好。我认为这意味着非常重要的后果，我认为这将改变我们所有人构建应用程序的方法。所以“代理”这个术语被广泛地讨论，许多咨询报告都在谈论AI的未来等等。

我想更具体地与大家分享我观察到的广泛设计模式和代理。这是一个非常混乱、无序的领域，有大量的研究和开源项目。有很多事情正在发生，但我试图将其归类得更具体一些。经历了代理反思这个工具，我认为我们中的许多人都在使用它，它确实有效。我认为这是公认的技术。当我使用它们的时候，我几乎总能让它们正常工作。

计划和多代理协作，我认为这些更是新兴的内容。当我使用它们时，有时我会对它们的效果感到震惊。但至少在目前，我感觉我不能总是可靠地让它们工作。

所以让我通过几张幻灯片来介绍这四种设计模式。如果你们中的一些人回去让你们的工程师使用它们，我认为你们很快就会获得生产力的提升。

所以关于反思，这里有一个例子。假设我要求一个系统，请为我编写一个特定任务的代码。然后我们有一个代码代理，只是一个你提示编写代码的LLM，比如定义一个任务函数。

自我反思的一个例子是，如果你随后用类似的提示向LLM提问，例如这里有一段代码是为一个任务准备的，然后将刚刚生成的完全相同的代码反馈给它，并仔细检查代码的正确性和效率。

对他们来说，这是一个很好的建设性反馈。结果表明，同一个LLM在你提示它编写代码后，可能会发现第五行的问题并修复它。如果你现在拿它自己的反馈提示它，它可能会生成一个第二版的代码，可能比第一版的代码工作得更好，虽然不能保证，但这足够经常发生，值得在很多应用程序中尝试。

为了预示即将使用的内容。如果你让它运行单元测试，如果它没通过单元测试，那你就问它为什么没通过单元测试？

进行这样的对话。我们将找出为什么没通过单元测试，所以尝试改变一些东西，最终提出解决方案。

顺便说一句，对于那些想要了解更多关于这些技术的人，我对每个部分都有很高的评价，在底部有一个推荐阅读部分，整个图表是更多参考资料。

我猜我描述的代理系统是一个你提示它的单一代码代理？

这个想法的一个自然演变是，不是一个单一的代码代理，你可以有两个代理，其中一个是代码代理，另一个是批判代理。这些可能是相同的基础LLM模型，但你以不同的方式提示它们。

我们说，一个你是专家级的编码者，编写代码。

另一个说，你是专家级的代码审查员，审查代码。

这种工作流程实际上很容易实施。

我认为这是一个非常通用的技术，对于很多工作流程来说，这将大幅提升你的LLM性能。

第二个设计模式是使用工具。

你们中已经有人见过LLM系统使用工具了，左边是Copilot的截图，右边是从GPT-4中提取的东西。

但是今天的LLM，如果你问，最好的咖啡机是什么？

你可以进行网络检索，对于某些问题，LLM 会生成代码并运行代码。

事实证明，有许多不同的工具被许多不同的人用于分析，收集信息以采取行动，提高个人生产力。

事实证明，早期的许多工具在计算机视觉社区的使用，因为在大型语言模型出现之前，他们不能对图像做任何事情。

因此，唯一的选择是让 LLM 生成一个可以操作图像的函数调用，例如生成图像或进行对象检测等。因此，如果你真正看一下文献，就会发现有趣的是，工具使用方面的大部分工作似乎都源于视觉。因为LLM之前对图像视而不见，GPT-4v 和，以及 Lava 等等。这就是工具的使用，它扩展了LLM的能力。

第三个，就是计划。

对于那些还没真玩过很多规划算法的人来说，,我觉得很多人都在谈论ChatGPT时刻，你会发现，哇，无法想象人工智能代理能够这样做。

我认为如果你没有使用过规划算法，很多人都会有一种人工智能代理。我无法想象人工智能代理会这样做。

因此，我运行了现场演示，其中出现了一些故障，并且人工智能代理围绕故障重新规划。事实上，我有过很多这样的时刻，哇，我不敢相信我的人工智能系统能够自主地做到这一点。

但是，我改编自一篇拥抱GPT 论文的例子，你说，请生成一张女孩的图像。其中女孩正在读书，并且它发布的内容与图像中的男孩相同，例如.jpeg，请用一个男孩描述新图像。

今天有了人工智能代理，你可以做出决定，我需要做的第一件事是确定男孩的姿势。然后，找到正确的模型，也许在huggingFace上来提取姿势。接下来，你需要找到一个后期图像模型来合成一个女孩的图片如下所示，然后使用，图像转文本，最后使用文本转语音。

今天，我们实际上有一些代理，我不想说他们工作可靠，他们有点挑剔，他们并不总是工作，但当它工作时，它实际上是相当惊人的。通过代理循环，有时您也可以从早期的故障中恢复。

所以我发现自己已经在我的一些工作中使用研究代理，我想要进行一项研究，但我不喜欢，谷歌搜索自己并花很长时间。我应该发送给研究人员，几分钟后回来看看有什么结果。而且，有时有效，有时无效，对吗？但这已经是我个人工作流程的一部分。

4.Multiagent collaboration

最终的设计模式，多智能体协作。

这是有趣的事情之一，但是，它的效果比你想象的要好得多。

左边是一篇名为“聊天”的论文的截屏，它是完全开放的，实际上是开源的。你们中的许多人都看到了在我的笔记本电脑上运行的Chat Dev开源演示的华丽的社交媒体公告。

GhatDev 所做的就是一个多代理系统的例子，你提示一个 LLM，有时扮演一个软件引擎公司的CEO，有时扮演产品经理，有时扮演测试员。

通过提示让代理告诉他们，你现在是CEO，你现在是软件工程师来来建立群代理。他们实际上会花几分钟编写代码？测试它。迭代。然后生成一个极其复杂的程序.

他们合作进行了一次长时间的对话，所以如果你告诉它，请开发一个游戏，开发目标，更多的关键游戏。他们实际上会花几分钟编写代码，测试它，评分，然后生成一个及其复杂的程序。

有时它不起作用，有时它很惊人。但这项技术真的越来越好。而且，这只是设计模式之一，事实证明，多代理辩论。你有不同的代理，例如，可能让ChatGPT 和 Gemini互相辩论，也会带来更好的性能。让多个代理一起工作，也是更强大的设计模式。

所以总结一下，我认为这些模式是显而易见的。我认为如果我们在我们的工作中使用这些模式，我们中的许多人都可以很快得到提升。

我认为，代理推理设计模式将会很重要。这是我的最后一张幻灯片。

我预计，由于代理工作流程!，今年人工智能可以完成的任务集将大幅拓展。

人们实际上很难适应的一件事是，当我们提示LLM时，我们希望立即得到答复。

事实上，十年前，当我在谷歌与他们讨论这个问题时，我们称之为大盒子搜索类型，我们需要输入一个很长的提示词，这是我未能成功推动的原因之一，因为当你进行网络搜索时，你期望在半秒内就会有一个回应，对吧？这就是人性。

我们喜欢那种即时抓取，即时反馈。

但对于很多代理流程，我认为我们需要学会将任务委托给AI代理，并耐心地等待几分钟，甚至几小时才能得到回应。

但就像我看到很多新手经理将事情委托给别人，然后5分钟后检查一样，对吧？

这并不高效。我认为这真的很难。

我们也需要用一些AI代理来做到这一点。

另一个重要的趋势是，快速Token生成很重要，因为通过这些代理工作流程，我们会一遍又一遍地迭代。

因此，LLM 正在生成Token。因此，能够比任何人读取的速度更快地生成Token真是太棒了。

我认为，与来自更好的LLM 的较慢的Token相比，即使是质量稍低的 LLM快速生成更多的Token也可能会产生良好的结果。

也许，这有点争议，因为它可能会让你多次绕过这个循环。有点像我在第一张幻灯片上使用GPT-3 和代理架构展示的结果。

坦白说，我真的很期待Claude 5, Claude 4、 GPT-5 和Gemini 2.0以及许多人正在构建的所有其他精彩模型。

我的一部分感觉是，如果您期待在GPT-5 Zero-Shot上运行您的东西，您知道，您可能能够在某些应用程序上比您通过代理推理想象的更接近该性能水平，但在早期模型上。我觉得，这是一个重要的趋势，老实说，通向 AGI 的道路感觉像是一段旅程，而不是一个目的地。

但我认为这种类型的代理工作流程可以帮助我们在这个漫长的旅程中向前迈出一小步。谢谢。

B站视频观看地址：

https://www.bilibili.com/video/BV19D421V7mc

附资料：

如何理解：AI agent（人工智能代理）

AI agent（人工智能代理）通常指的是一个软件实体，它可以在某种程度上模拟人类智能的某些方面，执行特定任务或达成目标。这些代理可以感知环境，并在此基础上进行决策并采取行动，从而完成既定的任务或解决问题。

要理解AI代理，我们可以将其比作一个有能力独立执行任务的助手。例如，考虑一下吴恩达提到的编写代码的代理。假设你是一个程序员，需要编写一个函数来处理数据。

如果没有AI代理，你需要自己思考、编码、测试和调试。而有了AI代理之后，你可能只需要描述你想要的结果，AI代理就会自动生成代码，并且可能还会对该代码进行测试和优化。

以多代理系统为例，可以设想一个由多个专门AI代理组成的团队，其中每个代理都有不同的角色和能力。以下是一些示例：

软件开发多代理系统：你可能有一个AI代理负责编写代码（编码代理），另一个负责检查代码质量（审查代理），还有一个可能专注于编写测试用例（测试代理）。这些代理可以一起工作，相互沟通，共同开发出功能完整的软件应用。
客服机器人：一个AI代理负责接听电话，分析客户的问题，并将其分派给最合适的服务部门。另一个AI代理可能是专业解决特定类型问题的，比如技术支持或订单处理。这些代理能够根据客户的需求协同工作，提供有效的客户服务。
个人助理AI：一个AI代理帮助你管理日历，安排会议；另一个代理帮你搜索网络信息，而第三个AI代理可能负责运行模拟和预测，帮助你做出更好的商业决策。

通过使用AI代理，我们可以使复杂的流程自动化，增加效率，并允许系统以自动化的方式执行那些通常需要大量时间和专业知识的任务。AI代理的进步也意味着它们可以学习并改进自己的性能，随着时间的推移变得更加精确和高效。

=======================

公众号：BLUES，已经持续更新了11年的原创公众号。有20多年丰富的职场经历，历经连续创业、历任腾讯高级产品经理、YY语音高级经理、迅雷产品总监等职位。目前致力于“教育+科技”产品创造，深圳梅沙科技创始合伙人。公众号800多篇文章写互联网产品经理职业发展，企业管理，我们一起洞察职场与人生，欢迎大家留言交流。

继续阅读

阅读原文