采访嘉宾｜李鹏清华大学智能产业研究院副教授

编辑 | 李忠良

大模型智能体作为前沿探索的焦点，正逐步塑造未来技术与社会交互的新形态。随着 AI 技术的飞速跃进，这些智能体被寄予厚望，期望能在复杂多变、充满不确定性的开放环境中自如运作，从个性化推荐到高级人机协作，其应用前景广阔无垠。然而，要实现这一愿景，必须跨越多重技术与理论障碍，包括但不限于如何使智能体在不断变化的环境中持续学习、有效适应各类环境后效性、在多元目标间实现精准平衡，以及如何主动感知并智能响应环境信息等。

在这样的背景下，我们在 AICon 全球人工智能开发与应用大会，荣幸邀请到清华大学智能产业研究院副教授李鹏为你分享《面向开放域的大模型智能体》，在大会正式开始之前，我们采访了李鹏老师。在我们的独家访谈中，他指出当前大模型智能体在处理开放环境不确定性与动态变化时的核心挑战，包括但不限于推断时学习的作用机制、环境后效性的有效建模与利用、跨环境的泛化能力、多目标优化的复杂性，以及主动感知技术的迫切需求。

本文为采访实录，经编辑。

InfoQ：您如何看待当前大模型在处理不确定性和动态变化环境中的挑战？是否有特定的技术或方法可以提高其泛化能力和可解释性？

李鹏：面对当前 AI 发展的挑战，我总结了以下关键点，每个都深刻影响着大模型在开放环境下应用的效能与灵活性：

● 推断时学习（Inference-time Learning）的实现：传统模型训练依赖于大量静态数据集，但在动态、不确定的环境中，这种模式显得局限。我们需要模型具备“学后学习”能力，即在完成初始训练后，仍能高效学习新信息，同时避免“灾难性遗忘”。这要求平衡新知识的吸收与旧知识的保留，以及在有限、快速变化的数据中高效学习，这是对现有学习机制的一大挑战。

● 有效建模与利用环境后效性（Environmental Aftereffect）：智能体与环境的互动经常引起环境状态的持久变化，如在线购物平台根据用户行为调整推荐内容所展示的个性化效果。挑战在于，设计模型不仅需准确反映这种互动的后果（即后效性），还应能预见并利用这些变化以优化其后续行动。这意味着模型需集成复杂的因果推理和策略规划能力，以预测并积极引导环境变化，为达成目标服务。

● 跨环境泛化（Cross-environment Generalization）的实现：由于环境数量无限且存在后效性，无法为每个环境单独训练智能体。因此，可以在一些代表性环境中进行训练，以获取与环境无关或可泛化到广泛环境的基础能力或知识。这样，智能体在新环境中能够快速适应并执行任务，利用先前在其他环境中学到的知识和能力。这种跨环境泛化的方法有助于解决面对无限数量环境的挑战，提高智能体在不同环境中的适应性和表现。

● 多目标优化（Multi-objective Optimization），在复杂的开放领域应用场景中，智能体需同时追求多个可能相互矛盾的目标（如高效率、低成本、快速执行），这些目标间的权衡增加了决策的复杂度。传统上，多目标优化就是一个难题，而随着智能系统迈向更加开放和动态的环境，有效平衡及优化这些相冲突的目标变得尤为重要和紧迫。因此，开发能够自动调节和优先处理多目标间关系的算法，确保智能体在实际操作中既能达成高质量性能，又能考虑效率、经济性等其他关键指标，是当前研究与实践中的一个重大挑战。

● 主动感知（Active Perception），即智能体应具备根据当前任务需求和执行进度，自发地、有选择性地向环境索取信息的能力，而非依赖外部指令被动接收数据。这要求智能体不仅要能高效处理接收到的信息，还需智能地决定感知什么、何时感知以及如何感知，体现了与传统被动感知模型的根本区别。

至于说解决方案，当前大模型与智能体技术正处于快速发展阶段，全面应对上述挑战的成熟解决方案尚未完全形成。各个领域虽已见证了一系列积极探索，比如推断时学习算法的进步、基于环境交互的动态知识整合训练策略，以及我们团队正在进行的相关研究，但至今尚缺乏一套系统性、全方位解决这些复杂问题的技术框架。正是由于此现状，强调智能体与人类目标、环境需求、以及自身约束之间的统一对齐，即“智能体 - 人类 - 环境统一对齐原则”，显得尤为重要。

InfoQ：这个在大模型应用中，您认为哪些领域需要这种技术支持？

李鹏：几乎所有涉足开放域应用的场景都会不同程度地遭遇这些难题，尤其是那些强调个性化和具身化交互的领域。在这些情境下，无论是为了满足用户独特偏好的个性化需求，还是实现智能体在具体环境中的有效操作与适应，解决数据多样性、动态环境适应性、多目标优化、主动感知及少数样本学习等问题的重要性尤为凸显。因此，诸如个性化推荐、虚拟助理、沉浸式交互、自适应教育、智能健康监护、以及高级的人机协作系统等应用领域，对于支持开放域技术的需求尤为迫切。

InfoQ：您如何定义智能体、人类和环境的统一对齐？目前是否有切实的解决方案？

李鹏：我们的核心观点在于，智能体研究应当超越单纯追求下游任务成功率的局限，转向一个更为综合的视角，着重考虑智能体、人类用户与环境三者之间相互作用的需求协调。

这意味着，在设计和评估智能系统时，不仅要着眼于任务完成度，更要深入理解并满足人在交互中的便捷性期望、个性化偏好，以及适应环境变化的能力等。

以理想的购物助手为例，其价值不仅体现在完成购买操作，更在于能够通过简洁的指令理解复杂需求。用户期望无需详尽指定品牌、型号，智能助手便能基于用户历史偏好、上下文暗示，精准推荐所需商品，实现智能体与用户意图的无缝对接，这即是智能体需与人类意图对齐的体现。此外，该智能助手还需具备适应电商网站动态变化的能力，如商品更新、界面调整等，确保在不断演化的环境中依旧能有效执行任务，这即是智能体与环境规律对齐的体现。

进一步而言，用户不仅期望智能体能准确理解并迅速执行任务，如高效完成购物而不拖延，还期待整个过程的成本效益最大化。换句话说，用户不希望智能体的运行导致不必要的开销，或是因低效而增加等待时间。这就要求智能体的设计需兼顾效率与经济性，确保其自身运作的智能化，即在满足任务需求的同时，优化资源使用、降低成本，避免不必要的延迟或浪费。这就是智能体与自身限制对齐的体现。

至今为止，尚未有智能体能完全达到智能体、人类与环境三者间的理想对齐状态，这反映出该目标的实现颇具挑战且尚未成为广泛研究的重点。正因如此，我们认为当前提出这一议题极具价值和前瞻性。

InfoQ：如何通过智能体来指导代价敏感的特征获取过程？这种方法在哪些应用场景中表现最佳？

李鹏：在整个过程中，我们的目标并非单纯让智能体提取特征，而是探索其他途径以实现这一目标。尽管对智能体决策成本的研究已初见端倪并积累了一定成果，该领域仍处于发展阶段，存在广阔的探索空间。在即将呈现的演讲中，我们将详述一项创新方法，即当智能体的学习预算（budget）受限时，我们采用了一种融合预规划的手段来优化学习过程，并已观察到积极的效果。当然过往的研究中，学者们尝试利用大规模预训练模型设计奖励机制等策略，这些方法同样展现出了解决类似问题的巨大潜力，也是值得学习的。

InfoQ：您认为未来在代价敏感智能体方面，还有哪些待解决的关键技术问题？

李鹏：我认为，首要任务是建立健全针对代价敏感智能体及其评估框架的体系。当前的基准测试 (Benchmark) 大多侧重于任务完成度，却忽略了成本效益分析，这是一个亟待填补的空白。因此，开发一套全面考量智能体表现及成本的评估方法至关重要，它既要衡量成效，也要顾及成本开销，这两个核心指标本质上可能存在冲突，需要精心设计平衡，确保评估体系能精准识别并促进系统效能的提升，这是第一个值得深入探讨的议题。

其次，针对多目标优化策略的融入也是不可或缺的一环。在这样的复杂环境中，如何有效地整合多目标优化算法，以同时追求高效率与低成本，是实践中的又一挑战。

第三，更广泛地讲，我们应致力于研发更为先进的智能体学习机制。这一点虽然与多目标优化有所交集，但第二点更多的是关注代价函数，而这个学习机制将在更多层面发挥作用，如持续演进的探索机制等。

InfoQ：您如何看待将大模型与特定领域知识结合的趋势？这在提高智能体在特定任务上的表现方面有何优势？

李鹏：对于大模型与特定领域知识结合的趋势，我持肯定态度，我认为这是大模型迈向更广阔应用场景，尤其是在开放领域中不可或缺的发展路径。尽管现下关于最佳结合策略尚未形成统一意见，无论是通过微调、RAG 或是其他创新性推理学习机制，这一融合趋势本身已成为业界共识。

至于智能体技术在此背景下的角色，其作为连接知识获取与特定领域应用的抽象化手段，显得尤为重要。智能体不仅促进了领域知识的有效吸收，同时也得益于领域知识的加持，在特定任务中展现出更优的执行能力。这一互动过程类似于人类个体的专长发展：个人在特定领域的特长越显著，相关领域知识获取速度越快；反之，对该领域的深刻理解又反过来促进其专业能力的提升，形成了一个正向循环的增强过程。

InfoQ：在设计这类智能体时，如何平衡通用性和专业性，以适应不同的应用场景？

李鹏：我认为多智能体系统提供了一个天然的解决方案思路。单一智能体在同时追求高度专业化与广泛领域适应性上面临挑战，这要求它既要精通特定领域，又要保持足够的泛化能力，实为不易。而多智能体架构则巧妙绕过了这一难题，它允许系统中并存通用型智能体与领域专用智能体。通用智能体擅长处理高层次的策略规划、任务分解及综合归纳等全局性任务；与此同时，领域专用智能体则专注于特定领域的深度知识与高效执行。通过它们之间的协同作业，系统能够更灵活、高效地达成任务目标，从而实现两者平衡的优化。

InfoQ：大模型智能体在环境感知方面的最新进展是什么？这样的趋势下，我们应该如何提升智能体交互与理解能力？

李鹏：当前环境领域展现的最显著趋势是环境日益增长的复杂度与真实性，这一演变可从三个核心方面概述：

● 纯数字环境正经历显著变化，其特点在于设计者愈发重视环境的动态交互成本及其中任务的复杂层级，推动这些虚拟场景朝向更高程度的真实感发展。

● 数字模拟环境作为衔接虚拟与现实的桥梁，利用计算技术模仿物理环境，旨在解决实际物理世界的挑战。例如，近期备受瞩目的项目 Sora，其潜力在于可能充当物理世界的高效模拟器，凸显了该领域的前沿探索。

● 物理世界环境的融入加深，不仅体现在工业界和学术界的广泛关注上，还反映在致力于减少物理数据采集成本的努力中。引人注目的是，斯坦福大学等机构开发的创新硬件，如成本仅 400 美元的机械手示教设备，通过佩戴操作直接采集数据，极大促进了智能技术与物理环境融合的基础建设，加速了实体世界数据获取的效率与可行性。

为了提升智能体的交互理解能力，核心在于借鉴大型语言模型的成功要素：海量数据、更庞大模型及高效训练策略。针对开放领域的智能体，数据的丰富性尤为关键。不论是数字环境、模拟环境或实体环境，研究焦点集中于两方面：一是创造更多样化、复杂且逼真的场景，以模拟真实世界的广泛挑战；二是优化数据采集过程，降低成本，提高从环境中提取有效信息的效率。这一系列环境构建与优化的趋势，无疑将极大地推动智能体技术的进展。

InfoQ：您本次分享想要为听众带来什么分享？带来哪些收获？

李鹏：这次演讲，我核心将分享大模型的智能体和开放领域去结合的时候，将会面临的挑战以及解决挑战的典型的新思路，虽然可能我没有办法完全覆盖所有的思路，但是可以给大家一些启发。最后，我将简要总结大模型智能体与开放域结合方面未来的发展方向。

嘉宾介绍

李鹏：清华大学智能产业研院（AIR）副研究员 / 副教授，主要研究兴趣包括自然语言处理、预训练语言模型、跨模态信息处理、大模型智能体等，在人工智能重要国际会议与期刊发表论文 90 余篇，曾获 ACL 2023 杰出论文奖，曾在多个国际上深具影响力的榜单上超过 Google Research、OpenAI 等团队获得第一名，主持科技创新 2030 重大项目课题、国家自然科学基金面上等科技项目，曾任 NAACL、COLING、EACL、AACL 等会议领域主席或资深领域主席。研究成果在百度、腾讯微信等千万级日活产品中获得应用并取得显著成效，获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。

内容推荐

探索智能科技的新边疆，《2024 年第 1 季度中国大模型季度监测报告》正式发布！OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来，正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中，AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号，回复「季度报告」领取。