西工大等提出大模型多智能体框架CRSEC，揭开AI社会的社交奥秘

©作者 | 任思玥

单位 | 西北工业大学

在日常生活中，早晨起床后的洗漱穿衣、驾车通勤时的靠右行驶、工位上的耳机随手一戴…… 这些看似普通的举动其实都是一系列行为标准（即社会规范，social norm）在悄悄指导着我们。它们就像生活中的“隐形导航”，让我们不假思索地知道在什么时间、在什么场合该做什么事情。

但是，试想一下，如果没有这些规范，我们可能会在社交活动中因为不知所措而倍感困惑，最终引发各种各样的社会冲突。过去几十年来，有关社会规范的研究在复杂系统科学、认知科学以及计算机科学等领域引起了广泛的关注。研究者们一直在追寻一个核心问题：社会规范是如何在人类或智能体的社会互动中自发形成的呢？

随着人工智能的蓬勃发展，当我们将它们与现实社会场景融合时，智能体的社交行为需要具备一定的规范性，即智能体要能够理解在什么时间、在什么场合该做什么事情，并且能够根据这些理解来行动。

想象一下，在未来社会中，智能体需要完成人类布置的各种任务，它们之间可能会频繁地交互，甚至与人类互动。要让人类能够真正接受并且习惯使用智能体完成各种任务，智能体理解和遵守社会规范的能力显得至关重要。

一方面，这可以减少智能体间以及智能体与人类间的冲突，促进他们的高效协作，另一方面还可以让人类更准确地预测智能体的行为，从而提升人类对智能体的信任与接纳程度。

那么，如何才能让智能体具备遵守社会规范的能力，并让 AI 社会中自发涌现出社会规范呢？近日，欧洲科学院院士、国家杰青、IEEE Fellow 西北工业大学王震教授团队联合上海人工智能实验室提出了首个基于大语言模型的多智能体规范性框架 CRSEC，它的研究重点是探索基于大语言模型的多智能体系统中社会规范的涌现。

论文标题：

Emergence of Social Norms in Large Language Model-based Agent Societies

论文链接：

https://arxiv.org/pdf/2403.08251.pdf

项目主页：

https://github.com/sxswz213/CRSEC

研究背景及意义

随着大型语言模型（Large Language Model，LLM）的广泛应用，生成式多智能体系统已展现出可信的社会行为（例如，邀请智能体参加派对活动），彰显了超越传统方法的合作潜力，甚至能够通过协作解决复杂任务（例如，自动生成代码）。然而，现有研究忽视了社会规范的重要性，未解决社会规范的涌现问题：他们通常聚焦于完全合作的任务场景，忽略了社会冲突的存在。

社会规范的涌现研究近几十年备受关注。但在解决生成式智能体系统中的社会规范涌现问题上，过往研究未能提供直接有效的解决方案。这主要因为它们未充分发挥 LLM 的优势，且往往只关注涌现过程的部分方面，而缺乏全面系统的研究。

具体而言，有的研究会专注于规范的表征问题（norm representation），而有的则会关注规范的遵守问题（norm compliance and enforcement）。尽管过往研究存在这些缺陷，但为我们提供了许多启示。

我们首次将生成式智能体与社会规范涌现这两个领域联系在一起，使生成式多智能体系统基于我们的架构涌现出社会规范。具体而言，我们首次提出了一种规范性架构：生成式智能体可以创建、表示、传播、评估、整合以及最终遵守规范。社会规范得以涌现，并有效解决了生成式智能体间的社会冲突。

框架内容

生成式智能体（generative agent）是由 LLM 驱动的智能体，能够分析和预测输入文本（prompt），然后生成输出文本，模拟人类的语言交流和智能行为。

社会规范是在社会群体内共享的行为标准。如果一个行为标准能被社会大多数个体接纳，该行为标准就演变成社会规范。

我们期望通过 CRSEC 架构实现社会规范的涌现现象：少数规范倡导者（智能体）具有其偏好的个人行为标准，通过积极传播这些行为标准能影响其余普通智能体；普通智能体能在社交行为中识别、评估并接纳相应的行为标准，从而在自身行动中遵守该行为标准，最终实现社会规范的涌现和社会冲突的消失。

下图展示了我们的 CRSEC 架构。本文提出的 CRSEC 架构包括四个关键模块：Creation & Representation（创造与表征）、Spreading（传播）、Evaluation（评估）和 Compliance（遵守）。这四个模块回答了社会规范研究中的五个经典问题：

社会规范从何而来？
我们应该如何形式化表达社会规范？
社会规范是如何通过个体间的交互进行传播的？
我们应该如何评估社会规范？
我们如何使得智能体在计划和行动中遵守规范？

▲ CRSEC架构示意图

具体而言，在 Creation & Representation 模块中，LLM 为每个规范倡导者生成具有其偏好的个人行为标准。在 Spreading 模块中，我们从沟通（communication）和观察（observation）这两个机制出发：智能体通过观察他人的行为，利用 LLM 检测其是否与自己的个人行为标准存在冲突。

如果存在冲突，智能体会根据 LLM 的输出选择是否通过沟通解决问题。与此同时，其他智能体通过沟通和观察，利用 LLM 的推理归纳能力识别其中的含有潜在规范的信息，从而实现规范的传播。

由于 LLM 自身的缺陷，智能体需要评估 LLM 生成的含有潜在规范的信息。在 Evaluation 模块中，我们设计了即时评估（immediate evaluation）进行检验，只有通过评估才能成为个人行为标准。

除此之外，随着时间推移，每个智能体的个人行为标准会逐渐增多，但过多的标准可能会限制智能体的行动。因此，我们还引入了长期整合（long-term synthesis），使数据库尽可能精简。

最后，Compliance模块旨在提升智能体对规范的遵循意识。我们从计划（plan）和行动（action）两个方面对该模块进行设计：通过输入的文本提示 LLM 在生成智能体的计划和行动时需要考虑其个人行为标准，以便生成既符合其目标又遵守规范的计划和行动。同时，智能体对规范的遵守行为会在交互中影响其他智能体，从而加强规范的传播。