开源模型知识编辑黑盒大模型：北邮联合美团提出postEdit

©PaperWeekly 原创 · 作者 | 王正阳

单位 | 北京邮电大学

研究方向 | LLM知识编辑

论文标题：

Knowledge Editing on Black-box Large Language Models

论文链接：

https://arxiv.org/abs/2402.08631

简介

知识编辑（KE）旨在高效且精确地修改大型语言模型（LLM）的行为，更新特定知识而不对其他知识产生负面影响。当下的知识编辑研究主要集中于对白盒 LLM 的知识编辑研究，忽视了对黑盒 LLM（比如 ChatGPT）的研究，其中 LLM 除了文本输出什么都不可访问。

针对现有的基于编辑前后 Logits 变化的主流评估框架无法应用于黑盒 LLM 的问题，本文首先提出了一个全面的评估框架。除了传统对于编辑知识的评估，该框架首次纳入编辑前后风格一致性保持并从文本和语义多个角度评估。

为了解决现有适用于黑盒 LLM 的 KE 方法存在的编辑数据隐私泄露和风格过编辑问题，本文提出了一种后处理方法 postEdit。

一方面，后处理机制允许将 postEdit 作为后置插件部署在下游端，从而保护编辑数据的隐私；另一方面，一个被称为 post-editor 的专家模型，以编辑知识为指导，对 LLM 的原始回复进行细粒度修改，从而有效地保持了原有的输出风格。

对两个基准测试的实验和分析表明，postEdit 的性能优于所有基线，并实现了很强的泛化能力，尤其是在风格保持方面有了巨大的改进。

新的评估框架

2.1 基于Logits评估的缺陷

一个编辑知识可以用表示。先前的研究对于知识编辑的评价主要从三个方面入手：Efficacy，Generalization 和 Specifity。但是这些指标需要通过计算模型编辑前后 logits 的变化得到，这显然不能够应用于黑盒模型的编辑评估。

另外，KE 应仅修改输出中涉及到编辑知识的 spans，同时保持输出的风格，以最大限度地减少编辑的负面作用，但是关于编辑前后对语言风格一致性的评估被之前工作忽视，导致了不全面的评估。

2.2 改进的多角度评估

对于黑盒模型的编辑，我们关心编辑后的输出相较于编辑前的输出修改了什么? 保持了什么? 这启发我们分别从 Editing 和 Retention 两个方面制定评估框架。

Editing: Editing 指标用于评估编辑成功与否，其中包含了对编辑域内（INS）输入的编辑和对域外编辑域外（OOS）输入的不编辑。从文本编辑的角度（textual editing, TE），对于 INS 输入，成功的编辑后输出应当舍弃了旧的知识且包含新的知识，对于 OOS 则相反。即：

其中如果 a 包含 b，则，否则为 0。从语义编辑（semantic editing, SE）的角度，对于 INS 输入，成功的编辑后输入输出对应当能推理出编辑知识且与旧知识矛盾，对于 OOS 则相反。即：

其中如果 a 蕴含 b，则，否则为 0，我们借助于 NLI 模型来实现；表示和 OOS 关联的知识条目。

Retention: Retention 指标用于评估编辑后的输出在多大程度上保持了原始风格。类似于 Editing，这里同样从文本保持（TR）角度和语义保持（SR）两个角度。对于 TR 和 SR，我们分别使用 ROUGE 分数和 SBERT 模型来评估。

其中表示的是 mask a 中与 b 相关的部分，对于，我们使用一个掩码操作来提取与编辑知识无关的文本。

新的知识编辑的方法：postEdit

3.1 现有方法的缺陷

一些基于外部 memory 的方法可以应用于黑盒 LLM 编辑场景。其中，SERAC 在 query 被分类为 INS 时利用一个替代模型生成编辑后的响应。IKE 通过演示示例和上下文学习让 LLM 学习辨别是否需要编辑和学习如何进行编辑。

然而，这些方法面临了两个关键缺陷：1）编辑数据的隐私泄漏。IKE 从演示库和编辑 memory 中检索数据输入到 LLM，不可避免地向上游 LLM 泄露了下游私人编辑数据；2）风格过编辑，即编辑后的语句风格和编辑前发生了巨大的变化。具体来说，SERAC 中不同型号和尺度导致代理模型和主 LLM 之间的风格差异，而 LLM 对提示和演示样例的敏感性导致 IKE 中的过度编辑。

一个理想的黑盒编辑方法应保留下游数据隐私的前提下，同时实现值得称赞的编辑性能和风格保持。

3.2 postEdit

针对于上述问题，本文提出了一种新的适用于黑盒模型的知识编辑方法：postEdit。如图所示，postEdit 由三个部件组成：一个用于存储编辑知识的编辑内存，一个用于检索编辑的检索器，以及一个名为 post-editor 的生成模型用于后编辑。

3.2.1 post-editor的训练

在先前的研究中，研究者通常直接使用编辑知识的客体作为编辑后的目标输出，加剧了编辑器和主 LLM 之间的风格差异。为了弥补这个差距，在构建 post-editor 的训练输出目标时，我们对原始的数据集进行增强。我们首先利用主 LLM 获取编辑前的回复：，接着使用 GPT-4 和规则下进一步增强以构建编辑后的目标输出：

其中是一个引入的特殊 token 代表“不编辑”，是一个人为设计的编辑模板。为了进一步提高增强数据的质量并减轻训练负担，我们对 GPT-4 增强获得的编辑后输出进行评估和过滤。

我们对使用 TE 和 SE 的联合评估并丢弃质量较差的增强样本。再获得了增强的训练集后，我们 SFT 一个生成式语言模型（主实验为 LLaMA2-7B）得到 post-editor，形式化如下：

3.2.2 postEdit的工作流程

对于用户的 query，我们首先通过上游的 LLM 接口获得 LLM 的原始响应。在下游端，检索器根据原始响应从 memory 中召回最相似的编辑，之后我们将所有信息按照编辑模板填充并传递给 post-editor。如果 post-editor 输出，则最终输出原始响应；否则最终输出为 post-editor 的输出。

实验

4.1 主实验

我们以 GPT-3.5 为主 LLM，在 zsRE 和 counterFact 两个数据集上进行了实验，其中 Simple 类型是对编辑知识的简单再现查询，Rephrase 涉及对知识的改写，而 OOS 则是不在编辑范围内的 query。

可以看到，在 counterFact 和 zsRE 数据集上，postEdit 在所有得分方面都取得了最好成绩，尤其是 Retention 分数取得了显著改进。在对比了不同指标的得分也可以发现，在 Ediing 指标上，SERAC 和 IKE 相比 postEdit 落后并不显著，但在 Retention 指标上却远远落后，这表明了有效的编辑并不保证良好的保持，强调了对知识编辑的全面评估的必要性。

4.2 分析实验

post-editor 的泛化性：我们使用 ChatGPT 作为基础 LLM，CounterFact 作为训练集或演示库进行微调之后，在不重新训练的情况下在不同的基础 LLMs 和数据集上进行测试，结果如下：

案例研究：为了直观地展示 postEdit 和基线的编辑和样式的保留，我们在下表中进行了案例研究。

消融实验：为了理解 postEdit 中每个组件和训练数据类型的作用，我们进行了消融实验，结果如下：

Post-editor 的 Scale 研究：随着 post-editor 规模的增加，Editing 分数逐渐提高，而 Retention 分数在达到 1.3B 后保持稳定，这表明较大尺度的 post-editor 可以在保持高 Retention 分数的同时提高编辑性能。此外，像 ChatGPT 这样的 LLMs 在执行编辑任务方面并不擅长，小型 post-editor 可以实现令人满意的性能和高效率。

结论

在本文中，我们首先介绍了一个针对黑盒 LLMs 知识编辑的全面评估框架，融合了多个视角并考虑了风格的保持。接下来，我们提出了一个新颖的 postEdit 框架，通过对 LLMs 的输出进行后处理，解决了当前方法中存在的编辑数据隐私泄漏和样式过度编辑的问题。最后，在两个基准测试上的实验证明和深入分析表明，postEdit 胜过所有基线并实现了很好的泛化性。

更多阅读