万字长文总结大模型知识编辑领域最新研究进展

随着深度学习与预训练技术的快速发展，大模型如 ChatGPT、Mistral、LLaMA、ChatGLM、文心一言、通义等在自然语言处理领域已经取得了显著的突破。大模型通过将海量的、以文本序列为主的世界知识预先学习进神经网络中，并通过参数化空间实现对知识的处理和操作，其揭示了大规模参数化神经网络在习得和刻画世界知识上的巨大潜力。不同于传统的符号知识工程，大模型的隐式参数知识具有表达能力强、任务泛化好等优点。

然而，大模型在处理和理解知识方面仍然存在一些挑战和问题，包括知识更新的困难，以及模型中潜在的知识谬误问题。随着模型参数量变大，大模型更新的成本逐渐变得非常高昂，而且更新后的模型鲁棒性难以保障。

大模型微调、检索增强（RAG）和局部参数更新都是处理大模型知识谬误问题

的技术手段之一。研究大模型知识编辑技术，以便使其可以像人类每天读书、看报一样进行知识更新具有重要意义：

1）可以深入理解大模型知识存储机理；

2）实现高效、低成本地大模型知识更新以缓解知识谬误问题；

3）擦除模型中隐私、有害的信息以实现安全、可信的大模型应用。

大模型知识编辑方法一般可分为内部更新和外部干预方法。内部更新方法通过定位等方式来对大模型参数进行局部更新，外部干预法则在保留大模型原参数的前提下植入参数补丁或进行提示上下文增强。本文调研了近期的大模型知识编辑的部分工作，分为大模型知识编辑新技术、新设定和挑战与局限性三部分，最后进行总结与展望。

大模型知识编辑新技术

论文标题：

Learning to Edit: Aligning LLMs with Knowledge Editing

论文链接：

https://arxiv.org/abs/2402.11905

本文提出了一种全新大模型知识编辑框架 LTE（Learning to Edit），旨在解决现有编辑技术侧重于记忆更新的知识而没有考虑新知识与模型原有知识的有效整合问题。LTE 框架分为两个阶段：对齐阶段（Alignment Phase）和推理阶段（Inference Phase）。

在对齐阶段，本文利用 GPT-4 生成了 Out-of-Scope 和具有挑战性的 Free-Text, In-Scope Query-Answer Pairs，在精细设计的数据集上进行微调，以可靠地进行 In-scope 编辑，同时保留范围外信息和通用语言能力。

推理阶段利用检索，从存储的数据中检索出相关的 Edit Descriptors，以满足实时、大量的知识编辑请求。这种方法使大模型能够动态地将最新的知识应用到查询中，从而提高大模型知识编辑的速度和稳健性。

在四个主流知识编辑数据集上，LTE 方法在两个不同的大模型上均取得了优于基线的效果，展示了其在增强知识编辑能力方面的有效性，同时对大模型通用能力的干扰最小。

论文标题：

Model Editing with Canonical Examples

论文链接：

https://arxiv.org/abs/2402.06155

本文提出使用规范实例（Canonical Examples）进行模型编辑的新设定，并提出使用 Sense Finetuning 的方法进行特定行为的编辑。使用规范实例进行模型编辑的设定如下图所示：

该设定满足三个条件：

（1）使用一个实例进行模型编辑使其表现特定行为。

（2）满足泛化性，这里的泛化指的不是数据分布而是关注复杂的语义（Complexity or Naturalness），比如上图中 “Out-of-distribution Evaluation” 的例子。

（3）尽量不偏离初始模型，其实就是进行模型微调时不要带来太大的副作用损害初始模型的通用能力。

在这个设定下，本文评测了 Full Finetuning，LoRA Finetuning，MEMIT 编辑 Pythia 语言模型后在六个任务（Country-Capital，Company-CEO，Stereoset，Pronoun Gender Bias in Careers，Temporal Entities，Hard Syntax）上的性能。实验结果发现 LoRA 最好。

随后本文受背包模型的启发，设计了 Sense finetuning 的方法，如下图所示：

即首先选择出最重要的 Sense Vector（类似于 Word2vector），然后去微调。在 GPT-J-6B 上实验结果如下：

实验结果发现 Sense Finetuning 很好，且增加了可解释性。这启发未来模型的新体系架构，本文建议使用利用小型的、可适应的模型（比如这里借助背包模型的 Sense Vector，以及 Sens Finetuning 等技术）来修复和更新庞大的大型模型（比如这里的 GPT-J-6B）。

论文标题：

MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA

论文链接：

https://arxiv.org/abs/2312.11795

目前的大模型知识编辑方法在持续知识编辑场景无法同时兼顾所有评估指标（Edit Success，Locality，Generality，Sequential Editing，Efficiency）的性能。本文提出一种新方法 MELO，该方法通过动态激活 LoRA 块来编辑模型，并且采用了非重叠的 LoRA 块进行训练，缓解了之前知识编辑中存在的灾难性遗忘问题。

实验结果如下：

本文提出未来可以探索更有效的神经索引向量数据库，并将 MELO 扩展到更多的场景，如多模态大模型知识编辑。

论文标题：

WilKE: Wise-Layer Knowledge Editor for Lifelong Knowledge Editing

论文链接：

https://arxiv.org/abs/2402.10987

以往的方法主要关注单次编辑（如下图（a）所示），本文致力于解决持续知识编辑（如下图（b）所示）。

以往的方法经过在持续知识编辑的设置下会引发巨大的副作用（本文称为毒性），如下图所示：

本文猜测持续知识编辑引发巨大副作用的原因如下：以往的 ROME 和 MEMIT 都是采用了预定义的层去执行模型编辑，然而不同的知识存储在不同的层中。

因此本文提出了一个新方法 WilKE，该方法首先找到存储特定知识的层，然后直接修改该层的参数。整体流程如下图所示。具体来说，存储特定知识的层是为该知识产生最大激活强度的层。随后采用 ROME 的方法编辑该层参数。

实验结果如下表，与目前流行的大模型知识编辑方法相比，WilKE 在终身编辑中实现了显著的整体性能提升。

论文标题：

Consecutive Model Editing with Batch alongside HooK Layers

论文链接：

https://arxiv.org/abs/2403.05330

本文提出了 COMEBA-HK，是一种新型的大模型知识编辑方法，旨在解决大模型更新耗时且资源密集的问题。该方法支持连续和批量知识编辑，且对内存友好，因为它只需要存储几个大小不变的钩子层（Hook Layers）的内存。COMEBA-HK 不需要额外的训练或大型外部存储来存储编辑实例，它通过优化钩子层中的权重来实现模型行为的直接编辑。

1. 连续和批量支持：COMEBA-HK 能够在一系列连续的步骤中进行批量编辑，而不需要在每个编辑步骤后将模型重置回初始状态。

2. 内存效率：该方法只需要少量内存来存储钩子层，这些层的大小在编辑过程中保持不变。

3. 无需额外训练：与需要训练元网络或分类器的方法不同，COMEBA-HK 不需要这些额外的训练步骤。

编辑机制：

COMEBA-HK 通过扩展单层编辑机制来支持连续编辑，并引入了钩子层来分离权重变化，从而避免了对原始模型权重的直接修改。
该方法使用一个新设计的变换器内存更新机制，以及一个简单但有效的局部编辑范围识别技术，用于钩子层中精确检测输入的局部编辑范围。如下图所示，几乎所有来自更新密钥的响应的 z 分数都与平均值有很大差距，可靠性样本中最低约为 1.5，一般性样本中最低为 2。

实验结果：

COMEBA-HK 在单轮和连续批量知识编辑场景下展现出了优越性。实验结果表明，COMEBA-HK 在多个指标上超越了现有技术，尤其是在连续编辑步骤和编辑实例数量上的稳定性。COMEBA-HK 适用于需要对模型进行定制化、成本效益高且连续编辑的场景，如文本生成、问答、推理等领域。

论文标题：

Stable Knowledge Editing in Large Language Models

论文链接：

https://arxiv.org/abs/2402.13048

大模型知识编辑方法通常隐含地假设知识在大模型内是本地化和孤立的，这种假设过度简化了模型知识的互连性质。本地化的前提会导致知识编辑不完整，而孤立的假设可能会损害其他知识和一般能力，它给知识编辑方法的性能带来了不稳定。

针对上述问题，本文提出了 StableKE，一种采用基于知识增强而不是知识本地化的新颖视角的大模型知识编辑方法。具体来说，本文提出用下图的四个指标衡量编辑的稳定性：

(1) Editing Knowledge Stability

(2) Multi-hop Knowledge Stability

(3) Unrelated Knowledge Stability

(4) General Capability

本文提出的基线如下图所示：

为了克服人工标记的成本，StableKE 集成了两种自动知识增强策略：语义释义增强策略，使知识描述多样化，以便于向模型教授新信息；上下文描述丰富策略，扩展周围的知识以防止遗忘的相关信息。实验结果如下表所示：

实验结果表明 StableKE 超越了其他知识编辑方法，展示了编辑知识和多跳知识的稳定性，同时还保留了不相关的知识和通用能力。此外，StableKE 可以编辑 ChatGPT 上的知识。

论文标题：

Knowledge Editing on Black-box Large Language Models

论文链接：

https://arxiv.org/abs/2402.08631

大模型知识编辑旨在高效且准确地调整其行为，以便在更新特定知识的同时不对其他知识产生负面影响。目前的研究主要侧重于白盒大型模型的知识编辑，但常常忽略了像 ChatGPT 这样的黑盒模型。这些模型的内部结构是不透明的，只能通过与其文本输出互动来了解其运作方式。

针对现有基于编辑前后 Logits 变化的评估方法不适用于黑盒大型模型的问题，本文首次提出了一个全面的黑盒大模型知识编辑评估框架。该框架不仅评估知识编辑的实际效果，还创新地考虑了在编辑过程中保持文体一致性，并从文本和语义的多个角度进行综合评估。

一个理想的黑盒编辑方法应在保护下游数据隐私的同时，实现令人满意的编辑性能和风格保持。针对以上问题，本文提出了一种新的适用于黑盒模型的知识编辑方法：postEdit。postEdit 包括三个主要组成部分：一个用于存储编辑知识的编辑内存，一个用于检索编辑的检索器，以及一个名为 “post-editor” 的生成模型，用于进一步编辑。

论文标题：

DeepEdit: Knowledge Editing as Decoding with Constraints

论文链接：

https://arxiv.org/abs/2401.10471

本文提出一种全新的大模型知识编辑方法，其将大模型知识编辑视其为一个受约束的解码问题。通过精心设计解码约束确保在融入新知识的过程中，大模型能够保持推理步骤之间的逻辑连贯性。具体实施上，本文采用深度优先搜索策略，灵活地将新知识替换进大模型原有的推理步骤中，并贪婪地搜索多跳推理的最优路径。

基于上述思路，本文提出了 “DEEPEDIT”——一种基于深度优先搜索的知识编辑解码技术。DEEPEDIT 不仅提高了大模型在知识编辑方面的性能，而且增强了推理过程中的简洁性、连贯性、相关性和接受度。值得一提的是，DEEPEDIT 的应用非常灵活，可以适用于任何黑盒大模型，无需访问模型的参数或逐词分布。

此外，为了更精确地评估知识编辑方法的效果，本文还引入了两个新的基准测试：MQuAKE-2002 和 MQuAKE-hard。这两个基准旨在提供更严格的挑战，以全面检验 KE 技术的效果。

从定性和定量两个方面来看，DEEPEDIT 都使大模型能够根据新知识生成更加简洁、精确的推理输出，并在多个知识编辑基准测试中实现了显著的性能提升。这些成果不仅展示了 DEEPEDIT 的强大功能，也推动了大模型知识编辑技术的发展。

论文标题：

Robust and Scalable Model Editing for Large Language Model

论文链接：

https://arxiv.org/abs/2403.17431

大模型可以利用参数化知识（即模型权重中编码的知识）或上下文知识（即在上下文中呈现的知识）进行预测。在许多情况下，理想的行为是当上下文知识与参数化知识发生冲突时，大模型优先考虑上下文知识，并在上下文不相关时回退使用其参数化知识。这使得通过上下文中的编辑而非重新训练来更新和纠正模型的知识成为可能。以往的研究表明，大模型倾向于忽视上下文知识，并在面对不相关的上下文时无法可靠地回退到参数化知识。

本文发现，通过适当的提示方法，经过指令微调的大模型可以被上下文知识高度控制，并对不相关的上下文具有鲁棒性。利用这一特性，本文提出了 EREN（通过阅读笔记编辑模型）方法，以提高大模型知识编辑的可扩展性和鲁棒性。

为了更好地评估模型编辑器的鲁棒性，本文收集了一个新的数据集，其中包含的不相关问题比现有数据集中的挑战性更大。实证结果显示，本文方法大幅超过了当前的最先进方法。与现有技术不同，它可以整合多次编辑的知识，并正确响应语法相似但语义不相关的输入（反之亦然）。

本文在问答和事实核查任务上评估了本文的方法和基线模型。EREN 的编辑质量远高于非黑盒基线和 SERAC。微调方法、MEND 和 ROME 因为严重的灾难性遗忘，导致编辑质量极低，通常无法连续应用超过一千次编辑。经过一定数量的连续参数更新后，模型退化到只能产生难以理解的文本。

对于 MEND 来说，这是因为超网络被调整以适应基模型的参数，但每次更新时参数都在变化，而超网络保持不变。ROME 也存在类似问题，本文必须预先计算基模型的激活统计数据，而这些数据不会随着每次编辑而更新。

值得注意的是，这些非黑盒基线模型应用每次编辑所需的时间显著多于 SERAC 和 EREN。

有趣的是，单步 MRC 在事实核查的编辑质量上可以超过 SERAC。这可能是因为 SERAC 是在问答数据集上训练的，因此无法以零样本的方式适应事实核查领域。

论文标题：

See the Unseen: Better Context-Consistent Knowledge-Editing by Noises

论文链接：

https://arxiv.org/abs/2401.07544

知识编辑可以更新大模型的知识，有助于提高大模型的可解释性和应用性。然而，知识的应用应当是上下文一致的：大模型能在不同的上下文中回忆同一知识。现有的研究忽视了这一属性，导致编辑缺乏泛化性。

本文实证发现大模型在回忆同一知识时不同上下文的影响呈高斯分布。因此，本文采样高斯噪声来模拟在更新大模型时不同上下文的影响。通过这种方式，本文可以使大模型预见到未见过的上下文，其中编辑后的知识将被应用，从而提高编辑的泛化性。在三种大模型上的实验结果证明了本文方法的有效性，并且也区分了本文的方法与其他通过噪声微调大模型的方法。

主要实验包括两个自回归型大模型，即 GPT2-xl（1.5B）和 GPT-J（6B），以及两个编辑数据集。本文还在 LLaMA-2（7B）上进行了额外实验，其前馈网络（FFNs）激活函数与 GPT 系列模型不同。所有实验都基于两个开源项目：MEMIT 和 EasyEdit。

本文严格遵循了所有超参数的设置以及 α 集合 [0.5, 0.4, 0.3, 0.2, 0.1] 对应 [1e0, 1e1, 1e2, 1e3, 1e4] 次编辑。关于基线，本文将所提方法应用于两种最先进的方法，ROME 和 MEMIT，并且只与它们未添加噪声的结果进行比较。

论文标题：

Retrieval-Enhanced Knowledge Editing for Multi-Hop Question Answering in Language Models

论文链接：

https://arxiv.org/abs/2403.19631

本文提出了一种针对多跳问答的检索增强大模型知识编辑（RAE）框架。RAE 首先检索编辑过的事实，然后通过上下文学习精炼语言模型。具体来说，本文的检索方法基于互信息最大化，利用大模型的推理能力来识别出那些简单相似性搜索可能遗漏的链式事实。

此外，本文的框架还包含了一种修剪策略，用于消除从检索到的事实中获取的冗余信息，这提高了编辑的准确性并减轻了幻觉问题。本文的框架得到了理论上对其事实检索效能的证明。最后，对各种大模型的全面评估验证了 RAE 在提供带有更新知识的准确答案方面的能力。

本文进行实验以回答以下问题。Q1：RAE 是否成功地编辑了模型输出？Q2：本文的检索策略与其他检索方法相比表现如何？Q3：本文提出的修剪技术是否移除了检索到的冗余事实？Q4：RAE 是否适用于专有的大模型？

论文标题：

MEMORYLLM: Towards Self-Updatable Large Language Models

论文链接：

https://arxiv.org/abs/2402.04624

本文提出了 MEMORYLLM，一种具有自我知识更新能力的大模型。MEMORYLLM 在 Transformer 的每一层中纳入一个固定大小的内存池，可以有效地整合新知识并储存长期记忆。

在每一层中，内存池包含代表压缩知识的内存标记。为更新内存池，设立 Self-Update 机制，以将新知识传播到内存的每一层。在 Self-Update 过程中，MEMORYLLM 仅更新每层内存中的一部分以吸收传入的知识，从而确保先前存储的知识逐渐淡出。

本文设计了三个不同的预训练任务：两段式文本预测、多段式文本预测与跨文档上下文预测，旨在提高模型对连续上下文的理解能力，在一定程度上解决遗忘问题，并增强模型在处理多文档上下文时的表现。

经实验验证，MEMORYLLM 在模型编辑基准上表现优异，在 zsRE 和 CounterFactual 数据集中均超越了基线模型。另外，本文通过对 NaturalQA 和 SQuAD 数据集的实验，证实了 MEMORYLLM 在长上下文文本的任务重表现优异，并表明了模型在近 65 万次更新后依旧可以达到较高的准确率。

论文标题：

Knowledge Graph Enhanced Large Language Model Editing

论文链接：

https://arxiv.org/abs/2402.13593

本文主要介绍了一种名为 GLAME 的新型大模型知识编辑方法，通过知识图谱来增强大型语言模型编辑的过程。GLAME 的架构包括两个关键模块：知识图谱增强模块（Knowledge Graph Augmentation Module）和基于图谱的知识编辑模块（Graph-based Knowledge Edit Module）。

在知识图增强模块中，利用外部知识图谱构建一个子图，捕获由编辑引起的新关联知识。对于给定的目标编辑样本，首先匹配外部知识图谱中最相关的实体，然后采样以该实体为中心的邻居实体及其关系，构建子图来捕获由编辑引起的知识变化。

接下来，在基于图谱的知识编辑模块中，利用 Relational GNN 将子图中的新知识关联整合到模型的参数编辑过程中。通过这种方式，GLAME 能够有效地捕获和整合由编辑引起的知识变化，从而提高后编辑的大模型在处理编辑知识时的泛化能力。

本文在 GPT-2 XL 和 GPT-J 上进行了广泛的实验，评估了 GLAME 在编辑知识方面的效果。在 COUNTERFACT、COUNTERFACTPLUS 和 MQUAKE 数据集上的实验结果表明，GLAME 能够有效地捕获和整合由知识编辑引起的知识变化，从而表现出更好的泛化能力和效果。另外，GLAME 在处理编辑知识任务中的敏感性较低，具有较好的稳定性和鲁棒性。

论文标题：

LLMs Instruct LLMs: An Extraction and Editing Method

论文链接：

https://arxiv.org/abs/2403.15736

本文关注了一个实际应用场景：如何在不从头训练的情况下使模型学会特定领域的知识。本文通过实验发现以往的 RAG 方法容易产生幻觉，模型微调方法需要大量的数据。因此本文设计了一种结合知识抽取和知识编辑的新方法。

该方法如图所示，首先借助大模型从专业领域的文本中抽取知识图谱，随后用自然语言实例化知识图谱中特定的三元组知识（这一步得到了自然语言表示的特定领域的文本知识），然后使用使用基于 IKE 的大模型知识编辑方法使之成为领域大模型。实验表明，所提方法可以在医疗、经济管理领域取得较好效果。

论文标题：

Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models

论文链接：

https://arxiv.org/abs/2311.08011

大模型在更新知识的时候，旧知识和新知识会产生冲突，本文提出先忘记旧知识再学习新知识（Forgetting before Learning，F-Learning）的新方法。

第一步：忘记旧知识

是表示旧知识的数据集，是模型的初始参数。第一步是用旧知识的数据集微调模型参数，通过下面的公式得到该知识的参数：

然后利用下面的公式忘记该旧知识

第二步：学习新知识

随后下表的实验结果表明，F-Learning 大多数情况下优于现有的基线。

论文标题：

Separate the Wheat from the Chaff: Model Defciency Unlearning via Parameter-Effcient Module Operation

论文链接：

https://arxiv.org/abs/2308.08090

本文提出了一个基于知识编辑来实现大模型祛毒方法，具体通过“专家” PEM 和“反专家” PEM 的整合来增强大模型的真实性和去毒性。值得注意的是，即使是反专家的 PEM 也拥有宝贵的能力，因为他们能够熟练地生成捏造的内容，这需要语言建模和逻辑叙述能力。与以往直接抵消反专家模型不同，本文提取和消除反专家 PEM 中的缺陷能力，同时保留一般能力。

如下图所示，本文把反专家模型分解到通用能力和有毒能力两个方向，只去除反专家模型有毒的能力，保存通用能力。

本文通过大量的实验（如下表）发现，本文提出的方法能取得更好的性能。

论文标题：

Pmet: Precise Model Editing in a Transformer

论文链接：

https://arxiv.org/abs/2308.08742

本文提出一种名为 PMET（Precise Model Editing in a Transformer）的大模型知识编辑方法，其考虑了 Transformer Layer（TL）隐藏状态的信息流来自于Multi-Head Self-Attention（MHSA）、Feed-Forward Network（FFN）和残差连接三个部分。先前的方法通常只优化 TL 隐藏状态以记忆目标知识并用它来更新大模型中的 FFN 权重。Pmet 同时优化 FFN 和 MHSA 的权重，如下图所示：

实验结果如下表所示：

实验结果表明在 zsRE 和 COUNTERFACT 上的实验证明了 PMET 最先进的性能。本文的发现有助于更好地理解 MHSA 和 FFN 所起的作用，促进大模型知识编辑领域的发展。

论文标题：

Model Editing by Pure Fine-Tuning

论文链接：

https://www.arxiv.org/abs/2402.11078

模型微调是一项非常有用的技术，可以用于各种模型框架。但是相比于一些其他经过精心设计的模型编辑方法，模型微调并不占优势。本文提出一种简单但有效的模型微调变体并应用于大模型知识编辑。

该变体有两个方面的改进。第一个改进是损失函数变成了条件似然，即 Mask 除了 Edited Target 以外的所有 Tokens。另一个改进是进行了数据增强，不仅在需要更改的数据集上微调，还增加了不相关任务的数据以增加模型的局部性，增加了和待更改知识相关的文本以增加模型的泛化性。

下表的实验结果表明，两个小的改进可以带来很大的性能提升。

大模型知识编辑新设定

论文标题：

KEBench: A Benchmark on Knowledge Editing for Large Vision-Language Models

论文链接：

https://arxiv.org/abs/2403.07350

本文提出了一个多模态大模型知识编辑新基准 KEbench。鉴于先前的多模态大模型知识编辑数据集 MMEdit 在用于评估的生成图像质量方面存在不足，无法评估模型是否有效地利用与内容相关的编辑知识。因此本文基于多模态知识图谱（MMKG）中的实体及其图像，更好的筛选出用于评估多模态 Generality 等指标的图像。至于实验时文本侧需要的 QA，则通过调用 GPT-3.5 的 API，根据编辑三元组来生成。

同时，本文提出了用于多模态编辑场景的新指标 Portability。具体的说，编辑模型时让它改变对实体如“梅西”（以及其相关图像）的理解，现在为“国际迈阿密俱乐部”而不是“巴黎圣日耳曼”效力。编辑后向 LVLM 询问图片中男人“梅西”的居住地，以核实答案是否仍然是“法国”或“美国”以外的其他无关答案。

论文标题：

MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models

论文链接：

https://arxiv.org/abs/2404.04990

当前大模型知识编辑的研究重心主要聚焦于单一语言，而对于多语言及其多跳推理复杂性的探索仍显不足。因此本文构建了一个名为 MLaKE 的多语言知识编辑基准。该基准涵盖了 4072 个多跳问题和 5360 个单跳问题，旨在评估知识编辑方法在英语、中文、日语、法语和德语五种不同语言环境中的适应能力。MLaKE 有效地从各种语言的维基百科中整合了事实链，并利用大模型生成了自由形式和多项选择的问题。

通过对现有方法在 MLaKE 上的评估，本文发现这些方法在处理英语样本时的成功率相对较高，但在多语言实验中的泛化能力却普遍受限。特别值得注意的是，现有的知识编辑方法在处理同一语言家族内的语言时，展现出相对较高的泛化能力；然而，在处理不同语言家族时，其泛化能力则显著降低。这些发现凸显了在多语言知识编辑领域取得突破性进展的迫切性。

论文标题：

Long-form Evaluation of Model Editing

论文链接：

https://arxiv.org/abs/2402.09394

目前大模型模型知识编辑的评估方式仅考虑 Prompt 后的 “Next Few Tokens” 补全。因此，模型在编辑后对更长自然语言生成的影响在很大程度上是未知的。

鉴于此，本文构建了评估模型编辑技术在长文本生成设定下的基准，并引入了一组全新的维度（Edit Consistency 类比 Reliability，表示生成内容是否与编辑知识一致；Factual Consistency 类比 Locality，与编辑无关的知识在生成内容中是否发生变化；Internal Consistency 类比 Portability，与编辑相关的知识在生成内容中是否与编辑知识保持一致；还有 Topicality 和 Naturalness 用来评估生成内容的主题相关度和文本流利度）。

最后，本文给出了一个定性分析，说明了编辑后模型在长文本生成时中常见的问题，包括内容一致性，词汇衔接和局部性等问题。

论文标题：

Updating Language Models with Unstructured Facts: Towards Practical Knowledge Editing

论文链接：

https://arxiv.org/abs/2402.18909

现有的大模型知识编辑仅在结构化数据中的评估表现很好，然而现实中有很多非结构化数据，如新闻文章等。本文提出了一个新的更加实用的大模型无结构化事实知识编辑任务 UKE，将直接使用非结构化的数据评估大模型知识编辑方法的效果，避免了繁琐的结构化事实知识构建以实现高效且响应迅速的知识编辑。

UKE 的数据构建分为了两个类别：一个是扩展现有的结构化数据集 COUNTERFACT 和 MQUAKE-CF，通过提示 GPT-3.5 将结构化的数据转换为维基百科段落风格的非结构化数据；第二个是建立真实世界更新的数据集，分为以下四个步骤：（1）使用维基数据作为数据源（2）获得真实世界更新的结构化事实（3）检索维基百科获得非结构化数据（4）提示 GPT-3.5 提取知识三元组。

本文在大量方法上实验并展示了 UKE 对已有编辑方法的挑战性。发现在非结构化的数据上目前的编辑方法性能大幅下降，尤其是在真实世界更新的数据上目前的编辑方法性能较差。

论文标题：

History matters: Temporal Knowledge Editing in Large Language Model

论文链接：

https://arxiv.org/abs/2312.05497

当前大模型知识编辑方法的评估主要关注新知识的记忆和与任务无关的知识的保持不变，而没有考虑到保持与任务相关的历史知识的内容。因此，本文提出了时间知识编辑（TKE）任务，通过收集带有时间戳的一系列世界知识并将其视为一系列知识更新的形式，构建了用于评估历史知识保留方面的 KE 方法的 ATOKE 基准。

ATOKE 包含三个部分：Single Edit，Multiple Edits 和 Extending Edit，分别针对单个三元组，一条时间链上多个三元组和延长三元组生效时间三个场景。本文同样在 ATOKE 上评估了最先进的知识编辑方法，发现它们在使模型记住新知识方面非常有效，但在时间上进行编辑会产生混淆。

论文标题：

Event-level Knowledge Editing

论文链接：

https://arxiv.org/abs/2402.13093

现有的大模型知识编辑都是面向事实知识三元组，但是在现实生活中往往是新的事件驱动更新知识三元组。本文提出事件级别的知识编辑新任务，和三元组编辑不同于：（1）高效率：一条事件包含多个知识三元组（2）完整性：除了更新事实知识外，事件级别的编辑还需要考虑事件的影响，并更新大语言模型对未来趋势的知识。

作者构建了一个高质量的事件级别编辑基准 ELKEN，包括 1,515 个事件编辑，6,449 个关于事实知识的问题，以及 10,150 个关于未来趋势的问题。ELKEN 基准数据构建：主要从事实知识影响和趋势影响两个方面来构建数据集。（1）事实知识影响数据构建：构建事件模板及其受影响的三元组、构建事件编辑、生成问题-答案对、段落化事件编辑（2）趋势影响：事件增强、生成问题-答案对、手工注释。

最后系统地评估了各种知识编辑方法和 LLMs 在这个基准上的表现，发现 ELKEN 对现有的知识编辑方法构成了重大挑战。

论文标题：

Detoxifying Large Language Models via Knowledge Editing

论文链接：

https://arxiv.org/abs/2403.14472

传统的祛毒方法 SFT，RLHF，DPO 通常需要大量的数据和计算资源，且经过这些方法祛毒后的模型依旧很容易被越狱。本文探索了使用知识编辑技术为大模型祛毒，防御用户的恶意输入引发的不安全问题，如下图所示。

本文首先构建使用知识编辑进行祛毒的基准 SafeEdit，然后提出了一个新基线方法 DINM。

如图所示，DINM 首先找到大模型的毒性区域，然后直接微调更新该区域的参数。需要说明的是，DINM 使用一条数据为大模型祛毒，因此定位的时候也只使用一条数据。

具体来说，针对一条恶意输入，有对应的安全回复和不安全回复；本文假设安全回复和不安全回复在哪层的 Hidden State 差距最大，哪层就是 Toxic Layer。沿用以往的研究，本文假设 Toxic Layer 的 FFN 层是 Toxic Regions。然后用该条数据直接修改位于 Toxic Regions 的参数。

实验结果表明 DINM 可以在一定不个程度上祛毒，有很好的泛化能力，并且引入的副作用相对较小，在可接受的范围内。本文随后分析了 SFT，DPO 以及 DINM 不同方法祛毒的内部机理分析。如下图所示，本文发现 SFT，DPO 的祛毒机理是绕过毒性区域，而 DINM 是直接降低毒性。

论文标题：

Potential and Challenges of Model Editing for Social Debiasing

论文链接：

https://arxiv.org/abs/2402.13462

本文是一篇全面研究使用模型编辑去除模型偏见的工作，它揭示其潜力和挑战并提出有效解决方案。论文对七种模型编辑方法进行了基准测试，揭示了这些方法在保留知识和减少偏差方面的潜力，以及对语义相似的句子去偏泛化能力的局限性。

实验结果揭示了 Debias Editing 的潜力和挑战：1）现有的模型编辑方法可以有效地保留知识并减少偏差，而将 Debias 从编辑过的句子推广到语义相同句子的能力有限；2）顺序编辑凸显了 SERAC 的鲁棒性，而内部编辑方法会随着编辑次数的增加而退化；3）模型编辑实现了对没有见过的偏差的泛化性。

此外，论文还提出了 Rule-based 和 Causal Tracing 两种简单而有效的方法来准确定位目标句中的偏差部分，尽量减少修改。

论文标题：

Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models

论文链接：

https://arxiv.org/abs/2402.18099

本文将大模型知识编辑应用于医学领域，并提出了两种大模型知识编辑的方向：直接编辑医学知识和编辑事实解释。然而现有的知识编辑方法不够有效，因此提出了 MedLaSA 一种新颖的用于医学模型编辑的分层可扩展适配器策略。

MedLaSA 旨在通过考虑多个层之间的关联以及医学知识，特定的修改每一层，同时确保在修改过程中保持不相关的知识不受影响。首先对每一条医学知识应用因果追踪，识别在回忆事实时至关重要的特定隐藏状态，将直接修改了相应层的 MLP 权重。

向密集权重添加适配器是一种更有效的方式，这可以插入新知识，同时保留大部分 LLM 的原始能力。通过对知识所在层的适配器（类似于 LoRA）应用不同程度的调整来实现模型能够自动区分输入知识是否需要编辑。算法概览如下：

核心公式为：

其中参数 α 用于衡量适配器相对于原始网络的权重，r 用于控制更新新知识所需的额外参数数量，这个数量是针对整个数据集中的知识进行泛化的，同时也是特定于每一层的。

同时作者为了调查模型编辑技术在医学领域的有效性，同时构建了医学事实知识数据集 MedCF 和医学事实解释数据集 MedFE。然后在 Efficacy、Generality、Locality、 Fluency 四个方面对现有编辑方法和 MedLaSA 比较，后者在大多数指标上都显著优于所有基线方法。

大模型知识编辑挑战与局限性

论文标题：

Unveiling the Pitfalls of Knowledge Editing for Large Language Models

论文链接：

https://arxiv.org/abs/2310.02129

本文探讨了大模型知识编辑可能带来的潜在问题，尤其是知识编辑可能触发的“蝴蝶效应”，即小的改动可能导致不可预见的副作用。文章指出尽管现有的知识编辑方法在单独编辑事实上取得了令人印象深刻的结果，但在处理多个连续逻辑相关的编辑时可能会遇到问题，导致知识冲突（Knowledge Conflict）。当知识编辑的样本在复杂的知识结构中，可能会导致模型出现知识扭曲（Knowledge Distortion）。

为了评估这些问题，本文引入了新的基准数据集和评估指标，包括 CONFLICTEDIT 和 ROUNDEDIT 数据集。通过这些数据集，文章采用了多种知识编辑技术，包括 Fine-Tuning、MEND、ROME 和 MEMIT，并在 GPT2-XL 和 GPT-J 模型上进行了实验，分析了现有知识编辑方法在处理多个编辑时的性能，并提出了一种新的多标签编辑（Multi-Label Edit, MLE）方法来减少知识扭曲。

实验结果表明，现有的知识编辑方法在处理单个编辑时，在传统的评估指标上效果良好，但仍然会潜在地造成知识冲突和知识扭曲问题，对语言模型产生不可逆转的危害。本文发现通过多标签编辑（MLE）方法，可以有效地减少知识扭曲，恢复与原模型相似的行为和表现。文章也提出未来工作中需要解决的问题，包括冲突检测、知识编辑技术的改进以及评估方法的完善。

论文标题：

Model Editing Can Hurt General Abilities of Large Language Models

论文链接：

https://arxiv.org/abs/2401.04700

本文探讨了大模型在进行模型编辑时可能遇到的挑战，特别是编辑操作可能对模型的通用能力产生的负面影响。文章系统地分析了四种流行的模型编辑方法（KN, MEND, ROME, MEMIT），通过在八个代表性任务类别中评估这些方法，对三个代表性的大模型（GPT-2-XL, LLaMA-1, LLaMA-2）进行编辑实验，研究了模型编辑对大模型通用能力的影响。

实验考虑了单次编辑与连续编辑、实例编辑与批量编辑设定，在 ZsRE 数据集上进行实验。评估了编辑后的模型在自然语言推理、开放域和封闭域问答、对话、摘要、命名实体识别和情感分析等任务上的性能。

实验结果表明，尽管模型编辑在更新知识方面是一个有前景的研究方向，但当前的编辑方法在保持原模型通用能力方面存在显著缺陷。文章指出，使用特定的编辑方法对 LLaMA-1（7B）进行单次编辑后，所有选定任务的性能急剧下降至接近 0。实验还发现，即使在单次编辑操作中，随着批量大小的增加，模型的性能也呈现出下降趋势。

文章揭露了模型编辑领域中需要进一步研究的问题，包括加强大模型对参数扰动的鲁棒性、开发更先进的模型编辑范式以及设计全面的模型编辑评估方法等。

论文标题：

Is it Possible to Edit Large Language Models Robustly?

论文链接：

https://arxiv.org/abs/2402.05827

文章探讨了大模型在进行知识编辑时的鲁棒性问题，即是否能够在保持模型性能的同时，有效地定制化模型的知识记忆。文章提出了三个关键研究问题（Q1-Q3），并针对这些问题进行了实验和分析。

Q1: 编辑后的大模型是否能够在现实情况下一致地表现 AI 的行为？

Q2: 提示的改写在多大程度上会导致大模型偏离编辑后的知识记忆？

Q3: 哪些知识特征与编辑的性能和鲁棒性相关？

实验使用了两个主流数据集：CounterFact 和 zsRE，以及 LLaMA-2-7B-chat 和 13B-chat 模型。采用了多种编辑方法，包括定位-编辑方法（如 KN, ROME, MEMIT）、基于外部模块的方法（如 SERAC 和 MEND）以及基于提示的方法（如 IKE）。

实验结果揭示了现有编辑方法与实际应用 AI 之间的显著差异。在现实应用中常见的复杂和灵活的改写提示下，编辑性能显著下降。进一步分析表明，更热门知识会被更好地记忆、更容易回忆，并且更难有效地编辑。

文章还提出了知识热门程度的三个测量方法：频率、连接和共现，并展示了这些特征如何影响编辑的鲁棒性。文章最后得出结论，尽管编辑方法在操纵大模型的内存和行为方面显示出巨大的成功，但在实际情况下可能会遇到问题。

论文标题：

The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse

论文链接：

https://arxiv.org/abs/2402.09656

本文探讨了大模型知识编辑时可能遇到的一个严重问题：即使是单一的编辑操作，也可能触发模型崩溃，表现为在各种基准任务中的性能显著下降。文章指出，尽管模型编辑在修订大型语言模型中的知识方面显示出潜力，但其对大模型固有能力的影响往往被忽视。

本文揭示了一个关键现象：即使是单一的编辑也可能触发模型崩溃，这在之前的研究中并未被充分探讨。本文提出了使用困惑度（Perplexity）作为评估模型崩溃的代理指标，并验证了其与下游任务性能的强相关性。文章通过广泛的实验来验证困惑度作为评估指标的有效性，并系统地探索了模型编辑可能导致的崩溃现象。本文对现有的模型编辑方法进行了分类，并选择了四种代表性的方法进行实验：Fine-Tuning , MEND, ROME 和 MEMIT。

实验使用了三个广泛使用的大模型：GPT-2-XL，GPT-J 和 Llama2-7b。采用了两个流行的基准数据集：ZsRE 和 COUNTERFACT。为了评估编辑模型的总体能力，选择了六个代表性任务，包括 Hellaswag，PIQA，LAMBADA，NQ，MMLUsub 和 SQuAD2.0。实验结果表明，几乎所有的编辑方法在几次编辑后都会导致模型崩溃，尤其是在困难的样本上。

本文提出了一个名为 HardEdit 的挑战性数据集，旨在促进对模型编辑技术脆弱性的更严格评估，并推动该领域的进一步研究和进展。文章强调了当前模型编辑方法的潜在风险，并呼吁研究社区发展更鲁棒的模型编辑技术。

论文标题：

Evaluating the Ripple Effects of Knowledge Editing in Language Models

论文链接：

https://arxiv.org/abs/2307.12976

本文探讨了在对大模型进行知识编辑时可能产生的连锁反应，即所谓的“涟漪效应”。本文指出尽管现有的知识编辑方法在修改模型中的特定事实方面表现出色，但这些方法往往忽视了编辑操作可能对模型中其他相关事实产生的连锁反应。本文提出了一种新的评估标准，考虑了编辑对相关事实的影响，并构建了一个名为 RIPPLEEDITS 的基准测试数据集，包含 5000 个事实编辑，用于捕捉不同类型的涟漪效应。

文章评估了几种突出的知识编辑方法在 RIPPLEEDITS 上的表现，并发现它们在引入一致的模型知识变化方面存在缺陷。文章提出了六个具体的评估标准，用于测试编辑后模型是否需要更新或保留与编辑直接相关的其他事实。这些测试评估模型如何通过逻辑推理、复杂事实组合、主题别名、以及跨关系的特异性来整合编辑。

实验使用了 WIKIDATA 作为关系知识库，收集了最近新增的、随机的和热门的三类事实三元组（s, r, o）。基于这些三元组，生成了编辑请求和测试查询，并将它们转换为自然语言形式，以便作为输入提供给语言模型。

实验结果表明，尽管现有的知识编辑方法在修改特定事实上效果显著，但它们在捕捉由该事实引起的涟漪效应方面表现不佳。文章还发现，一个简单的基于上下文的编辑基线（ICE）在 RIPPLEEDITS 基准测试上获得了最佳分数，这表明利用模型的上下文注意力机制而不是显式参数更新可能是一个有前景的研究方向。

本文指出，尽管大型模型在处理涟漪效应方面表现更好，但即使是 7B 参数的 LLaMA 模型也能与更大的 GPT-3 模型竞争，这表明仅仅扩大模型规模可能不足以解决当前编辑方法的缺点。

总结与展望

本文调研了近期国内外大模型知识编辑的部分相关工作。从本质上讲，大模型微调、检索增强（RAG）和局部参数更新都是处理大模型知识谬误问题的技术手段之一。

现阶段，基于内部更新的大模型知识编辑方法在小批量事实知识更新上可取得较好效果，但仍较难实现知识间泛化能力，且存在破坏大模型通用能力的隐患；基于外部干预的大模型知识编辑方法对大模型通用能力影响较小，但存在消耗额外资源等问题。此外，目前大模型知识编辑的持续、鲁棒更新能力较弱，且存在被误用导致模型安全隐患的风险。

然而，对于大模型知识处理能力的持续提升进而实现 AGI 是学术界和工业界共同的追求。大模型知识编辑技术的突破可以促进大模型新知识、新技能的快速且永久习得，实现神经符号知识互相转换与高效处理，还可以在大模型出现致命错误或安全隐患时基于大模型知识编辑技术及时定位根源并实现快速干预和控制。

此外，大模型知识编辑技术有利于促进大模型知识机理的研究，通过对参数的干预和分析实现对“电子大脑”的深度理解。更多相关内容可参阅大模型知识编辑相关综述 [1][2][3]。