IJCAI2023 | 实现跨域NER的协同领域前缀微调策略

论文题目：One Model for All Domains: Collaborative Domain-Prefx Tuning for Cross-Domain NER

本文作者：陈想（浙江大学）、李磊（浙江大学）、乔硕斐（浙江大学）、张宁豫（浙江大学）、谭传奇（阿里巴巴）、蒋勇（阿里巴巴达摩院）、黄非（阿里巴巴达摩院）、陈华钧（浙江大学）

发表会议：IJCAI2023

论文链接：https://www.ijcai.org/proceedings/2023/0559.pdf

代码链接：https://github.com/zjunlp/DeepKE/tree/main/example/ner/cross

来自：ZJUKG

进NLP群—>加入NLP交流群(COLING/ACL等投稿群)

图1：One Model for All Domains示意图

一、引言

跨域命名实体识别(Cross-domain NER)是知识图谱和自然语言处理领域中的一项重要任务，其面临着数据稀缺和资源限制的挑战。为了解决这些问题，先前的研究提出了一些方法，包括增加辅助模块、设计新的模型结构以及对源领域和目标领域数据进行训练，例如NER-BERT [1]通过在目标领域数据上进行进一步预训练来提升模型在目标领域数据集上的性能。另一些方法则建立了源领域和目标领域数据标签之间的关系，以帮助标签信息的迁移；例如目前CrossNER[2]测试基准上的SOTA模型LANER [3]设计了专门的模块来利用领域之间的语义关联，以提高模型在跨领域任务中的性能。然而，现有的跨域NER的发展存在一些局限性，主要有三个方面：（1）之前的方法通常依赖于具有不同实体类别的各个领域的特定于任务的架构，从而限制了模型的实用性；（2）大多数当前方法的计算效率较低，并且需要调整 PLM 的所有参数，最终会为每个域提供一个全新的 NER 模型，这会大大消耗计算资源；（3）对于跨域NER而言，领域间的知识迁移至关重要，而之前的方法通常只能从一个源领域迁移到目标领域，缺乏从多个源领域迁移到目标领域的能力。

基于以上问题，本篇论文提出了CP-NER模型，其主要贡献体现在以下三个方面：(1) 本文重新定义了NER任务，将其定位为基于域相关的文本生成指导器（text-to-text generation grounding domain-related instructor）。这种新定义的形式能够激发PLM模型生成与NER任务相关的通用知识，并能够处理不同实体类别，而无需修改PLM参数以适应不同领域，为实现一个适用于所有领域的单一模型打下了基础。(2) 本文提出了协同域前缀调优（collaborative domain-prefix tuning）的方法，旨在将知识迁移到跨领域NER任务中。本文应该是首次提出将多个源领域的知识进行迁移的工作，对于跨领域信息抽取领域具有重要贡献。(3) 本文所提出的方法在CrossNER基准测试中，通过从单一源领域迁移到目标领域的设定下，取得了最先进的性能。此外，进一步的实验结果表明CP-NER能够高效地利用少量参数进行知识迁移，并且对所有领域保持一致的模型框架。

图2：CP-NER模型框架

二、方法

2.1 任务定义

给定句子，NER的目的是从长度为的句子中抽取出所有的实体，我们定义第个实体为为，其中指的是实体类型，和指的是实体的边界下标。source和target domain的数据分别表示为和。本文既考虑One Source for Target，又包括Multiple Source for Target设定。

2.2 基于领域相关指令的文本生成

本研究将跨领域命名实体识别（NER）任务处理为序列生成任务，并采用了固定参数的T5模型。模型的输入由以下三个部分组成：

1. 句子(x)：输入的句子x；

2. 指令(s)：指导模型如何处理NER的指令，并要求模型根据指令生成序列；

3. 领域相关选项(o)：包含所有实体类型的选项，用于限制和提示模型。

最终模型的输出可表示为：

本文使用基于领域相关指令的文本生成具有两个优点：（1）指导T5模型生成特定领域的命名实体序列，无需更改模型结构即可适应新的领域；（2）激发预训练语言模型在处理不同领域NER任务时的潜力，为引导冻结的预训练语言模型通过前缀微调生成实体序列奠定基础。

2.3 基于微调的前缀作为领域控制器

前缀微调是将可训练的连续标记（soft prompt）添加到Transformer隐层前的过程。本研究将前缀作为跨领域命名实体识别中的领域控制器，第层的prefix 通过可训练的矩阵获取，其他所有的模型参数都是固定不可调整的。第层带有prefix的self-attention表示如下：

Remark1: 特定于域的前缀微调本质上是通过标量因子（即 1 − λ）进行线性插值来修改原始头部注意力，充当域控制器来驱动模型输出特定于域的预测。

2.4 协同领域前缀微

由于文本风格、实体类型等的差异，存储在源领域前缀中的知识在目标领域数据上进行微调后容易被遗忘，这使得通过前缀微调直接进行知识迁移变得困难。为了帮助T5的领域控制器更有效地从源领域获取知识并迁移到目标领域，本文提出了领域前缀的协同优化方法步骤如下：

2.4.1 领域前缀预热

为了灵活使用不同领域中包含的前缀知识，本研究首先使用领域语料对前缀进行训练。对被固定的T5模型的所有层设置新的初始化训练参数矩阵，最终第层的prefix来自参数矩阵，训练过程中使用训练集对每一层的参数矩阵进行优化以得到最终的prefix，具体的优化目标如下：

其中采用了softmax函数来将输出映射到词汇表上的向量分布，表示第层中第个标记的中间向量。通过预热得到的领域控制器作为最终结果。

2.4.2 双查询领域选择器

当源领域和目标领域的实体类型相同时，直观上利用具有相似语义信息的共享标签来适应目标领域是有益的。此外，领域前缀可以提供领域特定的语法风格和知识。基于上述考虑，本研究提出了双查询领域选择器，通过标签相似度和前缀相似度两个方面来确定不同源领域对目标领域的重要程度。Entity Similarity：本文使用T5模型对实体标签词进行嵌入来计算实体相似度。对于第个源领域的标签语义编码和目标领域的标签语义编码，标签相似度表示为：

Prefix Similarity：给定源领域的前缀和目标领域的前缀，计算它们之间的余弦相似度：

第个源领域与目标领域的总相似度根据实体相似度和前缀相似度计算如下：

2.4.3 领域前缀的内在协作

为了灵活地融合源领域和目标领域的前缀知识，本文提出了领域前缀的内在协作方法。通过对源领域和目标领域前缀进行加权平均，可以得到融合的前缀表示：

其中，表示从多个领域聚合的矩阵。我们按照公式4的目标函数更新，同时保持不变。

Remark2: 从最优控制（OC）的角度来看，前缀调整可以被形式化为寻找针对特定领域的预训练的最优控制。而我们的协作领域前缀调整可以解释为寻找闭环控制，以利用来自多个源领域的知识，增强目标领域的命名实体识别性能。

三、方法

本实验使用CrossNER数据集进行评估，对比的基准模型包括DAPT、COACH、CROSS-DOMAIN LM、FLAIR、BARTNER、LST-NER、LANER和LightNER。为了保证公平性，所有基准模型都使用了基础级别的预训练语言模型（PLM）。

3.1 单源领域的迁移

如表1所示，CP-NER在不同目标领域上的性能全面超过了SOTA模型LANER，F1-score平均提升了3.56%。尤其值得注意的是，在science和music两个数据集上，性能提升分别达到了6%和8%。实验结果充分证明了CP-NER技术在CrossNER基准测试中的出色表现。

表1: 单源领域的迁移结果

3.2 多源领域的迁移

以往的研究主要关注从单一源领域到目标领域的迁移，忽略了现实场景中存在多个源领域的情况。为了比较实验效果，本文在表2中使用了多个源领域进行实验，并针对基准模型设定了两种训练方式：1) <Ensemble Transfer>针对每个源领域分别进行训练，并将它们迁移到目标领域上，最后将所有训练结果进行集成，得到最终的性能表现；2)<Chain Transfer>在不同的源领域上进行轮流训练，并将它们迁移到目标领域上得到结果；3) <Multiple Source>使用warm-up domain-specific prefix进行领域前缀的协同调优。

表2: 多源领域的迁移结果

综合表1和表2的结果可以验证，多源迁移方法相对于单一源的表现更加出色。进一步观察可以发现，在基准模型中，只有LIGHTNER<Ensemble>和LANER<Chain>相对于单一源有所改善，这表明<Ensemble>的设置可能更适用于参数较少的调优，而<Chain>的设置则更适用于全面参数调优。

3.3 分析：基于相似度的选择器

图3: 源域和目标域相似度可视化

图3对源领域和目标领域之间的实体和前缀相似度进行了可视化。结果显示实体相似度与实体类别高度相关。例如，音乐（music）与电影（movie）之间的实体相似度最高，这是因为它们具有相同的实体类别“song”，以及类似的实体类别如“genre”和“musicgenre”。此外，实体相似度和前缀相似度的趋势基本一致，具有较高相似度的源领域大致相同。这些观察结果表明，基于相似度的选择器可以有效地为目标领域选择最有价值的源领域。

三、方法

本研究使用CP-NER模型来处理跨领域NER任务，该模型利用领域前缀的协同调优来更好地利用多个领域的知识。实验证明，CP-NER模型在CrossNER基准测试中的性能全面超过了一系列基准模型和SOTA模型。本文提出的CP-NER方法实现了"one mode for all domains"的目标，在实际应用中具有很大的潜力。未来我们可以进一步研究如何进一步提升CP-NER模型的性能，探索更有效的领域前缀协同调优策略。此外，我们也可以考虑将CP-NER模型应用于其他自然语言处理任务，如命名实体识别（NER）和关系抽取（RE），以拓展其适用范围。

参考文献：

[1] NER-BERT: A pre-trained model for low-resource entity tagging. Arxiv

[2] Crossner: Evaluating cross-domain named entity recognition. AAAI 2021.

[3] A label-aware autoregressive framework for cross-domain NER. Findings of NAACL 2022.

继续阅读

阅读原文