NAACL 2022 | 具有元重加权的鲁棒自增强命名实体识别技术

©作者 | 回亭风

单位 | 北京邮电大学

研究方向 | 自然语言理解

自增强（self-augmentation）最近在提升低资源场景下的 NER 问题中得到了越来越多的关注，token 替换和表征混合是对于 NER 这类 token 级别的任务很有效的两种自增强方法。值得注意的是，自增强的方法得到的增强数据有潜在的噪声，先前的研究是对于特定的自增强方法设计特定的基于规则的约束来降低噪声。

本文提出了一个联合的 meta-reweighting 的策略来自然的进行整合。我们提出的方法可以很容易的扩展到其他自增强的方法中，实验表明，本文的方法可以有效的提升自增强方法的表现。

论文标题：

Robust Self-Augmentation for Named Entity Recognition with Meta Reweighting

论文链接：

https://arxiv.org/pdf/2204.11406.pdf

代码链接：

https://github.com/LindgeW/MetaAug4NER

Intro

命名实体识别旨在从非结构化文本中抽取预先定义的命名实体，是 NLP 的一个基础任务。近期，基于神经网络的方法推动 NER 任务不断取得更好的表现，但是其通常需要大规模的标注数据，这在真实场景中是不现实的，因此小样本设置的 NER 更符合现实需求。

数据自增强是一个小样本任务可行的解法，对于 token-level 的 NER 任务，token 替换和表征混合是常用的方法。但自增强也有局限性，我们需要为每种特定的自增强方法单独进行一些设计来降低自增强所带来的噪声，缓解噪声对效果的影响。本文提出了 meta-reweighting 框架将各类方法联合起来。

首先，放宽前人方法中的约束，得到更多伪样本。然而这样会产生更多低质量的增强样本，为此，我们提出 meta reweighting 策略来控制增强样本的质量。同时，使用 example reweighting 机制可以很自然的将两种方法结合在一起。实验表明，在小样本场景下，本文提出的方法可以有效提升数据自增强方法的效果，在全监督场景下本文的方法仍然有效。

Method

2.1 Baseline

本文的 basic 模型使用 BERT+BiLSTM+CRF 进行 NER 任务。首先给定输入序列，使用预训练的 BERT 得到每个 token 的表征。

然后使用 BiLSTM 进一步抽取上下文的特征：

最后解码过程使用 CRF 进行解码，先将得到的表征过一层线性层作为初始的标签分数，定义一个标签转移矩阵 T 来建模标签之间的依赖关系。对于一个标签序列，其分数计算如下：

其中 W、b 和 T 是模型的参数，最后使用维特比算法得到最佳的标签序列。训练的损失函数采用句子级别的交叉熵损失，对于给定的监督样本对 (X, Y)，其条件概率 P(Y|X) 计算如下：

其中为候选标签序列。

2.2 自增强方法

2.2.1 Token Substitution（TS）

token 替换是在原始的训练文本中对部分 token 进行替换得到伪样本。本文通过构建同义词词典来进行 token 替换，词典中既包含实体词也包含大量的普通词。遵循前人的设置，我们将所有属于同一实体类型的词当作同义词，并且添加到实体词典中，作者将其称为 entity mention substitution (EMS)。同时，我们也将 token 替换扩展到了“O”类型中，作者将其称为 normal word substitution (NWS)。作者使用 word2vec 的方法，在 wikidata 上通过余弦相似度找到 k 个最近邻的词作为“O”类型词的同义词。

这里作者设置了参数（此参数代表 EMS 的占比）来平衡 EMS 和 NWS 的比率，在 entity diversity 和 context diversity 之间达到更好的 trade-off。