COLING 2022 | PCBERT：用于中文小样本NER任务的BERT模型

©作者 | 赵金旭

单位 | 北京邮电大学

研究方向 | 自然语言处理

论文标题：

PCBERT: Parent and Child BERT for Chinese Few-shot NER

论文链接：

https://aclanthology.org/2022.coling-1.192.pdf

Abstract

在 few-shot 或 zero-shot 数据集上实现良好的性能一直是 NER 面临的长期挑战。在语义分布差异较大的情况下，传统的语义迁移方法会降低模型的性能，特别是在中文 few-shot NER 的情况下。

本文提出了一种基于 prompt 的 P-BERT 和 C-BERT 的中文 few-shot NER。本文在高资源数据集上训练标注模型，然后在低资源数据集上发现更多隐式标签，并且进一步设计了一种标签扩展策略来实现高资源数据集的标签传输。本文在微博和其他三个抽样中文 NER 数据集上评估了模型，实验结果证明了本文的方法在 few-shot 学习中的有效性。

本工作的贡献可以概括为以下几点：

1. 引入标签扩展策略，在 few-shot NER 中实现标签迁移学习，有效地提高了模型性能；

2. 我们提出了一个新的 PCBERT 模型，由 P-BERT 组件和 C-BERT 组件组成，以集成词汇特征和隐式标签特征；

3. 实验结果表明，该方法适用于汉语 few-shot NER 迁移学习，在 few-shot 学习上取得了良好的性能。

方法

本文提出了一个由 P-BERT 和 C-BERT 组成的中文 few-shot NER 的两阶段模型 PCBERT，这两个组件都是用 BERT 实现的，PCBERT 的整体模型结构如下图所示。

P-BERT 是一种基于 prompt 的模型，用于提取目标数据集中的隐式标签扩展特征。C-BERT 是受 LEBERT 启发的基于词汇表的模型，并进一步融合了每个词汇表的多标签特征。在第一阶段，P-BERT 对标签扩展数据集进行预训练。然后 P-BERT 在第二阶段被冻结，提供标签扩展功能以微调 C-BERT。结构和功能描述如下。

2.1 P-BERT

对于 P-BERT，每个输入，用将输入转换为。转换输入由以下部分组成：

其中的第一部分是原始输入 X，第二部分是由计算的标签模板。每个标签模板遵循 “ Index is ” 的形式，其中索引槽 [] 表示 X 中的每个 token 位置，标签槽是代表标签 Y 的中文单词。每个标签模板用逗号连接。在 prompt-tuning 期间，每个输入的标签槽将用 [MASK] 令牌及其任务目标进行掩码。任务目标定义损失函数是恢复屏蔽标签 token。损失函数可定义为交叉熵损失：

是对应的预测 token。

2.2 C-BERT

在 few-shot NER 中，词汇信息对于促进模型理解 token 级语义信息至关重要。对于每个输入序列 X，本文按照之前的方法构造词汇树。如上图所示，token X 的词典集可以嵌入为。此外，本文还为每个单词引入了一个标签集。通过采用在高资源数据集上预训练的 BERT 分类器模型来预测 top-k 标签嵌入。

LEBERT 的一个变体被设计为 C-BERT。C-BERT 的词嵌入是 P-BERT 及其词嵌入的和。我们在 C-BERT 的第一个编码器层之后提出了一个标签词典适配器 (LLA)，以利用词典和相应的标签信息，如下图所示。