©PaperWeekly 原创 · 作者 | 宁金忠
学校 | 大连理工大学博士生
研究方向 | 信息抽取
近年来,向模型中注入词汇信息进行词汇增强已经成为一种有效提升中文 NER 性能的方式。本文分享一篇新鲜出炉的来自 ACL 2021 的文章《Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter》。该论文所提的模型除了屠榜中文 NER,还屠榜了中文分词和中文词性标注等任务,本文重点关注中文 NER 任务。
论文标题:
Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter
收录会议:
ACL 2021
论文链接:
https://arxiv.org/abs/2105.07148
代码链接:
https://github.com/liuwei1206/LEBERT
大部分现有的中文 NER 词汇增强方法只在 encode 部分末端的浅层序列模型中引入词汇信息,并没有把词汇信息注入到 BERT 底层。有些小伙伴可能想到《Lex-BERT : Enhancing BERT based NER with lexicons》这篇论文也把词汇信息引入到了 BERT 的底层部分。
Lex-BERT 需要引入实体类型信息,因此依赖于带有实体类型信息的高质量词表,而 FLAT,Lattice lstm 等方法只需要用到词向量信息。论文具体内容介绍大家可以去阅读知乎 @JayJay 大神的文章:
https://zhuanlan.zhihu.com/p/374720213
该文章提出了一个名叫 LEBERTLexicon Enhanced BERT)的模型来解决中文序列标注任务。相比于 FLAT,Lattice LSTM 等方法,LEBERT 把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,LEBERT 无需包含词汇类型信息的词典,只需要普通的词向量即可。实验结果表明,该模型在多个中文序列标注任务上取得了 state-of-the-art 结果。
前情回顾

1.1 词增强
中文 NER 的词汇增强主要分为两条路线:
(1)Dynamic Architecture:通过动态结构,在模型中注入词汇信息。
(2)Adaptive Embedding:将词汇信息融合到 Embeding 中。
近些年来各大顶会上的中文 NER 词汇增强相关论文总结如下(参考博文):
https://zhuanlan.zhihu.com/p/142615620
其具体实现方法总结为:
1.2 FLAT
上图为各种词增强 NER 模型的性能展示,可以看出 FLAT 自诞生以来,一直保持着地表最强词增强中文 NER 模型的称号。
FLAT 的模型结构如上图所示,模型的设计特别简单巧妙。其 token 包含原句中的character 以及匹配到的词 word。对于每个 character 和 word,作者分别使用头编号 Head 和尾编号 Tail 来编码其位置。作者把四种相对距离 融合进其设计的相对位置编码当中,之后计算每两个 token 之间的注意力值。FLAT 模型有以下几点优势:
  • 其使用的位置编码方式集合外加的词汇边界信息可以提高模型对实体边界的识别效果。
  • 模型使用了词汇的词向量,可以提高模型对实体类别的识别能力。
  • 模型运算效率很高
论文模型介绍
和BERT相比,LEBERT主要做出了两点改进:
  • LEBERT 采用了句子中的的字符-词语对(论文中叫做 Char-Words Pair,具体介绍见后文)的特征作为输入;
  • 通过作者设计的 lexicon adapter,在 BERT 的中间某一层注入词汇特征。
2.1 Char-Words Pair Sequence
首先,对于给定的中文句子 ,利用词典 D 匹配出句子中包含的潜在词汇。然后,在匹配到的这些词汇中,每个字符和包含该字符的词汇组成词汇对,表示为 ,其中 表示句子中第 i 个字符, 表示包含的词汇组成的集合。上图为构建 Char-Words Pair Sequence 的示例。
2.2 Lexicon Adapter
将输入数据构建成 Char-Words Pair Sequence 形式之后,句子中的每个位置包含了字符特征和词汇特征。为了把词汇特征注入到 BERT 当中,作者设计了 Lexicon Adapter。
Lexicon Adapter 的输入为 Char-Words Pair Sequence:。Char-Words Pair Sequence 中第 i 个位置的 char-words pair 表示为 ,其中 是第 i 个位置的字符特征,该特征是 BERT 中某个 Transformer 层的输出。 为第 i 个位置的字符对应的词汇的词向量。
作者对 Char-Words Pair 中的词向量使用非线性变换和字符向量进行维度对齐:,其中 ,, 为字符特征的维度, 为词向量的维度。
对于 Char-Words Pair Sequence 中的第 i 个位置,进行维度变换后的词向量的集合为:
作者使用了注意力机制对 进行中的 m 个词向量进行融合。以 为 query 向量,与其对应的词向量集合 为 value,使用双线性变换矩阵计算相似度得分得到:
之后,利用相似度得分对 进行加权求和得到融合后的词特征:
最后,把字符特征和融合后的词特征相加得到:
上述过程作者总结为下图:
2.3 Lexicon Enhanced BERT
LEBERT 结构图上图所示,其可以看做是 Lexicon Adapter 和 BERT 的组合,其中 Lexicon Adapter 应用到了 BERT 当中的某一个 Transformer 层。
对于给定的中文 ,将其构建成 character-words pair sequence 形式 。
将 输入到 BERT 的 Input Embedder  当中,得到输出 。
之后,将 E 输入到 BERT 中的 Transformer encoder 当中,每个 Transformer encoder 表示为如下形式:
之后,通过 Lexicon Adapter 把词汇信息注入到第 k 层和第 k+1 层 Transformer 层之间。第 k 层 Transformer 层的输出为 。将其中的每一个 Char-Words Pair 利用 Lexicon Adapter 进行转换得到:
然后将注入词汇信息的特征向量输出入到余下的 L-k 个 Transformer 层中。
2.4 Training and Decoding
作者在之前的基础上加了一个线性变换层和 CRF 层来进行标签解码。
实验结果展示
LEBERT 在中文 NER 数据集上的实验结果如上图所示。可以看出,LEBERT 的性能超过目前最先进的词增强 NER 模型(表格前 6 行)以及引入词典信息的预训练模型(ERINE,ZEN)。
上图说明 LEBERT 中引入词汇信息的方式可以有效提高模型对实体边界和类型的识别性能。
总结
LEBERT 方法在 BERT 底层注入词汇信息,可以高效地进行词增强。实验结果表明,该模型在中文序列标注任务中取得了很好的性能。
参考文献
[1] FLAT: Chinese NER Using Flat-Lattice Transformer
[2] Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter
更多阅读
#投 稿 通 道#
 让你的论文被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:[email protected] 
• 所有文章配图,请单独在附件中发送 
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
继续阅读
阅读原文