点击下面卡片关注我呀,每天给你送来AI技术干货!
文 | 𝕚𝕧𝕖𝕟

来自 | 夕小瑶的卖萌屋
自然语言处理实在是太难啦!中文尤其难!
相比于英文,中文是以词作为语义的基本单位的,因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人,比如“研究生活很充实”,怎么让模型分出“研究|生活”,而不是“研究生”呢?
随着预训练模型的到来,中文模型通常直接用字作为输入。甚至 19 年的一篇 ACL[1] 给出结论:基于“字”的模型要好于基于“词”的模型。但是,中文是以词作为语义的基本单位的呀,忽略这种粗粒度的信息,真的合理吗?
今天这篇发表在 NAACL 2021 的文章就让 BERT 在预训练中学到了字和词的信息,在自然语言理解的多个任务上,相对字级别的模型取得了性能提升,轻松摘得 SOTA。以后做中文任务想要刷分,可以直接拿来换掉自己的 BERT
这篇文章为了让 BERT 学到字和词的信息,解决了三个问题:
  1. 怎么将字和词的信息融合,送入 BERT?
  2. 字和词有重叠,位置编码怎么设计?
  3. 在 MLM 任务上,怎么才能同时将字和词的信息都 mask 掉?
下面就来看看这篇文章的解决办法吧~
论文题目
:

Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
论文链接
:

http://arxiv-download.xixiaoyao.cn/pdf/2104.07204v1.pdf
代码地址

https://github.com/alibaba/AliceMind/tree/main/LatticeBERT

方法

词格输入

为了解决问题 1,本文是将词格(word lattice)输入 BERT。
中文的词格图(lattice graph)是一个有向无环图,包含了句子里字和词的所有信息。以“研究生活很充实”这句话为例,词格如下图所示:
读到这里可能会有人疑惑了:BERT 只能处理序列呀?这样的有向无环图该怎么被 BERT 处理呢?简单!这篇文章直接将词格图中各粒度的信息“拍平”,得到一个线性序列,作为 BERT 的输入。其中的每一项无论是字还是词,我们都称为 token:

词格注意力机制

“拍平”词格的输入,就会造成不可避免的重复和冗余,那么对于位置编码,该怎么适应呢?另外,在“拍平”之后,原先二维的复杂图结构信息就会有所损失,怎样避免图结构的损失呢?为了解决问题 2,这篇文章又设计了新的词格注意力机制。
对于字级别的 BERT,计算 attention map 可以表达为两个字向量的内积:
其中 分别是第 和 个字在第 层的表示。字级别 BERT 中,位置编码是在输入时,直接加到字的表示中的:
然而,很多工作 [2] 表明,这种在输入中混合位置编码的方式比较粗糙。在计算 attention map 时,将位置编码与字的表示解耦,专门设计一个位置编码的函数,会是一个更好的选择:
这里 就是关于 两个字的位置编码的函数。本文也采取了这一类方法。具体地,attention map 可以通过四项相加的方式得到:
第一项是字的表示得到的 attention score,后面三项都是与位置编码相关的,下面我就来一一介绍~
  1. 绝对位置编码
绝对位置编码表示了 token 在句子中的位置。式子里的 表示当前输入 token 的开始位置, 表示结束的位置。这个式子就表示将 token 的起始位置的绝对位置编码拼接,进行 attention 操作。
这一项可以说是对原始 BERT 中的位置编码的复刻,并适应了词格的输入。因为词格输入的每一项长度是不固定的,引入头尾位置也是自然的想法。
然而,绝对位置编码是有缺陷的:在理论上,我们对绝对位置编码的限制只有一点,即不同位置的编码不同。但这样就忽略了很多信息,比如,位置 1 和 2 的距离与位置 5 和 6 的距离应该一样,位置 1 和 3 的距离比位置 4 和 10 的距离要小,等等。在绝对位置编码的设计里,我们只能让 BERT 隐式地“学习”。
  1. 相对位置编码
因此,这篇文章也引入了相对位置编码,来表示 token 之间的相对距离。式子右边每一项都代表两个 token 的起始位置之间的相对距离,例如, 表示两个 token 的起始位置之间的相对距离 的表示。引入了相对位置编码,模型就可以建模更长的文本。
  1. 层叠关系编码
表示两个 token 之间的层叠关系。根据这两个 token 起始相对位置的不同,两个 token 可以分成下列七种关系:
具体来说,这七种关系为:
  1. 自身
  2. 在左边,且无重叠
  3. 在左边,且有重叠
  4. 包含关系
  5. 被包含关系
  6. 在右边,且有重叠
  7. 在右边,且无重叠
将 token 之间的关系分成以上七种,就可以显式地表示词格图中的复杂的二维关系。之前“拍平”词格图时削弱的信息,在这里又找回来了。

预训练任务:整段预测

最后一个问题:原来的 MLM 任务在词格输入的形式上,似乎并不适用。
还是用“研究生活很充实”来举个例子。这句话的词格输入将是这样:
研 究 生 活 研究 研究生 生活 很 充 实 充实
词格的输入带来了冗余,在 MLM 任务中,我们随机 mask 掉一些 token,是希望通过其上下文预测这些 token。但是在词格输入里,比如我们随机 mask 掉了“研究”,但是模型会直接通过前面的“研”“究”和后面的“研究生”来预测这个 mask token,这样走捷径,最终一定得不到好结果。
于是,这篇文章设计了整段预测任务(masked segment prediction):在词格图中,一句话将被切成多个段(segment),每个段之间不会有重叠的 token,同时也要使段的长度最小。“研究生活很充实”这句话就可以切成下图的三段:
在整段预测任务中,直接 mask 掉一段里的所有 token,并预测这些 token。这样就可以避免输入的冗余让模型“作弊”。

实验

这篇文章使用句子里所有可能的词来构建词格图,这样尽管会带来错误的分词,但是让模型自己学习降噪,还能提升模型的鲁棒性。
这篇文章在 11 个任务上进行了实验,11 个任务包括:
  • 6 个文本分类任务:长文本分类、短文本分类、关键词提取、指代消解、自然语言推断和文本匹配;
  • 2 个序列标注任务:分词和命名实体识别;
  • 3 个问答任务:机器阅读理解(答案段选取)、选择题、完形填空。
总体性能如下图所示:
其中,RoBERTa 是哈工大的 roberta-base-wwm-ext;NEZHA 是最好的字级别中文预训练模型,来自华为诺亚方舟研究院;AMBERT 是曾经多粒度中文预训练模型的 SOTA,是字节跳动李航组的工作;BERT-word 是使用词作为输入的 BERT;LBERT 是本文的方法;BERT-our 是本文使用相同语料重新预训练的 BERT。
可以发现,LBERT 优于所有字级别的预训练模型,并在 7/11 个任务上取得 SOTA。
LBERT 在哪里强于字级别的 BERT 呢?作者对预测结果进行分析,得到如下结论:
  • 在短文本分类任务上,LBERT 在更短的样本上有更大的性能提升,作者认为,词格输入的冗余信息为短文本提供了更丰富的语义信息;
  • 在关键词提取任务上,LBERT 在词级别的关键词上性能提升更高,作者认为 LBERT 从词格输入中,理解了关键词的语义;
  • 在命名实体识别任务上,LBERT 在重叠实体的样本上减少了 25% 的错误,这是词格输入带来的天然优势;
LBERT 是怎么运用多粒度的信息呢?作者对注意力分数进行了可视化,还用“研究生活很充实”这句话为例:
图中的三行分别为:
  • 在预训练结束后,模型会关注句子的各个部分;
  • 在命名实体识别任务上 fine-tune 之后,模型更关注“研究”“生活”“很”“充实”,这与正确的分词结果是一致的,对命名实体识别任务也是非常关键;错误分词的“研究生”就没有得到注意力;
  • 在文本分类任务上 fine-tune 之后,模型更关注“研究生”“生活”“充实”,尽管这些词不能在一套分词中同时存在,但是对分类都是有用的。

总结

这篇文章解决了三个问题:
  1. 怎么输入?使用词格(lattice)作为 BERT 的输入;
  2. 位置编码?设计了词格注意力机制(lattice position attention),使模型真正习得词格整张图的信息;
  3. MLM?设计了整段掩码预测任务(masked segment prediction),避免模型从词格的多粒度输入中使用捷径。
这样一来,就能在 BERT 中融合字和词信息,也在多个任务上拿到 SOTA。
另外,这种词格的输入看上去也是优点多多:对于短文本的任务,词格输入可以作为一种信息的增强;对于和词相关的任务,输入的词能让模型更好的理解语义;对于抽取的任务,词格能帮助定位抽取的边界。
这里还延伸出一个问题:英文是不是也可以利用多粒度的信息呢?中文的预训练模型可以使用字和词的信息,相似地,英文就可以使用 subword 和 word 信息,这样是不是有效呢?
萌屋作者:𝕚𝕧𝕖𝕟
在北大读研,目前做信息抽取,对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心 ヾ(=・ω・=)o
说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标
”,就可以啦。

感谢支持,比心
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦
点击上面卡片,关注我呀,每天推送AI技术干货~
整理不易,还望给个在看!

[1] Yuxian Meng, et al., "Is Word Segmentation Necessary for Deep Learning of Chinese Representations?", ACL 2019, http://arxiv-download.xixiaoyao.cn/pdf/1905.05526.pdf

[2] Guolin Ke, et al., "Rethinking Positional Encoding in Language Pre-training", ICLR 2021, http://arxiv-download.xixiaoyao.cn/pdf/2006.15595.pdf

继续阅读
阅读原文