ACL 2021 | 丁香园知识增强预训练模型

点击下面卡片，关注我呀，每天给你送来AI技术干货！

来自：丁香园大数据

背景

使用预训练模型已经成为大部分NLP任务的标配，因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中，引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队，在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下，首次将知识图谱中的医学实体，连同实体关系中的结构化语义信息，同时引入到预训练模型中。利用该预训练模型，在下游包括MRC、语义匹配、NER等任务都带来指标提升。

研究亮点

在过往关于预训练模型（PLMs）的研究中，已经有不少工作讨论了关于引入外部知识的想法。最主要的动机在于，自然语言中蕴含了大量背景知识、逻辑关系等“不可见”的信息。而大型预训练模型的底层逻辑，依然是由“共现”实现的。但现实则是我们往往无法找到足够丰富的文本数据，同时又要求这些文本包含了完备的领域知识，尤其像复杂如医学领域。

另一方面，现有工作大多只利用linked-entity作为辅助知识，而忽略了实体与相邻实体在结构上也存在语义信息。这类结构上的语义对于医学领域尤为重要，观察下方例子：

在医疗领域中，“疾病”、“症状”、“科室” 是最主要的三类实体，它们会由“首诊科室”、“典型症状”、“罕见症状”、“并发症”、“合并症”等关系类型组成大量多对多的实体关系三元组。预训练模型若只使用实体信息，势必会丢失大量图谱结构上的语义信息。

方法

预训练模型 SMedBERT 对于结构信息的捕捉主要由两个创新点实现。首先是 Mention-neighbor Hybrid Attention，它用于获取 linked-entity 的相邻实体信息，分别引入 type-level 和 node-level 的 attention 来学习到相邻实体对于链接实体的重要程度，同时它们将结构化的语义信息融合进了 encoder layer；另一个称为 Mention-neighbor Context Modeling，顾名思义，就是引入链接实体所在文本的上下文信息。不同的是，我们在此处对相邻实体也做了mask处理。以下为整体框架：

模型主要由3个组件构成，T-Encoder处理输入的mention以及挑选最重要的相邻实体，使用的方法是 Personalized PageRank；另外两块包括 K-Encoder 以及 Pre-training Tasks 分别实现了我们前文提到的 attention 和 mask 处理。最终，在训练目标上对mask任务做了融合：

实验结果

关于训练数据，我们收集了约5G的医疗领域中文文本，总tokens数约为30亿。为实验比较，我们选择了OpenKG以及丁香园的医学图谱DXY-KG，embedding部分选用TransR。在验证数据上，选择了ChineseBLUE的四组公开数据集，CHIP-RE，WebMedQA，以及来自丁香园DXY真实应用场景的下游任务数据集 DXY-NER, DXY-RE。

基线模型的选择包括了通用 BERT-base， BERT-wwm，RoBERTa；鉴于在医疗领域内单独优化的预训练模型较少，我们除了选择了 MC-BERT，也使用BERT在我们的医疗数据集上完成pre-train作为补充，标记为 BioBERT-zh；同时，我们也选择了当时SOTA表现的预训练模型 ERNIE-THU 和 KnowBERT 作为对照。

其中，后缀"open"和"med"表示预训练使用公开数据集语料和医疗数据集语料。结果表明下各下游任务中均获得了提升。

另外，我们也比较了不同模型对于实体embdding 的语义相似能力。图中的D1,D2,D3数据集分别表示我们从KG数据集中挑选所有“同义”关系的实体对，作为正样本。对于这些正样本的，根据3种不同程度的邻实体覆盖度来划分（划分依据为Jaccard Index）。D2使用高频重合的实体对，D3使用低频重合的实体对。实验表明，SmedBERT对于更具备结构信息的捕捉能力，尤其在D2数据集中，由于结构信息较丰满，相应提升也更多。

结论

该工作是基于我们对于医疗知识图谱的观察而得出，医学知识的复杂度，需要我们拓宽语义信息获取的来源。本文从“相邻实体”引入语义信息，在下游各项 NLP 任务中得到提升，其中也给我们留下了两个后续可以深度挖掘的角度。第一点是是否可以利用"farher neighboring"的结构信息；第二是长尾低频的医学实体，如何更好的学习到语义表示。

整理不易，还望给个在看！

继续阅读

阅读原文