点击下面卡片关注我呀,每天给你送来AI技术干货!
来自:丁香园大数据

背景

使用预训练模型已经成为大部分NLP任务的标配,因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中,引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队,在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下,首次将知识图谱中的医学实体,连同实体关系中的结构化语义信息,同时引入到预训练模型中。利用该预训练模型,在下游包括MRC、语义匹配、NER等任务都带来指标提升。

研究亮点

在过往关于预训练模型(PLMs)的研究中,已经有不少工作讨论了关于引入外部知识的想法。最主要的动机在于,自然语言中蕴含了大量背景知识、逻辑关系等“不可见”的信息。而大型预训练模型的底层逻辑,依然是由“共现”实现的。但现实则是我们往往无法找到足够丰富的文本数据,同时又要求这些文本包含了完备的领域知识,尤其像复杂如医学领域。
另一方面,现有工作大多只利用linked-entity作为辅助知识,而忽略了实体与相邻实体在结构上也存在语义信息。这类结构上的语义对于医学领域尤为重要,观察下方例子:
在医疗领域中,“疾病”、“症状”、“科室” 是最主要的三类实体,它们会由“首诊科室”、“典型症状”、“罕见症状”、“并发症”、“合并症”等关系类型组成大量多对多的实体关系三元组。预训练模型若只使用实体信息,势必会丢失大量图谱结构上的语义信息。

方法

预训练模型 SMedBERT 对于结构信息的捕捉主要由两个创新点实现。首先是 Mention-neighbor Hybrid Attention,它用于获取 linked-entity 的相邻实体信息,分别引入 type-level 和 node-level 的 attention 来学习到相邻实体对于链接实体的重要程度,同时它们将结构化的语义信息融合进了 encoder layer;另一个称为 Mention-neighbor Context Modeling,顾名思义,就是引入链接实体所在文本的上下文信息。不同的是,我们在此处对相邻实体也做了mask处理。以下为整体框架:
模型主要由3个组件构成,T-Encoder处理输入的mention以及挑选最重要的相邻实体,使用的方法是 Personalized PageRank;另外两块包括 K-Encoder 以及 Pre-training Tasks 分别实现了我们前文提到的 attention 和 mask 处理。最终,在训练目标上对mask任务做了融合:

实验结果

关于训练数据,我们收集了约5G的医疗领域中文文本,总tokens数约为30亿。为实验比较,我们选择了OpenKG以及丁香园的医学图谱DXY-KG,embedding部分选用TransR。在验证数据上,选择了ChineseBLUE的四组公开数据集,CHIP-REWebMedQA,以及来自丁香园DXY真实应用场景的下游任务数据集 DXY-NER, DXY-RE
基线模型的选择包括了通用 BERT-base, BERT-wwmRoBERTa;鉴于在医疗领域内单独优化的预训练模型较少,我们除了选择了 MC-BERT,也使用BERT在我们的医疗数据集上完成pre-train作为补充,标记为 BioBERT-zh;同时,我们也选择了当时SOTA表现的预训练模型 ERNIE-THU 和 KnowBERT 作为对照。
其中,后缀"open"和"med"表示预训练使用公开数据集语料和医疗数据集语料。结果表明下各下游任务中均获得了提升。
另外,我们也比较了不同模型对于实体embdding 的语义相似能力。图中的D1,D2,D3数据集分别表示我们从KG数据集中挑选所有“同义”关系的实体对,作为正样本。对于这些正样本的,根据3种不同程度的邻实体覆盖度来划分(划分依据为Jaccard Index)。D2使用高频重合的实体对,D3使用低频重合的实体对。实验表明,SmedBERT对于更具备结构信息的捕捉能力,尤其在D2数据集中,由于结构信息较丰满,相应提升也更多。

结论

该工作是基于我们对于医疗知识图谱的观察而得出,医学知识的复杂度,需要我们拓宽语义信息获取的来源。本文从“相邻实体”引入语义信息,在下游各项 NLP 任务中得到提升,其中也给我们留下了两个后续可以深度挖掘的角度。第一点是是否可以利用"farher neighboring"的结构信息;第二是长尾低频的医学实体,如何更好的学习到语义表示。
说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标
”,就可以啦。

感谢支持,比心
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦
点击上面卡片,关注我呀,每天推送AI技术干货~
整理不易,还望给个在看!
继续阅读
阅读原文