每天给你送来NLP技术干货!
来自:哈工大讯飞联合实验室
在前不久落下帷幕的第十六届国际语义评测比赛(The 16th International Workshop on Semantic Evaluation, SemEval 2022)中,哈工大社会计算与信息检索研究中心(HIT-SCIR)与哈工大讯飞联合实验室的联合团队在多语种惯用语识别任务子赛道Subtask A(one-shot)中获得冠军本期我们将对这个任务的夺冠系统进行简要介绍,更多具体细节请参考我们的论文。
论文标题:HIT at SemEval-2022 Task 2: Pre-trained Language Model for Idioms Detection
论文作者:初征,杨子清,崔一鸣,陈志刚,刘铭
论文链接:http://arxiv.org/abs/2204.06145

任务介绍

Task 2 Subtask A子赛道是跨语言惯用语检测任务。任务给出多种语言的含多字短语的语句,参赛队伍需要利用模型判断目标句子中的多字短语的使用方法是惯用语用法 (Idiomatic)还是字面用法(Literal)。任务共覆盖三种语言,包括英语、葡萄牙语和加利西亚语。与普通的惯用语检测任务相比,该评测更加强调考察模型的跨语言迁移能力。在zero-shot设置下,不提供加利西亚语的训练数据,需要模型通过英语和葡萄牙语的数据集进行zero-shot迁移;在one-shot下提供少量加利西亚语的训练数据,需要模型具备在不同语言之下良好的few-shot迁移能力。
图1是任务数据示例。在第一句中,big fish为字面义,表示大鱼;第二句中,big fish为隐含义(惯用语),表示大人物。模型需要利用训练数据对这两种用法做出区分。
图1:SemEval-2022 Task2 Subtask A任务数据示例

系统介绍

提交的系统使用XLM-RoBERTa作为编码器,在预处理过程中对训练数据的惯用语短语(MWE)进行特殊标记,在训练过程中使用R-Drop作为辅助训练目标,在训练结束后,根据训练数据的统计信息制定了启发式规则对模型预测结果进行校正。此外还尝试了数据增强、对比学习辅助训练、对抗训练等方法,整体结构如图2所示:
  1. 1. 预处理:对输入的样本进行截断、标记MWE、数据增强等操作。
  2. 2. 模型训练:采用XLM-R作为基模型,以cross-entropy损失作为主要训练目标,以R-drop等方式优化辅助目标。
  3. 3. 后处理:根据训练数据特征对模型预测结果进行校正。
下面将针对部分主要优化技巧进行简要介绍。
图2:SemEval-2022 Task2 Subtask A 系统结构
1、数据预处理
数据截断:为了尽可能地减少截断所产生的文本信息丢失,在设定句子最大长度前对长度信息进行了统计,最终确定使用128作为最大长度可保证绝大多数句子不被截断。
短语标记:任务的每一条数据提供了目标句子中要被预测的惯用语短语,为了能够让模型能够关注到惯用语,对句子中的惯用语使用特殊符号进行标记。例如,包含惯用语big fish的文本 caught some big fish along the way 将被标记为caught some [SEP] big fish [SEP] along the way。由于预训练对于命名实体具有识别能力,而在该任务的数据中,命名实体几乎都进行首字母大写变形并且标注为非惯用语用法,在后续的实验中改善了惯用语标注方法,仅标注未经过变形的惯用语短语。对比实验结果如图3所示,I表示标记惯用语,C表示使用上下文文本。对比w/ I 和 w/o I的实验,可验证这一改动能够提高性能效果。
上下文信息:此外,我们还发现,不使用任务提供的额外上下文文本数据,而仅使用包含惯用语的句子(w/o C),能取得更优的效果,如图3第三行所示。原因可能为不包含上下文文本数据的短文本能使模型更聚焦于待判别的惯用短语。
图3: 上下文以及标注惯用语对结果的影响
2、模型训练
训练过程使用XLM-RoBERTa作为编码器,接池化层和softmax分类器。对不同池化方法进行了实验,结果表明池化方法对最终结果没有显著影响,为了简便,使用[SEP]作为句子向量表示。训练过程中尝试了多种辅助手段,包括R-Drop、对抗训练、数据增强、对比学习辅助目标等。实验结果表明,R-Drop以及对抗训练能够显著提高模型表现,并且相较于对抗训练,R-Drop能够取得更大的性能提升,结果详见下一节。
图4:R-Drop示意图
3、后处理
在训练结束后,根据训练数据的分布统计信息制定了启发式规则。对于在训练集中仅出现过一次的短语,因缺乏不同标签对应的训练数据,我们采用训练集中仅出现过的标签作为预测标签,以减少训练集的人工标记偏差对结果的影响。

实验结果

模型的最终效果及消融实验如图5所示。
图5:不同方法对结果的影响
标记MWE(mark MWE)可以同时提升zero-shot和one-shot效果;我们还尝试了对比学习方法,然而在zero-shot和one-shot上均没有提升;AEDA是一个简单的操作标点符号的数据增强策略,对zero-shot有一定帮助;在两种提升模型稳定性的方法(对抗训练和R-drop)中,R-drop有更好的表现。最后,后处理策略对训练集中出现的偏差做了很好的校正。显著地提升了效果。
多语种惯用语识别任务子赛道Subtask A(one-shot)最终榜单:HIT-SCIR与HFL联合团队排名第一

结论

基于多语言预训练模型,我们构建了一个多语言惯用语识别系统。通过对输入格式、模型训练方式、预测结果后处理等方面的优化,最终系统整体性能较baseline有较为显著的提升,并在one-shot赛道上取得最优成绩。在后续研究中,可尝试探索如何让预训练模型利用训练数据之外的语料,如惯用语词典等,以进一步提升预测效果,并降低对标注数据资源的需求,发挥多语言模型的zero-shot能力。
继续阅读
阅读原文