EMNLP 2021 | ST-ToD：小样本场景下的任务型对话预训练

©PaperWeekly 原创 · 作者 |

褚维芜

单位 | 北京邮电大学研究生

研究方向 | 自然语言处理

论文标题：

Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems

论文链接：

https://arxiv.org/abs/2108.12589

代码链接：

https://github.com/MiFei/ST-ToD

背景介绍

1.1 动机

在面向任务的对话（ToD）系统中，数据标注成本非常高，怎样利用有限的标注数据来训练任务型对话系统的各个模块是一个具有挑战的任务。因此，ToD 中的小样本学习在实际应用中具有重要的价值。虽然有标注的数据非常少，但实际的 ToD 系统实际有许多无标注的对话数据。因此，利用无标注的数据来改进 ToD 系统中各个模块的性能具有重要的现实意义。

1.2 主要工作

本文提出了一种自训练（Self-training）方法，该方法利用无标注的对话数据来改进基于预训练模型的 ToD 系统在少样本学习（few-shot learning）场景下的性能，主要贡献如下：

本文是首次在小样本学习场景下研究自训练方法对现有的 ToD 预训练模型的影响。
本文提出了一种自训练方法，该方法迭代地为无标注数据中模型预测的置信度最高的数据打上标签，这些伪标注数据可以用于训练更强的 Student 模型。此外，本文提出了一种新的文本增强技术（GradAug），即在 MLM 中只 mask 非关键字符，这种方式保留句子的语义信息，从而更好地训练 Student 模型。
本文在 ToD 中的四个下游任务（意图分类、对话状态跟踪、对话行为预测和回复选择）上进行了实验，实验结果表明，本文所提出的自训练方法可以继续提高目前最先进的预训练模型（BERT、ToD-BERT）的性能。

下游任务介绍

任务定义

不同的下游任务的输入和对应的标签均定义为和，预测模型定义为，通常情况下可以分为两个部分：一部分为特征提取器，本文使用的是 BERT 的 [CLS] 位置的输出作为隐状态表示；另一部分为用于预测的输出层，需要为不同的下游任务设计不同的输出层。

意图分类（Intent classification，IC）

意图分类是一个多分类任务，输入一个话语，模型在个意图上预测该话语对应的意图，并采用交叉熵损失函数对模型进行优化。

对话状态追踪（Dialog state tracking，DST）

对话状态追踪也是一个多分类任务，输入一段对话历史，模型在每个对上预测对应轮次的槽值。第个对上的第个槽值与输入的余弦相似度分数为：

其中为第个对的槽投影层，的数目等于对的数量。模型训练的损失函数为所有对的交叉熵损失的和。

对话行为预测（Dialog act prediction，DA）

对话行为预测是一个多标签分类任务，输入一段对话历史，模型对当前对话轮次的对话动作进行 0-1 预测，采用 0-1 交叉熵损失函数对模型进行优化。

回复选择（Response selection，RS）

回复选择任务是一个排序问题，输入一段对话历史，该任务从回复候选池中检索最相关的系统回复。本文 2019 年 Henderson 等人 [1] 提出的双编码器模型计算输入对话历史与第个候选响应之间的相似性。采用交叉熵损失函数。

模型

3.1 自训练算法

本文所提出的自训练算法总体流程如上图所示。在训练过程中需要维护两个数据池：未标注数据和已标注数据，两个版本的模型：和。该算法可以分为五个步骤：

初始化模型 （算法1 第1行）利用少量的标注数据（数据集的 1% or 10%）进行训练，模型进行 warm up。
利用模型对无标注的数据的标签进行预测（算法 1 第 4-8 行）对于每一个输入数据，模型会对其标签进行预测。本文将预测分数设定为该预测的置信度分数。注意：当预测仅包含一个标签时（如：意图分类、回复选择），为该输入数据的预测标签对应的预测分数；当预测包含多个标签时（如：对话状态追踪、对话动作预测），为输入数据的预测标签对应的预测分数的平均值。
根据置信度分数从选择个实例进行标注（算法 1 第 9-10 行）本文选择的方式是在置信度分数中选择最高的个实例，并利用对这些实例进行标注。这些标注的实例会从转移到。
对已标注数据进行文本增强（GradAug），得到 （算法 1 第 11 行）
利用来训练模型（算法 1 第 12 行）本文在每次迭代中均需要重新初始化模型以避免在多次训练迭代中过度拟合中的初始和早期数据。一般而言，应该具有与同等的或更高的能力，才可以随着中数据量不断地增加来学习知识。本文将设置为与相同的大小，并且实验证明了可以在不增加模型容量的情况下得到性能的提升。
用训练得到的模型来覆盖原来的模型，进行下一轮的训练（算法 1 第 13 行）

3.2 文本增强技术（GradAug）

本文对已标注的数据提出了一种文本增强技术（GradAug），以此来学习更稳健的模型。GradAug 使用 MLM（masked language model）来进行文本增强，不同于最佳提出的文本增强方式 SSMBA 采用随机 mask 的方式，GradAug 认为，如果一段文本中的关键词被 mask了，在重构文本时原始的语义将会被改变，这将对下游任务产生很大的影响。

如下图所示（左），如果“status”被 mask，重构的文本可能会是“purpose”、“route”这些词，语义本身被改变了。

基于此，本文提出的 GradAug 采用的是基于梯度的 mask 方式（Gradient-based token masking），对于每一个包含个词的输入文本，GradAug 会根据该词对应任务标签的重要性生成一个 mask 概率。具体而言可以分为三个步骤：

计算（算法2 第3行）对于输入的嵌入矩阵为和标签，每一个词对标签的重要性是通过显著性映射（saliency map）计算：
通过将对进行微分（计算梯度）来得到文本中第个词对标签的重要性。然而原始梯度可能包含噪音，且可能在局部剧烈波动。因此，本文计算第个词的平滑显著性度量（smooth saliency measure）为：
其中高斯噪声。第个单词被 mask 的概率与成反比，即该单词对标签越重要，则其被 mask 的概率就越小：
最后，利用中元素的和对其进行标准化得到 mask 概率。
根据来对 中 15% 的词进行 mask得到 （算法 2 第 5 行）
用 MLM 来对 进行重构，得到原本文 的扩充文本 （算法 2 第 6 行）根据每个 [MASK] 的预测概率，从 10 个最可能的词中抽取 1 个词来进行重构。由于基于梯度的 mask 方案避免了替换对的语义很重要的词，所以可以认为和的标签是一样的。

实验

4.1 数据集、评测指标、Baseline

四个下游任务的评测指标和 TOD-BERT [2] 一致，共选用四个不同数据集：意图分类（OOS）、对话状态追踪（MWOZ）、对话动作预测（MWOZ、DSTC2、GSIM）、回复选择（MWOZ、DSTC2、GSIM）。实验中，随机抽取 1% 或 10% 的训练数据作为初始的标注数据，其余数据作为未标注数据。

本文将所提出的自训练方法（ST）分别应用于两个基线模型：BERT 和 TOD-BERT。

4.2 评测结果

4.2.1 意图分类

从表中可以看出，ST 在很大程度上提高了 out-of-scope 意图的召回率，表明它对具有噪声分布的 out-of-scope 意图具有更强的鲁棒性。另外，仅从实验结果来看，数据量越少，ST 相比于 baseline 的提升越明显。

4.2.2 对话状态追踪

从表中可以看出，ST 持续改进了 BERT 和 ToD-BERT 的性能。

4.2.3 对话动作预测

从表中可以看出，当使用 10% 标注数据时，BERT 和 ToD-BERT 的表现与它们的上界（Full）相似，ST 的改进幅度有限；当使用 1% 标注数据时，在两个较简单的数据集（DSTC2, GSIM）和 MWOZ 的 macro-F1 上，ST 对于模型的提升更明显。

4.2.4 回复选择

从表中可以看出，ST 在 BERT 之上可以有更大的性能提升。

4.3 其他实验

总结

本文提出的自训练方法和文本增强技术可以利用无标注数据来训练任务型对话系统，在小样本场景下取得了很好的性能。自训练的方法一方面可以为未标注数据打上伪标签，在很大程度上弥补了小样本学习和全数据之间的差距；另一方面，自训练可能成为未来研究可扩展的 ToD 系统的一种方式。

参考文献

[1] Henderson M , I Vulić, Gerz D , et al. Training Neural Response Selection for Task-Oriented Dialogue Systems[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

[2] Wu C S, Hoi S C H, Socher R, et al. TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 917-929.

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读