ICML 2021 Long Oral | 顺序不可知的交叉熵函数

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 华南理工大学本科生

研究方向 | CV，Causality

本文针对非自回归翻译模型提出了一个新的损失函数：order-agnostic cross entropy（OAXE），这种交叉熵损失函数忽略了词与词的顺序，将 NAT 看成了一个集合预测的问题，基于模型预测和目标标签之间的最佳可能对齐计算交叉熵损失。

为了解决由于次序忽略带来的问题，文中提出了使用交叉熵损失 pretrain 模型再使用 OAXE finetune 以及对 confidence 较小的预测进行截断两种正则化的策略，极大的提高了翻译的性能。

论文标题：

Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation

论文链接：

https://arxiv.org/abs/2106.05093

代码链接：

https://github.com/tencent-ailab/ICML21_OAXE

Methodology

先来直观的看一下本文的损失函数和已有的 loss 有什么本质的区别。传统的交叉熵损失对每一个错误的词序都会引入惩罚，之前的工作AXE会对词进行单调的对齐，而本文直接找最优的对齐方式。

那么我们将传统的交叉熵损失写为：

本文提出的 loss 其实很简单：

其中是我们的排序空间，是其中一种对预测词排序的策略，对于一个长度为的预测，可以找到种不同的排序，因此如何计算这个损失是个问题。在本文种，作者将该问题简化为了二分图匹配，对预测出的每个位置和目标词汇之间进行二分图匹配。

Training

2.1 Avoiding Invalid Orderings via XE Initialization

如果我们直接使用 OAXE loss 进行训练，那么显然会丢失掉词序信息，文中有两种策略缓解这个问题：

我们先使用 XE loss 训练一个模型，然后使用 OAXE 进行微调，这样 XE loss 其实已经学到了不错的词序信息。
第二种方法是将 XE 和 OAXE 根据一个加权因子进行结合，这个权重随着时间变化逐渐趋于 0。

2.2 Dropping Invalid Predictions via Loss Truncation

即使使用 XE 来初始化，也还是会产生一些例如“I apple have”之类的语句，作者根据置信度进行截断，其中截断参数是根据验证集进行寻找的。

只反向传播概率高于 margin 的词，这使得模型倾向于只学习有信心的预测。

Experiments

作者在 6 个数据集上进行了实验，均采取了句子级别的 distillation，baseline 为 CMLM。

3.1 不同的OAXE引入策略

上述提到了两种防止次序信息丢失的方法，从实验中可以得到，从 XE 预训练的模型开始引入 OAXE 得到的效果最好。

3.2 与SOTA的比较

CMLM 是之前的 SOTA，如果在输出端经过足够多次数的 refinement，CMLM 可以在 WMT14 EN-DE 上得到 27 左右的 BLUE，只有一次 refinement 的话只有 18.3，但是通过 OAXE 进行 fine-tune，可以使得其获得超过 7 个点的提升。

3.3 Raw Data

上面说到了，现在 NAT 都采用了句子级别的 distillation 来减少训练数据的多样性，从而提升模型的性能。在 raw data 上，OAXE 带来了更大的提升，即使使用raw data，其也比 cmlm 强。

除此之外文章还做了对于多样性，词序和句子长度相关的实验，相比于 XE，OAXE 在文中涉及的所有 metric 种均带来了巨大的提升。

Conclusion

XE 是一个典型的 token-level 的损失函数，相比较而言，OAXE 虽然依然是交叉熵，但是更像是 sentence-level 的损失函数，因此他已经和单个词的位置没有关系了，更多的 focus 在句子的语义上。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

继续阅读

阅读原文

​ICML 2021 Long Oral | 顺序不可知的交叉熵函数

2.2 Dropping Invalid Predictions via Loss Truncation

ICML 2021 Long Oral | 顺序不可知的交叉熵函数