什么是 XLNet ？为什么它的性能优于 BERT？

原标题 | What is XLNet and why it outperforms BERT
作者 | Xu LIANG
译者 | Ryan（西安理工大学）、依耶芙特•欧
注：本文的相关链接请访问文末【阅读原文】

XLNet发布后仅仅不到一周的时间，我周围NLP领域的每个人似乎都在谈论它。

XLNet：NLP领域中一个新的预训练方法，相比BERT可以显著提高20个任务的准确率。

arxiv：https://arxiv.org/abs/1906.08237

github (代码 + 预训练模型)：https://github.com/zihangdai/xlnet

由Zhilin Yang, @ZihangDai, Yiming Yang,

Jaime Carbonell, @rsalakhu等发出。

是的，“在 BERT 基础上20个任务提高了准确率”确实吸引了我们的眼球。但是更加重要的事情是去理解 XLnet 的工作原理以及为何它的效果超过BERT。所以我写了这个博客来分享我阅读论文后的理解。

内容结构如下：

什么是 XLNet？
XLNet 和 BERT 有哪些区别？
XLNet 是如何工作的？

什么是 XLNet?

首先，XLNet是一个类似BERT的模型，而不是完全不同的模型。但这是一个非常有前途和潜力的模型。总之，XLNet是一种通用的自回归预训练方法。

那么什么是自回归（AR）语言模型？

AR语言模型是一种利用上下文词来预测下一个词的模型。但是在这里，上下文词被限制在两个方向上，要么向前，要么向后。

GPT和GPT-2都是自回归语言模型。

AR语言模型在生成NLP任务方面具有很好的优势，因为在生成上下文时，通常是向前的方向。AE语言模型自然能很好地处理这些NLP任务。

但AR语言模型存在一些不足，它只能使用前向上下文或后向上下文，这意味着它不能同时使用前向上下文和后向上下文。

XLNet 和 BERT 有什么区别？

与AR语言模型不同，BERT被归类为自动编码器(AE)语言模型。

AE语言模型的目的是从被破坏的输入中重建原始数据。

损坏的输入意味着我们在预处理阶段中使用[MASK]将原始标记into。目的是预测into来得到原来的句子。

AE语言模型的优点在于它可以看到前后两个方向的语境。

但是，AE语言模型也有其不足之处。它在预训练中使用了[MASK]，但是这种人工符号在训练过程中没有出现在实际数据中，导致了训练前的误差。[MASK]的另一个缺点是假定预测的(蒙面的)标记是相互独立的，给出未蒙面的标记。例如，我们有一句话：“这表明房地产危机已转变为银行危机”。我们掩盖住“银行”和“危机”。在这里，我们知道遮住的“银行”和“危机”包含彼此的隐含关系。但AE模型试图预测“银行”和“危机”，并分别给出未掩盖的标记。它忽略了“银行”与“危机”之间的关系。换句话说，它假定预测的(蒙面的)标记是相互独立的。但我们知道，模型应该了解预测(蒙面)标记之间的这种相关性，以预测其中一个标记。

作者想强调的是，XLNet提出了一种让AR语言模型从双向语境中学习的新方法，以避免AE语言模型中的掩码方法带来的缺点。