ACL 2021 | ConSERT：基于对比学习的句子语义表示迁移框架

©PaperWeekly 原创 · 作者 |

张琨

学校 | 中国科学技术大学博士生

研究方向 | 自然语言处理

Motivation

从 BERT，GPT 被提出来之后，自然语言处理领域相关研究进入了一个全新的阶段：预训练+微调。而且这种学习框架也取得了非常好的效果，成为现在 NLP 相关研究的标配。但这种框架也不是没有问题，预训练阶段还好，我们可以选择各种大厂推出的预训练模型，为具体任务寻找到一个好的初始点。

但这些预训练好的模型并不能完美适应下游任务，如下图，作者通过研究发现，BERT 的输出结果如果不经过微调的话，那么这些向量表示为坍缩在一个比较小的区域内，还会受到高频词的影响，这些都是损害了 BERT 的效果，因此需要在具体任务中进行微调。

但微调阶段仍需要和具体的任务数据结合起来，最好还得是有监督数据，涉及到对大模型的微调，这些监督数据也得有比较大的量。但在真实世界中，对数据进行标注仍然是个大工程，费时费力，有时还需要专家知识。因此如何在下游任务中减小对监督数据量的需求是一个比较重要的研究方向。针对这些问题，本文展开了自己的工作。

论文标题：

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

论文作者：

Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu

论文链接：

https://arxiv.org/abs/2105.11741

代码链接：

https://github.com/yym6472/ConSERT

Preliminary

在介绍这个工作之前，首先介绍一个背景知识，对比学习：即通过对比不同样本，让相似的样本距离更近，不相似的样本距离更远，从而实现对输入数据的准确表征。其基本情况可以通过下图展示，这是近两年来非常热门的一个研究方向：

Model

为了解决以上问题，作者基于对比学习和预训练模型，提出了一个基于对比学习的句子语义表示迁移框架，具体框架图如下所示：

具体而言，作者提出的框架包含三部分，数据增强，BERT 编码层，对比损失层。接下来将进行详细分析：

3.1 数据增强

和之前的一些方法，例如回译，通过翻译模型翻译一遍再翻译回来等不同，在本文中，作者主要将数据增强部分放在了 embedding 层。因为自然语言处理中的数据增强本就是一个非常复杂的问题，在图像中，可以通过简单的裁剪，旋转，变色，缩放等操作实现数据增强，且能够保证原始标签的绝对正确。但在 NLP 中，通过打乱词序，替换词，删掉某些词等都会造成语义的变化。

因此，作者就不再输入层进行数据增强了，而是将目光放在 embedding 层，这样原始输入是不变的，那么一定是与原始标签一致的。具体而言，作者选择了如下几种数据增强方式：

对抗攻击：通过梯度反传生成对抗扰动，将该扰动加到原本的 Embedding 矩阵上，得到增强后的样本；
打乱词序：和之前讨论的打乱原始词的词序不同，这里作者通过利用 Transformer 中没有位置概念的特点，通过将每个 token对应的position id进行打乱，就实现了位置的打乱，这个还是很有意思的；
裁剪：这里分为两种，一种是 token 级别的，通过将选择到的 token 对应的 embedding 全部置为 0 得到，另一种是特征裁剪，通过将 embedding 中的某些维度整列置为 0，实现了特征的裁剪，这个也很有意思；
Dropout：这种有点类似于 SimCES，通过利用 dropout，随机将某些输入置为 0，相当于加了对应的噪声，从而得到数据增强之后的样本。

相关的数据增强方法示意图如下图所示：