NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法

©PaperWeekly 原创 · 作者 | 李婧蕾

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理

Abstract

无监督聚类的目的是根据在表示空间中的距离发现数据的语义类别。然而，在学习过程的开始阶段，不同类别在表征空间中经常存在重叠部分，这给基于距离的聚类实现不同类别之间的划分带来了巨大的挑战。为此，本文提出了（SCCL）——一个利用对比学习促进更好空间划分的新框架。

论文标题：

Supporting Clustering with Contrastive Learning

论文链接：

https://arxiv.org/abs/2103.12953

代码链接：

https://github.com/amazon-research/sccl

本文对 SCCL 在短文本聚类方面的性能进行了评估，结果表明，SCCL 显著提高了大多数基准数据集的前沿结果，在准确率方面提高了 3%-11%，在标准化互信息方面提高了 4%-15%。此外，当使用 ground truth 聚类标签进行评估时，本文的定量分析还证明了 SCCL 在利用自底向上的实例鉴别和自顶向下的聚类优势来实现更好的簇内和簇间距离方面的有效性。

近年来，许多研究致力于将聚类与深度表示学习结合起来。尽管有很好的改进，但聚类性能仍然不足，特别是在存在大量聚类的复杂数据的情况下。如 Figure1 所示，一个可能的原因是，即使使用深度神经网络，在聚类开始之前，不同类别的数据仍然有显著的重叠。因此，通过优化各种基于距离或相似度的聚类目标学习到的聚类纯度较低。

另一方面，实例对比学习（Instance-CL）最近在自我监督学习方面取得了显著的成功。Instance-CL 通常对通过数据扩充获得的辅助集进行优化。然后，顾名思义，采用对比损失将从原始数据集中的同一实例中增强的样本聚在一起，同时将来自不同实例的样本分开。本质上，Instance-CL 将不同的实例分散开来，同时隐式地将相似的实例在某种程度上聚集在一起（参见 Figure1）。通过将重叠的类别分散开来，可以利用这个有利的属性来支持聚类。然后进行聚类，从而更好地分离不同的簇，同时通过显式地将簇中的样本聚集在一起来收紧每个簇。

为此，本文提出了基于对比学习的支持聚类（SCCL），通过联合优化自顶向下的聚类损失和自底向上的实例对比损失。本文评估了 SCCL 在短文本聚类方面的表现，由于社交媒体如 Twitter 和 Instagram 的流行，短文本聚类变得越来越重要。它有利于许多现实世界的应用，包括主题发现，推荐和可视化。然而，由噪声和稀疏性引起的微弱信号给短文本聚类带来了很大的挑战。尽管利用浅层神经网络来丰富表征已经取得了一些改进，仍有很大的改进空间。

本文用 SCCL 模型解决了这个挑战。本文的主要贡献如下:

本文提出了一种新颖的端到端无监督聚类框架，大大提高了各种短文本聚类数据集的最新结果。此外，本文的模型比现有的基于深度神经网络的短文本聚类方法要简单得多，因为那些方法通常需要多阶段的独立训练。

本文提供了深入的分析，并演示了 SCCL 如何有效地结合自上而下的聚类和自下而上的实例对比学习，以实现更好的类间距离和类内距离。
本文探讨了用于 SCCL 的各种文本增强技术，结果表明，与图像域不同，在文本域使用复合增强并不总是有益的。

Model

本文的目标是开发一个联合模型，利用 Instance-CL 的有益属性来改进无监督簇，如 Figure2 所示，本文的模型由三个组件组成。神经网络 ψ(·) 首先将输入数据映射到表示空间，只会是两个不同的头 g(·) 和 f(·)，分别应用对比损失和聚类损失。

本文的数据包括原始数据和增强数据。具体来说，对于一个随机抽样的小批量 B = {xi}Mi=1，本文对 B 中的每个数据实例随机生成一对扩增，得到一个规模为 2M 的扩增集 Ba。

Instance-wise Contrastive Learning

对于每个 B, Instance-CL 损失是定义在 B 的数据增强对上。

设 i1∈{1，…，2M} 表示扩增集 Ba 中任意实例的索引，i2∈{1，. . .， 2M} 为 Ba 中另一个实例的索引，和原集合 B 中同一实例索引一致。将 xi1,xi2∈Ba 作为一个正样本对，而将 Ba 中的其他 2M-2 例子作为这个正对的负样本。通过最小化 l1 来将正样本对和其他负样本对分离开

本文中 τ = 0，使用一对标准化输出之间的点积作为相似度函数

将所有小批量 Ba 的 loss 求和作为 Instance-CL loss

Clustering

本文同时通过无监督聚类将语义范畴结构编码到表示中。与 Instance-CL 不同，聚类侧重于 high-level 语义概念，并试图将来自相同语义类别的实例聚集在一起。假设数据由 K 个语义类别组成，每个类别在表示空间中以其质心为特征，

表示 B 中 xi 的表示。继 Maaten 和 Hinton（2008）之后，本文使用 Student 's t- 分布来计算分配 xj 到第 k 个簇的概率。

这里 α 表示 Student 's t- 分布的自由度。在没有明确提及的情况下，本文按照 Maaten 和 Hinton（2008）的方法，设置 α=1。

本文使用一个线性层，即图 2 中的聚类头，来近似每个聚类的质心，并利用 Xie 等人（2016）提出的辅助分布迭代细化。其中 pjk 表示辅助概率，定义为

这里 fk，可以解释一个小批量样本的软聚类频率。该目标分布首先使用软分配概率 qjk 的平方进行锐化，然后用相关的聚类频率对其进行归一化。通过这样做，可以鼓励从高置信簇分配中学习，同时对抗不平衡簇造成的偏见。

之后通过优化目标之间的 KL 离散度，将聚类分配概率推向目标分布，

聚类的 loss 最终可以表示为

这种聚类损失最早是 Xie 等人（2016）提出的，后来Hadifar等人（2019）采用这种聚类损失进行短文本聚类。然而，它们都需要对神经网络进行昂贵的分层预训练，并通过在不同数据集之间经常变化的精心选择的间隔来更新目标分布（Eq(4)）。相反，本文将学习过程简化为端到端训练，每次迭代更新目标分布。

Overall objective

本文中 η =10 还需要注意的是，聚类损失仅在原始数据上进行了优化。还可以利用增强的数据来为每个实例执行聚类分配的本地一致性。

Numerical Results

distilbert-base-nli-stsb-mean-tokens 作为模型主体

clustering head 使用 768*K 的线性层

constractive head 使用一个 MLP (g)，其隐含层大小为 768，输出向量大小为 128。

指标：Accuracy (ACC)、Normalized Mutual Information (NMI)

Datasets

STCC（Xu et al.， 2017）由三个独立的阶段组成。对于每个数据集，它首先使用Word2Vec方法在大型领域内语料库上预先训练单词嵌入（Mikolov et al.， 2013a）。然后对卷积神经网络进行优化，以进一步丰富输入 K-means 进行最后阶段聚类的表示。
Self-Train（Hadifar 等人，2019）使用 SIF 增强了 Xu 等人（2017）的预训练词嵌入（Arora 等人，2017）。继 Xie et al.（2016）之后，采用逐层预训练获得的自动编码器（Van Der Maaten, 2009），然后采用与本文相同的聚类目标对其进行进一步调整。Xie 等人（2016）和 Had- ifar 等人（2019）通过仔细选择不同数据集的间隔更新目标分布，而本文每次更新间隔仍然取得了显著的改进。
HAC-SD（Rakib et al.， 2020）在稀疏成对相似性矩阵上层次聚类，该相似性矩阵是通过将低于所选阈值的相似性得分归零得到的。
BoW & TF-IDF 在 size 为 1500 的相关特征上应用 K 均值对 BoW 和 TF-IDF 进行评价。

SCCL 模型在大多数数据集上优于所有基线。尽管在生物医学方面落后于 Hadifar 等人（2019年），但考虑到生物医学与 transformer 预训练的一般领域关系不大这一事实，SCCL 仍显示出很大的前景。因为，Hadifar 等人（2019）是在大型领域内生物医学语料库上学习单词 embeddings，然后使用逐层预训练的自动编码器来进一步丰富表示。

Rakib 等人（2020年）也显示了 twitter 和 GoogleNews-T 上更好的准确性，为此本文提出了两个理由。首先，googleews 和 Tweet 都有较少的训练实例和更多的类。对比学习通常需要一个大的训练数据集，因此，很难显示出它的优势。其次，根据 BoW 和 TF-IDF 评价的聚类性能，聚类 GoogleNews 和 Tweet 比聚类其他四个数据集更容易。

因此，Rakib 等人（2020）通过对预处理数据的成对相似点仔细选择来聚类，可以获得良好的性能，特别是当文本实例很短时，即 Tweet 和 GoogleNews-T。针对聚集聚类往往由于高计算复杂性，本文还强调了模型对大规模数据的可伸缩性。

Ablation Study

除了 Instance-CL 和 Clustering 之外，本文还根据 SCCL 的顺序版本（SCCL-seq）评估 SCCL，在该版本中，首先使用 Instance-CL 训练模型，然后使用 Clustering 对它进行优化。

如 Figure3 所示，Instance-CL 还将语义上相似的实例分组在一起。然而，这种分组效应是隐性的，依赖于数据。相比之下，SCCL 的性能始终大大优于 Instance-CL 和 Clustering。此外，SCCL 还获得了比其顺序版本 SCCL-seq 更好的性能。结果验证了所提出的联合优化框架在充分利用 Instance-CL 和 Clustering 两种优化方法的优势、相互补充方面的有效性和重要性。

SCCL leads to better separated and less dispersed clusters

为了进一步研究是什么使得 SCCL 具有更好的性能，本文在整个学习过程中跟踪了在表示空间中评估的簇内距离和簇间距离。对于一个给定的簇，簇内距离是质心和所有归入该簇的样本之间的平均距离，簇间距离是到其最近的邻居簇的距离。计算每一种类型的距离及其平均值，其平均值是通过对所有聚类求平均值而获得的，其中聚类是根据真实标签（实线）或模型预测的标签（虚线）来定义的。

当对预测的簇进行评估时，Clustering 实现了更小的簇内距离和更大的簇间距离。它展示了聚类的能力，使每个自学习的聚类紧密，并分开不同的聚类。然而，本文观察到相反的评价在 ground-truth 聚类，连同较差的准确性和 NMI 分数。一种可能的解释是，来自不同 ground-truth 聚类的数据在聚类开始之前，在嵌入空间中经常有显著的重叠（见图 1 左上图），这使得基于距离的聚类方法很难有效地将它们分离。

虽然隐式分组效应允许 Instance-CL 获得更好的准确率和 NMI 评分，但结果簇之间的距离更小，每个簇更分散，这表明簇间距离更小，簇内距离更大。这个结果并不奇怪，因为 instance-cl 只关注实例区分，这通常会导致更分散的嵌入空间。相反，本文利用 Clustering 和 Instance-CL 的优点来相互补充。因此，Figure 4 显示 SCCL 导致更好地分离类，每个类更不分散。

Data Augmentation

为了研究数据增强的影响，本文探索了三种不同的无监督文本增强：

（1）WordNet Augmenter 通过将输入文本中的单词替换为 WordNet 的同义词来转换输入文本。

（2）Contextual Augmenter 利用预先训练的 Transformer 找到输入文本的前 n 个合适的单词进行插入或替换。本文通过词替换来扩充数据，并选择 Bert-base 和 Roberta 来生成扩充对。

（3）释义通过反译产生释义输入文本，首先将其翻译为另一种语言（法语），然后返回到英语。当翻译回英语时，本文使用混合专家模型（Shen et al.， 2019）为每个输入生成 10 个候选释义，以增加多样性。

对于 WordNet Augmenter 和 Contextual Augmenter，本文尝试了三种不同的设置，分别将每个文本实例的单词替换率设置为 10%、20% 和 30%。对于反向翻译的段短语，本文计算了每个文本实例与其 10 个候选释义之间的 BLEU 分数。然后从每组 10 对候选对象中选出三对 BLEU 得分最高、中等和最低的。

表 3 总结了每种增强技术的最佳结果，其中 context Augmenter 明显优于其他两种。本文推测，这是由于上下文增强器和 SCCL 都利用预先训练的 Transformer 作为主体，这允许上下文增强器产生更多的信息增强。

Composition of Data Augmentations

Figure 5 显示了使用合成数据增强的影响，其中探讨了 contexttual Augmenter 和 CharSwap Augmenter。在 GoogleNews-TS 上使用数据增强组合确实提高了 SCCL 的性能，每个文本实例的平均单词数为 28（见表2）。然而，在 StackOverflow 上观察到相反的情况，每个实例的平均单词数为 8。这一结果不同于在图像领域观察到的，其中使用数据增强的合成是关键的对比学习，以获得良好的性能。

可能的解释是，为文本数据生成高质量的扩充内容更具挑战性，因为更改一个单词可能会颠倒整个实例的语义。当第二轮扩展应用于非常短的文本实例（例如 StackOverflow）时，这种挑战就会加剧。本文在图 5（右）中进一步演示了这一点，其中 StackOverflow 的扩充对在第二轮扩充后在表示空间中很大程度上偏离了原始文本。