CVPR 2021 | 从理论和实验角度深入剖析对比损失中的温度超参数

©作者 |

李想

学校 | 哈尔滨工业大学（深圳）

研究方向 | 自然语言处理

Foreword

这次的论文笔记的内容是 CVPR'21 的一篇论文“Understanding the Behaviour of Contrastive Loss” [1]。与以前看的很多讲模型这类论文不同，这篇论文没有模型，没有 SOTA，而是对对比学习的损失函数中的 temperature 参数这个点进行深入剖析，更多的是偏数学理论的内容，并做实验进行验证，以此来达到题目所说的理解对比学习损失函数的目的。虽然网上已经有了这篇论文的笔记了，我还是决定自己写一遍，对论文的理解和印象可能更深刻一点。如有错误，还望指正。

论文标题：

Understanding the Behaviour of Contrastive Loss

论文链接：

https://arxiv.org/abs/2012.09740

Background

在写这篇论文笔记之前，我想先简单写一写对另一篇 ICML'20 的论文“Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere” [2] 的一点背景，因为 CVPR 这篇论文算是一定程度上 Follow 了他们的工作。

ICML 这篇论文提出了两个对比学习的重要特性：Alignment 和 Uniformity. 定义如下：

Alignment：对于 Positive pair 中的两个样本，应该被映射到相邻近的特征中。（即 Encoder 需要将相似的样本编码为相似的特征向量）

Uniformity：所有特征向量应该在超球面空间*（hypersphere）中几乎均匀地分布，以保留数据中尽可能多的信息。（即特征分布需要最大化保留信息）

其实我认为这两个特性也自然地体现了对比学习的目的，即和与其相似的正样本在编码后的相似度，应该远大于和与其不相似的负样本编码后的相似度。而这两个特性，从对比学习的 loss 也能窥知一二。

其中。

可以简单地将二者的公式写成如下形式 [3]：（这公式看着简单，要用 LaTex 打出来可学到好几个命令 \underset, \mathop, \limits, \rm 什么的）

其中，为 positive pair 的分布，为 data distribution，即样本数据分布。

作者通过实验验证了这两个特性与模型性能的关系，即通过以上公式计算出的 Alignmen 和 Uniformity 两种度量值越小，encoder 能够得到更好的表示，模型表现越好（Acc 越高）。即下图中越蓝的点，准确率越高，且集中在左下角，两个度量值都很小的地方。

这两个 metric 代码也非常简单，作者直接贴到了论文里。

# bsz : batch size (number of positive pairs)
# d : latent dim
# x : Tensor, shape=[bsz, d]
# latents for one side of positive pairs
# y : Tensor, shape=[bsz, d]
# latents for the other side of positive pairs
defalign_loss(x, y, alpha=2):
return (x - y).norm(p=
2, dim=
1).pow(alpha).mean()


defuniform_loss(x, t=2):
return torch.pdist(x, p=
2).pow(
2).mul(-t).exp().mean().log()

接下来我们回到最初的 CVPR 这篇论文：

Understanding the Behaviour of Contrastive Loss

Introduction

我认为这篇论文就是上一篇的一个递进，其一个核心思想就是引入样本之间潜在的语义结构的概念：模型得到的特征表示过于均匀（uniformity）的话，会不能很好地容忍语义相似的样本（语义相似的样本表示分离较远），从而破坏了这种样本之间潜在的语义结构，影响下游任务的表现。

① 从这一个 idea 出发，作者将这种现象定义为一种 uniformity-tolerance 的两难困境（我们既希望特征表示足够均匀地分布使其便于分割开，又希望其能容忍语义结构相似的样本）；—> ② 而为什么会出现这种现象，作者用对比学习 loss 中的参数 temperature 作为切入点，探讨了其是如何影响 embedding 的分布；—> ③ 而如何影响这种分布是因为 temperature 的大小控制使得 contrastive loss 有一种 hardness-aware 的特性，即 temperature 越小，对那些更难的负样本的 Gradient 梯度更大，使得这些样本的特征表示更加分离，从而得到的整体的特征分布更加均匀。

这里的更难的负样本，是指那些与锚点 anchor 很相似/属于同一类的样本（对于而言，其增强的样本才是正样本，其余都叫做负样本），所以对于 encoder 来说，要区分开他们的表示会更难。

虽然我觉得好像我复述的这一段故事好像也说得通，但是这篇论文实际上的结构好像跟我的思路是相反的。作者是 ③ 先提出 contrastive loss 的 hardness-aware 特性，—> ② 再提出这种特性是 temperature 这个参数导致和控制的，—> ① 最后提出 temperature 与 uniformity 之间的关系，并以此定义 uniformity-tolerance dilemma 这个现象。

为了更好地理解作者提出的语义结构的影响，作者用下图作解释。对于 (a) (b) 两种 embedding 分布而言，我们将与的 embedding 交换，并不会改变其对比学习的 loss，但是，(a) 的这种分布将两个都是“狗”的样本表示集中在一起，两个都是“车”的样本表示集中在一起，比 (b) 这种分布在下游任务中表现更好，因为它能够体现出样本间潜在的语义结构。

我觉得这个图很有意思，当时还以为作者下面要讲怎么在 hypershere 上通过不停地交换来使得同类样本更近了（大雾）。现在回过头来看，其实这个图也一定程度上体现出 uniformity-tolerance 的关系，即这个图代表着一种理想情况：当 uniformity 保持不变时，特征表示却能够更加体现出语义结构（更能容忍语义结构相似的样本）。这也是作者后面做实验想要达到的一个效果。

那 temperature 是不是真的会影响 embedding 的分布呢（②）作者用 T-SNE 可视化了和两种情况下的 embedding 分布。可以看到时分布更加均匀（uniform），而时分布更加局部集中-全局分离（即相似/同类的样本更集中，不相似/不同类的样本相隔更远）。也就是从这里，作者提出 uniformity-tolerance 困境的（①）。

Hardness-aware Property ③

作者在对比学习原始 loss，即 Eq.(1) 的基础上，提出一个简单形式的 loss，也可以满足拉近 positive pair 和分隔 negative samples 的目的：

作者将 Eq.(1) 的原始 loss 对正例相似度和负例相似度求导，得到以下两个式子：

其中，

通过 (6) 作者发现对于不同的 negative sample ，其梯度是与 (7) 中的分子成比例的（对于样本的所有负样本而言，的分子不同，分母相同），不同的的梯度不同（越大，梯度越大；越小，则越放大了这个梯度），因此体现出其 Hardness-aware 的特性。这个特性与简单化的 loss Eq.(4) 不同，对求导后只是固定的值。

观察 (5) 式，其实与 (6) 式的是一样的（和都只是表示一个不同于的负样本编号，二者可以互换），两个梯度的绝对值之比

令

来表示对于负样本的相对梯度，则所有负样本的相对梯度和为 1，即满足概率分布，概率和为 1。

根据 Eq.(8)，作者画出了不同的值下关于的分布，如下图。横坐标为，纵坐标为，不同颜色的线代表不同的值。可以发现，当 temperature 越小（蓝色线），相似度越大时，陡增；而相似度很小时，曲线趋于均匀平滑。也就是说，对于与越相近的负样本，loss 对其“惩罚”就越大（梯度越大）。当非常小时，会导致对比 loss 只集中火力在离最近的那一两个样本上，试图将他们分隔开 ②。

Uniformity-Tolerance Dilemma ①

作者分别用两小节介绍了 Uniformity 和 Tolerance 两个属性，并绘制了在不同数据集下，不同 temperature 与两个属性值的关系。由于 Uniformity 在 Background 那节里介绍过了，这里主要介绍一下 Tolerance 的定义和计算方式。

Tolernace：指对于属于同一类的样本他们的平均相似度，表示语义相关的样本的分布集中程度。

其中，表示的类别，是一个指示函数（indicator function），当时，其值为 1；当时，其值为 0。

Figure 4 表示了不同的 temperature（横轴）在不同的数据集上对的度量值大小（纵轴），随着 temperature的增大，在减小，也就是在增大，根据其计算方式，说明 embedding 的分布变得更不均匀了。而对于 Figure 5 则可以看到，随着 temperatrue 的增大，tolerance 这个值也在增大，说明语义相关的样本的相似度在变大。

一个理想的模型，应该是局部聚集，全局均匀的，也就是 tolerance 要大的同时，uniformity 要小。但根据上面两个图，tolerance 增大时，uniformity 也在增大；tolerance 减小时，uniformity 也在减小，这便形成了一个作者所定义的 Uniformity-Tolerance Dilemma。所以对于一般的对比学习 loss 而言，如何选择一个合适的 temporature 来平衡 embedding 的聚集性和均匀性，是需要根据具体问题来权衡的。

我觉得这个思想可以说是一定程度上继承了 Background 那节里的 ICML 那篇论文的思想，那里的 Alignment 和这里的 Tolerance 很像，但是，也正如我在 Introduction 开头所写的，这篇论文主要就是引入了样本之间语义结构的概念。Alignment 只是考虑了 Positive pair 的聚集程度，而这篇论文进一步，考虑了同一类相似样本的聚集程度。

Breaking Point

作者利用了之前的一篇研究工作中提出的 Hard contrastive loss 策略 [4]，在计算对负样本的梯度时，只截取相似度大于某个阈值的负样本计算（如选取 Top K 最近的负样本）。

这样的话，相当于放大了负样本的作用，使得当 temperature 变大时，模型最后形成的 embedding 分布会更均匀一点，而不会像 Figure 4 那样随着 temperature 增大 embedding 分布变得更不均匀。

以此缓解 Uniformity-Tolerance Dilemma 中调节 temperature 对 uniformity 变化的影响。也呼应了Figure 1 中“当 uniformity 保持不变时，特征表示却能够更加体现出语义结构“的目的。

Hard Contrastive Loss 定义如下：

其中，是负样本与 anchor 的一个相似度分界点，对于相似度在这个区间（informative interval）的负样本被看作是 informative hard negative samples（与 anchor 更相似，更难将他们分隔开），而对于相似度在这个区间，则被称作 uninformative interval。在计算 loss 时，的这些负样本，使其。相当于将原本负样本的梯度比例分布（如 Figure 3）压缩到 informative interval 的这个区间，从而增强模型对在该区间内负样本的“惩罚”，集中火力把与相似的负样本推远。

采用得到的不同数据集下，不同 temperature 与 Uniformity 和 Tolerance 两个属性值的关系图如下。将 Figure 6 和 Figure 4 相比可以发现，此时随着 temperature 增大，Uniformity 保持较稳定不变。此时增大 temperature 便可以在保持 uniformity 不增大的情况下，增大 Tolerance，即模型得到的 embedding 既保持均匀，又能局部聚集，从而保留一定潜在语义结构，破解上一节所说的 Uniformity-Tolerance Dilemma 问题。

Conclusion

在本篇论文中，作者从 temperature 这个参数入手，从理论和实验的角度指出 Contrastive Loss 是一个 hardness-aware 的损失函数，而 temperature 在控制 embedding 分布中扮演着重要作用，并由此提出一种 Uniformity-Tolerance Dilemma 问题。针对这个问题，未来还有待研究，比如，从 Tolerance 着手（?）。

*注1：超球面空间 hypersphere：当所有类别的样本很好地各自聚集在一起并在空间中形成一个球面时，他们是线性可分的。而这一特性是欧几里得空间做不到的。如下图，用一个线性分类器，可以找到一个角度切割球面将“猫”这一类的样本与其他样本分隔开。