NeurIPS 2023 | 从分布鲁棒优化角度理解对比学习的鲁棒性和温度系数的意义

©PaperWeekly 原创 · 作者 | 吴俊康

单位 | 中国科学技术大学博士生

研究方向 |对比学习

本文从分布式鲁棒优化（DRO）的角度分析了对比学习损失函数（InfoNCE），揭示了 InfoNCE 对负样本分布的鲁棒性，并指出温度系数的本质是 DRO 中控制鲁棒半径的拉格朗日系数，同时也建立了 DRO 和互信息 (MI) 之间的理论联系。此外，我们从 DRO 的角度指出了 InfoNCE 的潜在缺点，例如过度保守和对异常值的敏感。最后提出了一种新的损失函数——ADNCE，并验证了其在各个场景的有效性。

论文标题：

Understanding Contrastive Learning via Distributionally Robust Optimization

论文链接：

https://arxiv.org/pdf/2302.04775.pdf

代码链接：

https://github.com/junkangwu/ADNCE

作者主页：

https://junkangwu.github.io/

摘要

近年来，对比学习因其在自监督领域卓越的表现，受到越来越多的关注。核心思想是学习“拉近”证样本（例如来自同一图像的增强数据），同时“推开”负样本（例如来自不同图像的增强数据）的表示。通过利用这种直观的概念，无监督学习甚至开始挑战监督学习。然而，对比学习饱受困扰的一个问题就是——负采样偏差。由于无监督场景下的对比学习无法提前获得物品标签，负样本采样就成为了一个显著的问题。

为了解决这个问题，近年来有一些工作缓解这个问题，比如，[1, 2] 通过估计最优负样本的分布以缓解负采样中出现的偏差，[3] 则添加了一个检测模块用于识别并且修正存在的假负样本。

本工作则刷新了以往对比学习领域相关工作的认知，通过引入分布式鲁棒优化（DRO）这一理论工具，我们发现对比学习损失函数（InfoNCE）本质上是 KL 散度范围内，作用在负样本分布上的鲁棒优化目标（CL-DRO）。这一发现首先揭示了 InfoNCE 中的温度系数并非是一种启发式设计，而是控制负样本鲁棒半径的一个拉格朗日系数。同时拥有 DRO 这一理论框架，我们还可以对其难负样本挖掘、方差控制等性质一一提供理论上的解释。

进一步，我们不局限于 KL 散度，分析了一般情况下（-divergence）下的 DRO 目标，有趣的是我们验证了任何 -divergence 下的 CL-DRO 和该 -divergence 对应的变分表示的等价性。这一发现严格上证明出“InfoNCE 是更紧的互信息的估计”。同时，这也为任意 -divergence 下的互信息估计提供了新的途径。

最后，DRO 的提出也揭示出 InfoNCE 存在的缺陷——过于保守，盲目地赋予难负样本最高的权重；以及忽略了 outlier 数据的影响。为改善这一现状，我们提出可调节的 InfoNCE（ADNCE）用于重塑 worst-case 分布，通过在多个领域的尝试（CV，NLP 和 Graph）验证了本方法的有效性。

从DRO的视角理解对比学习

2.1 动机

在对比学习（CL）的实际应用中，负样本 (x,y) 通常是从训练数据中统一抽取的，它们可能具有相似的语义（例如标签）。正如 Chuang [1] 等人所提出的，这引入了负采样偏差的潜在问题。

在本项研究中，我们观察到一个有趣的现象，即 InfoNCE 本身表现出对负采样偏差的抗噪性。我们在两个基准数据集 CIFAR10 和 STL10 上对 CL 进行了测试，如下表所示，我们发现：

1）通过微调温度，传统的 SimCLR 表现出显著的提升，达到了与专门设计用于解决负采样偏差的方法相当的性能水平（即 SimCLR () 与 SimCLR ()、DCL [1] 和 HCL [2])；

2）通过适当选择，DCL 和 HCL 实现的相对改进是微乎其微的。

这些发现引导我们提出两个关键的问题：

为什么 InfoNCE 表现出对负采样偏差的容忍度？
扮演什么角色，为什么如此重要？

2.2 分布式鲁棒优化（DRO）

在现有的机器学习任务中，我们默认其遵循 iid 假设（训练集样本分布和测试集样本分布均独立同分布）。为解决不满足 iid 假设的情形，DRO 旨在定义一个潜在的分布 Q 的集合，优化其中最糟糕的（worst-case）分布下的目标函数。

其中潜在分布 Q 是围绕在初始训练分布附近，并且两者的距离在鲁棒半径内。

2.3 CL-DRO

首先，我们定义一个新的训练目标——CL-DRO。CL-DRO 可以理解为基本目标的增强版，其目的是增加正样本之间的表征相似度并减少负样本之间的相似度。CL-DRO 通过在负样本分布上结合 DRO 来改进，其中优化了一系列潜在分布。因此，CL-DRO 使模型能够适应负样本分布变化。

有趣的是：当我们选取 KL 散度作为的距离度量。CL-DRO 本质上和 InfoNCE 目标函数等价：

定理 3.2 指出了 InfoNCE 成功的关键原因：对负样本分布采取了鲁棒优化，而非固定分布下的优化。其优势在于，面临负样本噪音或者真实负样本难以获取的情形，其提供了一个更加鲁棒的优化目标，从而直接降低了采样误差的影响，同时温度系数也并非一种启发式设计，而是一个拉格朗日系数，控制了鲁棒性能的关键。

定理 3.3 则表示出 InfoNCE 是理想负样本分布下损失函数的上界，其中展现出采样样本越多，两者差距逐渐减少（也间接指出了为何对比学习需要大量负样本的原因）；同时也为温度系数如何影响性能提供了直观解释。

2.4 从DRO的视角理解温度系数

A. 调节鲁棒半径

推论 3.4 是我们通过对 CL-DRO 的表达式进行近似求解得到，该表达式展现了温度系数、鲁棒半径以及负样本打分方差三者之间的关系。值过大意味着鲁棒半径较小，这将不满足中的约束条件。

直观上，较大的描绘了 DRO 中的受限分布集合较小，该分布集可能无法包含理想的负分布，从而导致鲁棒性下降。反之，随着减小，条件可能得到满足，但它扩展了项并放松泛化界限。这两个因素在的选择上建立了权衡。

B. 控制负样本的方差

定理 3.5 同样是一个很有意思的发现：给定任何 -divergence，其对应的 CL-DRO 目标函数可以近似表达为一个 mean-variance 表达式，其中温度系数是控制方差项惩罚权重的超参数。variance regularization 常常用于损失函数上，是一种降低损失方差直接有效的策略。然而在公式 8 中所示，仅仅控制在负样本损失的方差是一种较优的选择，我们认为其是 InfoNCE 成功的关键之一。

C. 体现难负样本挖掘

值得注意的是，我们将 KL 散度下 CL-DRO 目标函数对应的 worst-case 分布进行求解，可得。的表达式体现出每个负样本被赋予的权重是由决定，即打分越高，负样本权重越高，并且越小会加剧这一权重差距。这一发现尽管和近年来很多结论一致，但我们从 DRO 提供了一个新的证明思路。

2.5 实验验证

为验证上述发现，我们一一通过实验进行验证。

首先，为验证与采样偏差之间的关联，我们利用 CIFAR10 上标签，调整负样本中假负样本的比例（1.0 代表均匀采样，保留所有假负样本；0.0 代表无任何假负样本存在，即有监督负采样）。如图 1 所示，随着噪音比例增加，最优温度系数也逐渐降低，即鲁棒半径逐渐增大。这一发现符合推论 3.4 的结论。

进一步，我们测试不同温度系数下，负样本打分的方差与正样本预测分数的均值的变化。如图 2 所示，温度系数越小，负样本的方差也逐渐降低，即对应公式 8 中对负样本方差的惩罚逐渐增大。与之对应的正样本均值也逐渐降低。这一发现仅凭现有对比学习中的理论研究很难将其解释清楚，但有了 DRO 这一理论工具，上述现象都变得直观且可解释了。

最后，我们利用公式 8 的目标函数在 CIFAR10 与 STL10 上进行测试，如表2所示，简单的 mean-variance 损失函数形式即可实现和 InfoNCE 比肩的性能，这一实验现象同样验证了定理 3.5 的正确性。

DRO、InfoNCE与互信息MI之间的关联

在对比学习（InfoNCE）理论研究中，往往会从互信息的角度进行思考，即 InfoNCE 的本质是通过最大化正样本之间的互信息从而实现获得较好的表征。而 DRO 又拓宽了 InfoNCE 的理论解释途径，这不禁让我们思考 DRO，InfoNCE 以及互信息三者之间的关联。

公式 9 是 -divergence 下的互信息表示形式。结合 CL-DRO 表达式，我们发现：

定理 4.2 指出了最大化 CL-DRO 训练目标本质上是对互信息的的估计。这给出我们以下发现：

3.1 InfoNCE是一种更紧的互信息估计

-散度的现有常见变分近似是 Donsker-Varadhan 目标 () : 它适用于中的任意有限测度。但有研究 [4] 指出，该表达式没有考虑到，即定义在概率分布上这一事实。

因此，我们就有更严格的表示：。这一更紧的表示形式在定理 4.2 中恰好作为 DRO 和 MI 等价性的关键桥梁。

3.2 DRO bridges the gap between MI and InfoNCE

现有工作已经证明 InfoNCE 是互信息估计的下界，但是他们的证明仍然存在缺陷。如 MINE [5] 使用推导出的结果既不是 MI 的上界也不是 MI 的下界。而 CPC [6] 的推导过程又存在多次冗余的估计。上述两点问题在 [7] 中也有具体说明。而本文提出的 DRO 则回避了上述问题，直接建立起两者之间的理论桥梁。

3.3 DRO提供一般情形下MI的估计

现有互信息的估计往往是在 KL 散度下的，而定理 4.2 则给出了一种 -MI 的估计形式，例如，如果我们考虑散度的情况，由给出，我们可以得到凸共轭。变分表示变为，其中表示在分布上的方差。我们的理论框架提供了估计灵活的 -MI 的机会，它可以适应特定的场景。

方法

4.1 InfoNCE仍有不足

过于保守：DRO 的最糟糕分布情形下，负样本权重是按照分配，这表示最高相似度的负样本将获得最高权重。然而有研究表示，最具信息量的负样本往往是头部区域并非是头部尖端样本。因此我们认为盲目的按照相似度打分赋权不是一个最优选择。

对异常点非常敏感：DRO 本身存在的一个问题就是对异常点非常敏感 [8]。由于其仅关注最头部样本，这将导致头部样本中的噪音将无限度地被放大，从而严重影响模型收敛。

4.2 ADNCE

我们的目标就是改善 4.1 中提出的问题，即负样本权重分配至“更合理的区域”，而不是固定的仅关注最头部的样本。为此，我们引入提出一个简单的 re-weight 策略：

其中和是我们可以控制的两个超参数。如图 3 所示，控制权重分配的中心区域，越接近的样本权重越大，而控制权重分配的差异化（高度）。直观上，越小，样本之间的权重差异就越明显。将纳入训练目标可得：

实验

为验证 ADNCE 的有效性，我们在三个最为常见对比学习场景进行实验，分布是 image、sentence 以及 graph。具体实验设定请参见原文。

5.1 Image

如 Tab.3 所示，的网格搜索对模型性能具有至关重要的影响。从早期阶段（100 个 epoch）到后期（400 个 epoch)，这种影响在整个训练过程中都是显著的。此外，ADNCE 表现出持续优于其他方案，特别提高了训练早期阶段的表现。

相比之下，虽然 -CL-direct 引入了一种新的方法来设置的值，但其本质仍然偏重于最困难的负样本，因此与微调相比，产生了与使用网格搜索相似的性能。同时在 Fig.4 中，我们绘制了训练曲线以进一步说明 ADNCE 的稳定优越性。

5.2 Sentence

正如表 4 中所观察到的，ADNCE 始终优于 InfoNCE，平均 Spearman 相关性达到 77%。其中，用 ADNCE 替换 InfoNCE 的简便性以及在 BERT 和 RoBERTa 中观察到的显着性能改进证明了 ADNCE 的有效性和广泛适用性。此外，相对于的改进强调了选择适当鲁棒性半径的重要性。

5.3 Graph

表 5 显示，ADNCE 在四个数据集上均优于所有基线，尤其是与三种最先进的基于 InfoNCE 的对比方法（GraphCL、JOAO 和 JOAOv2）相比，从而在四个数据集上都创下了新记录。而在 GraphCL () 中观察到的相对于 GraphCL() 的改进与我们对 DRO 的理解一致。

总结

我们通过分布鲁棒优化 (DRO) 的视角提供了对比学习 (CL) 的新颖视角，并揭示了关于采样偏差容忍度、的作用以及 DRO 和 MI 之间的理论联系的几个关键见解。理论分析和实证实验都证实了上述发现。此外，我们从 DRO 的角度指出了 CL 的潜在缺点，例如过度保守和对异常值的敏感。为了解决这些问题，我们提出了一种新颖的 CL 损失——ADNCE，并验证了其在各个领域的有效性。

这项工作的局限性主要源于两个方面：1）我们的 DRO 框架只为基于 InfoNCE 的方法提供了理论解释，对于没有负样本的 CL 的仍然存在理论上的差距；2）ADNCE 需要通过参数调整权重分配，无法自适应学习最佳的重加权方案。

参考文献

[1] Ching-Yao Chuang, Joshua Robinson, Yen-Chen Lin, Antonio Torralba, Stefanie Jegelka. Debiased Contrastive Learning. NeurIPS 2020

[2] Joshua David Robinson, Ching-Yao Chuang, Suvrit Sra, Stefanie Jegelka. Contrastive Learning with Hard Negative Samples. ICLR 2021

[3] Tsai-Shien Chen, Wei-Chih Hung, Hung-Yu Tseng, Shao-Yi Chien, Ming-Hsuan Yang. Incremental False Negative Detection for Contrastive Learning. ICLR 2022

[4] Avraham Ruderman, Mark D. Reid, Dario García-García, James Petterson. Tighter Variational Representations of f-Divergences via Restriction to Probability Measures. ICML 2012

[5] Mohamed Ishmael Belghazi, Aristide Baratin, Sai Rajeswar, Sherjil Ozair, Yoshua Bengio, R. Devon Hjelm, Aaron C. Courville. Mutual Information Neural Estimation. ICML 2018: 530-539

[6] Aäron van den Oord, Yazhe Li, Oriol Vinyals. Representation Learning with Contrastive Predictive Coding. CoRR abs/1807.03748 (2018)

[7] Ben Poole, Sherjil Ozair, Aäron van den Oord, Alexander A. Alemi, George Tucker. On Variational Bounds of Mutual Information. ICML 2019: 5171-5180　

[8] Runtian Zhai, Chen Dan, J. Zico Kolter, Pradeep Ravikumar. DORO: Distributional and Outlier Robust Optimization. ICML 2021: 12345-12355

更多阅读