©PaperWeekly 原创 · 作者 | 吴俊康
单位 | 中国科学技术大学博士生
研究方向 |对比学习
本文从分布式鲁棒优化(DRO)的角度分析了对比学习损失函数(InfoNCE),揭示了 InfoNCE 对负样本分布的鲁棒性,并指出温度系数的本质是 DRO 中控制鲁棒半径的拉格朗日系数,同时也建立了 DRO 和互信息 (MI) 之间的理论联系。此外,我们从 DRO 的角度指出了 InfoNCE 的潜在缺点,例如过度保守和对异常值的敏感。最后提出了一种新的损失函数——ADNCE,并验证了其在各个场景的有效性。
论文标题:
Understanding Contrastive Learning via Distributionally Robust Optimization
论文链接:
https://arxiv.org/pdf/2302.04775.pdf
代码链接:
https://github.com/junkangwu/ADNCE
作者主页:
https://junkangwu.github.io/

摘要

近年来,对比学习因其在自监督领域卓越的表现,受到越来越多的关注。核心思想是学习“拉近”证样本(例如来自同一图像的增强数据),同时“推开”负样本(例如来自不同图像的增强数据)的表示。通过利用这种直观的概念,无监督学习甚至开始挑战监督学习。然而,对比学习饱受困扰的一个问题就是——负采样偏差。由于无监督场景下的对比学习无法提前获得物品标签,负样本采样就成为了一个显著的问题。
为了解决这个问题,近年来有一些工作缓解这个问题,比如,[1, 2] 通过估计最优负样本的分布以缓解负采样中出现的偏差,[3] 则添加了一个检测模块用于识别并且修正存在的假负样本。
本工作则刷新了以往对比学习领域相关工作的认知,通过引入分布式鲁棒优化(DRO)这一理论工具,我们发现对比学习损失函数(InfoNCE)本质上是 KL 散度范围内,作用在负样本分布上的鲁棒优化目标(CL-DRO)。这一发现首先揭示了 InfoNCE 中的温度系数 并非是一种启发式设计,而是控制负样本鲁棒半径的一个拉格朗日系数。同时拥有 DRO 这一理论框架,我们还可以对其难负样本挖掘、方差控制等性质一一提供理论上的解释。
进一步,我们不局限于 KL 散度,分析了一般情况下(-divergence)下的 DRO 目标,有趣的是我们验证了任何 -divergence 下的 CL-DRO 和该 -divergence 对应的变分表示的等价性。这一发现严格上证明出“InfoNCE 是更紧的互信息的估计”。同时,这也为任意 -divergence 下的互信息估计提供了新的途径。
最后,DRO 的提出也揭示出 InfoNCE 存在的缺陷——过于保守,盲目地赋予难负样本最高的权重;以及忽略了 outlier 数据的影响。为改善这一现状,我们提出可调节的 InfoNCE(ADNCE)用于重塑 worst-case 分布,通过在多个领域的尝试(CV,NLP 和 Graph)验证了本方法的有效性。
从DRO的视角理解对比学习
2.1 动机
在对比学习(CL)的实际应用中,负样本 (x,y) 通常是从训练数据中统一抽取的,它们可能具有相似的语义(例如标签)。正如 Chuang [1] 等人所提出的,这引入了负采样偏差的潜在问题。 
在本项研究中,我们观察到一个有趣的现象,即 InfoNCE 本身表现出对负采样偏差的抗噪性。我们在两个基准数据集 CIFAR10 和 STL10 上对 CL 进行了测试,如下表所示,我们发现:
1)通过微调温度 ,传统的 SimCLR 表现出显著的提升,达到了与专门设计用于解决负采样偏差的方法相当的性能水平(即 SimCLR () 与 SimCLR ()、DCL [1] 和 HCL [2]);
2)通过适当选择 ,DCL 和 HCL 实现的相对改进是微乎其微的。
这些发现引导我们提出两个关键的问题:
  • 为什么 InfoNCE 表现出对负采样偏差的容忍度?
  • 扮演什么角色,为什么如此重要?
2.2 分布式鲁棒优化(DRO)
在现有的机器学习任务中,我们默认其遵循 iid 假设(训练集样本分布和测试集样本分布均独立同分布)。为解决不满足 iid 假设的情形,DRO 旨在定义一个潜在的分布 Q 的集合,优化其中最糟糕的(worst-case)分布下的目标函数。
其中潜在分布 Q 是围绕在初始训练分布 附近,并且两者的距离 在鲁棒半径 内。
2.3 CL-DRO
首先,我们定义一个新的训练目标——CL-DRO。CL-DRO 可以理解为基本目标 增强版,其目的是增加正样本之间的表征相似度并减少负样本之间的相似度。CL-DRO 通过在负样本分布上结合 DRO 来改进 ,其中 优化了一系列潜在分布。因此,CL-DRO 使模型能够适应负样本分布变化。
有趣的是:当我们选取 KL 散度作为 的距离度量。CL-DRO 本质上和 InfoNCE 目标函数等价:
定理 3.2 指出了 InfoNCE 成功的关键原因:对负样本分布采取了鲁棒优化,而非固定分布下的优化。其优势在于,面临负样本噪音或者真实负样本难以获取的情形,其提供了一个更加鲁棒的优化目标,从而直接降低了采样误差的影响,同时温度系数 也并非一种启发式设计,而是一个拉格朗日系数,控制了鲁棒性能的关键。
定理 3.3 则表示出 InfoNCE 是理想负样本分布下损失函数的上界,其中 展现出采样样本 越多,两者差距逐渐减少(也间接指出了为何对比学习需要大量负样本的原因);同时也为温度系数如何影响性能提供了直观解释。
2.4 从DRO的视角理解温度系数
A. 调节鲁棒半径
推论 3.4 是我们通过对 CL-DRO 的表达式进行近似求解得到,该表达式展现了温度系数 、鲁棒半径 以及负样本打分方差 三者之间的关系。 值过大意味着鲁棒半径 较小,这将不满足 中的约束条件。
直观上,较大的 描绘了 DRO 中的受限分布集合较小,该分布集可能无法包含理想的负分布,从而导致鲁棒性下降。反之,随着 减小,条能得到满足,但它扩展了项 并放松泛化界限。这两个因素在 的选择上建立了权衡。
B. 控制负样本的方差
定理 3.5 同样是一个很有意思的发现:给定任何 -divergence,其对应的 CL-DRO 目标函数可以近似表达为一个 mean-variance 表达式,其中温度系数是控制方差项惩罚权重的超参数。variance regularization 常常用于损失函数上,是一种降低损失方差直接有效的策略。然而在公式 8 中所示,仅仅控制在负样本损失的方差是一种较优的选择,我们认为其是 InfoNCE 成功的关键之一。
C. 体现难负样本挖掘
值得注意的是,我们将 KL 散度下 CL-DRO 目标函数对应的 worst-case 分布进行求解,可得 。 的表达式体现出每个负样本被赋予的权重是由决定,即打分越高,负样本权重越高,并且 越小会加剧这一权重差距。这一发现尽管和近年来很多结论一致,但我们从 DRO 提供了一个新的证明思路。
2.5 实验验证
为验证上述发现,我们一一通过实验进行验证。
首先,为验证 与采样偏差之间的关联,我们利用 CIFAR10 上标签,调整负样本中假负样本的比例(1.0 代表均匀采样,保留所有假负样本;0.0 代表无任何假负样本存在,即有监督负采样)。如图 1 所示,随着噪音比例增加,最优温度系数也逐渐降低,即鲁棒半径逐渐增大。这一发现符合推论 3.4 的结论。
进一步,我们测试不同温度系数下,负样本打分的方差与正样本预测分数的均值的变化。如图 2 所示,温度系数越小,负样本的方差也逐渐降低,即对应公式 8 中对负样本方差的惩罚逐渐增大。与之对应的正样本均值也逐渐降低。这一发现仅凭现有对比学习中的理论研究很难将其解释清楚,但有了 DRO 这一理论工具,上述现象都变得直观且可解释了。
最后,我们利用公式 8 的目标函数在 CIFAR10 与 STL10 上进行测试,如表2所示,简单的 mean-variance 损失函数形式即可实现和 InfoNCE 比肩的性能,这一实验现象同样验证了定理 3.5 的正确性。

DRO、InfoNCE与互信息MI之间的关联

在对比学习(InfoNCE)理论研究中,往往会从互信息的角度进行思考,即 InfoNCE 的本质是通过最大化正样本之间的互信息从而实现获得较好的表征。而 DRO 又拓宽了 InfoNCE 的理论解释途径,这不禁让我们思考 DRO,InfoNCE 以及互信息三者之间的关联。
公式 9 是 -divergence 下的互信息表示形式。结合 CL-DRO 表达式,我们发现:
定理 4.2 指出了最大化 CL-DRO 训练目标本质上是对互信息的的估计。这给出我们以下发现:
3.1 InfoNCE是一种更紧的互信息估计
-散度的现有常见变分近似是 Donsker-Varadhan 目标 () : 它适用于 中的任意有限测度。但有研究 [4] 指出,该表达式没有考虑到 ,即定义在概率分布上这一事实。
因此,我们就有更严格的表示:。这一更紧的表示形式在定理 4.2 中恰好作为 DRO 和 MI 等价性的关键桥梁。
3.2 DRO bridges the gap between MI and InfoNCE
现有工作已经证明 InfoNCE 是互信息估计的下界,但是他们的证明仍然存在缺陷。如 MINE [5] 使用 推导出的结果既不是 MI 的上界也不是 MI 的下界。而 CPC [6] 的推导过程又存在多次冗余的估计。上述两点问题在 [7] 中也有具体说明。而本文提出的 DRO 则回避了上述问题,直接建立起两者之间的理论桥梁。
3.3 DRO提供一般情形下MI的估计
现有互信息的估计往往是在 KL 散度下的,而定理 4.2 则给出了一种 -MI 的估计形式,例如,如果我们考虑 散度的情况,由 给出,我们可以得到凸共轭变分表示变为 ,其中 表示 在分布 上的方差。我们的理论框架提供了估计灵活的 -MI 的机会,它可以适应特定的场景。
方法
4.1 InfoNCE仍有不足
过于保守DRO 的最糟糕分布情形下,负样本权重是按照 分配,这表示最高相似度的负样本将获得最高权重。然而有研究表示,最具信息量的负样本往往是头部区域并非是头部尖端样本。因此我们认为盲目的按照相似度打分赋权不是一个最优选择。
对异常点非常敏感:DRO 本身存在的一个问题就是对异常点非常敏感 [8]。由于其仅关注最头部样本,这将导致头部样本中的噪音将无限度地被放大,从而严重影响模型收敛。
4.2 ADNCE
我们的目标就是改善 4.1 中提出的问题,即负样本权重分配至“更合理的区域”,而不是固定的仅关注最头部的样本。为此,我们引入 提出一个简单的 re-weight 策略:
其中 和 是我们可以控制的两个超参数。如图 3 所示, 控制权重分配的中心区域,越接近 的样本权重越大,而 控制权重分配的差异化(高度)。直观上, 越小,样本之间的权重差异就越明显。将 纳入训练目标可得:
实验
为验证 ADNCE 的有效性,我们在三个最为常见对比学习场景进行实验,分布是 image、sentence 以及 graph。具体实验设定请参见原文。
5.1 Image
如 Tab.3 所示, 的网格搜索对模型性能具有至关重要的影响。从早期阶段(100 个 epoch)到后期(400 个 epoch),这种影响在整个训练过程中都是显著的。此外,ADNCE 表现出持续优于其他方案,特别提高了训练早期阶段的表现。
相比之下,虽然 -CL-direct 引入了一种新的方法来设置 的值,但其本质仍然偏重于最困难的负样本,因此与微调 相比,产生了与使用网格搜索相似的性能。同时在 Fig.4 中,我们绘制了训练曲线以进一步说明 ADNCE 的稳定优越性。
5.2 Sentence
正如表 4 中所观察到的,ADNCE 始终优于 InfoNCE,平均 Spearman 相关性达到 77%。其中,用 ADNCE 替换 InfoNCE 的简便性以及在 BERT 和 RoBERTa 中观察到的显着性能改进证明了 ADNCE 的有效性和广泛适用性。此外, 相对于 的改进强调了选择适当鲁棒性半径的重要性。
5.3 Graph
表 5 显示,ADNCE 在四个数据集上均优于所有基线,尤其是与三种最先进的基于 InfoNCE 的对比方法(GraphCL、JOAO 和 JOAOv2)相比,从而在四个数据集上都创下了新记录。而在 GraphCL () 中观察到的相对于 GraphCL() 的改进与我们对 DRO 的理解一致。
总结
我们通过分布鲁棒优化 (DRO) 的视角提供了对比学习 (CL) 的新颖视角,并揭示了关于采样偏差容忍度、 的作用以及 DRO 和 MI 之间的理论联系的几个关键见解。理论分析和实证实验都证实了上述发现。此外,我们从 DRO 的角度指出了 CL 的潜在缺点,例如过度保守和对异常值的敏感。为了解决这些问题,我们提出了一种新颖的 CL 损失——ADNCE,并验证了其在各个领域的有效性。
这项工作的局限性主要源于两个方面:1)我们的 DRO 框架只为基于 InfoNCE 的方法提供了理论解释,对于没有负样本的 CL 的仍然存在理论上的差距;2)ADNCE 需要通过参数调整权重分配,无法自适应学习最佳的重加权方案。
参考文献
[1] Ching-Yao Chuang, Joshua Robinson, Yen-Chen Lin, Antonio Torralba, Stefanie Jegelka. Debiased Contrastive Learning. NeurIPS 2020
[2] Joshua David Robinson, Ching-Yao Chuang, Suvrit Sra, Stefanie Jegelka. Contrastive Learning with Hard Negative Samples. ICLR 2021
[3] Tsai-Shien Chen, Wei-Chih Hung, Hung-Yu Tseng, Shao-Yi Chien, Ming-Hsuan Yang. Incremental False Negative Detection for Contrastive Learning. ICLR 2022
[4] Avraham Ruderman, Mark D. Reid, Dario García-García, James Petterson. Tighter Variational Representations of f-Divergences via Restriction to Probability Measures. ICML 2012
[5] Mohamed Ishmael Belghazi, Aristide Baratin, Sai Rajeswar, Sherjil Ozair, Yoshua Bengio, R. Devon Hjelm, Aaron C. Courville. Mutual Information Neural Estimation. ICML 2018: 530-539
[6] Aäron van den Oord, Yazhe Li, Oriol Vinyals. Representation Learning with Contrastive Predictive Coding. CoRR abs/1807.03748 (2018)
[7] Ben Poole, Sherjil Ozair, Aäron van den Oord, Alexander A. Alemi, George Tucker. On Variational Bounds of Mutual Information. ICML 2019: 5171-5180 
[8] Runtian Zhai, Chen Dan, J. Zico Kolter, Pradeep Ravikumar. DORO: Distributional and Outlier Robust Optimization. ICML 2021: 12345-12355
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
继续阅读
阅读原文