CVPR 2022 | 如何从带有噪声标签的数据集中学到可靠模型？

©作者 | 西安大略大学、纽约大学等

来源 | 机器之心

噪声标签（Noisy labels）随着深度学习研究的深入得到广泛的关注，因为在众多实际落地的场景模型的训练都离不开真实可靠的标签信息。由于人工标注误差(专业性不足等问题)、数据原始噪声，带噪声的数据不可避免，清洗数据的工作也是更加困难。

在有监督的图像分类问题中，经典的 cross-entropy (CE) 损失函数是最为广泛应用的函数之一。当数据集不存在任何的噪声标签的时候，它往往能带来非常不错的效果。然而，当数据集中存在噪声标签的时候，它会导致模型对噪声标签过拟合，使模型的泛化性变差。本文从对比学习的角度研究了如何通过约束图像的特征来防止模型对噪声标签的过拟合。

现有的解决噪声标签的问题有基于 robust regularization, label correction, loss reweighting, 和 robust loss functions 等。本文的研究动机源于 robust loss functions。为了防止模型对噪声标签过拟合，现有的对噪声鲁棒的损失函数（mean absolute error (MAE)[1,2]，reverse cross-entropy loss (RCE) [3] 等）在一定程度上解决了噪声标签过拟合的同时，也存在对数据欠拟合的问题[4,5]。在实际应用中，这些对噪声鲁棒的损失函数是结合 CE 一起使用的，而 CE 容易造成对噪声数据的过拟合问题。因此我们思考，能否仅仅通过约束图像的特征，使整个模型仍然可以用 CE 训练且不受噪声标签的影响。

近期，来自西安大略大学，纽约大学以及字节跳动的学者们研究了如何从带有噪声标签的数据集中学到可靠的模型，这一基础且重要的问题。本工作主要由西安大略大学统计及精算系的易立完成，通讯作者为西安大略大学计算机系的助理教授王博予。

论文标题：

On Learning Contrastive Representations for Learning with Noisy Labels

论文链接：

https://arxiv.org/abs/2203.01785

本文主要回答了两个问题：1）基于对比学习得到的图像特征能给在标签噪声中学习带来什么好处；2）如何从噪声数据中学到基于对比学习的图像特征。在之后的实验部分，我们也展示了此方法可以和现有的带噪学习的方法相结合，能进一步提升模型的表现。这项研究已被 CVPR 2022 接收。

分析

首先，我们观测到模型在干净的数据集和噪声数据集下的表现是不同的。具体来说，模型从干净的数据集中学习，捕捉到的图像信息是和干净的标签相关的。模型从噪声数据中学习，捕捉到的图像信息是和噪声标签相关的。下图所显示的是 Grad-CAM 可视化，在噪声数据集中，对于被错标的图片来说，模型会更加关注跟图像真实标签无关的信息。当数据集是干净的情况下，模型会利用跟真实标签相关的信息去预测。

根据这项观察，我们假设两张正确标记的相同标签的图片所携的关于干净标签的信息应该是很相关的，并且它们所携带的关于错误标签的信息应该是无关的。基于此假设，我们证明了学到的特征携带丰富的与干净标签相关的信息，保证了模型不会欠拟合正确标记的样本。同时，此特征携带较少的与错误标签相关的信息，保证了模型不会过拟合错标的样本。为了方便，我们记学到的最优特征为 Z*。

为了验证 Z* 含有 (1) 丰富的与干净标签相关的信息, 和 (2) 少量的与噪声标签相关的信息，我们先用干净的数据集训练图像的特征模型，然后我们在特征模型上用带噪声标签的数据集训练一个线性分类器。作为对比，我们用 CE 损失函数在干净的数据集上训练神经网上并提取它的特征模型，然后在此特征上用同样的噪声数据集训练一个线性分类器。我们可以观测到，线性分类器在基于对比学习的特征模型上表现更好，说明对比学习下的图像特征确实有效的防止了对噪声标签的过拟合，同时也不会产生欠拟合的问题。

算法

本节中，我们以 SimSiam 对比学习框架 [6] 为例，分析了如何在有标签噪声的情况下学习特征模型。实际情况中，我们无法获得每张图片的真实标签。最自然的想法就是用模型的预测值作为样本的伪标签，然后优化公式：

这里

是一个 encoder， h是一个 prediction MLP, p 是模型的概率输出, 最后的指示函数是用来判断两个样本的是否来自于同一类，τ 是超参数。从梯度的角度分析，优化公式 1 将会导致错误的样本主导特征模型的学习。

根据之前的工作 [7] ，神经网络倾向于先拟合正确标记的样本，然后去拟合错误标记的样本。我们让两个来自同类的干净样本为

和另一个被错误标记为此类的样本为 x_m 。在模型刚开始训练的阶段时，正确的样本先被拟合。模型对

的预测为

并且容易产生

。一旦

，模型会使

。

过了模型训练的早期阶段，模型会开始拟合错误的样本 x_m，使得模型对 x_m 的预测 p_m 慢慢靠近 p_i 并且最终

。此时

，模型会开始拉近

的特征，通过计算梯度，我们发现由错误标签样本产生的梯度已经远远大于正确样本产生的梯度。因此，如果采用公式 1 作为目标函数，错标的样本主导了特征模型的学习。

我们从梯度的角度出发，在不改变目标函数最优解的情况下，防止了错标的样本主导模型的学习。我们提出新的目标函数来学习特征模型：

类似的，我们分析其梯度：

可以得出，由正确的样本产生的梯度大于由错标的样本产生的梯度。这样的特征模型的学将由正确标记的样本主导。实验中，我们也验证了，改进后的目标函数能带来更好的表现。

实验

首先，我们在 CIFAR 数据集中添加人工噪声来验证提出的目标函数 2，如下表 1-2 所示。在同样噪声下，我们的方法（CTRR）与其他 baselines 相比，取得了不错的结果，尤其是在噪声很高的情况。

其次，我们也在两个真实的噪声数据集中测试了 CTRR 的效果，结果如下表 3 所示。在真实的噪声数据集中，我们也得到了相同的结论。

除此之外，我们也对比了公式 1 和公式 2，如图所示。我们在 CIFAR-10 数据集中添加不同程度的噪声，发现我们以提出的公式 2 作为目标函数在不同程度的噪声下始终优于公式 1。

在我们的方法中，图像特征的学习是基于 SimSiam 框架，但是实验显示，我们的方法不限于 SimSiam 框架。如下表所示，CTRR 仍然可以在 SimCLR 和 BYOL 框架下使用。在 BYOL 框架下，CTRR 取得的效果更好。

本文的重点在于阐述如何从噪声数据集中学到基于对比的图像特征。但从提升效果的角度，CTRR 还有很大的进步空间。首先，如表 6 所示，我们在 CTRR 的基础上，加入了基于标签纠正的技巧，发现模型在验证集上的准确率都有不同程度的提升。其次，如表 7 所示，将 CTRR 和其他对噪声鲁棒的损失函数 (例如 GCE) 结合起来使用将会带来显著的提升。

结论

本文从一种新的角度出发，提出了一种简单有效的方法解决模型过拟合噪声的问题。从理论角度出发，我们分析了基于对比的图像特征本身对噪声有一定程度的鲁棒性。从算法角度出发，我们提出了对噪声鲁棒的的目标函数来学习可靠的图像特征。首先，通过一些实验我们验证了 CTRR 的有效性。其次，实验也显示 CTRR 在不同的框架下也可以取得非常不错的效果，体现了 CTRR 的灵活性。最后，通过与不同方法的结合，CTRR 的性能还可以得到进一步的提升。我们相信 CTRR 可以与更多的方法结合，来更好地解决数据中带有噪声标签的问题。

参考文献

[1] Ghosh, A., Kumar, H., and Sastry, P. S. Robust loss functions under label noise for deep neural networks. In Proceedings of the AAAI conference on artificial intelligence, volume 31, 2017.

[2] Zhang, Z. and Sabuncu, M. R. Generalized cross entropy loss for training deep neural networks with noisy labels. In Advances in Neural Informa- tion Processing Systems, 2018.

[3] Wang, Y., Ma, X., Chen, Z., Luo, Y., Yi, J., and Bailey, J. Symmetric cross entropy for robust learning with noisy labels. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 322–330, 2019.

[4] Ma, X., Huang, H., Wang, Y., Romano, S., Erfani, S., and Bailey, J. Nor- malized loss functions for deep learning with noisy labels. In International Conference on Machine Learning, pp. 6543–6553. PMLR, 2020.

[5] Englesson, E. and Azizpour, H. Generalized jensen-shannon divergence loss for learning with noisy labels. Advances in Neural Information Processing Systems, 34, 2021.

[6] Chen, X. and He, K. Exploring simple siamese representation learning. In IEEE Conference on Computer Vision and Pattern Recognition, 20

[7] Liu, S., Niles-Weed, J., Razavian, N., and Fernandez-Granda, C. Early- learning regularization prevents memorization of noisy labels. Advances in neural information processing systems, 33:20331–20342, 2020.

更多阅读

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续阅读

阅读原文

关键词

数据集

损失函数

信息

对比学习

所示