©PaperWeekly 原创 · 作者 | 李世鲲
单位 | 中科院信工所
研究方向 | 标签噪声学习
论文标题:
Estimating Noise Transition Matrix with Label Correlations for Noisy Multi-Label Learning
收录会议:
NeurIPS 2022
论文链接:
https://openreview.net/pdf?id=GwXrGy_vc8m
代码链接:
https://github.com/ShikunLi/Estimating_T_For_Noisy_Mutli-Labels
背景及动机
在现实生活中,一个实例样本自然与多个类别的标签相关联,这些标签具有复杂相关性,这自然而然引出了多标签学习的场景。最近,多标签学习场景下的标签噪声学习问题受到越来越多的关注 [1,2,3],因为收集大规模准确标签很耗时且成本很高,而通过众包、检索等方式可以更廉价、更容易地获取大量带噪标签。
▲ 图1 带噪多标签学习的图像示例[1]
在通用的带噪分类学习中,噪声转移矩阵可以用于表示从干净标签到带噪标签的转移关系[4,5]。而在带噪多标签学习的场景中,分配给实例的多个类别标签可能同时被破坏(如图1)。也就是说,实例的每个类别的真实标签和带噪标签的关系可以用一个噪声转移矩阵来表示。
噪声转移矩阵已被用于建立一系列具有统计一致性的噪声鲁棒算法 [4,5,6]。这些算法的主要优点是它们可以保证随着带噪样本数量的增加消除从带噪数据中学习到的分类器与从干净数据中学习到的最优分类器之间的差异。但是这些算法的有效性严重依赖于转移矩阵的准确性。为此,一系列转移矩阵的估计方法在带噪分类学习中被提出 [4,5,7],而在带噪多标签学习中转移矩阵的估计仍然具有挑战性。
具体来说,已有的大多数估计方法都假设锚点的存在,即完全属于某一类别的样本存在。然而,当只有带噪数据时,这种假设很强,且很难被验证。此外,这些方法需要精确地拟合带噪的类别后验概率,而由于严重的正负不平衡,这在多标签学习中相当困难。因此,如何避免已有估计方法中所需要的锚点或精确拟合带噪类后验, 从而有效地估计噪声转移矩阵是应用这些算法到带噪多标签场景的关键所在。
▲ 图2 利用标签相关性估计标签噪声转移矩阵
为了解决上述问题,我们考虑利用带噪多标签之间的标签相关性进行转移矩阵估计。具体来说,如图 2,一些在现实中不存在的标签相关性被包括在带噪多标签中。例如,实际中“鱼”和“水”总是同时出现,而“鸟”和“天”总是同时出现。但是,由于标签错误,在带噪数据集中,“鱼”和“天空”之间存在一定的标签相关性,这显然是不切实际的。
因此,直觉上来说,我们可以利用标签相关性的失配来识别和估计噪声转移矩阵,从而避免已有估计方法中所需要的锚点或精确拟合带噪类后验。
问题设置
在本节中,我们首先定义问题的场景设置。在本文中,标量是小写字母,矢量是小写粗体字母,矩阵/变量用大写字母表示。为了简单起见,令 .
设 是一对随机变量 的分布,其中 表示实例特征变量, 表示 个可能类别的标签变量。对于 , 表示实例 与类别 相关联;,则相反。
在多标签学习中,目标是从 中学习一个函数将每个未见到的实例 映射到正确的标签 。然而,正如上面所指出的, 很难被精确标注。
在被观察之前,训练集中实例的真实标签可能被破坏得到带噪训练样本集其中 表示带噪标签。设 为带噪随机变分布。在带噪多标签学习中,我们的目的是通过仅使用带噪训练样本来推断每个未见到的实例的正确标签。
在带噪多标签场景中,第 类的随机变量 和 通过第 类的噪声转移矩, 关联。普遍意义上来说,转移矩阵依赖于真实标签和实例特征,即 ,其中 和 取 0 或 1。
然而已有研究表明,在仅利用带噪训练样本的情况下,依赖于实例的转移矩阵在没有任何额外假设的情况下是不可识别的 [4]。因此,与大多数研究噪声转移矩阵估计的论文一样,在本文中,我们假设转移矩阵是实例无关的,即
方法介绍
在本节中,我们首先研究了在带噪多标签学习中实例无关的转移矩阵的可识别性问题。然后,受这些可识别性结果的启发,我们提出了一个新的方法通过利用标签相关性来估计转移矩阵。值得指出的是,所提出的估计方法既不要求锚点的存在,也不需要带噪后验的精确拟合。
3.1 噪声转移矩阵的可识别性
最近,Liu 等人 [8]基于 Kruskal 的可识别性结果在带噪分类场景中得到了一些关于标签噪声转移矩阵的可识别性的定理。受此启发,我们在带噪多标签场景中也得到一些利用标签相关性的实例无关的转移矩阵的可识别性结果
其中,与所提出方法最相关的是下列定理:
该定理从理论上保证了可以通过利用概率 和 来识别第 类的转移矩阵。值得注意的是, 表示带噪的标签相关性,而 可以隐含表示干净的标签相关性。因此,从直觉上来说,利用这些概率中隐含的标签相关性的失配可以实现转移矩阵的可识别性。更多的定理结果和相应的证明详见论文。下面将分两个阶段介绍所提出的转移矩阵估计方法。

3.2 阶段一:样本选择

所提出估计方法基于上述定理,因而需要额外的信息来估计 ,我们考虑采用样本选择(Sample Selection)来提供额外信息。
最近,深度网络的记忆效应[10] 在带噪分类学习中受到了广泛关注。该效应指的是深度网络将首先记忆带干净标签的训练数据然后才记忆带有错误标签的数据。先前的工作 [11,12] 利用这一特性在带噪分类学习中进行样本选择来得到一些很可能具有干净标签的样本。
我们同样可以利用这一特性在带噪多标签学习中为每个类 得到一个"干净"的样本集合 ,其中隐含的干净的标签相关性可以作为额外信息来以频率近似概率的方式估计 。虽然频率估计概率的误差可以以指数速度收敛到零 [9],但是在实施基于样本选择的概率估计方法前,一个主要的担心是:样本选择的采样偏差将导致后续概率估计时较大的估计误差。
一般来说,根据记忆效应,采样偏差意味着 中的样本具有对于第 类而言易于判别的特征。我们可以合理地假设,给定 ,这些样本关于类 的特征的分布是有偏的,而关于另一类  的特征分布是无偏的,即:
其中 是代表随机变量  的分布,而 是 的有偏分布; 是 的一部分特征,它包含关于类 是否出现的所有信息。
当这一假设得到满足时,样本选择的采样偏置不会导致估计误差。在现实世界场景中,由于复杂的标签相关性,这一假设不会严格成立。但是,当类标签 和 不共享主要的判别特征时,它能被大致满足。在后续实验中,我们的经验结果显示有偏样本选择的估计误差和无偏样本选择的估计误差之间的差距并不大。
3.3 阶段二:概率估计和转移矩阵求解
样本选择完成后,我们通过频率计数进行概率估计,然后通过求解一个简单的概率方程得到第 类的转移矩阵的估计值。
具体来说,对于第 类,我们首先选择另一个类别 ,并通过计数以频率估计概率:
其中 是指示函数,如果标识等式为真,则取 1,否则取 0。
由于这些共现概率暗含了标签相关性的失配,我们可以通过求解下列简单的概率方程估计第 类的转移矩阵 :
其中,(其中 和 取 0 或 1)表示待求的转移矩阵 中的元素。
实验结果
4.1 实验设置
我们在三个合成的带噪多标签数据集(Pascal-VOC2007, Pascal-VOC2012, 和 MS-COCO)上验证了所提出方法的有效性。对于这些数据集,我们根据设定的转移矩阵 人为对真实标签进行破坏。为了方便,我们对所有类别使用相同的噪声转移矩阵,即:
但是没有把这一信息泄露给算法。我们通过使用不同的转移矩阵来模拟不同的场景:
1),其中将一些正样本标记为负样本,这一场景也被称为带缺失标签的多标签学习;
2),其中将一些负样本标注为正样本,这一场景也被称为偏多标签学习;
3),其中正样本和负样本以相同的概率 错误标记;
4),其中正例和负例中含有相同数量的错误标记, 为每个样本的真实类别数量的平均值。
在实验中,我们取不同的 值测试了算法。对于所有数据集,我们将 10% 的带噪训练样本作为带噪验证集,并使用验证集上的 mAP 指标作为模型选择的标准。
4.2 噪声转移矩阵的估计性能
我们使用转移矩阵的估计误差之和,即 ,作为矩阵估计性能的评估度量。从表 1、2 和 3 中,我们可以看到,对于三个数据集上的所有情况,所提出的方法在各种噪声率上获得了最优或次最优的估计误差。
由于在带噪多标签学习中很难准确拟合带噪类的后验概率,因此已有的估计方法 T-estimator [5] 和 DualT-estimator [7] 需要在不同的噪声率下仔细调整超参数以获得较好的结果,并且在某些情况下非常敏感,例如 MS-COCO 数据集上。
相比之下,我们的方法在一个数据集上使用相同的超参数。在所有情况下都得到了相当或更好的结果,这反映了其对各种噪声率的鲁棒性。此外,为了研究采样偏差的影响,我们还利用真实标签得到无偏样本来进行估计(方法命名为“Our estimator gold”)。比较有偏和无偏样本得到的结果,可以看到,采样偏差是我们方法误差的主要因素,但其并不会导致过大的估计误差。
4.3 带噪多标签学习的分类性能
我们采用均值平均精度(mAP)、总体 F1 度量(OF1)和类别平均 F1 度量(CF1)作为分类性能的评估度量。为了利用估计得到的转移矩阵进行鲁棒的带噪多标签学习,我们将转移矩阵的估计方法与具有统计一致性的 Reweight 算法 [6] 相结合。参与比较的基线算法有以下三种:
(1)用于干净数据的多标签学习算法:Standard,AGCN 和 CSRA
(2)通用的带噪分类学习算法:GCE 和 CDR
(3)鲁棒的带噪多标签学习算法:WSIC、Reweight-T-max、Rewight-T-97%、Reweight-DualT-max、Rewight-DualT-97%
从下表我们可以知道,经过在不同数据集和带噪场景下的多次实验,我们的方法(Reweight-Ours)在 OF1 和 CF1 的评估度量上显著优于其他基线。这也侧面验证了,更准确的转移矩阵可以帮助具有统计一致性的噪声鲁棒算法取得更好的分类性能。
此外,由于网络结构和具有统计一致性的损失校正算法是兼容的,因此如下表所示,我们的方法也可以帮助具有复杂网络结构的先进多标签方法(如 AGCN 和 CSRA)在所有的三种分类评估度量上对标签噪声都更鲁棒。更多具体的实验结果和分析欢迎阅读原论文。
结论
在本文中,我们研究了带噪多标签学习中噪声转移矩阵的估计问题。我们证明了带噪声多标签场景下实例无关的转移矩阵的一些可识别性结果。受这些结果启发,我们提出了一种新的方法利用标签相关性信息来估计噪声转移矩阵。所提出的方法既不需要锚点也不需要精确拟合带噪后验概率。在三个流行的多标签数据集上的实验表明了该方法估计转移矩阵的有效性,以及所估计得到的转移矩阵能很好地帮助具有统计一致性的噪声鲁棒算法实现更好的分类性能。
参考文献
[1] Cosmin Octavian Pene, Amirmasoud Ghiassi, Taraneh Younesian, Robert Birke, and Lydia Yiyu Chen. Multi-label gold asymmetric loss correction with single-label regulators. ArXiv, 2021.
[2] Weiwei Liu, Xiaobo Shen, Haobo Wang, and Ivor W. Tsang. The emerging trends of multi-label learning. TPAMI, 2021.
[3] Ming-Kun Xie and Sheng-Jun Huang. CCMN: A general framework for learning with class-conditional multi-label noise. TPAMI, 2022.
[4] Xiaobo Xia, Tongliang Liu, Nannan Wang, Bo Han, Chen Gong, Gang Niu, and Masashi Sugiyama. Are anchor points really indispensable in label-noise learning? In NeurIPS, 2019.
[5] Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, and Lizhen Qu. Making deep neural networks robust to label noise: A loss correction approach. In CVPR, pages, 2233–2241, 2017.
[6] Tongliang Liu and Dacheng Tao. Classification with noisy labels by importance reweighting. TPAMI, 2016.
[7] Yu Yao, Tongliang Liu, Bo Han, Mingming Gong, Jiankang Deng, Gang Niu, and Masashi Sugiyama. Dual T: reducing estimation error for transition matrix in label-noise learning. In NeurIPS, 2020.
[8] Yang Liu, Hao Cheng, and Kun Zhang. Identifiability of label noise transition matrix. ArXiv, 2022.
[9] Stéphane Boucheron, Gábor Lugosi, and Pascal Massart. Concentration inequalities - a nonasymptotic theory of independence. In Concentration Inequalities, 2013.
[10] Devansh Arpit, Stanisław Jastrz˛ebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S Kanwal, Tegan Maharaj, Asja Fischer, Aaron Courville, Yoshua Bengio, et al. A closer look at memorization in deep networks. In ICML, 2017.
[11] Eric Arazo, Diego Ortego, Paul Albert, Noel E. O’Connor, and Kevin McGuinness. Unsupervised label noise modeling and loss correction. In ICML, 2019.
[12] Junnan Li, Richard Socher, and Steven C. H. Hoi. DivideMix: learning with noisy labels as semi-supervised learning. In ICLR, 2020.
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
继续阅读
阅读原文