数据选择与标记校正算法设计
以深度学习为代表的机器学习算法在诸多领域成功应用很大程度归因于预先收集的高质量大规模有监督数据集。
然而,真实应用场景中获得的训练数据集通常存在质量参差不齐、良莠混杂的现象,其中最为典型的是标记噪声问题。拥有强大拟合能力的深度学习技术在低质量标记数据上训练的模型往往出现显著过拟合现象,而无法在测试数据上获得良好的泛化性能。
这一问题也是后深度学习时代亟需解决的重要瓶颈问题。数据选择与标记校正是解决此问题的关键技术。
本擂台赛针对低质量数据(特别是蕴含噪音标记数据)的特点,要求参赛者发展尽可能高效、简洁、对多种异源任务适用的数据选择和标记校正算法,使得深度网络模型对低质测试数据具有良好的泛化预测能力。
背景意义
近年来,以深度学习为代表的机器学习算法在诸多应用领域取得了令人瞩目的成就。究其背后成功的最大因素,很大程度依赖于预先收集的质量高且容量大的有监督数据集。
然而,真实应用场景中获得的训练数据集通常大多质量参差不齐、良莠混杂,其中最为典型的就是标记噪声问题,即数据标记出现错误的情况。
拥有强大拟合能力的深度学习技术在此类低质量标记数据上学得的标记预测模型往往出现显著过拟合问题,无法在测试数据上获得良好的泛化表现。这一问题也因而成为后深度学习时代亟需解决的重要瓶颈问题。
数据选择与标记校是处理此类问题时最常采用的关键技术。数据选择技术主要通过评估数据质量来对其进行针对性遴选或不同程度抑制/放大其在训练中发挥的作用,标记校正技术需要挑选出数据中蕴含错误标记的样本并对其标记进行纠正并将其在训练中重新利用。
近年来,多种思路不同的数据样本选择和标记校正方案被提出,但大多是针对特定任务进行特别设计,缺乏对广泛任务的通用性、一般性与普适性。考虑到现实应用中的数据形式复杂多样,学习任务差异性显著,发展对多种异源任务适用的数据选择和标记校正普适算法对推动机器学习,特别是深度学习技术,在真实应用场景中有效应用具有重大促进价值。
赛题内容
本次比赛要求参赛者能够查阅相关资料,结合低质数据(特别是蕴含噪音标记数据)的特点,发展尽可能高效、简洁、对多种异源任务适用的数据选择和标记校正算法,特别是期望所研发算法能够具有良好的有效数据遴选与错误标记校正功能,进而使得训练而得的深度网络模型对测试数据具有良好的泛化预测能力。 
赛题描述
以下简要介绍问题的设定。对于一个分类问题,假设其干净标记的训练数据集为
代表第𝑖个数据, 代表该数据对应的干净标记。在真实应用场景中,我们通过较低代价采集而得的数据不可避免的会存在错误标记,我们将其记为
其中代表第i个数据获得的噪音标记。一般地,我们使用如下的概率转移公式来理解噪音标记的生成过程,即
(1)
其中表示样干净标记被错标为标记的概率,且一般要求:
如果我们对每个数据定义一个指示变量表示被选择参与训练,表示不选入,或者以概率程度选入。
一般地,数据选择与标签校正算法需要完成对的指定,进而实现对有效训练数据进行遴选,并对选出的噪音标记数据进行标记校正的目的。
要求参赛选手对给定的噪音标记数据集为输入构建算法(所设计的算法不局限于对的显式指定,只要最终能够实现对有效数据的遴选、对错误标记的校正都是值得鼓励的),实现对多种异源噪音标记问题的数据自动选择与标记自动校正功能,同时保证训练获得的深度模型在测试数据集上能够获得良好泛化表现。
初赛共分为四个任务,所采用的数据集特点如下:
任务1-3为模拟标记噪音数据集,其不同类型的标记噪音基于标准的干净标记数据集通过如上式(1)的方式生成;
任务4为实际标记噪音数据集,是实际中通过众包或者网络爬虫等方式收集的真实数据集。
1
任务1:该任务产生的噪音标记数据集假设每个类样本被错误标注为其他类的概率是相同的,即:
其中τ为数据集噪音率。
2
任务2:该任务产生的噪音标记数据集假设只在某些类产生标记噪音。考虑到数据集中类与类的相似性和差异性,在标注数据集时噪音更容易发生在相似类之间,即:
其中S⊂{0,1,⋯,C-1}是相似类的集合,是类i标记为类j的噪音率。
3
任务3:该任务产生的噪音标记数据集假设对每个样本产生的噪音率是不同的。考虑到数据集中不同样本的标注难度不同,在标注数据集时噪音更容易发生难样本上,即:
其中对不同样本会产生不同的噪音率。
4
任务4:采用收集于真实场景的数据集,要求采用与以上三个任务格式统一的算法对本任务提供的真实数据集进行分类。
决赛共分为两个任务,要求用初赛阶段提出的算法在这两个任务上进行训练和测试,其中任务5为模拟标记噪音数据集,任务6为实际标记噪音数据集:
5
任务5:模拟标记噪音数据集,其中噪音的生成方式和初赛一致,但噪音形式更加多样。真实应用场景中对数据的处理和使用会有一些限制,这里特别考虑数据隐私问题。为此,本任务对数据进行脱敏预处理,只提供脱敏后的数据矩阵和对应的噪音标记,统一用pkl格式存储表示。
6
任务6:实际标记噪音数据集,数据源自实际场景采集的大规模噪音标签数据集,其噪音生成方式未知。
注意:
每个任务中各个数据集均提供了相应baseline代码,其中数据加载代码和backbone模型不允许进行修改。为强调基础算法创新,不推荐使用预训练模型(如有监督或者自监督学习获得的模型权重等),以及除该比赛提供数据以外的训练数据(决赛可参考使用初赛数据)。
数据集描述
初赛阶段:每个数据集会提供文件夹data、test和label.txt,其中data文件夹中包含了需要进行训练的所有数据,label.txt文件包含了所有数据的标记(带有噪音,并不提供数据真实的标记),test文件中包含了需要进行测试的所有数据(不包含标记)。所有数据集均是在现有开源数据中采样获得的。
01
任务1:本任务采用的基准数据集是
CIFAR-10、CIFAR-100、Tiny ImageNetTwitterSST
CIFAR-10:该数据集有10个类,每个类包含5000张训练图像和1000张测试图像,关于数据集的详细介绍访问
https://www.cs.toronto.edu/~kriz/cifar.html
CIFAR-100:该数据集有100个类,每个类包含500张训练图像和100张测试图像。其100个类可以分为20个超类。每个图像都带有一个“精细”标记(它所属的类)和一个“粗略”标记(它所属的超类),关于数据集的详细介绍访问
https://www.cs.toronto.edu/~kriz/cifar.html
Tiny ImageNet:该数据集有200个类,每个类包含500张训练图像、50张验证图像和50个测试图像,关于数据集的详细介绍请访问
https://www.kaggle.com/competitions/tiny-imagenet/overview
Twitter:该语音数据集有10个类。包含8000条推文的训练集、800条推文的验证集和6015条推文的测试集,关于数据集的详细介绍请访问
https://aclanthology.org/P11-2008.pdf
SST:该数据集由单句电影评论组成,有2个类。包含6911条评论的训练集中、872条评论的验证集、1821条评论的测试集,关于数据集的详细介绍请访问
https://www.kaggle.com/datasets/atulanandjha/stanford-sentiment-treebank-v2-sst2
02
任务2:本任务采用的基准数据集是CIFAR-10CIFAR-100组合数据集TwitterSST
组合数据集:该数据集使用来自鱼、鸟、食物、狗四个不同领域的数据集组合构成,每个数据集各6类,每个类包含900张训练图片和100张测试图片。不同数据集四个不同领域数据,因此不同数据集间的差距大于数据内的类间差距,数据采样于ImageNetfood-101Tsinghua Dogs数据集,关于数据集的详细介绍请访问
https://image-net.org/index.php
https://data.vision.ee.ethz.ch/cvl/datasets_extra/food-101/
https://cg.cs.tsinghua.edu.cn/ThuDogs/
03
任务3:本任务采用的基准数据集是CIFAR-10CIFAR-100
04
任务4:本任务需要对真实数据集进行分类。本任务使用的三个数据集是基于网络公开的真实数据集Webvision采样获取得到的,分别从该数据集中两次随机抽取50类、一次随机抽取100类构成三个子数据集。
WebVision:使用ImageNet数据集中的1000个类别,在Google图像和Flickr这两个网站上进行搜索爬取,获得的240余万幅图片。此处任意选取WebVision数据集中部分数据构成三个新的真实噪音数据集关于数据集的详细介绍请访问
https://data.vision.ee.ethz.ch/cvl/webvision/dataset2017.html
决赛阶段:包括更多仿真和真实噪音标签数据集实验任务,具体的任务形式和数据会在决赛公开。
05
任务5仿真数据集,其中噪音的生成方式和初赛一致,噪音形式更加多样。将不再提供仿真数据集的具体介绍,只会以pkl的形式提供脱敏后的数据矩阵和对应的噪音标记。
06
任务6:真实数据集,数据源自实际场景采集的大规模噪音标签数据集。
大赛时间
大赛分为初赛和决赛两个比赛环节。
初赛时间:2022年8月初-10月07日
决赛时间:2022年11月1日-11月15日
参赛详情将于开赛前在大赛官网及官方公众号发布,敬请关注。
继续阅读
阅读原文