新智元报道  

来源:GitHub
编辑:LRS 好困
【新智元导读】模型为中心的竞赛见得太多了,最近国内上新了一个中文NLP竞赛DataCLUE。与以往不同的是,它是以数据为中心的竞赛!不用调参,不用改模型,只需要修改输入数据即可,还有能白嫖的数据分析服务。
机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。
以往的AI都是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。
有数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。
模型的获取在今天也是相当容易的,在当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如GitHub获得。
在如今这个动不动上千亿参数模型的年代,模型不存在表达能力不足的情况,给模型更多的数据,就会取得更高的性能。让模型参与到更多的任务类型,模型也会更强!
吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。
正是看到了这种巨大的差别,在吴恩达等人的推动下这种以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。
以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。
DataCLUE是一个以数据为中心的AI测评。它基于CLUE benchmark,结合Data-centric的AI的典型特征,进一步将Data-centric的AI应用于 NLP领域,融入文本领域的特定并创造性丰富和发展了Data-centric的AI。
在原始数据集外,它通过提供额外的高价值的数据和数据和模型分析报告(增值服务)的形式, 使得融入人类的AI迭代过程(Human-in-the-loop AI pipeline)变得更加高效,并能较大幅度的提升最终效果。
项目地址:https://github.com/CLUEbenchmark/DataCLUE
官网:www.CLUEbenchmarks.com/dataclue.html
任务描述
在固定模型的情况下,参与测评的人需要想办法改进数据的质量来提升任务的最终效果。
1、 可以对训练集、验证集进行修改(输入文本或标签),或者任意移动训练集和验证集的数据;
2、 可以通过「非爬虫类」手段增加数据来完善训练和验证集。增加的数据方式包括但不限于:数据增强、文本生成、结合分析定向生成或添加;
3、 可以通过算法或程序,或者结合人工的方式来改进数据集;但纯人工方式的数据改进,评审环节将不得分。
任务特点
DataClue 是一个全新的、与以往不同的竞赛,测评者不上传结果、不修改模型,DataCLUE的目标是改进数据集,而非模型。
它也是国内首个以数据为中心的AI测评,除了常规的训练、验证和测试集外,它还额外提供了标签的定义、训练集中进一步标注后的高质量数据。结合这些额外的信息,使得 融入人类的AI迭代闭环(Human-in-the-loop AI pipeline)可以变得更加高效,并且在发挥算法模型在数据迭代过程中可以有更多空间和潜力。
最重要的是,举办方还免费提供了一项「增值服务」,额外提供模型训练和预测过程中的分析报告,让测评者能够更好地把握数据质量,使得以数据为中心的AI的迭代过程变得更有方向和系统化。
数据和模型分析报告,是基于用户提交的数据集基础上,在实验(运行和预测模型)过程中,结合AI技术产出的报告。把模型容易混淆或者预测错误的标签(y)、数据(x)、可疑的数据和数据集中薄弱的部分展示给测评人。
测评时间
报名开始与截止:2021年9月12日--2021年10月25日
初赛:2021年9月12日--2021年10月30日。前80名并超过Data-centric的baseline进入到复赛。初始选手,也将获得数据和模型的分析报告(简称增值服务)
训练集 & 验证集提供:2021年9月12;提交入口开放:2021年9月15日;每天22点更新一次在线成绩。
复赛:2021年11月1日--2021年12月5日。复赛时,将提供额外高质量标注数据。前15名进入到线上评审,进行在线答辩。
线上评审:2021年12月12日(下午2点-5点)
线上方案评审:方案评审通过考察参赛队伍提交方案的新颖性、实用性和解释答辩表现力来打分,由5位评审老师打分;每只队伍有10分钟的时间讲解方案,5分钟来回答问题。方案评审将以直播方法进行。
最终成绩:线上得分* 0.65 + 线上方案评审 * 0.35
数据集
IFLYTEK 长文本分类数据集(Long Text classification),该数据集关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别,如打车、地图导航、免费WIFI、租车、女性、经营、收款等类别。
训练集包含12133条样本,验证集包含2599条样本。
每一条数据有三个属性,分别是类别ID,类别名称,文本内容。
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
学习资料
吴恩达:《从以模型为中心到以数据为中心的AI》
系统化方式、通过迭代形式改进数据集主要包括:
1、训练模型;
2、错误分析:
发现算法模型在哪些类型的数据上表现不佳(如:数据过短导致语义没有表达完全、一些类别间概念容易混淆导致标签可能不正确)
3、改进数据:
  1)更多数据:数据增强、数据生成或搜集更多数据,从而获得更多的输入数据。
  2)更一致的标签定义:当有些类别容易混淆的时候,改进标签的定义。基于清晰的标签定义,纠正部分数据的标签。
4、重复1-3步。
其中一个重要的概念是MLOps,即Machine Learning和Operations的组合,是ModelOps的子集,是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。
与DevOps或DataOps方法类似,MLOps希望提高自动化程度并提高生产ML的质量,同时还要关注业务和法规要求。MLOps的最重要任务是提供高质量数据;其次要保证标签的一致性,检验标签是否有自己所管辖的明确界限。
Know Your Data,KYD
KYD 是Google 推出的一个标注工具,其目标是提高数据质量,从而缓解公平性和偏见问题。KYD 还提供了一系列特性,包括允许用户探索和检查数据集,用户可以基于给定数据集中已经存在的注释进行过滤、分组和相关性研究。
还可以看到数据内部的相关性等指标。
PClean
https://arxiv.org/abs/2007.11838
PClean 的系统是概率计算项目(Probabilistic Computing Project) 研究人员编写的针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模)。
PClean 可以对商业数据,例如关系数据库和电子表格中的条目进行清洗优化。PClean 使用基于知识的方法来自动化数据清洗的过程: 即用户在定义数据的时候,已经隐含包括了数据库的背景知识以及可能出现的各种问题。
参考资料:
https://www.cluebenchmarks.com/dataclue.html
https://github.com/CLUEbenchmark/DataCLUE
继续阅读
阅读原文