不用调参，不用改模型！CLUE社区发布国内首个Data-centric竞赛，白给数据分析服务

新智元报道

来源：GitHub

编辑：LRS 好困

【新智元导读】模型为中心的竞赛见得太多了，最近国内上新了一个中文NLP竞赛DataCLUE。与以往不同的是，它是以数据为中心的竞赛！不用调参，不用改模型，只需要修改输入数据即可，还有能白嫖的数据分析服务。

机器学习的进步是模型带来的还是数据带来的，这可能是一个世纪辩题。

以往的AI都是以模型为中心（Model-centric）的，主要考虑的问题是如何通过改造或优化模型来提高最终效果，它通常建立在一个比较固定的数据集上。

有数据显示超过90%的论文都是以模型为中心的，通过模型创新或学习方法改进提高效果，即使不少改进影响可能效果并不是特别明显。

模型的获取在今天也是相当容易的，在当前的人工智能领域，无论是自然语言处理（如BERT）或计算机视觉（ResNet），已经存在很多成熟高效模型，并且模型可以很容易从开源网站如GitHub获得。

在如今这个动不动上千亿参数模型的年代，模型不存在表达能力不足的情况，给模型更多的数据，就会取得更高的性能。让模型参与到更多的任务类型，模型也会更强！

吴恩达对此的想法是，一个机器学习团队80%的工作应该放在数据准备上，确保数据质量是最重要的工作，每个人都知道应该如此做，但没人在乎。如果更多地强调以数据为中心而不是以模型为中心，那么机器学习的发展会更快。

正是看到了这种巨大的差别，在吴恩达等人的推动下这种以数据为中心（Data-centric）的AI进一步的系统化，并成为一个有具有巨大实用价值方法论。

以数据为中心（Data-centric）的AI，是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据（无论是输入或者标签）来提高最终效果。

DataCLUE是一个以数据为中心的AI测评。它基于CLUE benchmark，结合Data-centric的AI的典型特征，进一步将Data-centric的AI应用于 NLP领域，融入文本领域的特定并创造性丰富和发展了Data-centric的AI。

在原始数据集外，它通过提供额外的高价值的数据和数据和模型分析报告（增值服务）的形式，使得融入人类的AI迭代过程（Human-in-the-loop AI pipeline)变得更加高效，并能较大幅度的提升最终效果。

项目地址：https://github.com/CLUEbenchmark/DataCLUE

官网：www.CLUEbenchmarks.com/dataclue.html

任务描述

在固定模型的情况下，参与测评的人需要想办法改进数据的质量来提升任务的最终效果。

1、可以对训练集、验证集进行修改（输入文本或标签），或者任意移动训练集和验证集的数据；

2、可以通过「非爬虫类」手段增加数据来完善训练和验证集。增加的数据方式包括但不限于：数据增强、文本生成、结合分析定向生成或添加;

3、可以通过算法或程序，或者结合人工的方式来改进数据集；但纯人工方式的数据改进，评审环节将不得分。

任务特点

DataClue 是一个全新的、与以往不同的竞赛，测评者不上传结果、不修改模型，DataCLUE的目标是改进数据集，而非模型。

它也是国内首个以数据为中心的AI测评，除了常规的训练、验证和测试集外，它还额外提供了标签的定义、训练集中进一步标注后的高质量数据。结合这些额外的信息，使得融入人类的AI迭代闭环（Human-in-the-loop AI pipeline)可以变得更加高效，并且在发挥算法模型在数据迭代过程中可以有更多空间和潜力。

最重要的是，举办方还免费提供了一项「增值服务」，额外提供模型训练和预测过程中的分析报告，让测评者能够更好地把握数据质量，使得以数据为中心的AI的迭代过程变得更有方向和系统化。

数据和模型分析报告，是基于用户提交的数据集基础上，在实验（运行和预测模型）过程中，结合AI技术产出的报告。把模型容易混淆或者预测错误的标签(y)、数据(x)、可疑的数据和数据集中薄弱的部分展示给测评人。

测评时间

报名开始与截止：2021年9月12日--2021年10月25日

初赛：2021年9月12日--2021年10月30日。前80名并超过Data-centric的baseline进入到复赛。初始选手，也将获得数据和模型的分析报告（简称增值服务）

训练集 & 验证集提供：2021年9月12；提交入口开放：2021年9月15日；每天22点更新一次在线成绩。

复赛：2021年11月1日--2021年12月5日。复赛时，将提供额外高质量标注数据。前15名进入到线上评审，进行在线答辩。

线上评审：2021年12月12日（下午2点-5点）

线上方案评审：方案评审通过考察参赛队伍提交方案的新颖性、实用性和解释答辩表现力来打分，由5位评审老师打分；每只队伍有10分钟的时间讲解方案，5分钟来回答问题。方案评审将以直播方法进行。

最终成绩：线上得分* 0.65 + 线上方案评审 * 0.35

数据集

IFLYTEK 长文本分类数据集（Long Text classification），该数据集关于app应用描述的长文本标注数据，包含和日常生活相关的各类应用主题，共119个类别，如打车、地图导航、免费WIFI、租车、女性、经营、收款等类别。

训练集包含12133条样本，验证集包含2599条样本。

每一条数据有三个属性，分别是类别ID，类别名称，文本内容。

{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}

学习资料

吴恩达：《从以模型为中心到以数据为中心的AI》