CCL2022 | 汉语学习者文本纠错评测期待您的参与!
每天给你送来NLP技术干货!
我们依托第二十一届中国计算语言学大会(CCL 2022),组织汉语学习者文本纠错评测。本次评测既整合了已有的相关评测数据和任务,又有新开发的数据集,以设置多赛道、统一入口的方式开展比赛任务。同时,我们研制了各赛道具有可比性的评测指标,立足于构建汉语学习者文本纠错任务的基准评测框架。
赛事最新进展:
6月5日:开放报名
6月10日:开放各个赛道的训练集、开发集以及赛道三、四、五的第一阶段测试集
6月15日:公开各个赛道的基线模型及评测指标
更详细内容可查看评测网站:
https://github.com/blcuicall/CCL2022-CLTC
遇到任何问题请发邮件或者在 Issue 中提问,欢迎大家参与。
本次评测设置以下五个赛道:
赛道一:中文拼写检查(Chinese Spelling Check)任务目的是检测并纠正中文文本中的拼写错误(Spelling Errors)。对于给定的一段输入文本,最终需给出拼写错误的位置及对应的修改结果,其中拼写错误包含:音近、形近、形音兼近三种。如表1所示,“14”“15”为两个错误位置,“印”“象”为对应位置的修改结果。如该句没有错误,则输出“(id=xxx) 0”即可。
赛道二:中文语法错误检测(Chinese Grammatical Error Diagnosis)任务目的是检测出中文文本中每一处语法错误的位置、类型。语法错误的类型分为赘余(Redundant Words,R)、遗漏(Missing Words,M)、误用(Word Selection,S)、错序(Word Ordering Errors,W)四类。评测任务要求参加评测的系统输入句子(群),其中包含有零个到多个错误。参赛系统应判断该输入是否包含错误,并识别错误类型,标记出其在句子中的位置和范围,对缺失和误用给出修正答案。
赛道三:多维度汉语学习者文本纠错(Multidimensional Chinese Learner Text Correction)。同一个语法错误从不同语法点的角度可被划定为不同的性质和类型1,也会因语言使用的场景不同、具体需求不同,存在多种正确的修改方案。赛道三的数据中提供针对一个句子的多个参考答案,并且从最小改动(Minimal Edit,M)和流利提升(Fluency Edit,F)两个维度对模型结果进行评测。最小改动维度要求尽可能好地维持原句的结构,尽可能少地增删、替换句中的词语,使句子符合汉语语法规则;流利提升维度则进一步要求将句子修改得更为流利和地道,符合汉语母语者的表达习惯。如表 3 中所示,原句在两个维度均有多个语法纠错的参考答案。
赛道五:语法纠错质量评估(Quality Estimation),是评价语法纠错模型修改结果质量的方法[2]。如表4所示,该方法通过预测每一个语法纠错结果的质量评估分数(QE Score)来对语法纠错的结果进行质量评估,以期望对冗余修改、错误修改以及欠修改情况进行评估。该分数可以通过句子级别和词级别的质量评估分数得到[3],可以对语法纠错系统生成的多个纠错结果进行重新排序,以期望进一步提升语法纠错效果。
注:其中红字表示替换字符,蓝字表示插入字符,删除线表示删除字符。
各赛道评测数据集和指标详见评测网站:
https://github.com/blcuicall/CCL2022-CLTC
赛道一、二、三、五于智源平台(http://cuge.baai.ac.cn/#/ccl_yaclc)注册报名。注册智源平台,由队长创建队伍后,凭邀请码邀请其余组员入队。每个队伍需指定一位提交人提交评测,默认为队伍创建人。队伍可以在一、二、三、五四个赛道上提交结果。
赛道四于天池平台(https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328)页面下载报名表,按照规定要求填写后,以附件形式发送邮件到邮箱:[email protected] 进行报名。
6月5日-7月20日 | 开放报名 |
6月10日 | 发布所有赛道的训练集和开发集以及赛道三、四、五的第一阶段测试集 |
6 月 15 日 | 发布所有赛道的 Baseline 代码及结果 |
6 月 20 日 | 参赛系统结果提交入口开放 |
8 月 5 日 | 赛道三、四、五第一阶段结束 |
8 月 10 日 | 发布赛道一、二的测试集,赛道三、四、五的第二阶段测试集 |
8 月 25 日 | 平台测试集结果提交入口关闭 |
9 月 10 日 | 公布评测结果 |
9 月 25 日 | 截止提交评测任务技术报告 |
10 月14日-16 日 | 评测研讨会 |
本次评测将评选出一、二、三等奖,奖池共计 50000 元人民币:
- 一等奖 0-5 名,奖金合计 25000 元;
- 二等奖 0-5 名,奖金合计 15000 元;
- 三等奖 0-5 名,奖金合计 10000 元。
另外,中国中文信息学会将为本次评测获奖队伍提供荣誉证书。
编辑:王莹莹 孔存良 王梦焰
最近文章
扫码关注我们
BLCU-ICALL
语言监测与智能学习
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。