公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!
声明:本文转载自 哈工大讯飞联合实验室 公众号
在今年3月,哈工大讯飞联合实验室推出了中文ELECTRA预训练模型,并将相关资源进行开源,目前在GitHub上已获得580个star。本次更新中,我们将预训练语料从原有的约20G提升至180G,利用接近9倍大小的数据集。在阅读理解、自然语言推断、句对分类等中文自然语言处理任务中,ELECTRA-180G相比原版ELECTRA获得了显著性能提升。欢迎各位读者下载试用相关模型。
项目地址:http://github.com/ymcui/Chinese-ELECTRA

ELECTRA简介

ELECTRA提出了一套新的预训练框架,其中包含两个部分:Generator和Discriminator。
  • Generator: 一个小的MLM,在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。
  • Discriminator: 判断输入句子中的每个词是否被替换,即使用Replaced Token Detection (RTD)预训练任务,取代了BERT原始的Masked Language Model (MLM)。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。
在预训练阶段结束之后,我们只使用Discriminator作为下游任务精调的基模型。
更详细的技术内容请查阅ELECTRA论文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(https://openreview.net/pdf?id=r1xMH1BtvB
同时,也可通过阅读我们的讲义《Revisiting Pre-trained Models for Chinese Natural Language Processing》了解更多预训练语言模型相关前沿进展(公众号后台回复
NLPCC2020
即可下载)。

中文ELECTRA

除了使用与RoBERTa-wwm-ext系列模型一致的扩展训练数据(约20G)之外,我们从CommonCrawl中获取了更大规模中文文本数据,并经过数据清洗等操作,进一步将预训练语料规模扩充到180G。本次发布以下四个模型:
  • ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters
  • ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters
  • ELECTRA-180g-small-ex, Chinese: 24-layer, 256-hidden, 4-heads, 25M parameters
  • ELECTRA-180g-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速加载

哈工大讯飞联合实验室发布的所有中文预训练语言模型均可通过huggingface transformers库进行快速加载访问,请登录我们的共享页面获取更多信息。
https://huggingface.co/HFL

效果评测

在CMRC 2018(简体中文阅读理解),DRCD(繁体中文阅读理解),XNLI(自然语言推断),BQ Corpus(句对分类)任务上,ELECTRA-180G显著超过原版ELECTRA的效果。更详细的效果评测请查看项目的GitHub。


CMRC 2018
DRCD
XNLI
BQ Corpus

相关资源地址

  • TextBrewer知识蒸馏工具
    • http://github.com/airaria/TextBrewer
  • 中文BERT、RoBERTa、RBT系列模型
    • https://github.com/ymcui/Chinese-BERT-wwm
  • 中文XLNet系列模型
    • https://github.com/ymcui/Chinese-XLNet
  • 中文MacBERT模型
    • https://github.com/ymcui/MacBERT
本期责任编辑:崔一鸣

本期编辑:冯   晨
下载1:四件套
在机器学习算法与自然语言处理公众号后台回复“四件套”
即可获取学习TensorFlow,Pytorch,机器学习,深度学习四件套!
下载2:仓库地址共享
在机器学习算法与自然语言处理公众号后台回复“代码”
即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
重磅!机器学习算法与自然语言处理交流群已正式成立
群内有大量资源,欢迎大家进群学习!
额外赠送福利资源!邱锡鹏深度学习与神经网络,pytorch官方中文教程,利用Python进行数据分析,机器学习学习笔记,pandas官方文档中文版,effective java(中文版)等20项福利资源
获取方式:进入群后点开群公告即可领取下载链接
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
继续阅读
阅读原文