每天给你送来NLP技术干货!


来自:澜舟科技
今年七月,澜舟科技推出的孟子模型以十亿参数刷新了此前百亿、千亿级别参数模型轮番霸榜的中文语言理解权威评测基准 CLUE 榜单。为了促进自然语言处理技术在更广泛实际场景中的应用,澜舟科技近日开源了轻量级中文预训练语言模型——孟子模型。孟子模型基于轻量级、高效训练研究路线,有利于快速、低成本地落地现实业务场景。
轻量级孟子模型

近年来,预训练模型(PLM)的热度逐年升高,其发展极大提升了 NLP 任务的性能,促进了 NLP 技术向更实际的应用场景发展。而如今预训练模型有向更大模型、更多数据发展的趋势,同时也意味着它的时间成本和资源成本更加高昂。这制约了 NLP 应用于更广泛的实际场景。在实际的业务场景中,受硬件、软件、人力等方面的成本制约,十亿乃至百亿的模型在软硬件成本、研发周期等问题上是很难接受的。因此,我们迫切需要一个规模适中但功能同样强大的模型。
孟子有云:“以力服人者,非心服也,力不赡也”;“权,然后知轻重;度,然后知长短”。这两句话恰好体现了 NLP、AI 技术广泛使用带来的认知智能从“相关”到“认知”的转变。基于语言学信息融入和训练加速等方法,澜舟科技研发了孟子系列模型。由于与 BERT 保持一致的模型结构,孟子模型可以快速替换现有的预训练模型。基于孟子通用模型,澜舟科技本次共开源了四个模型,分别适用于不同的任务场景。
相对于已有的中文语言模型,孟子模型实现了多项突破:
  • 坚持“小而精”的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。
  • 使用人类先验知识引导模型训练,让模型更高效率获得知识。孟子模型具备顶尖的语言理解能力,在权威 CLUE 中文理解评测的总排行榜,分数突破84分,逼近人类基准分数(85.61)。
  • 灵活的领域和场景适应能力,方便快速定制和应用。基于 T5-style 的端到端生成的训练范式,同步适配BERT-style的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。
孟子轻量化预训练模型研究从训练优化、知识增强和数据增强展开。训练策略上,在不改变模型结构、保证通用性的基础上,优化主流的自编码和自回归的训练方式,减少模型预测偏差,使得模型训练更快、性能更强、表现更棒。知识方面,我们引入语言学知识、知识图谱、和多模态信息来增强语言模型的上下文感知和认知推理能力。数据方面,我们使用领域数据,更好地让孟子模型服务于垂直领域,应用于现实场景。
详细的技术报告请参考:
https://arxiv.org/abs/2110.06696
下游任务表现

孟子模型在下游任务中有出色表现,目前已在多个领域成功落地实践,衍生出多项行业领先的产品,涵盖文本生成、行业搜索、机器翻译等诸多领域。
CLUE 任务
金融领域任务
图片描述
与相同规模甚至更大规模的模型相比,孟子模型表现出了显著的性能提升。由于与 BERT 保持一致的模型结构,孟子模型可以被视为现有 PLM 强有力的替换方案。

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦
整理不易,还望给个在看!
继续阅读
阅读原文