澜舟科技开源轻量级中文语言预训练模型—

每天给你送来NLP技术干货！

来自：澜舟科技

今年七月，澜舟科技推出的孟子模型以十亿参数刷新了此前百亿、千亿级别参数模型轮番霸榜的中文语言理解权威评测基准 CLUE 榜单。为了促进自然语言处理技术在更广泛实际场景中的应用，澜舟科技近日开源了轻量级中文预训练语言模型——孟子模型。孟子模型基于轻量级、高效训练研究路线，有利于快速、低成本地落地现实业务场景。

轻量级孟子模型

近年来，预训练模型（PLM）的热度逐年升高，其发展极大提升了 NLP 任务的性能，促进了 NLP 技术向更实际的应用场景发展。而如今预训练模型有向更大模型、更多数据发展的趋势，同时也意味着它的时间成本和资源成本更加高昂。这制约了 NLP 应用于更广泛的实际场景。在实际的业务场景中，受硬件、软件、人力等方面的成本制约，十亿乃至百亿的模型在软硬件成本、研发周期等问题上是很难接受的。因此，我们迫切需要一个规模适中但功能同样强大的模型。

孟子有云：“以力服人者，非心服也，力不赡也”；“权，然后知轻重；度，然后知长短”。这两句话恰好体现了 NLP、AI 技术广泛使用带来的认知智能从“相关”到“认知”的转变。基于语言学信息融入和训练加速等方法，澜舟科技研发了孟子系列模型。由于与 BERT 保持一致的模型结构，孟子模型可以快速替换现有的预训练模型。基于孟子通用模型，澜舟科技本次共开源了四个模型，分别适用于不同的任务场景。

相对于已有的中文语言模型，孟子模型实现了多项突破：

坚持“小而精”的轻量化训练策略。实现在同等模型规模下，远超公开模型的性能。作为精巧的小模型，对标“巨无霸”，小模型性能超越千亿规模模型。
使用人类先验知识引导模型训练，让模型更高效率获得知识。孟子模型具备顶尖的语言理解能力，在权威 CLUE 中文理解评测的总排行榜，分数突破84分，逼近人类基准分数（85.61）。
灵活的领域和场景适应能力，方便快速定制和应用。基于 T5-style 的端到端生成的训练范式，同步适配BERT-style的判定式架构，既能理解也能生成。便于适配行业应用，覆盖广泛业务场景。

孟子轻量化预训练模型研究从训练优化、知识增强和数据增强展开。训练策略上，在不改变模型结构、保证通用性的基础上，优化主流的自编码和自回归的训练方式，减少模型预测偏差，使得模型训练更快、性能更强、表现更棒。知识方面，我们引入语言学知识、知识图谱、和多模态信息来增强语言模型的上下文感知和认知推理能力。数据方面，我们使用领域数据，更好地让孟子模型服务于垂直领域，应用于现实场景。

详细的技术报告请参考:

https://arxiv.org/abs/2110.06696

下游任务表现

孟子模型在下游任务中有出色表现，目前已在多个领域成功落地实践，衍生出多项行业领先的产品，涵盖文本生成、行业搜索、机器翻译等诸多领域。

CLUE 任务

金融领域任务

图片描述

与相同规模甚至更大规模的模型相比，孟子模型表现出了显著的性能提升。由于与 BERT 保持一致的模型结构，孟子模型可以被视为现有 PLM 强有力的替换方案。

整理不易，还望给个在看！

继续阅读

阅读原文

澜舟科技开源轻量级中文语言预训练模型——孟子模型