2022 | 预训练模型研究十大趋势亮点

预训练语言模型极大推动了自然语言处理的技术进步，激发了新的研究热潮。澜舟研究团队基于近年来预训练语言模型发展历程，结合最新实践，展望了2022年预训练模型研究趋势，总结出值得关注的十大趋势亮点，涵盖预训练技术、模型架构设计、建模和表示方法、模型应用、性能评价等多个方面。

预计阅读时间：12分钟

轻量化模型的技术研究

轻量化模型的技术研究旨在平衡算力消耗和训练效率，实现预训练模型的规模化应用。

孟子轻量化模型[1]通过设计语言学知识启发的预训练目标和优化训练技术，结合面向具体任务的微调，在CLUE榜单上取得最佳成绩，表明轻量化模型经有效的预训练和微调后，可比肩千亿规模的大模型。

TinyBERT[2]表明预训练模型中存在大量的参数冗余。通过知识蒸馏，将预训练模型压缩7.5倍，推理时间提高9.4倍，降低计算开销和模型存储的同时，保持了模型性能。

这些研究表明我们可以通过设计轻量化的预训练策略或从大模型精炼出小模型，从而实现预训练模型的轻量化，拓展预训练模型的应用场景。

知识驱动的预训练模型

知识驱动的方法旨在为预训练模型赋予常识和事实理解能力，提供丰富的语义和关系逻辑信息。知识来源包括给定文本内所承载的语言知识，以及通过外部检索得到的背景知识。

SPIDER[3]设计了面向知识推理的预训练方法，通过抽取事实三元组，将其间的关系作为正则项约束，提升了预训练模型在垂直领域的理解能力。逻辑驱动的预训练模型[4]进一步设计基于事实的预训练策略，将事实单元内部和事实间的关系进行遮盖，让模型对事实还原，大幅提升了预训练模型的知识推理能力。

在引入显性知识的同时，如何减少噪音也是一项重要挑战。KFCNet[5]使用基于 BERT 的过滤器模型来过滤低质量的候选信息，并分别对每个编码器和解码器应用对比学习，提升捕获全局语义得能力并减少噪音。此外，K-Adapter[6]可通过插件的形式，由各个适配器进行学习不同类型的知识，有利于语言模型捕获丰富的事实和常识知识。

从知识增强的角度出发，按需检索，有效利用人类先验知识、构建知识间的联系、减少噪音等都是重要的研究主题。

语言模型中的知识编辑

预训练语言模型的参数中蕴涵着大量的事实知识，可视为一个巨大的知识库。然而，知识学习是动态的，需不断更新迭代，如何对模型中参数化的事实知识进行修改是一项重要挑战。

KnowledgeEditor[7]提出了一种可编辑预训练模型知识的hyper-network编辑器，支持可靠地编辑模型中的事实知识，而不需要重新训练或者微调，在事实检测和问答任务上验证了有效性。

这意味着我们可根据应用需求，维持通用知识、更新任务相关的知识，避免灾难性遗忘，赋予语言模型持续学习的能力。

神经-符号结合的架构

认知智能要求模型具有推理和解释能力。预训练模型尽管大幅提升了自然语言处理任务的性能，但他们依然面临可解释性不强、鲁棒性差的难题，受到对抗攻击、后门攻击等威胁。符号系统更有利于处理逻辑和推理问题，充分利用背景知识。

为了解决机器的逻辑推理问题，LReasoner[8]通过识别文本中的逻辑符号和表达式，来辅助模型找到问题的答案，在ReClor（美国司法学院入学考试题）上取得最佳成绩。

Focal Reasoner[9]基于依存句法分析，抽取以句法成分为基础的结构化事实单元，涵盖了常识、非常识、实体、非实体的全局和局部知识，在ReClor、LogiQA逻辑推理和MuTual多轮对话推理等数据集上均取得显著的性能提升。

这些研究启发我们将符号知识与神经网络结合，赋予预训练语言模型强大的认知推理能力，增强求解过程的可解释性。

模块化的预训练模型

不同任务通常需要不同的技能来求解，复杂的任务通常可以使用不同的技能组合完成。

从细分技能的角度，Switch Transformers[10]利用混合专家(Mixture of Experts，MoE)，将多个专家子网络结合到一个较大的模型中，通过一个门控网络（Gating Network）对输入进行路由选择。由于MoE可为不同的输入选择性地激活模型中的一部分参数参与计算，只用到了神经网络参数中的子集，因此在增大模型参数量的同时，计算量可以维持相对不变。

从技能组合的角度，结合K-Adapter[6]的思想，知识学习也可以通过模块化的方式实现，形成不同的子模型，通过MoE技术可将多个技能导向的子模型合并为一个大模型，对不同的任务按需装配，选择不同的子模型进行处理，在模型训练中按需更新，应用时按需调用，进而以轻量化的方式保持高性能。

通用的语言表示范式

通用语言表示涉及不同粒度的语言表示、多语言表示和通用的应用范式等多个方面。

当前语言表示通常基于不同粒度（字、词、短语、句子、篇章）的建模。实现跨粒度的通用建模方法有助于为不同层次的自然语言处理任务（如词语相似度计算、句子级语义分析、篇章级阅读理解等）提供统一的语言表示工具。[11]通过给词、句、短语构造同样维度的嵌入表示，在词级类比上获得了较大的性能涨幅。

除了多粒度建模以外，有效利用跨语言信息，在同一语义空间挖掘不同语言表达的共性，可以提升预训练的效果。INFOXLM[12]通过在跨语言语料上以不同粒度的互信息度（MMLM、TLM与XLCO）为目标，使模型很好的地学到了跨语言迁移能力。

在预训练模型的应用方面，将自然语言处理任务建模成统一形式[13]或通过提示学习改造下游任务[14][15][16][17]，使任务输入和输出与语言模型预训练任务相匹配，从而在零样本或少样本的场景中获得良好的任务效果。

从以上研究可以看到，语言表示与应用研究呈现出了特定的范式，趋向于研发通用的预训练模型作为基石，以统一的方式用于常见的下游任务。

基于检索的多模态建模

多模态预训练模型期望通过大规模数据上的预训练学习不同模态之间的语义对应关系。

以图像-文本多模态为例，多模态预训练模型研究围绕图文对齐匹配、图像区域掩盖、图像类别预测等方面设计预训练目标，基于不同粒度实现图文对齐，已经取得较大进展[18][19]。然而，主流的多模态模型依赖于海量的图文对齐数据，需要大量标注成本，局限于面向图文理解的应用场景，如何将图像信息用于辅助语言建模、增强语言表示尚缺少关注。

检索式多模态建模方法基于小规模图文数据作为检索源，对于输入文本，按需检索查询相关图像作为背景增强[20]。该方法无需任务相关标注数据，在12项自然语言理解和机器翻译任务上显著提升性能，分析表明该方法能帮助模型更好地关注实词，提升表示多样性，并有利于消歧。

以上研究表明，探索多模态信息在语言模型中具有重要意义。充分利用单模态的文本和图像，按需检索构造预训练模型，有助于发挥海量数据和无监督学习的潜力，并更适用于无需图文对齐、更加广泛的应用场景。

大小语言模型协同应用

预训练语言模型的应用呈现出中心化的趋势，即研究一个通用模型应用于各种任务场景。而在早期NLP研究中，通常根据每个任务设计相应的小模型。不同任务对模型能力需求存在差异，研究如何充分发挥大小模型的优势具有重要的现实意义。

一般来说，大模型侧重通用能力，小模型侧重特定任务和场景。从应用的角度出发，通过大小语言模型协同应用，充分发挥大模型的性能优势和小模型的效率优势，基于SaaS模式为解决下游任务提供服务，并可用于移动端部署。

预训练模型的鲁棒性

研究预训练模型的鲁棒性有助于更加全面地判断模型的能力，对于实际应用有着重要意义。

Textflint[21]提供了一套模型鲁棒性评测平台，针对12项NLP任务，设计了80余种数据变形方法，基于大规模的评测结果发现，目前绝大多数算法模型的鲁棒性都亟待提升。

为提升模型的鲁棒性，面向预训练模型的对抗攻击与防御方法逐渐引起了关注，通常通过构造自然的对抗样本和数据增强等手段提升预训练模型在现实应用中的鲁棒性。然而，常用于对抗攻击的样本不够自然流畅，不符合真实场景，相应得出的模型鲁棒性评价不够准确[22]。

因此，可通过设计策略评估对抗样本的流畅度，生成维持原义、自然流畅的文本对抗样本，从而更加准确地理解模型鲁棒性，并构造增强数据用于提升模型鲁棒性。

多维度模型性能评价

客观、综合、均衡的评测基准对于分析预训练模型能力、发掘问题、启发新的研究课题具有重要意义。

为更好地从不同维度展现模型的语言智能差异，智源指数[23]基于以语言能力-任务-数据集的分层框架，提供了一套高质量中文自然语言处理数据集、排行榜与在线评测平台，旨在构建全面系统的中文机器语言能力评测体系，形成多层次多维度的评测方案，力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。

开发多维度的、以具体技能为导向的新型基准评价平台，对预训练模型做出全面、科学、有效的评价，有助于更好地理解模型能力，发现短板，进而开启新的研究方向。

为更好地推动中文信息处理、促进自然语言处理技术在更广泛实际场景中的应用，澜舟科技在2021年中旬开源发布了轻量级中文预训练语言模型—孟子模型，包含语言理解模型、文本生成模型、金融分析模型和多模态预训练模型，以此为基础构建先进的机器翻译、文本生成和垂直领域搜索引擎，通过开源、SaaS和订制等方式赋能行业客户，有利于快速、低成本地落地现实业务场景。

未来，澜舟科技也将持续在预训练领域深耕技术、打磨产品、服务客户，与从业者一道推动认知智能迈向新的时代。

欢迎洽谈合作：[email protected]

. . .

[1]. Zhang, Z., Zhang, H., Chen, K., Guo, Y., Hua, J., Wang, Y., & Zhou, M. (2021). Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. arXiv preprint arXiv:2110.06696.

[2]. Jiao, X., Yin, Y., Shang, L., Jiang, X., Chen, X., Li, L., ... & Liu, Q. (2020). TinyBERT: Distilling BERT for Natural Language Understanding. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings.

[3]. Zhang, Z., & Zhao, H. (2021). Structural Pre-training for Dialogue Comprehension. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.

[4]. Ouyang, S., Zhang, Z., & Zhao, H. (2021). Logic Pre-Training of Language Models. https://openreview.net/forum?id=1gEb_H1DEqZ.

[5]. Li, H., Gong, Y., Jiao, J., Zhang, R., Baldwin, T., & Duan, N. (2021). KFCNet: Knowledge Filtering and Contrastive Learning for Generative Commonsense Reasoning. In Findings of the Association for Computational Linguistics: EMNLP 2021.

[6]. Wang, R., Tang, D., Duan, N., Wei, Z., Huang, X., Cao, G., ... & Zhou, M. (2020). K-adapter: Infusing knowledge into pre-trained models with adapters. arXiv preprint arXiv:2002.01808.

[7]. De Cao, N., Aziz, W., & Titov, I. (2021). Editing Factual Knowledge in Language Models. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.

[8]. Wang, S., Zhong, W., Tang, D., Wei, Z., Fan, Z., Jiang, D., ... & Duan, N. (2021). Logic-Driven Context Extension and Data Augmentation for Logical Reasoning of Text. arXiv preprint arXiv:2105.03659.

[9]. Ouyang, S., Zhang, Z., & Zhao, H. (2021). Fact-driven Logical Reasoning. arXiv preprint arXiv:2105.10334.

[10]. Fedus, W., Zoph, B., & Shazeer, N. (2021). Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. arXiv preprint arXiv:2101.03961.

[11]. Li, Y., & Zhao, H. (2021). Pre-training Universal Language Representation. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.

[12]. Chi, Z., Dong, L., Wei, F., Yang, N., Singhal, S., Wang, W., ... & Zhou, M. (2021). InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 3576-3588).

[13]. Bao, H., Dong, L., Wei, F., Wang, W., Yang, N., Liu, X., ... & Hon, H. W. (2020). Unilmv2: Pseudo-masked language models for unified language model pre-training. In Proceedings of International Conference on Machine Learning.

[14]. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., & Neubig, G. (2021). Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. arXiv preprint arXiv:2107.13586.

[15]. Hu, S., Ding, N., Wang, H., Liu, Z., Li, J., & Sun, M. (2021). Knowledgeable prompt-tuning: Incorporating knowledge into prompt verbalizer for text classification. arXiv preprint arXiv:2108.02035.

[16]. Gu, Y., Han, X., Liu, Z., & Huang, M. (2021). Ppt: Pre-trained prompt tuning for few-shot learning. arXiv preprint arXiv:2109.04332.

[17]. Liu, X., Ji, K., Fu, Y., Du, Z., Yang, Z., & Tang, J. (2021). P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks. arXiv preprint arXiv:2110.07602.

[18]. Li, X., Yin, X., Li, C., Zhang, P., Hu, X., Zhang, L., ... & Gao, J. (2020). Oscar: Object-semantics aligned pre-training for vision-language tasks. In European Conference on Computer Vision (pp. 121-137). Springer, Cham.

[19]. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019, December). ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In Proceedings of the 33rd International Conference on Neural Information Processing Systems.

[20]. Zhang, Z., Yu, H., Zhao, H., & Utiyama, M. (2021). Which Apple Keeps Which Doctor Away Colorful Word Representations with Visual Oracles. IEEE/ACM Transactions on Audio, Speech, and Language Processing.

[21]. Gui, T., Wang, X., Zhang, Q., Liu, Q., Zou, Y., Zhou, X., ... & Huang, X. (2021). Textflint: Unified multilingual robustness evaluation toolkit for natural language processing. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations.

[22]. Bao, R., Wang, J., & Zhao, H. (2021). Defending Pre-trained Language Models from Adversarial Word Substitutions Without Performance Sacrifice. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021.

[23]. Yao, Y., Dong, Q., Guan, J., Cao, B., Zhang, Z., Xiao, C., ... & Sun, M. (2021). CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark. arXiv preprint arXiv:2112.13610.

▲ 滑动查看参考文献

”

澜舟科技是一家认知智能公司，由前微软亚洲研究院NLP领军人物周明博士于2021年在京创立，针对商业场景数字化转型、以自然语言处理为基础提供商业洞见类产品，主要产品包括基于预训练模型的功能引擎（包括搜索、生成、翻译、对话等）和针对垂直行业场景的 SaaS 产品。我们致力于成为NLP/AI领域具有全球领导力的、以科技驱动的创新型公司。

我们最近开源了分析、生成、多模态和金融的预训练模型，供大家自由使用，链接见下方二维码。期待各位的关注与建议！