东北大学NLP Lab&小牛翻译 “自然语言处理视角下的Transformer”

MLNLP

社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

https://arxiv.org/pdf/2311.17633.pdf

https://github.com/NiuTrans/Introduction-to-Transformers/blob/main/README-zh.md

Transformer无疑已经成为自然语言处理、计算机视觉、语音处理等诸多人工智能领域应用最广泛的神经网络架构。特别是随着最近大语言模型的崛起，Transformer作为基础架构更是受到空前的关注。但是，Transformer相关技术日新月异，学术界已经发表了浩如烟海的论文。虽然以Transformer为主题的综述论文、博客讲解、开源系统层出不穷，系统性总结Transformer背后的相关技术进展，在当下仍然是十分有价值且必要的。

近期，东北大学自然语言处理实验室和小牛翻译团队发表了一篇Transformer的最新介绍性文章Introduction to Transformer: an NLP Perspective。

全文共119页，从自然语言处理的角度，全面介绍了Transformer模型的基础知识和其在自然语言处理应用中的进展，搭配开源项目的推荐阅读论文列表帮助读者快速切入感兴趣的模块。

这项工作首先介绍Transformer基础架构，然后从“融入语法信息”和“改进模型架构”两个角度讨论Transformer如何应用于NLP系统。

语法模型部分，作者提到将语法结构信息作为先验知识融入Transformer模型的设计，如图展现的多分支模型引入外部结构信息。

架构改进部分，作者从机器学习角度出发，讨论提高模型性能的架构设计，如局部注意力建模、模型容量扩展等等，同时解决训练成本较大的问题。例如，下图利用数值ODE方法的思想指导Transformer模型残差网络部分的设计。

高效模型部分涉及很多Transformer的前沿技术，作者针对不同效率目标，讨论Transformer模型不同的高效优化方法。例如，Transformer可以被视为存储系统保留序列信息，那么可以改进注意力计算机制，减少内存占用。

再例如，在Transformer架构可能的替代品中，作者提到了最近大受关注的Mamba架构中使用的状态空间模型（State-space Models）。

以及条件计算等高效方法在Transformer中的应用。

最后，作者举例说明目前Transformer在人工智能各个领域的广泛应用，如图展现了视觉-文本模型基于Transformer编码器、解码器处理多模态数据的方式。

此外，作者系统性地总结基于Transformer的若干应用，划分Transformer模型研究中的若干重要领域，提供了一幅Transformer总览图。

这些领域可以被总结为：

1. Transformer基础
2. 注意力模型
3. 词嵌入和位置嵌入
4. 训练和扩展性
5. 高效模型
6. 推理
7. 应用
8. 大语言模型作为基础模型
9. 理论分析

作者在GitHub上同步推出中文版介绍，也给出了上述领域的一些代表性工作，供读者快速了解相关进展。

这项工作一目了然地呈现了Transformer的关键模块，不仅能够帮助NLP初学者清晰梳理Transformer学习框架，明确学习思路，还为NLP从业者提供了Transformer关键技术的深入解读和快速切入口，为科研工作带来新的启发。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

继续阅读

阅读原文