Google的 Pathways（理想）与 PaLM（现实）

MLNLP
(
机器学习算法与自然语言处理
)社区是国内外知名自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流，特别是初学者同学们的进步。

转载自 | SimpleAI

作者 | 郭必扬

『Pathways构想』

Google 在2021年提出了Pathways的构想：

当前模型的主要问题：

基本都是一个模型做一个任务；
在一个通用的模型上继续fine-tune，会遗忘很多其他知识；
基本都是单模态；
基本都是 dense 模型，在完成一个任务时（不管难易程度），网络的所有参数都被激活和使用；

Pathways 的愿景 —— 一个跟接近人脑的框架：

一个模型，可以做多任务，多模态
sparse model，在做任务时，只是 sparsely activated，只使用一部分的参数

『Pathways系统』

2022年3月，Google发布了Pathways系统，用于更高效地训练大型模型：

这个太工程的东西我也看不懂，所以就不评论了。

『PaLM:Language Modeling with Pathways』

2022年4月，Google发布了一个鸿篇巨制——PaLM：

说实话，在看完Jeff Dean介绍Pathways愿景博客之后，再看这篇文章前本来是充满期待的，比较牛皮已经吹了一年了，论文一开打一屏幕的作者，文83页（比GPT-3的paper都长），结果浏览一遍，满脑子都是”就这？？？“

Anyway，还是介绍一下：

一句话介绍：

PaLM 是第一款基于 Google Pathways 系统训练的超大规模的语言模型（但依然是经典结构：a dense, decoder-only, full-attention Transformer model），再次展现了“大力出奇迹”还有很大空间。但是离Google的Pathways愿景还有很大距离。

Key Points：

Efficient scaling：在Pathways系统的加持下，PaLM的训练效率比之前的方法有了显著提高；
Few-shot SOTA：在众多任务上取得了 few-shot 的 SOTA；
Breakthrough capabilities：在很多推理（reasoning）任务上，PaLM在few-shot的情况就可以超越很多之前需要fine-tune的方法；
Discontinuous improvements：随着模型规模的提高，边际效益可能会有质的提升（在25%的任务上，观察到了“量变产生质变”的现象）；
Multilingual understanding：多语言能力大幅提高。

Model：

A dense, decoder-only, full-attention Transformer model
使用 SwiGLU Activation，Parallel Layers，Multi-Query Attention 等提升计算效率的机制
完全无损、可逆的vocabulary：空格保留、OOV切分成UTF8 bytes、数值切分成单个token
只训练一个epoch——防止overfitting，减轻memorization现象

Training Dataset：

Results：

Few-shot 实验：

Finetune实验：

比最好的encoder-decoder模型效果要差一点，但是显著高于之前的decoder-only的模型。

Big-Bench：

PaLM自己的总结：

虽然文章没有给人惊喜，但是论文自己的总结也还是挺中肯的：

PaLM只是构建Pathways这个愿景迈出的第一步，PaLM的意义在于进一步扩展了大模型的能力边界（尤其是few-shot），说明了传统的模型架构和训练方法依然有很大的提升空间。另一方面，PaLM验证了Pathways训练系统的有效性，为下一代的模型架构研发做了经验积累。

『Other Related Work』

其实在这个PaLM之前，Google探索过很多基于MoE（Mixture-of-experts）的大型sparse model，包括 GShard，Switch-Transformer，GLaM。这些模型，通过MoE的形式，实现了一个大模型中包含很多子网络，且针对不同的token自动选择不同的子网络（experts）进行推理的能力。其实看了PaLM之后，我觉得MoE这条线才更接近与Jeff Dean所说的Pathways的愿景，但我也猜测可能一个超大的类MoE模型正在Pathways系统上训练呢（我赌一根钟薛高hhh）......

参考链接：

Jeff Dean关于Pathways愿景的介绍：https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
PaLM Blog：https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
PaLM paper：https://arxiv.org/pdf/2204.02311.pdf
Pathways ML system paper：https://arxiv.org/pdf/2203.12533.pdf

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区 ( 机器学习算法与自然语言处理 ) 是由国内外自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名自然语言处理社区，旗下包括 万人顶会交流群、AI臻选汇、AI英才汇 以及 AI学术汇 等知名品牌，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

继续阅读

阅读原文