MLNLP 
机器学习算法与自然语言处理 
)社区是国内外知名自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流,特别是初学者同学们的进步。

转载自 | SimpleAI
作者 | 郭必扬
1
『Pathways构想』
Google 在2021年提出了Pathways的构想:
当前模型的主要问题:
  • 基本都是一个模型做一个任务;
  • 在一个通用的模型上继续fine-tune,会遗忘很多其他知识;
  • 基本都是单模态;
  • 基本都是 dense 模型,在完成一个任务时(不管难易程度),网络的所有参数都被激活和使用;
Pathways 的愿景 —— 一个跟接近人脑的框架:
  • 一个模型,可以做多任务,多模态
  • sparse model,在做任务时,只是 sparsely activated,只使用一部分的参数

2
『Pathways系统』
2022年3月,Google发布了Pathways系统,用于更高效地训练大型模型:
这个太工程的东西我也看不懂,所以就不评论了。
3
『PaLM:Language Modeling with Pathways』
2022年4月,Google发布了一个鸿篇巨制——PaLM:
说实话,在看完Jeff Dean介绍Pathways愿景博客之后,再看这篇文章前本来是充满期待的,比较牛皮已经吹了一年了,论文一开打一屏幕的作者,文83页(比GPT-3的paper都长),结果浏览一遍,满脑子都是”就这???“
Anyway,还是介绍一下:
一句话介绍:
PaLM 是第一款基于 Google Pathways 系统训练的超大规模的语言模型(但依然是经典结构:a dense, decoder-only, full-attention Transformer model),再次展现了“大力出奇迹”还有很大空间。但是离Google的Pathways愿景还有很大距离。
Key Points:
  • Efficient scaling:在Pathways系统的加持下,PaLM的训练效率比之前的方法有了显著提高;
  • Few-shot SOTA:在众多任务上取得了 few-shot 的 SOTA;
  • Breakthrough capabilities:在很多推理(reasoning)任务上,PaLM在few-shot的情况就可以超越很多之前需要fine-tune的方法;
  • Discontinuous improvements:随着模型规模的提高,边际效益可能会有质的提升(在25%的任务上,观察到了“量变产生质变”的现象);
  • Multilingual understanding:多语言能力大幅提高。
Model:
  • A dense, decoder-only, full-attention Transformer model
  • 使用 SwiGLU Activation,Parallel Layers,Multi-Query Attention 等提升计算效率的机制
  • 完全无损、可逆的vocabulary:空格保留、OOV切分成UTF8 bytes、数值切分成单个token
  • 只训练一个epoch——防止overfitting,减轻memorization现象
Training Dataset:
Results:
Few-shot 实验:
Finetune实验:
比最好的encoder-decoder模型效果要差一点,但是显著高于之前的decoder-only的模型。
Big-Bench:
PaLM自己的总结:
虽然文章没有给人惊喜,但是论文自己的总结也还是挺中肯的:
PaLM只是构建Pathways这个愿景迈出的第一步,PaLM的意义在于进一步扩展了大模型的能力边界(尤其是few-shot),说明了传统的模型架构和训练方法依然有很大的提升空间。另一方面,PaLM验证了Pathways训练系统的有效性,为下一代的模型架构研发做了经验积累。
4
『Other Related Work』
其实在这个PaLM之前,Google探索过很多基于MoE(Mixture-of-experts)的大型sparse model,包括 GShard,Switch-Transformer,GLaM。这些模型,通过MoE的形式,实现了一个大模型中包含很多子网络,且针对不同的token自动选择不同的子网络(experts)进行推理的能力。其实看了PaLM之后,我觉得MoE这条线才更接近与Jeff Dean所说的Pathways的愿景,但我也猜测可能一个超大的类MoE模型正在Pathways系统上训练呢(我赌一根钟薛高hhh)......
参考链接:
  • Jeff Dean关于Pathways愿景的介绍:https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
  • PaLM Blog:https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
  • PaLM paper:https://arxiv.org/pdf/2204.02311.pdf
  • Pathways ML system paper:https://arxiv.org/pdf/2203.12533.pdf
技术交流群邀请函
△长按添加小助手
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区  机器学习算法与自然语言处理 ) 是由国内外自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名自然语言处理社区,旗下包括  万人顶会交流群、AI臻选汇、AI英才汇  以及  AI学术汇  等知名品牌,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文