SLM 会是微软「弯道超车」OpenAI 的秘诀吗？

专题解读
日期：12 月 12 日
事件：微软公开了27 亿参数的小型语言模型（SLM） Phi-2 的细节。Phi-2 在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型，其自然语言理解和推理能力在不超过 130 亿参数的模型中实现了 SOTA 表现。

对 SLM 双管齐下的探索路径或许映射了微软在传闻与 OpenAI 的合作关系产生间隙后的策略，也可能代表着这家公司瞄准的下一个战场。

通过Phi、Orca 等一系列工作，微软坐稳了13B以下 LLM 的 SOTA 席位。微软在大型语言模型技术上是要开始「弯道超车」OpenAI 了吗？

微软在 SLM 路上是如何双管齐下的？

2023 年，微软通过 Phi 和 Orca 系列工作在探索 SLM （Small Language Model）推理能力上做出了一系列尝试。前者探索了高质量数据对模型能力的影响，后者则聚焦于研究 Prompt 指令指令调整方法对推理的帮助。

Phi 系列的演进：用小而美的「教科书质量」数据提高模型能力

1、6月20日，微软发布论文《Textbooks Are All You Need》，用规模仅为 7B token 的「教科书质量」数据训练了一个 13 亿参数的模型 Phi-1。phi-1 在 HumanEval 的 pass@1 上达到了 50.6% 的准确率，在 MBPP 上达到了 55.5%，证明了高质量的「小数据」能够让模型具备良好的性能。

2、9月11日，微软发表《Textbooks Are All You Need II: phi-1.5 technical report》，提出了同为 13 亿参数的 Phi-1.5。该工作将研究重点放在自然语言常识推理任务上，让 Phi-1.5 的性能可以媲美 5 倍大的模型。

3、12 月 12 日，微软所展示的 27 亿参数规模的 Phi-2 在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型。与大 25 倍的 Llama2-70B 模型相比，Phi-2 在多步骤推理任务（即编码和数学）方面实现了更好的性能。

Orca 模型的创新：用指令调整教会模型「随机应变」

1、6月5日，微软发布了 130 参数的 Orca 模型，当时，Orca 在很多基准测试中的表现已经超越 GPT3.5，但仍弱于 GPT-4。

2、11月18日，微软发布论文提出并开源 Orca 2，进一步探索小型语言模型的推理能力。为了教导 Ocra 2 成为一个「谨慎」的推理者，他们提出了一项「提示擦除（Prompt Erasure）」，使模型不仅能够执行特定的推理步骤，而且能够在处理任务时制定更高级别的策略。

「教科书质量」数据炼的 Phi-2 有何亮点？

虽然微软尚未发布 Phi-2 的论文，但官博文章透露了部分 Phi-2 的细节，相关工作涉及的数据筛选逻辑也在其 6 月的论文中有所介绍。

1、根据微软的论文，现在的前沿LLM的模型规模已经增加到千亿参数，的确释放了很多新能力，也重新定义了自然语言处理的格局。但仍存在一个问题：是否可以通过训练策略选择（比如数据选择）在较小规模的模型上同样实现这些新能力？

2、微软对此开发的 Phi 系列模型通过训练小语言模型实现与大模型类似的性能。Phi-2 主要从数据质量和创新技术两个方面打破了传统语言模型的 Scaling 规则。

3、数据质量方面，微软通过重点关注「教科书质量」数据，将「训练数据的质量在模型性能中起着至关重要的作用」的认知发挥到了极致。

4、技术创新方面，微软从 13 亿参数的 Phi-1.5 开始，将知识逐渐嵌入到了 27 亿参数的 Phi-2 中。这种规模化知识迁移加速了训练收敛，并显著提升了 Phi-2 的基准测试分数。

5、Phi-2 在没有通过人类反馈强化学习（RLHF）进行对齐，也没有进行指令微调的前提下，模型以 27 亿（2.7B）的参数量，在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型，其在毒性和偏见方面的表现仍优于现有开源模型。对比谷歌最近发布的 Gemini Nano2（3.2B 参数），Phi-2 同样能够解答复杂的物理问题，并使用和前者类似的提示纠正学生。

图：Phi-2 与其他模型的能力对比

Ocra 2 是如何「谨小慎微」，选用合适策略推理答题？

在 11 月提出的 Orca 2 中，微软通过让模型成为一个谨慎的推理者（Cautious Reasoner）的方式来提高其推理能力。换句话说，就是通过指令调整，让 Orca-2 决定针对给定任务选择最有效的解决策略，从而得到最准确的结果。

1、当前，在推理的过程中，模型对大多数问题都有五种处理模式：

① 逐步处理（Step-by-Step Processing）；

② 回忆然后生成（Recall-Then-Generate）；

③ 回忆-推理-生成（Recall-Reason-Generate）；

④ 提取-生成（Extract-Generate）；

⑤ 直接回答（Direct-Answer Methods）。

2、Ocra 2 的训练过程包括从多样化任务集合开始，决定哪些任务需要哪种解决策略，并编写特定任务系统指令以获得教师模型的响应。Ocra 2 的训练过程还使用了「提示擦除」技术，即用通用指令替换详细的系统指令，鼓励学生模型学习潜在策略和推理能力。

3、总体而言，通过一系列指导，Orca 2 能够成功学会「随机应变」的方法，最终实现比 70B 的大模型 LLama 2 在推理任务中更优的表现。

① 推理方面，Orca 2 在各种推理基准测试中表现出色。Orca-2-13B 在零试推理任务中显著优于同等规模的模型，并与比自己大 5-10 倍的模型竞争。

② 知识和语言理解方面，Orca-2-13B 在语言理解、知识和推理方面超过了同等规模的 LLaMA-2-Chat-13B 和 WizardLM-13B 模型，并与更大规模的模型相媲美。

③ 文本完善方面，在 HellaSwag 和 LAMBADA 文本完成任务中，Orca-2-7B 和 Orca-2-13B 的表现优于 13B 和 70B 基线模型...

微软缘何转而关注SLM？...微软之外又有哪些玩家也在研究SLM？....查看完整解读请前往「机器之心PRO」业内通讯 · 2023年度#Week 50

「机器之心PRO」业内通讯 · 2023年度#Week 50

本期通讯总计 25380 字，包含 4 项专题解读 + 31 项 AI&Robotics 赛道要事收录。

1. 为什么基于 MoE 的大模型更值得关注？

MoE架构很特别吗？Mistral的新模型比GPT-3.5还强？为什么大家突然开始关注MoE？GPT-4也用了MoE架构？MoE未来有哪些应用方向？...

2. SLM 是微软「弯道超车」的秘诀吗？

微软在 SLM 上有哪些工作？微软最新的 Phi-2 有多强？微软如何教模型「随机应变」的？微软要通过 SLM 保持可持续发展吗？...

3. OpenAI 内讧过后，还有哪些瓜在酝酿？

OpenAI 内讧事件过后：Altman 离职内幕、Ilya Sutskever 去留问题、GPT-4 为什么越来越「懒」了、OpenAI 的财务情况...大家都在关注什么？...

4. 两张图能证明开源模型逆袭有望？

LeCun 转发的趋势图都说了什么？隔两天就更新的趋势图新增了哪些内容？开源模型的能力真的要追上来了吗？4 个月前的模型差距有多大？...

↓↓↓ 关注「机器之心 PRO 会员」服务号，点击菜单栏「收件箱」查看往期通讯。

继续阅读

阅读原文