专题解读
日期12 月 12 日
事件:微软公开了27 亿参数的小型语言模型(SLM) Phi-2 的细节。Phi-2 在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型,其自然语言理解和推理能力在不超过 130 亿 参数的模型中实现了 SOTA 表现。
对 SLM 双管齐下的探索路径或许映射了微软在传闻与 OpenAI 的合作关系产生间隙后的策略,也可能代表着这家公司瞄准的下一个战场。 
通过Phi、Orca 等一系列工作,微软坐稳了13B以下 LLM 的 SOTA 席位。微软在大型语言模型技术上是要开始「弯道超车」OpenAI 了吗?
微软在 SLM 路上是如何双管齐下的?
2023 年,微软通过 Phi 和 Orca 系列工作在探索 SLM (Small Language Model)推理能力上做出了一系列尝试。前者探索了高质量数据对模型能力的影响,后者则聚焦于研究 Prompt 指令指令调整方法对推理的帮助。
Phi 系列的演进:用小而美的「教科书质量」数据提高模型能力
1、6月20日,微软发布论文《Textbooks Are All You Need》,用规模仅为 7B token 的「教科书质量」数据训练了一个 13 亿 参数的模型 Phi-1。phi-1 在 HumanEval 的 pass@1 上达到了 50.6% 的准确率,在 MBPP 上达到了 55.5%,证明了高质量的「小数据」能够让模型具备良好的性能。
2、9月11日,微软发表《Textbooks Are All You Need II: phi-1.5 technical report》,提出了同为 13 亿参数的 Phi-1.5。该工作将研究重点放在自然语言常识推理任务上,让 Phi-1.5 的性能可以媲美 5 倍大的模型。
3、12 月 12 日,微软所展示的 27 亿参数规模的 Phi-2 在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型。与大 25 倍的 Llama2-70B 模型相比,Phi-2 在多步骤推理任务(即编码和数学)方面实现了更好的性能。
Orca 模型的创新:用指令调整教会模型「随机应变」
1、6月5日,微软发布了 130 参数的 Orca 模型,当时,Orca 在很多基准测试中的表现已经超越 GPT3.5,但仍弱于 GPT-4。
2、11月18日,微软发布论文提出并开源 Orca 2,进一步探索小型语言模型的推理能力。为了教导 Ocra 2 成为一个「谨慎」的推理者,他们提出了一项「提示擦除(Prompt Erasure)」,使模型不仅能够执行特定的推理步骤,而且能够在处理任务时制定更高级别的策略。
「教科书质量」数据炼的 Phi-2 有何亮点?
虽然微软尚未发布 Phi-2 的论文,但官博文章透露了部分 Phi-2 的细节,相关工作涉及的数据筛选逻辑也在其 6 月的论文中有所介绍。
1、根据微软的论文,现在的前沿LLM的模型规模已经增加到千亿参数,的确释放了很多新能力,也重新定义了自然语言处理的格局。但仍存在一个问题:是否可以通过训练策略选择(比如数据选择)在较小规模的模型上同样实现这些新能力?
2、微软对此开发的 Phi 系列模型通过训练小语言模型实现与大模型类似的性能。Phi-2 主要从数据质量和创新技术两个方面打破了传统语言模型的 Scaling 规则。
3、数据质量方面,微软通过重点关注「教科书质量」数据,将「训练数据的质量在模型性能中起着至关重要的作用」的认知发挥到了极致。
4、技术创新方面,微软从 13 亿参数的 Phi-1.5 开始,将知识逐渐嵌入到了 27 亿参数的 Phi-2 中。这种规模化知识迁移加速了训练收敛,并显著提升了 Phi-2 的基准测试分数。
5、Phi-2 在没有通过人类反馈强化学习 (RLHF) 进行对齐,也没有进行指令微调的前提下,模型以 27 亿(2.7B)的参数量,在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型,其在毒性和偏见方面的表现仍优于现有开源模型。对比谷歌最近发布的 Gemini Nano2(3.2B 参数),Phi-2 同样能够解答复杂的物理问题,并使用和前者类似的提示纠正学生。
图:Phi-2 与其他模型的能力对比
Ocra 2 是如何「谨小慎微」,选用合适策略推理答题?
在 11 月提出的 Orca 2 中,微软通过让模型成为一个谨慎的推理者(Cautious Reasoner)的方式来提高其推理能力。换句话说,就是通过指令调整,让 Orca-2 决定针对给定任务选择最有效的解决策略,从而得到最准确的结果。
1、当前,在推理的过程中,模型对大多数问题都有五种处理模式:
① 逐步处理(Step-by-Step Processing);
② 回忆然后生成(Recall-Then-Generate);
③ 回忆-推理-生成(Recall-Reason-Generate);
④ 提取-生成(Extract-Generate);
⑤ 直接回答(Direct-Answer Methods)。
2、Ocra 2 的训练过程包括从多样化任务集合开始,决定哪些任务需要哪种解决策略,并编写特定任务系统指令以获得教师模型的响应。Ocra 2 的训练过程还使用了「提示擦除」技术,即用通用指令替换详细的系统指令,鼓励学生模型学习潜在策略和推理能力。
3、总体而言,通过一系列指导,Orca 2 能够成功学会「随机应变」的方法,最终实现比 70B 的大模型 LLama 2 在推理任务中更优的表现。
① 推理方面,Orca 2 在各种推理基准测试中表现出色。Orca-2-13B 在零试推理任务中显著优于同等规模的模型,并与比自己大 5-10 倍的模型竞争。
② 知识和语言理解方面,Orca-2-13B 在语言理解、知识和推理方面超过了同等规模的 LLaMA-2-Chat-13B 和 WizardLM-13B 模型,并与更大规模的模型相媲美。
③ 文本完善方面,在 HellaSwag 和 LAMBADA 文本完成任务中,Orca-2-7B 和 Orca-2-13B 的表现优于 13B 和 70B 基线模型...
微软缘何转而关注SLM?...微软之外又有哪些玩家也在研究SLM?....查看完整解读请前往「机器之心PRO」业内通讯 · 2023年度#Week 50 
「机器之心PRO」业内通讯 · 2023年度#Week 50
本期通讯总计 25380 字,包含 4 项专题解读 + 31 项 AI&Robotics 赛道要事收录。
1. 为什么基于 MoE 的大模型更值得关注? 
MoE架构很特别吗?Mistral的新模型比GPT-3.5还强?为什么大家突然开始关注MoE?GPT-4也用了MoE架构?MoE未来有哪些应用方向?...
 2. SLM 是微软「弯道超车」的秘诀吗? 
微软在 SLM 上有哪些工作?微软最新的 Phi-2 有多强?微软如何教模型「随机应变」的?微软要通过 SLM 保持可持续发展吗?...
 3. OpenAI 内讧过后,还有哪些瓜在酝酿? 
OpenAI 内讧事件过后:Altman 离职内幕、Ilya Sutskever 去留问题、GPT-4 为什么越来越「懒」了、OpenAI 的财务情况...大家都在关注什么?...
 4. 两张图能证明开源模型逆袭有望? 
LeCun 转发的趋势图都说了什么?隔两天就更新的趋势图新增了哪些内容?开源模型的能力真的要追上来了吗?4 个月前的模型差距有多大?...
↓↓↓ 关注机器之心 PRO 会员服务号,点击菜单栏「收件箱」查看往期通讯。
继续阅读
阅读原文