Scaling Law 又一次性感了吗？

专题解读
事件：
Sora 的出现被认为是 Scaling Law 的又一次成功，这也引起了社区中更多对 Scaling Law 的讨论。

自 OpenAI 发布 Sora，业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节，但在其技术报告中又一次强调该公司所拥护的核心理念——Scaling Law。即，支持 Sora 的 Diffusion Transformer 模型同样符合 Scale effectively），随着训练计算量增加，视频质量显著提升。这让 Scaling Law 再次成为人工智能领域的热点话题。

Scaling Law 是什么？

1、针对语言模型的 Scaling Law 来自 OpenAI 2020 年发布的论文，其释义可简要总结为：随着「模型大小」、「数据集大小」、「（用于训练的）计算浮点数」的增加，模型的性能会提高。当不受其他两个因素的制约时，模型性能与每个单独的因素都有幂律关系。

① 模型性能受三个因素共同影响，其中计算量对性能的提升最为显著，其次是模型参数，而数据集大小的影响相对较小。在资源不受限制的情况下，性能提升最为显著。

② 在有限的计算资源下，为了获得最佳性能，可以通过训练大型模型并在其达到最佳状态前提前终止训练。

③ 大型模型在样本效率上更优，它们可以用较少的数据和优化步骤达到与小型模型相同的性能。在实践中，应优先考虑训练大型模型。

2、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势，这对于在有限预算下做出关键设计选择，如确定模型和数据的理想规模，避免昂贵的试错过程，具有重要意义。

① 在大语言模型的训练中，交叉熵损失是评估模型预测准确性的常用指标，它衡量模型输出与实际情况的差距。损失越低，预测越精确，训练目标就是降低这一损失。

3、作为另一个代表性研究，Google DeepMind 团队的 Hoffmann 等人同样提出了一种用于指导 LLMs 计算最优训练的替代 Scaling Law 形式。

① 在有限的浮点运算（FLOP）预算下，损失函数显示出最佳性能点：对于较小的模型，增加数据量以训练较大的模型能提升性能；对于较大的模型，使用更多数据训练较小的模型同样能带来改进。

② 为了实现计算成本的最优，模型的规模和训练数据量（token 数）应保持成比例的增长，即模型规模翻倍时，训练数据量也应相应翻倍。

③ 在训练大型语言模型时，应重视数据集的扩充，但只有在数据质量高的情况下，扩大数据集的优势才能得到充分发挥。

4、总体而言，给定计算预算的增加，OpenAI 的 Scaling Law 更倾向于在模型大小上分配更大的预算，而 Chinchilla 版则认为两个大小应该等比例增加。

Scaling Law 带来的争议有哪些？

围绕 Scaling Law 的讨论中，「模型是否越大越好？」的问题在近几年反复被提及，各方观点莫衷一是。科技博主 Dwarkesh Patel 曾撰文梳理了社区中围绕 Scaling Law 的争议与讨论的关键问题，并对支持或质疑的声音进行了解读分析。

1、现有数据会被用光吗？

① 积极观点认为，到 2024 年，高质量的语言数据将会用尽。根据 Scaling Law，我们需要的数据量比现有的多出 5 个数量级，这意味着现有数据可能只有真正需要的 10 万分之一。尽管可以通过提高数据利用效率的方法，如多模态训练、循环利用数据集、课程学习等，但这些方法难以满足 Scaling Law 指数式增长的数据需求。

② 消极观点认为，不应该因为数据短缺质疑 Scaling Law 的可行性。LLM 在处理数据时效率不高，但如果合成数据有效，我们不应该对继续 Scaling 持怀疑态度。有研究者对 self-play 和合成数据的方法持乐观态度，认为这些方法可能有效，并且有丰富的数据来源和生成数据的方法。

2、Scaling Law 真的起过作用吗？

① 积极观点认为，在各种基准测试中，模型的性能已经稳步提升了 8 个数量级，即使在计算资源增加的情况下，模型性能的损失仍然可以精确到小数点后多位。GPT-4 的技术报告表明，可以通过较小的模型预测最终模型的性能，这表明 Scaling Law 的趋势可能会持续。

② 消极观点则质疑 Scaling Law 是否能说明模型的泛化能力有实质提升。有声音指出现有的基准测试更多地测试模型的记忆力而非智能程度，并且模型在长期任务上的表现并不出色。例如，GPT-4 在 SWE-bench 测试中的得分很低，表明模型在处理长时间跨度的复杂信息时存在问题。

3、模型真的能理解世界吗？

① 有研究表明，学习大量代码能够增强 LLM 的语言推理能力，显示出模型能够识别并利用语言和代码中的通用逻辑结构。梯度下降作为一种优化策略，旨在通过数据压缩来深入理解信息，从而提高模型的预测能力。

② 积极观点认为，为了预测下一个 Token，LLM 必须学习万物背后的规律，理解 Token 之间的联系。例如，通过学习代码可以提高 LLM 的语言推理能力，这表明模型能够从数据中提炼出通用的思考模式。

③ 消极观点认为，智能不仅仅是数据压缩，即使 LLM 通过 SGD 过程实现了数据压缩，这并不能证明它们具备与人类相似的智能水平。

④ 还有一种观点认为，大模型存在方向上的路线错误......

Scaling Law 是什么？Scaling Law 都有哪些争议？都有谁相信 Scaling Law？为什么 OpenAI 能用好 Scaling Law？... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 10

本期完整版通讯含 3 个专题解读 + 29 项 AI & Robotics 赛道要事收录

1. LeCun 的 IWM 能否成为实现 AGI 的关键世界模型？

Google、Meta 、OpenAI 三家巨头对于实现 AGI 的技术路径存在分歧？Yann LeCun 提出的世界模型新范式 IWM 是什么？IWM 与 I-JEPA 是什么关系？IWM 与传统的自监督学习方法有哪些不同？...