Robin刚夸完闭源——Meta直接放出Llama 3：全球最强开源LLM、性能碾压闭源大模型

⬆️ 武汉源创会火热报名中

Robin 如是说：

“大家以前用开源觉得开源便宜，其实在大模型场景下，开源是最贵的。所以，开源模型会越来越落后。”

“大模型开源意义不大，称闭源模型在能力上会持续地领先。”

好在“开源之光” Meta 并没让大家失望，被全世界无数人盯着的大模型 —— Llama3 终于正式发布了。

小扎还录了视频介绍 Llama 3（这大金链子属实把我闪瞎了

4 月 19 日，Meta 发布了最先进的开源大语言模型的下一代版本：Llama 3。该模型目前提供两种大小的参数量，分别为 8B 和 70B 参数。

省流总结：

Llama 3 70B在处理多种类型的复杂任务方面，相比8B版本有显著的提高。
70B版本的模型在所有测试中都比8B版本得分高，意味着它在理解语言细节、上下文和执行复杂任务（如翻译、对话生成和代码编写）方面更为出色。这强化了Llama 3 70B作为用于需求繁多的AI项目的高效解决方案的地位。

Meta 也测试了 Llama 3 在真实世界场景中的性能。他们专门开发了一个新的高质量人类评估集，该评估集包含 1800 个提示，涵盖 12 种关键用例（征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色 / 人物角色、开放式问题解答、推理、改写和总结）。

在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的对比中， Llama 3 同样有着更好的表现。

人类标注者根据该评估集进行的偏好排名，数据显示，Llama 3 700 亿参数指令跟随模型与真实世界中同等规模的竞争模型相比的强大性能。

Llama 3 的预训练模型还为这类规模的 LLM 模型建立了新的 SOTA。

Meta 表示，它希望最强大的 Llama 3 模型能够实现多模式，这意味着它们可以接收文本、图像甚至视频，然后生成所有这些不同格式的输出。

他们还致力于使模型能够支持多种语言。它们还具有更大的“上下文窗口”，这意味着它们可以输入大量数据进行分析或总结。（更大的上下文窗口也被证明可以降低模型的幻觉率，或者降低模型响应提示而输出不准确信息的频率。）

据 Meta 称，它们还拥有改进的推理和编码能力。

Meta 称这些模型在响应提示次、减少错误、拒绝回答问题的情况以及推理能力方面有了显著进步。在 MMLU 通用知识基准测试中，Llama 3 的 8B 模型显著优于 Gemma 7B 和 Mistral 7B，而 70B 模型略胜于 Gemini Pro 1.5。

Meta 在博客中声称，虽然基准测试有助于了解 AI 模型的能力，但这种测试并不完美，因为用于基准测试的数据集可能是模型训练的一部分，意味着模型可能已经「知道」评估者的问题。

Meta 表示人类评估者也给 Llama 3 的表现评分高于，包括 OpenAI 的 GPT-3.5 在内的其他模型。

此外，Meta 还创建了一个新的数据集，包括但不限于寻求建议、总结和创造性写作等用例，来模拟 Llama 3 可能被使用的现实世界场景。

最后，Meta 表示，目前正在训练的更大版本的模型（参数将超过 400B）预计将能理解更长的指令和数据串，并能够进行更多模态的响应，如「生成图像」或「转写音频文件」等。

Meta 还谈到了开源 Llama 3 的初衷。通过 Llama 3，Meta 的目标是构建与当今市场上最好的专有模型相媲美的最好的开源模型，希望根据开发者的反馈提升 Llama 3 的整体有用性，以及确保被可靠地部署使用。同时遵循开源精神，提倡尽早并频繁发布，以便社区在模型仍在开发中时就能进行访问。

References

官网：https://llama.meta.com/llama3/
发布公告：https://ai.meta.com/blog/meta-llama-3/

Robin刚夸完闭源——Meta直接放出Llama 3：全球最强开源LLM、性能碾压闭源大模型

Llama 3 70B在处理多种类型的复杂任务方面，相比8B版本有显著的提高。

70B版本的模型在所有测试中都比8B版本得分高，意味着它在理解语言细节、上下文和执行复杂任务（如翻译、对话生成和代码编写）方面更为出色。这强化了Llama 3 70B作为用于需求繁多的AI项目的高效解决方案的地位。