点击蓝字 关注我们
SUBSCRIBE to US
Illustration by Nick Barclay / The Verge
该公司在一篇博客文章中表示(https://ai.meta.com/blog/meta-llama-3/),Meta的下一代大型语言模型Llama(https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival)将向AWS等云提供商和Hugging Face等模型库发布,其性能优于大多数当前的人工智能模型。
Llama 3目前有两个模型权重,分别为8B和70B参数(包含80亿参数的Llama 3 8B和包含700亿参数的Llama 3 70B。)。到目前为止,它只提供基于文本的响应,但Meta表示,这是对前一版本的“重大飞跃”( https://ai.meta.com/blog/meta-llama-3/)。Llama 3在回答提示方面表现出更多的多样性,拒绝回答问题的错误拒绝更少,而且可以更好地推理。Meta还表示,Llama 3比以前理解了更多的指令,编写了更好的代码。
Meta在帖子中声称,在某些基准测试中,两种尺寸的Llama 3都击败了谷歌的Gemma和Gemini(https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source)、Mistral 7B和Anthropic的Claude 3等尺寸相似的型号。在通常衡量常识的MMLU基准中,Llama 3 8B的表现明显好于Gemma 7B和Mistral 7B,而Llama 2 70B的表现略好于Gemini Pro 1.5(https://www.theverge.com/2024/2/15/24073457/google-gemini-1-5-ai-model-llm)。
(值得注意的是,Meta 2700字的帖子中没有提到OpenAI的旗舰机型GPT-4。)
还应该注意的是,基准测试人工智能模型虽然有助于了解它们的强大程度,但并不完美(https://www.theverge.com/2024/4/15/24131097/measuring-ai-models-needs-an-overhaul)。用于对模型进行基准测试的数据集已被发现是模型训练的一部分,这意味着模型已经知道评估人员会问它的问题的答案。
Screenshot: Emilia David / The Verge
Meta表示,人类评估人员对Llama 3的评分也高于其他模型,包括OpenAI的GPT-3.5。Meta表示,它为人类评估人员创建了一个新的数据集,以模拟可能使用Llama 3的真实世界场景。这个数据集包括一些用例,如征求建议、总结和创造性写作。该公司表示,研究该模型的团队无法获得这些新的评估数据,也不会影响模型的性能。
Meta在其博客文章中表示:“该评估集包含1800个提示,涵盖12个关键用例:征求建议、头脑风暴、分类、封闭式问题回答、编码、创造性写作、提取、角色/伪装、开放式问题回答,推理、重写和总结。”
Llama 3有望获得更大的模型尺寸(可以理解更长的指令和数据串),并能够做出更多的多模式响应,如“生成图像”或“转录音频文件”。Meta表示,这些较大的版本参数超过400B,理想情况下可以比较小版本的模型学习更复杂的模式,目前正在训练中,但初步性能测试表明,这些模型可以回答基准测试提出的许多问题。
不过,Meta没有发布这些大型模型的预览,也没有将它们与GPT-4等其他大型模型进行比较。
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
 · IEEE电气电子工程师学会 · 
继续阅读
阅读原文