作者 | 李忠良

今天,Apple 公司通过一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究论文,正式官宣了其在多模态大模型(Multimodal Large Language Models,简称 MLLMs)领域的研究成果。该研究集中于开发具有 30B 参数规模的高性能 MLLMs,论文由多位作者联合撰写,已在 arXiv 平台发布。
论文链接:https://arxiv.org/abs/2403.09611
论文表明,研究团队通过深入和全面的剖析图像编码器、视觉 - 语言连接器以及各种预训练数据选择,发现了几个关键的设计经验。例如,他们展示了在大规模多模态预训练中使用精心混合的图像 - 文字对、交错的图像 - 文本和纯文本数据是实现多个基准测试中最先进(SOTA)的少量样本结果的关键。
此外,他们还展示了图像编码器、图像分辨率和图像标记数量对性能有重大影响,而视觉 - 语言连接器的设计相对而言影响较小。
通过扩大展示的配方,他们构建了 MM1 系列多模态模型,包括密集模型和专家混合(MoE)变体,这些模型在预训练指标中实现了 SOTA,并且在监督微调后在一系列既定的多模态基准测试中表现出竞争力。得益于大规模预训练,MM1 具有吸引人的特性,如增强的上下文学习能力和多图像推理能力,使其能够通过少量样本提示进行思维链推理。
该论文为业界详细展示了他们的实验方法:
● 架构方面:研究团队考察了多种预训练图像编码器,并探究了不同方式下,这些编码器与语言模型(LLMs)的整合策略。
● 数据处理:分析了多种数据类型及其在模型训练中的相对重要性,以确定它们的混合权重。
● 训练策略:详细讨论了多模态大型语言模型(MLLM)的训练过程,包括超参数设置以及模型的哪些部分应当在何时进行训练。
通过在这些关键领域进行的实证实验和简化,苹果公司成功评估了不同配置下模型的性能,最终确定了最优的模型与数据配置方案。
最终确定 MM1 多模态预训练的配方如下:
● 图像编码器:考虑到图像分辨率的重要性,APPLE 使用了一个在 DFN-5B 上用 CLIP 目标预训练的 ViT-H 模型,分辨率为 378x378px。
● 视觉 - 语言连接器:由于视觉令牌的数量最重要,APPLE 使用了一个具有 144 个令牌的 VL 连接器。实际的架构似乎影响较小,APPLE 选择了 C-Abstractor。
● 数据:为了保持零样本和少量样本的性能,APPLE 使用了以下精心混合的数据:45% 交错的图像 - 文本文档、45% 图像 - 文本对文档和 10% 纯文本文档。
苹果公司的大模型战略部署
苹果公司在人工智能领域的探索和投资一直是科技界关注的焦点。去年,苹果公司 AI 大模型开发团队的核心成员向外界曝光,揭示了他们在人工智能大模型领域的雄心和努力。
在 Arthur Van Hoff、John Giannandre、Ruoming Pang 等技术大佬的领导下,苹果公司成功开发了 Ajax GPT 模型,其训练参数数量超过 2000 亿。据报道,当时苹果公司计划将其 AI 大模型的研发预算提高到每天数百万美元。
今年,苹果公司明显提升了对生成式人工智能(GenAI)的关注和投资。特别是在 2024 年的苹果股东大会上,苹果的首席执行官蒂姆·库克宣布,公司预计在 GenAI 领域取得显著成就。此外,随着苹果决定终止持续了十年的汽车制造项目,原本参与该项目的一些团队成员已经开始转向 GenAI 研究。
前情提要:12 分钟内部会结束了苹果十年造车梦,转攻 AIGC!数十亿美元打了水漂、2000 员工或转岗或被裁
大模型时代的到来,标志着人工智能技术的一个新纪元。
随着 MM1 模型的公布,苹果在多模态人工智能领域的研究成果显著,这不仅展示了其在技术创新上的实力,也为未来的应用开发奠定了坚实的基础。苹果公司对于生成式人工智能(GenAI)的深度投入,特别是在多模态大模型的开发上,不仅是对当前技术趋势的响应,更是对未来智能应用场景的前瞻。
通过整合视觉和语言的处理能力,MM1 模型有望在多个领域中发挥重要作用,包括但不限于增强现实(AR)、虚拟助手、内容创作、教育和娱乐等。
此外,苹果公司在多模态大模型研究中的进展,也可能为其产品线带来创新的变革。例如,Siri 的功能可以通过整合 MM1 模型得到极大的扩展和提升,使其不仅能处理语音指令,还能理解和生成图像内容,为用户提供更加丰富和直观的交互体验。同时,这也为苹果在智能家居、教育技术和娱乐领域的产品提供了新的可能性,使其能够提供更加智能和多元化的服务。
在这个竞争激烈的领域中,众多参与者纷纷展示其实力,究竟谁能够脱颖而出,成为行业的领导者,值得我们持续关注。
延伸阅读:
https://arxiv.org/abs/2403.09611
https://www.infoq.cn/article/EMldNHMwc5Q59CLi3CUq
 内容推荐
InfoQ 独家邀请了潞晨科技创始人兼董事长尤洋,从技术原理、复现路径和实际应用成本考量三方面深入解读 Sora 技术和应用可行性。本次技术解读共包含Sora 的技术原理和关键组成、快速复现和集成 Sora 的指南、成本效益和实际应用考量三个核心要点,帮助大家理解 Sora 的核心技术、快速实现和集成 Sora 到自己的项目中,并提供考虑成本效益和实际应用的指导。关注「AI前线」,回复「Sora解读」获取解读视频及文字资料。
 活动推荐
AICon 全球人工智能与大模型开发与应用大会暨通用人工智能开发与应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。
目前会议 8 折优惠购票,火热进行中,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。
继续阅读
阅读原文