作者 | 李忠良

今天，Apple 公司通过一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究论文，正式官宣了其在多模态大模型（Multimodal Large Language Models，简称 MLLMs）领域的研究成果。该研究集中于开发具有 30B 参数规模的高性能 MLLMs，论文由多位作者联合撰写，已在 arXiv 平台发布。

论文链接：https://arxiv.org/abs/2403.09611

论文表明，研究团队通过深入和全面的剖析图像编码器、视觉 - 语言连接器以及各种预训练数据选择，发现了几个关键的设计经验。例如，他们展示了在大规模多模态预训练中使用精心混合的图像 - 文字对、交错的图像 - 文本和纯文本数据是实现多个基准测试中最先进（SOTA）的少量样本结果的关键。

此外，他们还展示了图像编码器、图像分辨率和图像标记数量对性能有重大影响，而视觉 - 语言连接器的设计相对而言影响较小。

通过扩大展示的配方，他们构建了 MM1 系列多模态模型，包括密集模型和专家混合（MoE）变体，这些模型在预训练指标中实现了 SOTA，并且在监督微调后在一系列既定的多模态基准测试中表现出竞争力。得益于大规模预训练，MM1 具有吸引人的特性，如增强的上下文学习能力和多图像推理能力，使其能够通过少量样本提示进行思维链推理。

该论文为业界详细展示了他们的实验方法：

● 架构方面：研究团队考察了多种预训练图像编码器，并探究了不同方式下，这些编码器与语言模型（LLMs）的整合策略。

● 数据处理：分析了多种数据类型及其在模型训练中的相对重要性，以确定它们的混合权重。

● 训练策略：详细讨论了多模态大型语言模型（MLLM）的训练过程，包括超参数设置以及模型的哪些部分应当在何时进行训练。

通过在这些关键领域进行的实证实验和简化，苹果公司成功评估了不同配置下模型的性能，最终确定了最优的模型与数据配置方案。

最终确定 MM1 多模态预训练的配方如下：

● 图像编码器：考虑到图像分辨率的重要性，APPLE 使用了一个在 DFN-5B 上用 CLIP 目标预训练的 ViT-H 模型，分辨率为 378x378px。

● 视觉 - 语言连接器：由于视觉令牌的数量最重要，APPLE 使用了一个具有 144 个令牌的 VL 连接器。实际的架构似乎影响较小，APPLE 选择了 C-Abstractor。

● 数据：为了保持零样本和少量样本的性能，APPLE 使用了以下精心混合的数据：45% 交错的图像 - 文本文档、45% 图像 - 文本对文档和 10% 纯文本文档。

苹果公司的大模型战略部署

苹果公司在人工智能领域的探索和投资一直是科技界关注的焦点。去年，苹果公司 AI 大模型开发团队的核心成员向外界曝光，揭示了他们在人工智能大模型领域的雄心和努力。

在 Arthur Van Hoff、John Giannandre、Ruoming Pang 等技术大佬的领导下，苹果公司成功开发了 Ajax GPT 模型，其训练参数数量超过 2000 亿。据报道，当时苹果公司计划将其 AI 大模型的研发预算提高到每天数百万美元。

今年，苹果公司明显提升了对生成式人工智能（GenAI）的关注和投资。特别是在 2024 年的苹果股东大会上，苹果的首席执行官蒂姆·库克宣布，公司预计在 GenAI 领域取得显著成就。此外，随着苹果决定终止持续了十年的汽车制造项目，原本参与该项目的一些团队成员已经开始转向 GenAI 研究。

前情提要：12 分钟内部会结束了苹果十年造车梦，转攻 AIGC！数十亿美元打了水漂、2000 员工或转岗或被裁

大模型时代的到来，标志着人工智能技术的一个新纪元。

随着 MM1 模型的公布，苹果在多模态人工智能领域的研究成果显著，这不仅展示了其在技术创新上的实力，也为未来的应用开发奠定了坚实的基础。苹果公司对于生成式人工智能（GenAI）的深度投入，特别是在多模态大模型的开发上，不仅是对当前技术趋势的响应，更是对未来智能应用场景的前瞻。

通过整合视觉和语言的处理能力，MM1 模型有望在多个领域中发挥重要作用，包括但不限于增强现实（AR）、虚拟助手、内容创作、教育和娱乐等。

此外，苹果公司在多模态大模型研究中的进展，也可能为其产品线带来创新的变革。例如，Siri 的功能可以通过整合 MM1 模型得到极大的扩展和提升，使其不仅能处理语音指令，还能理解和生成图像内容，为用户提供更加丰富和直观的交互体验。同时，这也为苹果在智能家居、教育技术和娱乐领域的产品提供了新的可能性，使其能够提供更加智能和多元化的服务。

在这个竞争激烈的领域中，众多参与者纷纷展示其实力，究竟谁能够脱颖而出，成为行业的领导者，值得我们持续关注。