GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程？

都做到

机器之心PRO · 会员通讯 Week 20

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程？

OpenAI 和谷歌的商战有何看点？多模态实现大一统了嘛？AI 往下走要靠多模态先突破？OpenAI 怎么做多模态的？最近其他团队怎么做多模态的？...

2. 微软 CTO 办公室为什么觉得 RAG 的下一步是 Graph？

为什么 QFS 对 RAG 很重要？传统 RAG 哪里不好用？GraphRAG 有何优势？GraphRAG 如何实现的？RAG 发展至今经历了什么？...

3. a16z 创始人：别慌，小型 AI 创企也有竞争优势

现在的 AI 创企要怎么和巨头竞争？AI 还会变得更好吗？AI 会受限于人类极限吗？什么是价值导向的商业模式？AI 时代的投资悖论是什么？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 9 项，国内方面 6 项，国外方面 14项。

本期通讯总计 29331 字，可免费试读至 10 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程？

日期：5 月 15 日

事件：本周，OpenAI 和谷歌前后脚的两轮大发布让我们看到了什么叫做「以最朴实的方式展开最高端商战」。但在热闹的商业动作之外，技术层面上 OpenAI和谷歌在 GPT-4o 和 Gemini 1.5 Pro 等多模态大模型的路线上打出的这张明牌，是否能撬开 AI 通往下一阶段的新进程？

业界人士怎么看 GPT-4o 和 Gemini 1.5 Pro？

1、出门问问 CEO 李志飞在文章中表示，GPT-4o 是一个真正意义上通用的 VPA（虚拟个人助理）。[1] [2]

① 他表示，2011 年苹果发布 Siri 后无数公司尝试着做一个万能的 VPA，但效果都不如意。OpenAI 的 demo 无疑是把 VPA 推到了前所未有的高度。

② 对照近期的发布会，他在 2023 年 8 月的文章中还预测了多模态将成为 AI 重要的趋势，强调了多模态能力对 Agent 的重要性，以及对于 LLM+多模态做法的机会。

2、英伟达研究员 Jim Fan 在看完两场发布会后，就 GPT-4o 和 Gemini 的能力发表了看法。

① 他表示相比前者的输入和输出都是多模态，谷歌的模型似乎是多模态输入，但不是多模态输出。Imagen-3 和音乐生成模型仍然是与 Gemini 分离的独立组件。

② 将所有模态的 I/O 原生合并是不可避免的未来。GPT-4o 并没有完美地做到这一点，但它正确地掌握了形式因素。

③ Jim Fan 对谷歌的认可在于，他们将 AI 整合到了搜索框。在他看来，谷歌最强的护城河是分发能力。Gemini 不必是最好的模型，就能成为世界上使用最广泛的模型。

3、华为开源生态专家黄之鹏就 OpenAI 发布会的多方面发表了看法。

① 就 OpenAI 展示的内容来看，他们或认为响应速度是 AGI 的一个标准。

② OpenAI 的免费策略或许是在狙击谷歌苹果在移动端优势，抢占下一代移动端入口。

③ 类 GPT-4o 的开源多模态大模型实现很快会出现，可能 Meta 在 7～8 月计划发布的 Llmma 3 400B 版本就会是多模态的。

④ OpenAI 发布的细节显露他们深厚的人才储备。

GPT-4o 和 Gemini 1.5 Pro 实现端到端多模态的大一统吗？

1、自从 OpenAI 在 2023 年发布 GPT-4V，对大一统多模态大模型的讨论就在逐步成为新的趋势。彼时，“多模态”大模型的实践路线大致分为两种，分别是 MLLM 与大型多模态模型 LMM，其中的 LMM 就是目前业内热议的端到端「大型多模态大一统模型」（详见 2023 Week51 期会员通讯）

① MLLM（多模态大型语言模型）的做法是以 LLM 作为核心大脑来执行多模态任务。

彼时，大型语言模型在 NLP 任务中表现出色，但天生对视觉内容“视而不见”，大型视觉基础模型则在感知方面进展迅速，鉴于这种互补性，单模态 LLM 和视觉模型同时朝着彼此运行，最终带来了 MLLM 的新领域。

② 形式上，MLLM 指基于 LLM 的模型，该模型能够接收多模态信息并对其进行推理。

③ 中国科学技术大学和腾讯优图实验室在综述论文《A Survey on Multimodal Large Language Models》中，将 MLLM 定义为“由 LLM 扩展而来的具有接收与推理多模态信息能力的模型”。

2、LMM（大型多模态模型）的说法则最初由 OpenAI 提出，他们在 GPT-4 发布时对其采用了 LMM（接受图像和文本输入，输出文本）的描述。在GPT-4V 的系统卡片中，其也将额外的模态（如图像输入）整合到大型语言模型中被视为 AI研究和开发的一个关键前沿。GPT-4V 当时带来的主要革新是支持图像输入。在输入方式上，GPT-4V 支持图像、子图像、文本、场景文本、视觉指针及其混合集。其训练数据就也包含了图像。

3、OpenAI 虽然尚未放出 GPT-4o 的技术报告，但官方博客与许多现有分析指出他们采用了“全模态端到端”的训练方法。

① 根据 OpenAI 的官方博客，以往的 GPT Voice Mode 依靠三个专门的模型，按一个模型语音转换为文本→GPT 处理文本生成回复→一个模型将文本转为语音的流程运作。在 GPT-4o 的开发中，他们首次尝试使用一个统一的模型来同时处理文本、视觉和音频信息，这意味着所有的输入和输出都由同一个神经网络完成。

② OpenAI 音频 AGI 负责人 Alexis Conneau 在推特也分享 GPT 模型能够原生处理音频的心得时，也提到它远不同于传统的文本转语音（TTS）模型，而是一个涵盖更广泛多模态（multimodal）上下文的系统。

③ Jim Fan 同样在分析中指出，在技术层面，OpenAI 已经开发出一种新技术，能够直接将音频映射到音频，将其作为主要的模态，并且能够实时向 Transformer 传输视频。这些需要对 token 化和架构进行一些新的研究，但总体来说是一个数据和系统优化问题（大多数事情都是如此）。Jim Fan 在看完谷歌 I/O 大会后的点评中还补充表示：将所有模态的 I/O 原生合并是不可避免的未来。GPT-4o 并没有完美地做到这一点，但它正确地掌握了形式因素。

4、谷歌在发布 Gemini 技术报告时，同样指出 Gemini 的训练数据采用了多模态和多语言数据集，预训练数据集使用来自网络文档、书籍和代码的数据，包括图像、音频和视频数据。

5、视频是多模态大模型完成端到端大一统的另一个必争之地。在 2024 年初的达沃斯世界经济论坛上，图灵奖得主、深度学习三巨头之一 Yann LeCun 强调了视频数据对下一代 AI 系统的重要性。LeCun 认为，当前的自回归 LLM 的发展正趋向极致，但数据资源正变得越来越少，公开的互联网数据正在耗尽，视频数据具有更加丰富的信息，但如何让 AI 理解视频数据仍是问题。LeCun 和 Coursera 联创 Daphne Kollerr 在对话中曾提及未来 AI 系统不仅需要理解数据之间的关联，还需要理解因果关系，能夠通过干预世界并观察结果来学习。这种理解是跨越数字世界与物理世界的桥梁。

6、OpenAI 官方提及 GPT-4o 是跨文本、视觉和音频端到端训练的新模型，并未提及是否使用了视频数据进行训练，但 GPT-4o 已经表现出对视频处理能力的阶段性进展。谷歌官方曾提及Gemini的训练数据是包含视频的，而 Gemini 1.5 Pro 也在一定程度上具备了对视频内容的理解能力。

大型多模态大一统模型是通向下一代通用AI 最有潜力的技术路径吗？

继续阅读

阅读原文

关键词

模型

谷歌

GPT-4

多模态

大模型