都做到
机器之心PRO · 会员通讯 Week 20
---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----
1. GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程?
OpenAI 和谷歌的商战有何看点?多模态实现大一统了嘛?AI 往下走要靠多模态先突破?OpenAI 怎么做多模态的?最近其他团队怎么做多模态的?...
2. 微软 CTO 办公室为什么觉得 RAG 的下一步是 Graph?
为什么 QFS 对 RAG 很重要?传统 RAG 哪里不好用?GraphRAG 有何优势?GraphRAG 如何实现的?RAG 发展至今经历了什么?...
3. a16z 创始人:别慌,小型 AI 创企也有竞争优势
现在的 AI 创企要怎么和巨头竞争?AI 还会变得更好吗?AI 会受限于人类极限吗?什么是价值导向的商业模式?AI 时代的投资悖论是什么?...
...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 6 项,国外方面  14项。
本期通讯总计 29331 字,可免费试读至 10 % 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读 ① GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程?

日期:5 月 15 日
事件本周,OpenAI 和谷歌前后脚的两轮大发布让我们看到了什么叫做「以最朴实的方式展开最高端商战。但在热闹的商业动作之外,技术层面上 OpenAI和谷歌在 GPT-4o 和 Gemini 1.5 Pro 等多模态大模型的路线上打出的这张明牌,是否能撬开 AI 通往下一阶段的新进程?
业界人士怎么看 GPT-4o 和 Gemini 1.5 Pro
1、出门问问 CEO 李志飞在文章中表示,GPT-4o 是一个真正意义上通用的 VPA(虚拟个人助理)。[1] [2]
① 他表示,2011 年苹果发布 Siri 后无数公司尝试着做一个万能的 VPA,但效果都不如意。OpenAI 的 demo 无疑是把 VPA 推到了前所未有的高度。
② 对照近期的发布会,他在 2023 年 8 月的文章中还预测了多模态将成为 AI 重要的趋势,强调了多模态能力对 Agent 的重要性,以及对于 LLM+多模态做法的机会。
2、英伟达研究员 Jim Fan 在看完两场发布会后,就 GPT-4o 和 Gemini 的能力发表了看法。
① 他表示相比前者的输入和输出都是多模态,谷歌的模型似乎是多模态输入,但不是多模态输出。Imagen-3 和音乐生成模型仍然是与 Gemini 分离的独立组件。
② 将所有模态的 I/O 原生合并是不可避免的未来。GPT-4o 并没有完美地做到这一点,但它正确地掌握了形式因素。
③ Jim Fan 对谷歌的认可在于,他们将 AI 整合到了搜索框。在他看来,谷歌最强的护城河是分发能力。Gemini 不必是最好的模型,就能成为世界上使用最广泛的模型。
3、华为开源生态专家黄之鹏就 OpenAI 发布会的多方面发表了看法。
① 就 OpenAI 展示的内容来看,他们或认为响应速度是 AGI 的一个标准。
② OpenAI 的免费策略或许是在狙击谷歌苹果在移动端优势,抢占下一代移动端入口。
③ 类 GPT-4o 的开源多模态大模型实现很快会出现,可能 Meta 在 7~8 月计划发布的 Llmma 3 400B 版本就会是多模态的。
④ OpenAI 发布的细节显露他们深厚的人才储备。
GPT-4o 和 Gemini 1.5 Pro 实现端到端多模态的大一统吗
1、自从 OpenAI 在 2023 年发布 GPT-4V,对大一统多模态大模型的讨论就在逐步成为新的趋势。彼时,“多模态”大模型的实践路线大致分为两种,分别是 MLLM 与大型多模态模型 LMM,其中的 LMM 就是目前业内热议的端到端「大型多模态大一统模型(详见 2023 Week51 期会员通讯)
① MLLM(多模态大型语言模型)的做法是以 LLM 作为核心大脑来执行多模态任务。
彼时,大型语言模型在 NLP 任务中表现出色,但天生对视觉内容“视而不见”,大型视觉基础模型则在感知方面进展迅速,鉴于这种互补性,单模态 LLM 和视觉模型同时朝着彼此运行,最终带来了 MLLM 的新领域。
② 形式上,MLLM 指基于 LLM 的模型,该模型能够接收多模态信息并对其进行推理。
③ 中国科学技术大学和腾讯优图实验室在综述论文《A Survey on Multimodal Large Language Models》中,将 MLLM 定义为“由 LLM 扩展而来的具有接收与推理多模态信息能力的模型”。
2、LMM(大型多模态模型)的说法则最初由 OpenAI 提出,他们在 GPT-4 发布时对其采用了 LMM(接受图像和文本输入,输出文本)的描述。在GPT-4V 的系统卡片中,其也将额外的模态(如图像输入)整合到大型语言模型中被视为 AI究和开发的一个关键沿GPT-4V 当时带来的主要革新是支持图像输入。在输入方式上,GPT-4V 支持图像、子图像、文本、场景文本、视觉指针及其混合集。其训练数据就也包含了图像。
3、OpenAI 虽然尚未放出 GPT-4o 的技术报告,但官方博客与许多现有分析指出他们采用了“全模态端到端”的训练方法。
① 根据 OpenAI 的官方博客,以往的 GPT Voice Mode 依靠三个专门的模型,按一个模型语音转换为文本→GPT 处理文本生成回复→一个模型将文本转为语音的流程运作。在 GPT-4o 的开发中,他们首次尝试使用一个统一的模型来同时处理文本、视觉和音频信息,这意味着所有的输入和输出都由同一个神经网络完成。
② OpenAI 音频 AGI 负责人 Alexis Conneau 在推特也分享 GPT 模型能够原生处理音频的心得时,也提到它远不同于传统的文本转语音(TTS)模型,而是一个涵盖更广泛多模态(multimodal)上下文的系统。
③ Jim Fan 同样在分析中指出,在技术层面,OpenAI 已经开发出一种新技术,能够直接将音频映射到音频,将其作为主要的模态,并且能够实时向 Transformer 传输视频。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。Jim Fan 在看完谷歌 I/O 大会后的点评中还补充表示:将所有模态的 I/O 原生合并是不可避免的未来。GPT-4o 并没有完美地做到这一点,但它正确地掌握了形式因素。
4、谷歌在发布 Gemini 技术报告时,同样指出 Gemini 的训练数据采用了多模态和多语言数据集,预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。
5、视频是多模态大模型完成端到端大一统的另一个必争之地。在 2024 年初的达沃斯世界经济论坛上, 图灵奖得主、深度学习三巨头之一 Yann LeCun 强调了视频数据对下一代 AI 系统的重要性。LeCun 认为,当前的自回归 LLM 的发展正趋向极致,但数据资源正变得越来越少,公开的互联网数据正在耗尽,视频数据具有更加丰富的信息,但如何让 AI 理解视频数据仍是问题。LeCun 和 Coursera 联创 Daphne Kollerr 在对话中曾提及未来 AI 系统不仅需要理解数据之间的关联,还需要理解因果关系,能夠通过干预世界并观察结果来学习。这种理解是跨越数字世界与物理世界的桥梁。
6、OpenAI 官方提及 GPT-4o 是跨文本、视觉和音频端到端训练的新模型,并未提及是否使用了视频数据进行训练,但 GPT-4o 已经表现出对视频处理能力的阶段性进展。谷歌官方曾提及Gemini的训练数据是包含视频的,而 Gemini 1.5 Pro 也在一定程度上具备了对视频内容的理解能力。
大型多模态大一统模型是通向下一代通用AI 最有潜力的技术路径吗 ?
继续阅读
阅读原文