Gemini 之后，多模态的下一步怎么走？

机器之心PRO · 会员通讯 Week 51

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. Gemini 之后，多模态的下一步怎么走？

Gemini 技术报告放出了哪些细节？Gemini 是哪种多模态模型？多模态模型有几种？多模态的下一步有哪些技术路径？...

2. MLLM：下一代自动驾驶的新解法

大模型会带来自动驾驶的范式变革吗？MLLM 技术是如何加持自动驾驶？MLLM 在自动驾驶领域有哪些典型用例？为什么说自动驾驶也是「具身智能」重要落地场景？...

3. 2024 年 AI 趋势预测一览

a16z 对 2024 年各行业都有哪些预测？哪些领域的预测观点值得重点关注？AI 业内大佬对 2024 年还有哪些关键预测？...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 7 项，国外方面 10 项...

本期通讯总计 32070 字，可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① Gemini 之后，多模态的下一步怎么走？

日期：12 月 20 日

事件：谷歌近日于 arxiv 上传了 Gemini 的技术报告。

Gemini 的技术报告都说了啥？

1、谷歌表示 Gemini 是一个多模态大模型体系，它在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三个版本，适用于从复杂推理任务到移动设备的各种应用。

① Ultra 版本提供复杂任务中的 SOTA 性能，特别适用于推理和多模态任务。

② Pro 版本在成本和延迟方面进行了性能优化，显示出强大的推理和多模态能力。

③ Nano 版本有两个尺寸，参数分别为 1.8B （Nano-1）和 3.25B （Nano-2），分别针对低内存和高内存设备，采用 4 位量化进行部署，并提供一流的性能。

2、模型性能方面，谷歌特别指出，Gemini 是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型。此外，Gemini Ultra 在 32 个基准测试中的 30 个中刷新了业界最佳（SOTA）水平。

3、多模态能力方面，Gemini 可以处理多种形式的输入，如文本、音频、图片和视频。它可以处理可变的输入分辨率，并从通用语音模型中直接摄取 16kHz 的音频信号。

① 对于多模态推理，类似此前公开过的用例，Gemini 能够理解凌乱的笔迹，将问题和解决方案转换为数学排版，并识别学生在解决问题时的具体推理步骤。

4、Gemini 模型采用 TPUv5e 和 TPUv4 训练，其中 Ultra 版本使用了跨多个数据中心的大量 TPUv4 加速器。

5、Gemini 的训练数据采用了多模态和多语言数据集，预训练数据集使用来自网络文档、书籍和代码的数据，包括图像、音频和视频数据。

① 谷歌使用了 SentencePiece tokenizer，并发现在整个训练语料库的大样本上训练 tokenizer 可以提高推断词汇量，从而提高模型性能。

② 谷歌还使用启发式规则和基于模型的 tokenizer 对所有数据集应用质量过滤器，并执行安全过滤以删除有害内容。

6、值得注意的是，Gemini 技术报告的作者共有 941 人，包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一众谷歌研究大佬，另外还有谢尔盖・布林这样的公司联合创始人。

同是是多模态大模型，Gemini 和 LMM、MLLM 有什么不同？

在 12 月 6 日 Gemini 1.0 的发布会上，谷歌 CEO Sundar Pichai 称 Gemini 称为「新 AI 品种」，即原生多模态模型（Native Multimodal）。

1、此前，大多数模型都通过训练单独的模块，然后将它们拼接在一起来近似多模态，不足之处在于没办法在多模态空间进行深层复杂推理。

2、谷歌表示，Gemini 在设计时就原生支持多模态，要具有处理不同形式数据（语言+听力+视觉）的能力；一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性。

3、作为 Gemini 的对标竞品，OpenAI 在 GPT-4V 的系统卡片中将其称为「大型多模态模型（LMM）」。初始训练中也使用了不同模态的数据。

① Gemini 的训练数据包含图像、音频、视频和文本四种类型。

② GPT-4V 的训练数据主要为图像、文本两类。

4、在 Gemini 和 GPT-4V 之外，许多「多模态大语言模型（MLLM）」的工作则将大语言模型（LLM）作为大脑来执行多模态任务。中国科学技术大学和腾讯优图实验室在综述论文中将 MLLM 定义为「由 LLM 扩展而来的具有接收与推理多模态信息能力的模型」，可以分为四类[1] ：

① 多模态指令调整（MIT），在 prompt 中加入特定指令，指示 LLM 处理不同模态的输入或输出。

② 多模态上下文学习（M-ICL），将不同模态的表示拼接作为 LLM 的单个上下文输入，如将图像特征向量拼接在文本序列后面，作为整体输入给 LLM。

③ 多模态思想链（M-CoT），让 LLM 通过自然语言描述不同模态内容之间的关系，如「The text describes the scene in the image」。

④ LLM 辅助视觉推理（LAVR），利用 LLM 的语言理解能力来增强计算机视觉系统，如利用 LLM 来生成更好的图像区分句子，从而提升视觉系统的性能。

多模态模型都有哪些类别？[4]

2023 年 9 月，微软雷德蒙德首席研究员 Chunyuan Li 为首的 7 位微软华人研究者撰写了综述《Multimodal Foundation Models: From Specialists to General-Purpose Assistants》，梳理了「多模态基础模型」类型、功能和技术路径。

1、该综述探讨了三种多模态基础模型的类型，分别是「视觉理解模型」、「视觉生成模型」和「通用接口」，并展示了部分典型工作和做法。

2、视觉理解模型（Visual Understanding Models）专注于学习通用的视觉表示，对各种计算机视觉任务至关重要。视觉理解模型的开发主要集中在以下三个方面：

① 标签监督：利用如 ImageNet 和 ImageNet21K 这样的数据集进行监督学习。这些数据集提供了大量的图像和标签，用于训练模型识别和分类图像。

② 语言监督：使用语言作为更丰富的监督形式。例如，CLIP 和 ALIGN 等模型使用数百万甚至数十亿的嘈杂图像-文本对进行预训练，这些对从网络上挖掘而来。这些模型支持零样本图像分类，并使传统计算机视觉模型能够执行开放词汇任务。

③ 仅图像自监督：这一研究方向通过从图像本身挖掘的监督信号来学习图像表示。方法包括对比学习、非对比学习和遮蔽图像建模。

3、视觉生成模型（Visual Generation Models）致力于生成视觉内容，尤其是在文本描述或提示的基础上。视觉生成模型的主要研究领域包括：

① 文本条件视觉生成：这部分工作集中在根据文本描述生成图像和视频上。包括 DALL-E、DALL-E 2、Stable Diffusion、Imagen 和 Parti 等，这些模型能够生成高保真度的图像以响应文本提示。

② 与人类意图一致的视觉生成器：这个领域的研究致力于改进预训练的视觉生成器，使其更好地遵循人类意图。涉及的挑战包括提高空间可控性、更好地遵循文本提示、支持基于文本的灵活编辑和促进视觉概念定制。

4、通用接口（General-purpose Interface）代表近期出现的通用模型，主要用作成为 AI Agent 的基础，而非仅针对特定任务。主要包含三种做法：

继续阅读

阅读原文

关键词

模型

谷歌

多模态

性能

任务