机器之心PRO · 会员通讯 Week 51
---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----
 1. Gemini 之后,多模态的下一步怎么走? 
Gemini 技术报告放出了哪些细节?Gemini 是哪种多模态模型?多模态模型有几种?多模态的下一步有哪些技术路径?...
 2. MLLM:下一代自动驾驶的新解法 
大模型会带来自动驾驶的范式变革吗?MLLM 技术是如何加持自动驾驶?MLLM 在自动驾驶领域有哪些典型用例?为什么说自动驾驶也是「具身智能」 重要落地场景?...
 3. 2024 年 AI 趋势预测一览 
a16z 对 2024 年各行业都有哪些预测?哪些领域的预测观点值得重点关注?AI 业内大佬对 2024 年还有哪些关键预测?...
...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 7 项,国外方面 10 项...
本期通讯总计 32070 字,可免费试读至 7 % 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读 ① Gemini 之后,多模态的下一步怎么走?

日期:12 月 20 日
事件:谷歌近日于 arxiv 上传了 Gemini 的技术报告。
Gemini 的技术报告都说了啥?
1、谷歌表示 Gemini 是一个多模态大模型体系,它在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三个版本,适用于从复杂推理任务到移动设备的各种应用。
① Ultra 版本提供复杂任务中的 SOTA 性能,特别适用于推理和多模态任务。
② Pro 版本在成本和延迟方面进行了性能优化,显示出强大的推理和多模态能力。
③ Nano 版本有两个尺寸,参数分别为 1.8B (Nano-1) 和 3.25B (Nano-2),分别针对低内存和高内存设备,采用 4 位量化进行部署,并提供一流的性能。
2、模型性能方面,谷歌特别指出,Gemini 是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型。此外,Gemini Ultra 在 32 个基准测试中的 30 个中刷新了业界最佳(SOTA)水平。
3、多模态能力方面,Gemini 可以处理多种形式的输入,如文本、音频、图片和视频。它可以处理可变的输入分辨率,并从通用语音模型中直接摄取 16kHz 的音频信号。
① 对于多模态推理,类似此前公开过的用例,Gemini 能够理解凌乱的笔迹,将问题和解决方案转换为数学排版,并识别学生在解决问题时的具体推理步骤。
4、Gemini 模型采用 TPUv5e 和 TPUv4 训练,其中 Ultra 版本使用了跨多个数据中心的大量 TPUv4 加速器。
5、Gemini 的训练数据采用了多模态和多语言数据集,预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。
① 谷歌使用了 SentencePiece tokenizer,并发现在整个训练语料库的大样本上训练 tokenizer 可以提高推断词汇量,从而提高模型性能。
② 谷歌还使用启发式规则和基于模型的 tokenizer 对所有数据集应用质量过滤器,并执行安全过滤以删除有害内容。
6、值得注意的是,Gemini 技术报告的作者共有 941 人,包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一众谷歌研究大佬,另外还有谢尔盖・布林这样的公司联合创始人。
同是是多模态大模型,Gemini 和 LMM、MLLM 有什么不同?
在 12 月 6 日 Gemini 1.0 的发布会上,谷歌 CEO Sundar Pichai 称 Gemini 称为「新 AI 品种」即原生多模态模型(Native Multimodal)。
1、此前,大多数模型都通过训练单独的模块,然后将它们拼接在一起来近似多模态,不足之处在于没办法在多模态空间进行深层复杂推理。
2、谷歌表示,Gemini 在设计时就原生支持多模态,要具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。
3、作为 Gemini 的对标竞品,OpenAI 在 GPT-4V 的系统卡片中将其称为「大型多模态模型(LMM)」。初始训练中也使用了不同模态的数据。
① Gemini 的训练数据包含图像、音频、视频和文本四种类型。
② GPT-4V 的训练数据主要为图像、文本两类。
4、在 Gemini 和 GPT-4V 之外,许多「多模态大语言模型(MLLM)」的工作则将大语言模型(LLM)作为大脑来执行多模态任务。中国科学技术大学和腾讯优图实验室在综述论文中将 MLLM 定义为「由 LLM 扩展而来的具有接收与推理多模态信息能力的模型」,可以分为四类[1] :
① 多模态指令调整(MIT),在 prompt 中加入特定指令,指示 LLM 处理不同模态的输入或输出。
② 多模态上下文学习(M-ICL),将不同模态的表示拼接作为 LLM 的单个上下文输入,如将图像特征向量拼接在文本序列后面,作为整体输入给 LLM。
③ 多模态思想链(M-CoT),让 LLM 通过自然语言描述不同模态内容之间的关系,如「The text describes the scene in the image」。
④ LLM 辅助视觉推理(LAVR),利用 LLM 的语言理解能力来增强计算机视觉系统,如利用 LLM 来生成更好的图像区分句子,从而提升视觉系统的性能。
多模态模型都有哪些类别?[4]
2023 年 9 月,微软雷德蒙德首席研究员 Chunyuan Li 为首的 7 位微软华人研究者撰写了综述《Multimodal Foundation Models: From Specialists to General-Purpose Assistants》,梳理了「多模态基础模型」类型、功能和技术路径。
1、该综述探讨了三种多模态基础模型的类型,分别是「视觉理解模型」、「视觉生成模型」和「通用接口」,并展示了部分典型工作和做法。
2、视觉理解模型(Visual Understanding Models)专注于学习通用的视觉表示,对各种计算机视觉任务至关重要。视觉理解模型的开发主要集中在以下三个方面:
① 标签监督:利用如 ImageNet 和 ImageNet21K 这样的数据集进行监督学习。这些数据集提供了大量的图像和标签,用于训练模型识别和分类图像。
② 语言监督:使用语言作为更丰富的监督形式。例如,CLIP 和 ALIGN 等模型使用数百万甚至数十亿的嘈杂图像-文本对进行预训练,这些对从网络上挖掘而来。这些模型支持零样本图像分类,并使传统计算机视觉模型能够执行开放词汇任务。
③ 仅图像自监督:这一研究方向通过从图像本身挖掘的监督信号来学习图像表示。方法包括对比学习、非对比学习和遮蔽图像建模。
3、视觉生成模型(Visual Generation Models)致力于生成视觉内容,尤其是在文本描述或提示的基础上。视觉生成模型的主要研究领域包括:
① 文本条件视觉生成:这部分工作集中在根据文本描述生成图像和视频上。包括 DALL-E、DALL-E 2、Stable Diffusion、Imagen 和 Parti 等,这些模型能够生成高保真度的图像以响应文本提示。
② 与人类意图一致的视觉生成器:这个领域的研究致力于改进预训练的视觉生成器,使其更好地遵循人类意图。涉及的挑战包括提高空间可控性、更好地遵循文本提示、支持基于文本的灵活编辑和促进视觉概念定制。
4、通用接口(General-purpose Interface)代表近期出现的通用模型,主要用作成为 AI Agent 的基础,而非仅针对特定任务。主要包含三种做法:
继续阅读
阅读原文