Google发布Gemini，暗示GPT-4不是「原生」多模态

「真正对标GPT-4的Gemini Ultra并没有出现，要到明年年初才正式发布。」

撰文：吴洋洋

编辑：王杰夫

Key Points

Gemini展示了与环境实时、准确互动的能力，GPT-4目前不具备这种实时能力；

相较于GPT，Gemini使用了更多来自Youtube的视频数据训练模型；

Gemini Ultra还没有就位的时候就发布Gemini，与ChatGPT和Copilot的加速有关，12月5日，微软的Copilot接入GPT-4；

Gemini提供了3种尺寸的模型：Ultra、Pro和Nano，使其可以在从数据中心到移动设备的任何设备上运行；

与「原生」多模态对立的是「近似」多模态，或者「拼凑」多模态；

在通往AGI的道路上，Google和OpenAI都在回到AlphaGo。

当地时间12月6日，Google宣布Gemini 1.0版正式上线，兑现其在今年5月开发者大会上承诺的多模态模型——这是Google商用化的第一个多模态模型，对标OpenAI今年3月发布的GPT-4。

晚了大半年才发布，Google刻意在发布会上展示了Gemini一些连GPT-4都没有的能力：它能够通过摄像头边观察边与人互动。比如，当演示者拿起画笔在纸上手绘一个小鸭，Gemini就会边看边描绘它看到的整个过程：「我看到你把一张纸放到了桌上」「我看到你画了一条波浪线」「第二条线很平衡」……当一只脚开始在波浪形下出现时，Gemini紧接着说：「它看起来像一只鸟」，演示者继续画出一条像水纹一样的波浪线，Gemini马上反应过来，「这只鸟在游泳，它有长脖子……它是一种鸭子」。猜对答案后，它还会多几句嘴说：「鸭子是一种家禽……」

右边的Gemini能够实时理解左边视频内的信息

与环境的实时、准确互动是人工通用智能（Artificial General Intelligence，AGI）的重要指标。想象一下，只要给这个AI装上身体和眼睛（摄像头），当它出现在家庭、办公室、工厂等生活场景中，你会越来越难以区分谁是AI，谁是真正的人类。

GPT目前并不具有Gemini所展示的这种实时、准确的互动能力，其最强版本目前也只能接受静态的文字和图片数据，不能接受和处理动态视频数据。Google试图向外界展示这样的雄心：采用不同于OpenAI的新技术路径，以及在端侧智能上的先人一步。

Gemini的中文意思是双子星，1960年代美国宇航局的同名项目（Gemini Project）促成了阿波罗登月。它意在纪念Google今年4月将旗下两个AI团队——DeepMind与Google Brain合并这一重大组织变革。这一合并创建的Google DeepMind被赋予追赶OpenAI GPT-4的重任，追赶也就成了Google这一年的关键词。。

此次Gemini发布会本身也是仓促的，它甚至都称不上会，所谓的发布不过是在官方网站上更新了文章与视频。就在本周一，还有传言称Gemini的发布将推迟到2024年1月。当然确实还是出现了推迟，Gemini按照能力由弱到强分为Nano、Pro、Ultra三个版本，现在可用的只有前两个版本，真正对标GPT-4的Gemini Ultra要到明年年初才正式上线。

这一切都可以看出，Google等不及了，在整个公司投入全部资源追赶OpenAI一整年后，它需要在自然年结束前交出一份答案。

「近似」多模态 vs「原生」多模态

发布Gemini前，DeepMind创始人、Google DeepMind首席执行官哈萨比斯（Demis Hassabis）接受了《连线》杂志采访，他在采访中将Gemini称为「原生」多模态，区别于其他既有多模态模型（比如GPT-4、百度文心4.0）的「近似」多模态，意思是后者是将多个模态（文本、代码、音频、图像和视频）先独立训练成不同模型，然后再拼凑在一起形成的，

而Gemini一开始就把多种形式的数据放在一起训练，并使用同一个模型完成不同模态的内容输出。

以GPT-4为例，3月发布时它号称多模态，OpenAI CEO Sam Altman也在发布会现场展示了GPT-4如何将一张手绘草图变成网站代码，但这种多模态能力自发布会结束至今从未真正上线。

按照OpenAI首席科学家Ilya Sutskever与英伟达创始人黄仁勋今年4月的对谈，OpenAI也曾使用图像数据训练GPT-4，这种多模态训练被认为是GPT-4比只用文本训练的GPT-3.5更聪明的关键原因。但这种对图片的理解能力并没有在输出端转换成图片生成能力。

9月25日，OpenAI发布的GPT-4升级版GPT-4V（GPT-4 with vision）似乎也不具备多模态生成能力。因为在10月更新的ChatGPT应用中，其增加的语音功能来自于「语音转文本」模型Whisper、视觉功能则来自9月22日发布的文生图模型DALL-E 3。

OpenAI没有公开解释过GPT-4V是否就是GPT-4加上DALL-E 3。GPT-4对这一问题的回答是：「在GPT-4首次公开展示的时候（2023年3月），DALL·E 3尚未发布。因此，当时GPT-4的图像生成展示实际上是基于DALL·E 2或其先前版本的集成。DALL·E 2是在2021年推出的，且在后续版本中不断改进。这种集成使得GPT-4能够根据文本提示生成图像，虽然图像生成的实际处理是由DALL·E系统完成的，而不是GPT-4本身。」

「对于某些任务来说，这（指近似多模态）没问题，但你无法在多模态空间中完成深层复杂的推理。」哈萨比斯说，而且相较于GPT-4V，Gemini使用了更多视频数据训练，这使它具有处理视频的能力，而GPT-4V的多模态尚不涉及视频。在视频数据方面，Google有大量自有数据，包括视频网站YouTube上900多亿分钟的视频和字幕。

一个模型有3个版本，分别对标GPT-3.5、GPT-4，还有一款适用于移动设备

具体来说，Gemini 1.0提供了3种尺寸的模型：Ultra、Pro和Nano，使其可以在从数据中心到移动设备的任何设备上运行。

Gemini Ultra ——规模最大、功能最强，适用于高度复杂的任务，在数据中心运行，对标GPT-4；
Gemini Pro ——适用于各种任务，通过Google Cloud提供服务，对标GPT-3.5；
Gemini Nano ——最小版本，适用于移动设备，比如手机。

Google称，在向公众发布前，Gemini Pro已经通过了一系列行业标准基准测试，在8个基准测试中的6个测试中，Gemini Pro的表现优于GPT-3.5；而Gemini Ultra在广泛使用的基准测试中优于GPT-4，这些基准测试包括阅读理解、代码生成和视觉理解等功能。

3个版本中，Gemini Pro版在发布会当天就已上线到Google的部分内部应用中，外部开发者要使用该模型需要等到下周，他们此刻可以访问的只有最小版本的Gemini Nano。而最先进的Gemini Ultra要在2024年年初才会正式发布和上线。

在Google内部，Gemini的应用计划是：

1. Bard（聊天机器人，对标ChatGPT）：12月6日开始，Bard背后的模型就由5月发布的PaLM 2替换成了Gemini Pro。Google称，2024年年初，当对标GPT-4版本的Gemini Ultra发布时，Bard背后的模型将进一步升级为Gemini Ultra，推出Bard Advanced（对标ChatGPT Plus），届时这款聊天机器人就能解释图像和视频，就像视频里演示的那样。

Bard是Google今年3月发布的聊天机器人，对标OpenAI的ChatGPT，目前已经在170多个国家和地区提供服务。由于缺少先发优势，且背后模型的能力差异，Bard的用户量至今还远低于ChatGPT。通过接入Gemini Pro与不久后的Gemini Ultra，Brad至少在模型能力上追上了ChatGPT。目前，OpenAI对ChatGPT Plus用户每月收取20美元，未来，Google可能会对Bard Advanced采取类似政策。

2. Pixel（智能手机）： Google计划将3款模型中size最小的Gemini Nano加载到智能手机中。加载了该模型的手机将具备的功能包括：

总结：Gemini Nano可以为手机中的对话录音、采访、演示等内容生成总结摘要，哪怕没有网络连接，这项功能也可以离线完成，该功能目前仅支持英文文本；

智能回复： Gemini Nano可以识别聊天过程中的朋友来信，并根据不同来信生成对应回复。该功能将首先登陆WhatsApp，并仅支持英文文本，明年推广至更多即时通讯应用；

照片和视频的AI编辑：比如清洁功能，只需要在照片上滑动几下，即可消除图片中的污渍、折痕等。

Pixel 8 Pro将是首款搭载Gemini Nano的智能手机。有数量庞大的移动设备使用了Google旗下的Android系统，未来Google可能让Gemini进入其他厂商生产的Android设备，这样它就可以将生成式AI引入遍布全球的数十亿台移动设备。

3. Google（搜索引擎）：Gemini目前尚未在Google搜索引擎中上线，但公司已经在该领域测试Gemini。此前，Google已经使用其他模型上线和测试了将搜索和生成结合起来的「搜索生成服务」（Search Generative Experience，SGE）。

4. 未来几个月，Gemini将应用于更多Google产品和服务，包括广告、Chrome浏览器和工作助手Duet AI。

至于外部企业客户：

12月13日开始，开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的API获取Gemini Pro，即对标GPT-3.5的那个中型版本。

此外，Android开发者还可以通过AICore使用最小的端侧模型Gemini Nano。AICore是Android 14中的一项新的系统功能，从Pixel 8 Pro开始在设备中支持。

Google也加入了AGI大赛，AI加速主义与AI对齐主义之间的矛盾可能再次引燃

在通往AGI的道路上，Google和OpenAI都在回到AlphaGo。

早在今年6月接受采访时，哈萨比斯就声称，Gemini会将生成式AI与AlphaGo中使用的技术结合，以赋予系统规划功能，这项功能使用树搜索的方法来探索和记住棋盘上可能的走法，被认为是推理能力的重要来源。

「在更高层面上，你可以将Gemini看作AlphaGo的一些优势与大模型的惊人语言能力的结合。」哈萨比斯说。AlphaGo正是他所创立的DeepMind开发出来的。

而OpenAI看上的是AlphaGo的另一项技术：自我训练，它曾令AlphaGo自己生成棋谱、然后自我对弈。2016年，AlphaGo在与李世石的博弈中下出了让所有懂围棋的人都感到困惑的「第37步棋」，最后在所有人都认为AI搞砸了的时候，AlphaGo出奇制胜了——这一出其不意被认为来自自我训练，而非向人类学习。

11月下旬的Sam Altman罢免风波中，一个叫Q*（发音为「Q-Star」）的模型被多家媒体爆料为此次风波的起因。该模型被视为OpenAI在GPT-4之后的一大技术突破，相较于传统模型从互联网上抓取文本或图像数据来训练模型，Q*可以自己生成数据来自我训练，AlphaGo曾经就是这么做的。

当时，Q*的突破被认为触发了OpenAI内部更关心AI安全而非效率那派人的担忧，Sam Altman本人被认为过于在意效率、在意公司在业内的领先优势而被罢免。这场风波虽然已以Sam Altman的回归告终，但效率派（有效加速主义）与安全派（AI对齐主义）的冲突只是被暂时压制了，并没有消失。

Google的加入可能令这一冲突在未来某个时刻再次上演。Gemini 1.0的发布只是Google在AI战争上的第一仗。在这个多模态之外，哈萨比斯所领导的Google DeepMind团队已经在研究如何将Gemini与机器人技术结合，与真实物理世界交互。「要构建真正的多模态，你还需要触摸和触觉反馈。」哈萨比斯说。

今年7月，Google DeepMind就展示过一个叫RT-2（Robotic Transformer 2）的机器人，它将电脑中训练的「视觉-语言模型」（visual-language model，VLM）与机器人在物理世界中的动作关联起来，形成「视觉-语言-动作模型」（visual-language-action，VLA），即RT-2。相较于过去为特定任务编写指令的机器人，RT-2能够与人通过自然语言交互并完成任务，哪怕是它未接受过训练的任务。

最强大、对标GPT-4的Gemini Ultra明年年初才会正式发布

12月6日的发布中，3款Gemini模型真正开始应用的只有中间版本的Gemini Pro和最小版本的Gemini Nano，最强大版本、对标GPT-4的Gemini Ultra并没有于当天发布。

Google称，这个最强版本明年年初才会出来。目前，Google正在对这款模型做信任与安全方面的检查，包括由可信赖的外部团队做「红队测试」（即安全对抗测试），并通过微调和基于人类反馈的强化学习（RLHF）进一步完善该模型。该过程中，部分客户、开发者和安全责任专家会被邀请参与早期试验和提供反馈。

Gemini的发布曾一再被推迟，最初其发布日期定在今年11月，但11月中旬早期版本的测试客户就收到邮件称正式版本将延迟发布。

就在本次Gemini 1.0系列模型发布前，Google首席执行官桑达尔·皮查伊（Sundar Pichai）还取消了原定在加利福尼亚州、纽约和华盛顿举行的一系列讲座活动，原因是Google发现Gemini无法可靠地处理一些非英语查询。

但外部压力可能使得Google无法再而三地延后发布Gemini，据报道，皮查伊和其他高管一直担心OpenAI的ChatGPT已成为家喻户晓的名字，而微软用于生产力工具的Copilot也正在变成一项重要业务。就在Gemini发布前一天，12月5日，微软宣布将GPT（包括GPT-4 Turbo）、DALL·E 3等模型的几乎所有功能都搬进Copilot，其知识库也更新至2023年4月，一次能处理的上下文长度达到128K。

于是，在对标GPT-4的Gemini Ultra没有就位的时候，Google就发布了Gemini。这是AI加速主义的又一次胜利。

参考链接

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

https://mp.weixin.qq.com/s/GcZ-ILXO1CH5OZS4LH0kig

https://wired.com/story/google-deepmind-demis-hassabis-gemini-ai/

-END-

若想了解更多当日资讯，请点击阅读往期智能晚报

智能晚报｜微软Copilot接入GPT-4最新功能；Mistral AI再融4.5亿欧元；马斯克的xAI寻求10亿美元融资...

智能晚报｜王慧文参股袁进辉的AI初创公司；商汤考虑让自动驾驶、医疗保健部门独立融资；OpenAI推迟发布GPT商店...

若想了解头条新闻，请点击阅读往期

突发｜CEO被开除，只是OpenAI危机的开始

大公司｜Google发布二代大模型，但与GPT-4仍有差距