Gemini发布仅一天就遭质疑，谷歌追赶OpenAI太过心急？

“

在ChatGPT问世后，谷歌在大模型上一直落后于微软和OpenAI，谷歌寄望Gemini能够被用户接受，从而改变微软一枝独秀的优势。

本文字数3565，阅读时长约11分钟

文｜财经E法樊朔

编辑 | 郭丽琴

“欢迎来到Gemini时代。”在谷歌人工智能实验室DeepMind官网，谷歌向世界宣布了大模型野心。

谷歌DeepMind在其官网宣布，欢迎来到Gemini时代

当地时间12月6日，谷歌CEO桑德尔·皮查伊（Sundar Pichai）和DeepMind CEO德米斯·哈萨比斯（Demis Hassabis）在谷歌联合发文，推出最新的多模态预训练大模型Gemini1.0。

谷歌在Gemini1.0的基础上推出了三个不同的版本：

Gemini Ultra——最大、最有能力的模型，适用于高度复杂的任务。

Gemini Pro——可扩展各种任务的最佳模型。

Gemini Nano——最高效的设备端任务模型。

谷歌将Gemini形容为其“功能最强大、最通用”的人工智能模型。谷歌披露的数据显示，Gemini Ultra在文本、编码、多模态等多项基准测试中超越了OpenAI的GPT-4。

同时，Gemini快速在谷歌产品端进行了应用。谷歌宣布，对话式AI工具Bard将使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等。此外，谷歌还将Gemini引入智能手机Pixel，Pixel 8 Pro 是第一款运行 Gemini Nano 的智能手机，它支持录音机应用中的摘要新功能，明年还会推出更多消息应用。

但Gemini发布仅一天，其实际表现就遭到了诸多质疑。宾夕法尼亚大学沃顿商学院教授伊桑·莫里克（Ethan Mollick）在社交媒体表示，输入同样的指令后，GPT-4给出的回复与Gemini类似。而Gemini流畅的演示视频也经过剪辑。谷歌演示视频下标注：“为了演示的目的，为了简洁起见，延迟被减少了，Gemini的输出也被缩短了。”

谷歌的一位发言人回应媒体称，演示视频通过 "使用镜头中的静止图像帧，并通过文字提示 "制作。专栏作家帕米·奥尔森（Parmy Olson）指出，这与谷歌似乎暗示的完全不同：一个人可以在Gemini观察并实时回应周围世界的同时，与它进行流畅的语音对话。

部分网友试用了已搭载了Gemini Pro的对话式AI工具Bard，得到的回答并没有视频中展示的强大。例如，Bard在回答第95届奥斯卡金像奖最佳男主角是谁的问题时，表示最佳男主角是布莱丹·格里森 (Brendan Gleeson)，而不是正确答案布兰登·弗雷泽（(Brendan Fraser)。

“视频里看到的效果非常惊艳。”华泰证券科技与电子首席分析师黄乐平对财经E法评论，但目前除了谷歌自己，没有人真正用过Gemini Ultra的服务。从技术趋势角度，Gemini展示了包括文本、代码、音频、图像和视频这些模态的原生多模态模型是未来的趋势，能够把大模型性能推到一个新的高度。GPT-5可能也是这一技术路线。

在OpenAI发布ChatGPT一周年后，谷歌携带Gemini回归，重新搅动着硝烟弥漫的大模型战场。未来大模型赛道将呈现怎样的竞争格局？谜底仍待揭晓。

号称多项数据超越GPT-4

谷歌将Gemini Ultra与GPT-4进行了对比。其披露的数据显示，Gemini在32个多模态基准测试中取得了30个SOTA（State Of The Art，即当前最优效果）的记录，超越了目前最先进的GPT-4。在结合了数学、物理、历史、法律等 57 个科目的MMLU测试上，Gemini Ultra得分高达90.0%，而人类专家的成绩为89.8%，GPT-4为86.4%。Gemini Ultra的得分意味着它是第一个在MMLU上超越人类专家的模型。Gemini Ultra 还在MMMU基准测试中取得了 59.4% 的分数，该基准测试由不同领域、需要深度思考、推理的多模态任务组成。

Gemini Ultra在30个多模态基准测试中取得了SOTA（State Of The Art，即当前最优效果）的记录，超越了目前最先进的GPT-4。

谷歌表示，Gemini的设计为原生多模态，并使用额外的多模态数据进行微调，以进一步完善其有效性，这使得 Gemini 可以无缝理解、操作和组合不同类型的信息，远远优于现有的多模态模型。

目前，Gemini已被谷歌在产品端应用。Bard将使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等。升级后的Bard将在 170 多个国家和地区提供英语版本，谷歌计划在不久之后扩展到不同的模式并支持新的语言和地点。

在Google Pixel 8 Pro上，除了录音机应用中摘要功能，Gemini Nano将在谷歌键盘Gboard的智能回复功能中应用。前者可以生成录音摘要，方便用户快速浏览录音内容。后者则可以根据用户的输入内容，自动生成高质量的回复建议。谷歌表示，未来将有更多应用程序支持这一功能，为用户带来更多便利。

未来几个月中，Gemini 将出现在谷歌更多的产品和服务中，例如搜索、广告、Chrome 和 Duet AI。

但谷歌的雄心不止于此。哈萨比斯在接受《连线》杂志（Wired）采访时表示，谷歌DeepMind已经在研究如何将 Gemini与机器人技术结合起来，与世界进行物理交互。新的多模态模型将成为智能体、规划和推理、游戏甚至物理机器人快速创新的基础。

值得注意的是，Gemini是在谷歌自研的云芯片Tensor Processing Units（TPU）v4 和 v5e上完成训练的。谷歌表示，在 TPU 上，Gemini 的运行速度明显快于早期规模较小且能力较弱的模型。谷歌同时宣布推出旗下迄今为止最强大、最高效且可扩展的 TPU 系统Cloud TPU v5p，该型号TPU专为训练尖端 AI 模型而设计。

谷歌此前在大模型领域也经历过起伏。

当地时间2月8日，谷歌在法国巴黎举行的新闻发布会上正式披露的聊天机器人产品Bard。在进行演示时出现了一个事实性的错误，Bard在回答“詹姆斯·韦伯空间望远镜的新发现”这个问题时，错误地把另一个望远镜取得的成就安给了前者。随后，2月8日，连续多日涨幅的谷歌股价大跌7.4%，市值一夜蒸发约1056亿美元（约合7172.78亿元人民币），为近三个月以来的最大跌幅。（详见：科技巨头抢占ChatGPT风口, 数据安全挑战不可掉以轻心）

开源还是闭源，只是竞争策略

在ChatGPT推出一周年后，OpenAI经历了戏剧性的董事会“宫变”，CEO山姆·奥特曼（Sam Altman）一度被迫出局，在投资人施压和员工集体辞职的威胁下才得以回归。公开信息显示，部分企业开始意识到与单一的大模型企业合作的风险，开始寻求大模型领域的替代方案。谷歌的姗姗来迟能否撼动行业格局？谷歌宣布，从 12 月 13 日开始，开发者和企业客户可以通过 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 访问 Gemini Pro。而对于最为先进的Gemini Ultra，谷歌正对其进行广泛的信任和安全检查，目前仅向选定的客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra 进行早期实验和反馈，预计在明年初向开发人员和企业客户推出。

Meta于今年7月发布了免费可商用版本Llama 2，这也是大型科技公司首个开源的商用大模型，为初创企业和其他企业提供OpenAI和谷歌的替代方案。据美国媒体报道，Meta正在开发一种更加强大的大语言模型，比当前的Llama2 强大数倍，甚至比肩OpenAI 最强大的GPT-4。

为什么谷歌在没有上线Ultra版本的情况下，在12月接近美国圣诞假期的这个时候，要上线一个不完整的Gemini？黄乐平表示，一个可能的原因是竞争压力。海外大模型竞争格局明朗，微软与OpenAI、谷歌在闭源模型上遥遥领先，Meta凭借LlaMa-2在开源模型上独树一帜。

黄乐平认为，谷歌技术积累深厚，但商业化一直比较慢。谷歌年初合并了自己的两个研发团队DeepMind和Google Brain，这次Gemini算是交了一个初步的答卷。后续还需要看Ultra实际效果，以及谷歌在商业落地上的进展。目前微软Copilot发展十分迅速，谷歌在手机硬件，搜索上的优势似乎一直没能转化成AI落地上的优势。

艾媒咨询CEO兼首席分析师张毅认为，全世界最适合做生成式AI的企业就是谷歌，基于多年搜索引擎的基础，谷歌已经在底层对全球的网页信息和学术信息进行了深度整理。大模型会基于数据进行训练，从这个角度而言，谷歌Gemini碾压GPT-4实属正常，只不过谷歌并没有在早期领先。但从商业角度而言，OpenAI有先发优势，其商业模式探索、渠道构建、运营和实践都走在了前面。可以预见，未来大模型赛道还会有比较长的竞争。

黄乐平分析，未来的一种可能性是，大模型行业从目前微软+OpenAI遥遥领先，变成微软，谷歌，亚马逊+Anthropic AI群雄逐鹿的情况。谷歌AI技术和人才储备丰厚，当前最主要的LLM基础架构Transformer、TensorFlow框架都由谷歌推出。谷歌拥有包括搜索引擎、地图、邮箱、办公套件等在内的丰富产品生态，但产品化一直落后OpenAI。谷歌今年以来在大模型上一直落后于微软和OpenAI，这次Gemini如果能够被用户接受，可能会改变现在微软一家独大的情况。

开源模式的大模型探索也在继续推进。

近期，Meta与IBM发起了一个由50多家AI公司和研究机构组成的联盟，推AI开放模式。该AI联盟的成员包括英特尔(Intel)、甲骨文(Oracle)、康奈尔大学(Cornell University)和美国国家科学基金会(National Science Foundation)，联盟表示正在整合资源，支持AI领域的“开放式创新和开放式科学”，该联盟的成员基本支持开源。IBM高级副总裁兼IBM Research负责人Dario Gil表示，IBM自8月份以来一直与Meta合作，将那些没有像OpenAI那样受到关注的组织聚集在一起。

未来，大模型开源是否会是发展趋势？美国亚太法学研究院执行长、暨南大学特聘教授孙远钊认为，大模型领域高门槛，所需的硬件设备与场地相对稀缺，市场注定会发展成寡占的局面。“参考硅谷过去七、八十年的发展历史，从芯片到个人电脑到手机、再到网络平台，最终几乎注定会发展成为某种寡占的状态。”孙远钊说。

黄乐平则分析，开源只是一个竞争策略，OpenAI刚成立的几年，也采取开源策略，例如GPT-1，GPT-2都是开源的。直到OpenAI发现能追赶上谷歌后，GPT就闭源了。在黄乐平看来，目前Meta和谷歌、微软以及OpenAI对比仍处于劣势，所以通过开源一个好的模型，来吸引开发者。过去半年LlaMa2开源，这也取得了成效。

“未来，开源和闭源还是取决于各家的行业地位，有可能会长期共存。”黄乐平说。

近期话题，点击阅读

继续阅读

阅读原文