不再延期！Google正式推出最强大模型Gemini 1.0！

深度学习自然语言处理原创
作者：pp

就在刚刚，Google CEO Sundar Pichai突然官宣了Google迄今为止最强大的多模态人工智能模型--Gemini！并联合DeepMind联合创始人Demis Hassabis共同推出一篇blog来介绍Gemini，同时发布了Gemini 1.0的技术报告

Introducing Gemini

Gemini从一开始就被设计为多模态模型，能够处理的信息包括文本、代码、音频、图像和视频。

Gemini 1.0共有Gemini Ultra, Gemini Pro, Gemini Nano三个不同版本，模型从大到小，能够处理的任务复杂程度从高到低，可部署范围涵盖从数据中心到移动设备的所有终端

State-of-the-art performance

在Google同时发布的技术报告里可以看到Gemini Ultra在多项主流大模型能力评测任务上成为新SOTA，包括MMLU(Language Understanding)，BIG-Bench-Hard(Reasoning)，DROP(Reasoning)，HumanEval(Code)，Natural2Code(Code)，WMT23(Machine Translation)，GSM8K(Math)，MATH(Math)，仅在HellaSwag(Reasoning)上逊色于其他模型。

而在Image Understanding领域，Gemini则完全成为了SOTA

在Video Understanding上一样表现强悍

在Audio Understanding方面，无论是语音识别还是翻译都战胜了OpenAI的Whisper

"由于Gemini原生设计就为多模态模型，所以从一开始就针对不同模态进行了预训练。然后我们使用额外的多模态数据对其进行微调，以进一步完善它。这一流程有助于Gemini无缝地理解和推理各种输入，远远优于现有的多模态模型 - 并且其功能几乎在每个领域都是最先进的。“ --Demis Hassabis

多模态场景

在技术报告里，Google还秀了一把Gemini的模态结合能力。

当你想要做一个omelet，你只需要这样：将你每一步开始前的照片发送给Gemini，语音询问他下一步要干什么，Gemini会用文字一步一步指导你

它还可以生成matplotlib code去重新组织subplots，妥妥的新科研神器

新的训练，新的TPU

谷歌还同时推出了迄今为止最强大、最高效且可扩展的 TPU 系统Cloud TPU v5p。”在 TPU 上，Gemini 的运行速度明显快于早期、较小且功能较差的型号。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心，这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 等数十亿用户提供服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。今天，我们宣布推出迄今为止最强大、最高效且可扩展的 TPU 系统Cloud TPU v5p，专为训练尖端 AI 模型而设计。这款下一代TPU将加速Gemini的开发，帮助开发者和企业客户更快地训练大规模生成式AI模型，让新产品和能力更快地到达客户手中。“

Bard已经部署Gemini Pro! Ultra版本暂不开放，API13号开放！

"从 12 月 13 日开始，开发者和企业客户可以通过 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 访问 Gemini Pro 。"

"对于 Gemini Ultra，我们目前正在完成广泛的信任和安全检查，包括由受信任的外部方进行红队检查，并在广泛使用之前使用微调和基于人类反馈的强化学习 (RLHF) 进一步完善模型。作为此过程的一部分，我们将向选定的客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra 进行早期实验和反馈，然后在明年初向开发人员和企业客户推出。"

Bard Advanced is Coming!

blog的最后预告了Google即将在明年推出部署了Gemini Ultra的Bard Advanced "明年初，我们还将推出Bard Advanced，这是一种全新的尖端 AI 体验，让您可以从 Gemini Ultra 开始使用我们最好的模型和功能。"

参考资料

https://blog.google/technology/ai/google-gemini-ai/#introducing-gemini
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

继续阅读

阅读原文