AI、AI、AI、AI”来自谷歌的反击
-----------------------
文|frank
北京时间5月15日凌晨1点,谷歌在山景城总部附近的海岸线圆形剧场,召开了长达两个小时的年度I/O开发者大会。
经过之前OpenAI的科幻级演示,所有人都在等待来自谷歌的反击。
与预期一致,谷歌的这场发布会基本都是在谈AI、AI、AI、AI。根据发布会最后的官方统计,整场Keynote的演讲稿里总共提了120次AI。
本次大会与OpenAI半小时集中在产品介绍的发布会完全不同。谷歌的I/O一口气拿出来十来款新品,给人一种拼死一战、量大管饱的感觉,目的就是全面对标OpenAI在AI各领域上的发展。
因为发布会产品太多、这里整理汇总了一下,共计四大板块14项相关产品。
AI模型:
Gemini 1.5 Pro
性能显著提升,拥有200万令牌上下文窗口,适合广泛任务的最佳模型。
Gemini 1.5 Flash
更轻量化、速度更快且成本更低,适用于大规模高频任务。
Gemini Nano
多模态理解能力,支持文本和图像输入,适用于设备内运用。
Gemma 2.0
具有新架构,突破性的性能和效率,适用于负责任的AI创新。
PaliGemma
第一个视觉语言模型,基于PaLI-3,扩展了Gemma家族。
多模态生成模型:
Veo
最先进的视频生成模型,生成高质量1080p视频理解自然语言和视觉语义。
Imagen 3
最高质量的文本到图像生成模型,细节丰富、逼真度高。
AI延展产品:
Google Messages
集成Gemini,实现更自然的聊天体验。
Gemini Live
使用最先进的语音技术,实现更加自然和直观的对话体验。
Search Labs
提供生成性AI功能的实验平台,支持复杂问题解决和计划功能。
Gems
允许用户创建定制版本的Gemini,满足特定需求和个性化响应。
Project Astra
未来AI助理的愿景,目标是开发通用AI代理,能够理解和响应复杂环境。
Music Al Sandbox
生成音乐的AI工具套件,支持音乐创作和实验。
硬件:
Trillium TPU
第六代TPU,性能和能源效率显著提升,支持训练和服务最强大的AI模型。
下面围绕重点给大家拆解下本次大会的各项产品以及亮点。
01

Gemini 1.5 Pro

使用地址:
https://aistudio.google.com/app/prompts/new_chat
Gemini 1.5 Pro模型具备原生音频理解、系统指令、JSON模式等功能,并且能够使用视频计算机视觉来分析图像和音频。这使得模型不仅在文本处理上表现出色,还能在视觉和听觉领域提供人类水平的感知能力。
功能亮点:Gemini 1.5 Pro拥有高达200万Token的处理能力,可深刻理解和记忆长篇复杂文档的内容。
生态系统效益:这种能力让Google Workspace的用户在编辑长文档、电子邮件和项目计划时能够更迅速、更精准地提取所需信息。
技术提升:此模型支持文本、图像、视频和音频的综合理解与生成,真正实现了多模态交互。
应用实例:用户可通过直接向Gemini询问来快速定位所需文件,或利用其长篇理解功能,轻松管理和操控数据。
优化流程:Gemini 1.5 Pro显著优化了数据处理流程,达到近乎实时的数据分析与反馈速度。
应用场景:Google Maps和Google Translate可以利用这一技术优势,提供实时导航更新和即时语言翻译服务。
Gemini 1.5 Pro,不仅代表了技术的巨大跃进,也象征着谷歌对整个生态系统的深度整合。
02

Gemini 1.5 Flash

Gemini 1.5 Flash,这是 Gemini 1.5 Pro 的“精炼”版本,是专为“窄”、“高频”生成 AI 工作负载而构建的小型高效模型。
Flash 拥有多达 200 万个 token 上下文窗口,与 Gemini 1.5 Pro 一样是多模式的,这意味着它可以分析 音频、视频和图像以及文本。
1.5 Flash 在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。这是因为我们利用 1.5 Pro 对该模型进行了被称作“蒸馏”(distillation)的训练,将较大模型中最核心的知识和技能迁移到了更小、更高效的模型中。
03

Gemini Nano

Google Gemini Nano是Google Gemini人工智能模型家族中最小、最高效的模型,专为在移动设备等边缘设备上执行而设计。它是Gemini Ultra和Gemini Pro的精简版本。
主要特点:
1. 可以在高端Android手机上本地运行,如Pixel 8 Pro和三星Galaxy S24系列,无需连接互联网。这有助于保护隐私,降低成本。
2. 目前支持Pixel 8 Pro上的Recorder应用中的语音摘要功能,以及Gboard键盘的智能回复等。未来会支持更多应用。
3. 通过Android 14中引入的AICore系统服务,第三方开发者也可以在自己的应用中使用Gemini Nano模型。
4. 相比Gemini的其他版本,Nano模型虽然能力有限,但运行更快,更注重隐私,非常适合移动端。
04

Gemma 2.0

Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但尺寸却只有 Llama 3 70B 的一半。
Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。27B 模型经过优化,可以在 NVIDIA 的 GPU 上运行,也可以在 Vertex AI 中的单个 TPU 主机上高效运行,从而使更广泛的用户更易于部署且更具成本效益。
Gemma 2 预计于今年6月推出。
05

Veo

Veo支持文本生成超过1分钟的1080P超高清视频,在文本语义还原、视频动作一致性方面、运镜、帧与帧之间的连贯性、场景切换、光影效果等,可媲美OpenAI的Sora。
无论你喜欢逼真的风格、超现实主义还是动画,Veo 都可以轻松胜任,涵盖各种电影风格。
以下是一些来自 Veo 的未经编辑的原始视频输出,展示其出色的表现:
快速穿梭于繁华的反乌托邦城市中,明亮的霓虹灯、飞行汽车、薄雾、夜晚、镜头眩光和体积光线的镜头。
一只金毛犬在蜿蜒的山间小径上行走,它的尾巴高兴地摇晃着,探索着野外的景色和气味
一个女人独自坐在灯光昏暗的咖啡馆里,一本未完成的小说在她面前展开。黑色电影美学,神秘气氛,黑白。
06

Imagen3

Imagen3可生成漫画、写实、赛博朋克、水墨、油画、素描等几十种风格,尤其是生成的写实风格图片质量很好,和真人拍摄的相片几乎差不多。
该模型在安全性和责任性方面进行了创新,包括使用先进的隐私和安全技术以及水印工具,以确保生成的图像内容安全、可靠。
目前,Imagen 3 可以在:https://aitestkitchen.withgoogle.com/zh/tools/image-fx 平台上进行试用。
在谷歌展示的Imagen3案例中,其生成写实图片的能力非常强可比肩Midjourney DALL·E 3 等头部产品。
例如,用单反相机和偏振滤镜拍摄。这是在土耳其卡帕多西亚独特的岩石形态上空漂浮的两个热气球的照片。这些热气球上的颜色和图案与下方土地的土色形成了美丽的对比。
一张特写照片,展示一只折纸鸟在城市天际线中翱翔,与其他不同颜色和图案的鸟群一起,投射出复杂的阴影在下方的建筑物上。
桌子上放着一个旧蓝色玻璃花瓶里的一大束色彩斑斓的花。前面是一朵美丽的牡丹花,周围有玫瑰、百合、雏菊、兰花、水果、浆果和绿叶等各种其他花朵。背景是深灰色。这是荷兰黄金时代风格的油画。
从上面这些案例不难看出,Imagen3在文本语义还原、光影、饱和度、景深、构图等方面比前两代更出色,几乎和真人拍摄的图片差不多,这对于游戏开发、市场营销、日常办公等人员,提供快速设计图片的捷径。
Imagen 3 的推出标志着文本到图像生成技术的又一进步,它不仅提高了图像的生成质量,而且通过改进的提示理解和安全性创新,为用户提供了更加强大和安全的工具。
07

新征程

Google I/O 2024 大会不仅是谷歌展示其AI技术实力的窗口,更是一次关于未来可能性的深入探讨。在这次大会上,谷歌向我们展示了一个由AI技术塑造的未来,其中个性化AI体验、开放模型的创新以及负责任的AI建设是三大亮点。
随着这些技术的逐步实现,一个更加智能、便捷和互联的未来正向我们走来。谷歌的AI技术将作为推动这一未来的重要力量,为人们的生活带来更多的便利和可能。
作为发布会最后的彩蛋,谷歌CEO最后用Gemini总结了今天的发布会稿子里总共提了多少次AI——120次。
「往期推荐」
END
欢迎全国各地以及境外科技、消费、地产、医疗、农业、能源、环保、教育、文化、投行、基金、券商、信托、银行、保险、租赁、投资等产业及金融精英,寻找优质项目、资金及获得全球顶级金融圈层请联系Cathy,或者在菜单中点击【合作】——>【青投服务】,留下您的需求我们将竭诚为您服务。
青投创新,新型科创产业服务平台,以科技、人才、资本为核心,通过内容出版、数据支持、产业咨询、科技转化等业务,为科技人才创业项目提供孵化及加速赋能服务,助力国家科技兴国计划。
继续阅读
阅读原文