顶着压力开发布会是一种什么样的体验?
「代表谷歌为开发者提供所有服务」的谷歌I/O来到第16年。去年的I/O带来了Gemini,今年带有火药味的发布会则更加值得期待。被竞争对手忌惮已久的谷歌,能否超越前一天刚刚截胡发布的ChatGPT-4o?
发布会现场,谷歌带来了可以实时理解镜头世界的多模态Agent助手Astra、搜索业务来了一次彻底的AI化改造、Gemini系列模型卷起了长文本、效果超过Sora的视觉模型Veo……谷歌一口气拿出来十余款AI新品,势必要挣回这口气。
但就连llya也来抢谷歌风头。凌晨,OpenAI首席科学家Ilya Sutskever在X发布自己离开OpenAI消息,称“我决定离开 OpenAl。再见,感谢你们所做的一切。我很期待接下来的计划--这个项目对我个人来说意义重大,我会在适当的时候分享细节。”
谷歌的反抗只是一个序幕,硅谷将进入竞争异常激烈的AI月。在这之后,微软2024Build年度大会、英伟达季度财报、苹果2024年度开发者大会陆续到场,这个“AI月”注定不一般。那么,高强度下的硅谷,“不(强迫)加班文化”现状如何?各家巨头都打的什么算盘?有哪些发布值得期待?以下,Enjoy:
1
Google I/O
带来哪些新花样?
前一天OpenAI用GPT-4o吸引了全世界的眼球,Google要在今年的Google I/O上拿出什么样的产品翻盘呢?
  • Gemini模型家族
关于Gemini的具体信息,是由Deepmind的CEO Demis Hassabis上台介绍。这也是这位传奇人物第一次Google I/O演讲。
谷歌宣布Gemini 1.5 Pro升级到200万tokens,并全面支持Workspace,同时Gemini 1.5 Pro将面向全球开发者开放。新版本长度再次刷新,达到200万tokens。
除了能生成创意文本、代码外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结。谷歌同时面向开发者推出支持200 万 tokens的 Gemini 1.5 Pro 模型的预览,并表示最终的目标将是 " 无限上下文 "。
关于大模型 API 的最新定价,其中 Gemini 1.5 Pro 定价为 7 美元 /100 万 Tokens,12.8K 上下文窗口的版本定价为 3.5 美元 /100 万 Tokens;而 Gemini 1.5 的起售价为 0.35 美元 /100 万 Tokens。
此次推出的Gemini 家族的新成员,则是针对端侧的模型Gemini 1.5 flash,同样有100万和200万token的版本。哈萨比斯曾说,谷歌之所以创建 Gemini 1.5 Flash,是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。
谷歌展示的" 未来的人工智能助手 ",也是被OpenAI狙击的项目——"Astra" ,可以通过用户打开的摄像头识别物体,与用户实时语音交互。
哈萨比斯表示,这样的 AI 助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西,这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导,以及自然、无延迟地进行交流。在演示视频中,谷歌的 AI 助手能够通过摄像头视频,识别 " 什么东西能发出声音 "、" 现在身处何地 " 等指令。
演示视频中,官方还展示了Astra与AR眼镜相结合的效果。戴上眼镜后,Astra的回答会实时显示在眼前,比如帮助修改白板上的流程图时,会用箭头指出修改位置。
此外,谷歌还发布了开源模型Gemma 的2.0版本,270亿参数。并为它拓展了PaliGemma这个多模态版本。
  • 多模态生成模型

面对OpenAI的围猎,Google针对Sora发布了一款全新的视觉模型Voe。谷歌还表示,Veo 具有对自然语言和视觉语义的高级理解能力,能够生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提示并捕捉情感。Veo甚至还能理解电影术语,如“延时”或“航拍镜头”。

用户仅需写出文本提示即可生成视频,比如文本提示:"一艘宇宙飞船在浩瀚的太空中穿梭,星星划过,高速,科幻。"
当你输入" 在宁静的山地平移镜头,相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。 ",可以得到如下的效果。
在Voe的展示中,用户可以通过点击扩展,而继续增加视频生成的时长,并且可以保持一致性。
此外,谷歌还发布了文生图像模型Imagen 3。从细节拟真度来看与Midjourney v6能达到同一级别,比起Dalle-3更胜一筹。而且在对细节的跟随上也要更细致;音乐生成方面,谷歌给Lydia增加了新拓展 Music AI Sandbox。
  • AI搜索,25 年来最大的更新之一
谷歌正式推出了“AI Overviews”搜索体验,将于本周开始向美国地区开放,后续会推广到更多国家和地区。这应该是其搜索引擎 25 年来最大的更新之一。
谷歌搜索业务负责人 Liz Reid 开始具体介绍 AI Overviews 功能。Reid 表示,在进行搜索时,搜素引擎具备多步骤推理的能力,例如寻找一个瑜伽教室,同时展示新手优惠报价,和距离特定位置的步行时间。这个 AI 搜索引擎助手,还能介绍食谱、安排行程,以及接受视频形式的提问(例如视频中的相机怎么使用)。
谷歌还介绍了AI搜索的计划能力。用户可以直接在搜索里获得一个完整的计划。比如搜索类似“为一群人创建一个易于准备的三天餐饮计划”,您将获得一个起点,包含来自网络各处的各种食谱。这是其他搜索软件暂时还没有专精的能力。
此外,靠Gemini的多模态功能,谷歌可以做到利用声音搜歌曲,利用图片搜产品。甚至可以用Circle to Secarch 功能圈出图片中的一部分去搜索。在搜索时,你可以通过视频提问,比如录一段视频问道:“为什么这个放不上去?”
  • 谷歌全家桶AI能力升级
结合Gemini的Workspace。你可以通过 Side Panel(一个能唤起Gemini的侧边栏)功能总结一系列邮件,可以总结你的账单,形成一个Sheet。
“Ask Photo”更新后可以与照片进行对话。比如,你可以问Photo app,“我的汽车牌照是多少”。然后Gemini就在照片里寻找出来你的车告诉你答案。
谷歌 Gemini 总经理 Sissie Hsiao 介绍了 Gemini App 的更新。与周一的 OpenAI 一样,从今年夏天开始,Gemini 也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互功能。未来几个月内,谷歌也将推出类似于 GPTs 的自定义 AI 助手功能。
在安卓系统方面,谷歌将实现的" 三大突破 ",分别是 " 画圈圈搜索 "、Gemini 手机 AI 助手,第三是在手机本地运行的 AI。
谷歌表示,今年晚些时候,能够在本地运行的多模态 Gemini Nano 模型将登陆 Pixel 手机,意味着手机将能通过文字、图片、视频、音频,理解用户的世界。
发布会现场,谷歌宣布了第六代数据中心 AI 芯片 Tensor 处理器单元(TPU)--Trillium,并表示将于今年晚些时候推出交付。
作为发布会最后的彩蛋,谷歌 CEO 皮查伊最后用 Gemini 总结了今天的发布会稿子里总共提了多少次 AI —— 121 次。
2
谷歌的护城河有多深?
在当今这个AI 时代,Google的危机愈来愈重。
但身在谷歌的人未必如此认为。
作为谷歌的员工,Zellweger一开始加入谷歌就是为了从事注定失败的 Daydream 头盔的工业设计,后来他又转到了 Pixel 硬件团队。
在他看来,“受CEO影响,从公司的角度来看,我们需要成功,这种压力是存在的,制造硬件已经从一种爱好变成了 Google 业务的关键元素。”
而谷歌CEO本人桑达尔·皮查伊在采访中的回答,流露出对谷歌护城河的自信。
早在2016年,他正式担任谷歌CEO,以此身份发布了第一封致股东信。信中,他说:
“我们将从移动优先走向人工智能优先的世界。”
似乎一直被认为落后的谷歌暗地里早有准备。或者夸张来讲,AI的第一波浪潮,还是谷歌掀起的水花。然而,不少网友仍然调侃其为“起了个大早,赶了个晚集”
谷歌的“保守”对于称霸来说,很难,但作为护城河而言,足够用。
每个时代、每个公司,都或多或少在管理和员工身上多下功夫。能够让谷歌与众不同的地方,还在于独到的员工成长文化。
谷歌创始人拉里·配齐和谢尔盖·布林曾倡导“20%时间”文化,允许员工将工作20%的时间用以个人兴趣和创新当中,希望用创造力支撑发言权,这无疑可以筛选一批有活力的开放员工。正如英特尔前CEO安迪·格鲁夫所说,“只有偏执狂才能生存。”
针对近日广受挑战的搜索引擎,皮查伊也有自己的看法。
谷歌搜索的独特之处在于,即使有时会直接给出答案,但我们始终会链接到各种来源。
多年来,谷歌一直在搜索中提供直接的答案。现在的模式入手,我们只是借助生成式人工智能在实现这一点。
链接功能将一直存在,理解并满足这些多样化的需求,正是搜索的真正魅力所在。
他还曾就搜索质量面临的质疑进行正面回答:
技术或行业发生变革,伴随着大量新内容的涌现,人工智能领域亦然。谷歌会把它当成一项挑战。我坚信,成功应对这种挑战将重新定义高质量的产品,这将是搜索取得成功的关键。谷歌深知被给予了很高的期望,我们也清楚需要为此承担的责任。
当被问道相较GPT,谷歌似乎错失了许多重要机会时,皮查伊表示:
从长远的视角看待这个问题,互联网兴起时,谷歌甚至还不存在,对吧?
谷歌是第一家专注于搜索的公司。
谷歌是第一家推出电子邮件服务的公司。
谷歌是第一家开发浏览器的公司。
因此,我认为人工智能领域也正处于其最早期的阶段。
当然,皮查伊也清楚地知道,对所有公司,尤其是那些规模庞大的企业来说,最大的潜在威胁就是执行力不足。
3
进入AI月,每个玩家生怕落后
  • 大模型大招不断,大牛纷纷炫技
从5月10日到6月10日,AI领域的玩家接连上阵,发新品、更新财报,给开发者和投资者们贡献一场场精彩绝伦的科技盛宴。
硅谷大牛们似乎从不懈怠,一个接着一个的炫技……
就在谷歌的I/O开发者大会2024前一天,OpenAI一夜改写历史,在发布会上闪亮官宣了新产品:GPT-4o。就连发布会本身都是AI在开,难分真假的CTO Mira Murati意味着OpenAI朝着更加自然的人机交互迈进。
微软也不甘示弱,5月21日,微软将举办2024 Build年度开发者大会。
根据官方公布的信息,两场分论坛将分别聚焦“下一代Windows on Arm”和“全新的Windows AI功能”。
其中,“下一代Windows on Arm”分论坛将着重介绍有关应用程序“行业领先性能”的详细信息,以及“Arm驱动的Windows的新体验”,例如采用NPU功能的智能Windows应用程序,可能包括更多的Windows AI功能。
此外,微软还将详细介绍Windows开发者体验方面的一些改进。
AI之外,明星产品Copilot可能将成为2024微软Build年度开发者大会的重点议题之一。
一场振奋人心的技术革新,说不定又将在一夜之间诞生。
紧接着的下一天,英伟达将于5月22日公布一季度财报。
借着AI浪潮,“卖铲人”英伟达财报表现一直颇为亮眼,今年年初公布的财报更是展现了强劲的收入和净利润增长。而在市场的表现上,据市场研究机构 Trendforce 最新报告显示,英伟达已经超越高通,成为 2023 年全球收入最高的芯片设计厂商。
虽然英伟达发布财报当天不会透露太多新品动作,但市场上流传了不少消息——据《经济日报》报道,业内传闻,手机芯片大厂联发科正携手AI芯片大厂英伟达(NVIDIA)开发基于Arm架构的AI PC处理器,预计将在今年三季度完成设计定案(tape out),第四季度进入验证,售价或将高达300美元。
大差不差、紧随其后的苹果也有秘密武器?6月10日至6月14日,苹果将举行年度全球开发者大会(WWDC)。
在AI潮席卷全球的时候,苹果不断调整自身战略以期追赶时代潮流,但效果总是不尽如人意。
MR头显Vision Pro被寄予苹果近十年来开辟新品类的希望,但首发美国后的反响不佳。不及市场预期的出货量和后期疲软的用户需求,给苹果泼了一盆冷水。
而另一个备受瞩目的电动汽车项目也被取消,部分员工将转移到苹果的人工智能(AI)部门。而生成式人工智能项目,正是公司日程表里愈发重要的事项。
可以看到,苹果对于AI的焦虑和急迫。
苹果全球营销高级副总裁Greg Joswiak在X上表示:“请在日历标记上WWDC24吧。这场活动将绝对震撼!”这里的彩蛋是,Joswiak特意把“Absolutely Incredible(绝对不可思议)”的首字母拼成大写,合起来就是当下最火的科技概念——AI。
4
硅谷加班卷疯了
  • 铁打的程序员、流水的加班线?
改编《北京人在纽约》中一句经典台词描述硅谷,似乎毫无争议:「爱TA,就把TA送到硅谷;恨他,也把他送到硅谷。」
高薪、高自由度的硅谷,既被奉为「Work Life Balance」的自由天堂,也被认为是「加班文化」最强的“内卷”集中地。硅谷公司不强迫加班,原因很简单:加班无法与工作质量划等号。同时,硅谷公司不缺少加班,原因同样简单:上班无法脱离工作狂的生活独立存在。
  • 被大模型支配的恐惧,不亚于加班一周进度为0
GPT的到来,让硅谷的「卷」文化更上一层楼。
只不过这次技术迭代,伤害的大多数是工程师。如同英伟达CEO黄仁勋所说,AI正位于iPhone时刻。整个硅谷都在压力中爆发,试图在发布上与对手分出毫厘之胜。
一位硅谷员工甚至将这种状态概括为“边飞、边造飞机”
亚马逊的工程师也是如此。美好的周末计划被一条Slack消息打破。夜以继日地加班,结果却是项目优先级降低。几千行代码付诸东流。
专家们无时无刻不在紧急开发的功能、软件,让工程师的心也跟着跌宕起伏。项目顺利则功成名就;项目叫停则进度归0。这便是此时此刻的「硅谷状态」。不少工程师陷入职业倦怠,随之揭开了AI热不为人知的另一面:很急,但不知道在急什么。
抱怨声的出现不会暂停巨头公司的任何决定。
微软首席财务官Amy Hood曾表示,公司正在调整人手,将优先专注AI,并且优先投资AI。因为,未来十年的关键因素。
Meta CEO扎克伯格也是如此,他认为,未来几年,应该大力投资、开发更先进的模型和世界上规模最大的AI服务。
亚马逊CEO Andy Jassy鼓励投资者增加对生成式AI的资本投入,他认为,技术领域很少见到如此的机会,甚至从互联网问世以来。
速度的加持下,匆忙的产出、单薄的人力偶尔也会导致翻车,Gemini的仓皇下线、Bard的备受质疑,都是如此。
对比之下,谷歌的上班文化,也走着相似的硅谷风。谷歌鼓励「不加班」,但要求「on call」。这意味着需要你的时候,你就要在。不少局外者将这种模式称为超越「996」的「24*7」。
天堂与地狱的区别,似乎区别在于工作是否只是工作本身。如果作为兴趣,如果成为生活,似乎越“虐”越有“事业感”。
本质上,每个人的工作观不同,加班狂屡见不鲜,朝九晚五、渴望下班的打工人更是拥有自己的快乐。
然而,在硅谷,「卷」已经成为囊括大多数程序员的形容词,也是当下AI竞赛的真实写照。
现在,每一次发布会似乎都成了一场无声的较量。
科技巨头们像商量好了一样你追我赶,都想以各自的创新技术证明自身、抢得一份里程碑式成就。“百模大战”时期的到来,在高强度压力中全面释放了AI的潜力,也让每一位“姗姗来迟”的公司,都可能成为最终的赢家。因此,每一次突破,都不容错过。
一切革命性时刻,都值得拭目以待。
来源:Google I/O、腾讯科技、 硅星人Pro、财联社、每日经济新闻
参考文献:

1. 硅谷AI工程师内卷崩溃记:996写代码项目被砍,连续熬夜只为讨好投资人!by新智元

2.科技界的“AI月”即将开启!OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验和期待?by每日经济新闻

3.谷歌CEO最新访谈:AI浪潮仍处于早期阶段,公司未来最大威胁是执行力不足(视频+实录) by腾讯科技
4.独家专访谷歌CEO桑达尔·皮查伊:基于我的个人经历,我一直相信人和人性 by DeepTech深科技
5.谷歌的这场活动已经办了16年,为何它叫I/O?by科技行者
6.跟 OpenAI 争夺「iPhone 合作权」的 Google,后天要发布什么才能 「弯道超车」 by爱范儿
7.谷歌一夜亮出十几款产品对阵OpenAI:什么都有,只是没有惊喜 by腾讯科技
版权声明:部分文章在推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。联系方式:[email protected]
继续阅读
阅读原文