OpenAI 的盲盒终于被开了,深夜追直播什么的,咱这种老人是做不到了。
等到第二天看了一圈国内的报道,剔除掉「改写历史、颠覆世界、震惊全场」的描述。
从标题上,其实很简单就能看出这次 OpenAI 在发布会上到底干了什么。
视频语音交互丝滑到吓人
干翻所有语音助手
实时语音视频交互震撼全场
......
以及 90% 标题里会点到的一个词:「免费」。
是的,如果你还不了解发布会的内容,咱们一句话就能总结——
在 OpenAI 的春季发布会,上新了一款主打交互的旗舰新模型 GPT-4o,不是 omg 的 o,是 omni(全面、全能)的 o,而且最关键的是,对所有用户免费开放。
是的,你现在访问这个链接。
https://chatgpt.com/?model=gpt-4o
只要能登上账号,无论有没有给 OpenAI 交钱,都能看到一个弹窗。
点个立即试用,随便聊上一句,回答你的就是 GPT-4o。
如果暂时抛开 GPT-4o 的强度和新特性不谈,就冲这个新模型人人免费的事,我要是第二天开发布会的谷歌,那多少得失眠。
浓眉大眼的奥特曼,怎么又来怼脸狙击?
不对,总是在推特上给自家 GPT 带货的奥特曼,在直播里压根就没现身。
颇有一种,「是谁发布的不重要,发布了什么更重要」的绝对自信。
那 GPT-4o 有多强?
OpenAI 早两天偷偷把官网上 GPT-4 曾经那不可一世的「最先进」,改成了「先进」。
从各种冷冰冰的测试数据看,GPT-4o 文本、代码这样的基础能力保持了和前代差不多的水准。
但报道里反复提及的多模态交互,GPT-4o 是吊打友商的存在。
多模态这个概念,早早就被提出来了,说人话就是让大模型不光在认字这一个维度,还可以根据语音、图片、视频完成交互。
那如何让大模型听得懂,也看得懂?过去的方案,听起来像搭积木。
咱们就以相对简单的语音交互为例,三步走——
1、语音转文本;
2、文本传入大模型,生成新文本;
3、新文本转语音。
这样的实现思路很透明,至少前面多模态被提出的时候,开源社区很快就以插件的形式 DIY 实现「平替」了。
国内外拿出来给你用的成品大模型,在多模态这里的技术路线大差不差,甚至说我觉得在用户体验上,国内很多模型比 ChatGPT 还要强。
但这么搭积木的代价呢?
按 OpenAI 这次揭秘的数据来说,多模块之间的交互,会带来感知明显的延迟,GPT-3.5(2.8 秒),GPT-4(5.4 秒)。
而且在完成整个任务的过程中,大模型感受不到更多的外界信息(音调、语气、背景噪音等)。
GPT-4o 不一样,不是「伪多模态」,正儿八经的、端到端的原生多模态。
是的,一个模型就把任务流程给跑通了。
这么做的好处,就是前面提到的延迟,被大幅降低,平均为 320 毫秒就能回应你说的话。
你的情绪、语气、背景音、背景环境 GPT-4o 都内给你正确反馈。
一个跨文本、音频、视频,进行实时推理的 AI,你说改写世界、颠覆历史太夸张了。
但只说炸不炸?很炸。
说实话,强烈建议大家去 B 站上看一眼发布会。
一开始看报道,什么 GPT-4o 充当实时翻译助手,什么 GPT-4o 感受情绪、识别场景、随时打断,打开摄像头就能实时陪伴。
给我的感受是——
就这?就这?就这?
看了发布会的视频,知道它是一个模型搞定的,感受就变成了——
卧槽!卧槽!卧槽!
不夸张的说,用最少的操作,最丝滑的实时交互,发布会没有新想法,却带来了更多对未来的想象,OpenAI 确实领先。
而且 GPT-4o 免费了,不光新模型免费,以前 Plus会员独享的各种能力,包括视觉、联网、记忆、GPT Store 等等。
一口气全都打包放出。
如果你有 ChatGPT 的账号,不妨试试看,全量免费的 GPT-4o,像联网啥的已经适配了。
PS:生成速度贼快,比之前 GPT-3.5 都要快。
前两天看报道,说是国内大模型是两条腿走路:一条腿开源,去做生态;一条腿闭源,去搞商业。
OpenAI 这次彻底不 Open 了,新模型发布,非但没有论文,连个技术报告也没给,但打出了免费这张牌。
你可以说它格局大,但不能忽视免费后,吸引过来的海量对话数据,这才是 OpenAI 能领跑的前提。
说真的,也就是国内访问不了,要不然不知道多少收费友商,要开始挠头了。
我本来想测一测音视频交互的,但去查了一下 OpenAI 官X,目前还没开放使用,连灰度都没有。
至于为啥延期几周才能体验?看了眼几周后,有个号称史上最大更新的苹果发布会。
再联想到之前苹果要和 OpenAI 合作,答案呼之欲出——
ChatGPT 终于活成了 Siri 最想成为的样子。
科幻终于照进了现实。
继续阅读
阅读原文