ChatGPT终于活成了iPhone最想要的样子

OpenAI 的盲盒终于被开了，深夜追直播什么的，咱这种老人是做不到了。

等到第二天看了一圈国内的报道，剔除掉「改写历史、颠覆世界、震惊全场」的描述。

从标题上，其实很简单就能看出这次 OpenAI 在发布会上到底干了什么。

视频语音交互丝滑到吓人

干翻所有语音助手

实时语音视频交互震撼全场

......

以及 90% 标题里会点到的一个词：「免费」。

是的，如果你还不了解发布会的内容，咱们一句话就能总结——

在 OpenAI 的春季发布会，上新了一款主打交互的旗舰新模型 GPT-4o，不是 omg 的 o，是 omni（全面、全能）的 o，而且最关键的是，对所有用户免费开放。

是的，你现在访问这个链接。

https://chatgpt.com/?model=gpt-4o

只要能登上账号，无论有没有给 OpenAI 交钱，都能看到一个弹窗。

点个立即试用，随便聊上一句，回答你的就是 GPT-4o。

如果暂时抛开 GPT-4o 的强度和新特性不谈，就冲这个新模型人人免费的事，我要是第二天开发布会的谷歌，那多少得失眠。

浓眉大眼的奥特曼，怎么又来怼脸狙击？

不对，总是在推特上给自家 GPT 带货的奥特曼，在直播里压根就没现身。

颇有一种，「是谁发布的不重要，发布了什么更重要」的绝对自信。

那 GPT-4o 有多强？

OpenAI 早两天偷偷把官网上 GPT-4 曾经那不可一世的「最先进」，改成了「先进」。

从各种冷冰冰的测试数据看，GPT-4o 文本、代码这样的基础能力保持了和前代差不多的水准。

但报道里反复提及的多模态交互，GPT-4o 是吊打友商的存在。

多模态这个概念，早早就被提出来了，说人话就是让大模型不光在认字这一个维度，还可以根据语音、图片、视频完成交互。

那如何让大模型听得懂，也看得懂？过去的方案，听起来像搭积木。

咱们就以相对简单的语音交互为例，三步走——

1、语音转文本；

2、文本传入大模型，生成新文本；

3、新文本转语音。

这样的实现思路很透明，至少前面多模态被提出的时候，开源社区很快就以插件的形式 DIY 实现「平替」了。

国内外拿出来给你用的成品大模型，在多模态这里的技术路线大差不差，甚至说我觉得在用户体验上，国内很多模型比 ChatGPT 还要强。

但这么搭积木的代价呢？

按 OpenAI 这次揭秘的数据来说，多模块之间的交互，会带来感知明显的延迟，GPT-3.5（2.8 秒），GPT-4（5.4 秒）。

而且在完成整个任务的过程中，大模型感受不到更多的外界信息（音调、语气、背景噪音等）。

GPT-4o 不一样，不是「伪多模态」，正儿八经的、端到端的原生多模态。

是的，一个模型就把任务流程给跑通了。

这么做的好处，就是前面提到的延迟，被大幅降低，平均为 320 毫秒就能回应你说的话。

你的情绪、语气、背景音、背景环境 GPT-4o 都内给你正确反馈。

一个跨文本、音频、视频，进行实时推理的 AI，你说改写世界、颠覆历史太夸张了。

但只说炸不炸？很炸。

说实话，强烈建议大家去 B 站上看一眼发布会。

一开始看报道，什么 GPT-4o 充当实时翻译助手，什么 GPT-4o 感受情绪、识别场景、随时打断，打开摄像头就能实时陪伴。

给我的感受是——

就这？就这？就这？

看了发布会的视频，知道它是一个模型搞定的，感受就变成了——

卧槽！卧槽！卧槽！

不夸张的说，用最少的操作，最丝滑的实时交互，发布会没有新想法，却带来了更多对未来的想象，OpenAI 确实领先。

而且 GPT-4o 免费了，不光新模型免费，以前 Plus会员独享的各种能力，包括视觉、联网、记忆、GPT Store 等等。

一口气全都打包放出。

如果你有 ChatGPT 的账号，不妨试试看，全量免费的 GPT-4o，像联网啥的已经适配了。

PS：生成速度贼快，比之前 GPT-3.5 都要快。

前两天看报道，说是国内大模型是两条腿走路：一条腿开源，去做生态；一条腿闭源，去搞商业。

OpenAI 这次彻底不 Open 了，新模型发布，非但没有论文，连个技术报告也没给，但打出了免费这张牌。

你可以说它格局大，但不能忽视免费后，吸引过来的海量对话数据，这才是 OpenAI 能领跑的前提。

说真的，也就是国内访问不了，要不然不知道多少收费友商，要开始挠头了。

我本来想测一测音视频交互的，但去查了一下 OpenAI 官X，目前还没开放使用，连灰度都没有。

至于为啥延期几周才能体验？看了眼几周后，有个号称史上最大更新的苹果发布会。

再联想到之前苹果要和 OpenAI 合作，答案呼之欲出——

ChatGPT 终于活成了 Siri 最想成为的样子。

科幻终于照进了现实。

继续阅读

阅读原文