GPT-4o炸裂登场，干翻所有语音助手！

内容来源：笔记侠（ID：Notesman）
责编 | 金木研排版 | 五月
第 8257 篇深度好文：4539字 | 10 分钟阅读

商业思维

笔记君说：

今天凌晨，OpenAI推出了新款人工智能模型GPT-4o。这一次，它变得更像人了，不仅能用饱含情绪的声音和人聊天，还能看、能听。

我们可以以文本、音频、图像任意组合输入，得到ChatGPT实时文本、音频、图像的任意组合输出。

并且，在交流过程中，ChatGPT不再等待若干秒才响应，而是实时回复，还能被随时打断。

《钢铁侠》里的人工智能助手贾维斯，似乎要成真。

那么，GPT-4o会带来什么样的产业变革？对于普通人来说，它又会为我们带来哪些挑战和机遇？

一、GPT-4o的最大亮点：更通人性

这次GPT-4o最让人震撼的是，它更通人性了。

这主要体现在两个方面，其一，GPT-4o 在多模态上能够融会贯通，反应的速度也有了很大提升，其交互的方式更加接近人类；其二，在 GPT-4o 驱动下的机器人明显更为活泼，也更愿意展现出人类的情绪。

1.AI更像人了

一年前，OpenAi发布了多模态GPT-4。我们可以给它提各种需求，发图片让它帮忙分析，也可以发文件、语音聊天。但是文本、图像、语音之间是有“壁”的。

比如，你想让ChatGPT帮忙解一道数学题，就只能截图或者复制题目，发给ChatGPT。如果想听ChatGPT语音讲解，得先在文本框发完之后，再切到语音。

而通过GPT-4o，我们可以直接使用桌面应用，将ChatGPT打开放在一边，和它聊着天的同时，用“拍摄”功能给它看你电脑桌面的内容，它就可以在对话中为你答疑解惑。

在一则演示中，用户将ChatGPT桌面应用和做题界面同时打开。ChatGPT不直接给出答案，而是以问题引导的方式，有问有答地一步步带用户解了一道几何题。

甚至，我们还可以打开摄像头，让ChatGPT“看”着纸面指导解题。

在模型“GPT-4o”的加持下，ChatGPT还能与用户视频通话：用户打开摄像头，让GPT-4o“看”到当下，并进行互动。

用前置镜头自拍，ChatGPT不仅能识别用户的情绪，如“看起来很开心，甚至可以说是兴奋的”，还能从用户背后的画面判断其身处的环境，如“看起来你在一个摄影棚中，背后有一些灯光，你的胸前还别着麦克风，可能在录制视频之类的”。

当有另一个人进入镜头并且做鬼脸的时候，ChatGPT也准确指出了这一“不太寻常”的情况，并加以描述。

用后置镜头，GPT-4o还可以和用户共享视角。例如，在语言学习的过程中，打开摄像头让ChatGPT用某种语言说出物品的名称。

总而言之，GPT-4o驱动下的ChatGPT，不再仅仅是一个什么都会的应用，而是真正进化成了一个“AI助手”。

2.AI也有了情绪

自ChatGPT 上线以来，在相当长的一段时间内，这款聊天机器人都给人留下一种颇为严肃、不苟言笑的感觉。

这极有可能是 OpenAI 出于避免麻烦的考虑而特意如此安排的，ChatGPT 不但回答问题时一本正经、规规矩矩，并且只要有契机就会向用户着重强调“我只是个机器人，我没有感情”。

若用户希望 ChatGPT 能更加“放松”些，就需要给出明确的指令。

然而，由 GPT-4o 驱动的ChatGPT 则明显有了不同。在没有提前给予指令的情况下，ChatGPT 不再刻意去避免表现得像人类，而是相反。

比如，研发负责人Mark Chen在台上向ChatGPT求助：“我正在台上，给大家做现场演示呢，我有点紧张，该怎么办呀？”

ChatGPT非常体贴地表示：“你在台上做演示吗，那你真的太棒了！深呼吸一下吧，记得你是个专家！”

Mark疯狂地大喘气几次，问ChatGPT能给自己什么建议。

ChatGPT惊讶地说道：“放松啊Mark，慢点呼吸，你可不是个吸尘器！”

在这个过程中，ChatGPT和Mark的互动几乎无延迟，随时接梗。也就是说，在 GPT-4o驱动下的 ChatGPT，已不再是一个单纯追求性能的AI工具，而是开始主动给予“情绪价值”。

除此之外，它还能够理解人类在对话中适时打断的习惯，会及时停下来听你说话，并给出相应的回复。

比如，Mark表示自己要再试一遍深呼吸，此时ChatGPT也恰到好处地插进来接话说“慢慢呼气”。

整个过程，自然连贯得仿佛它是个坐在你对面的人类，完全没有AI的机械感和僵硬感！

其实，在ChatGPT走严肃路线的前两年里，不少AI机器人以更活泼、更“通人性”的姿态出现，并俘获了不少用户的心。

比如，Inflection.AI曾推出的机器人Pi，主打的就是“陪伴”，不到一年的时间里就做到百万日活用户。埃隆·马斯克（Elon Musk）的人工智能公司xAI的大模型Grok，则因其毒舌一经上线就吸引不少关注。

以及上一代的AI聊天机器人Siri、天猫精灵、小爱同学等，都有一个俏皮的“人设”

但后来，因技术有限，这些AI工具都被用户称为“人工智障”，弃而远之。

在2024年，人们曾经对Siri们抱有的期待——一个既能当得力助手帮忙做事，又能当赛博玩具聊天嬉笑的AI——终于在GPT-4o身上有了着落。

二、GPT-4o，或将改变3大领域

1.实时视觉助手

在模型“GPT-4o”的加持下，ChatGPT有了视觉能力，你可以直接和GPT4o进行讨论，它能实时理解你看到的东西。

官方发布了一个演示视频，ChatGPT能帮助视障人士“看”世界，在演示视频中：

视障人士问GPT-4o：“湖里有什么？”

GPT-4o回答：“鸭子们正轻轻滑过水面，它们划水相当轻松，并不匆忙，有时会将头伸入水下，可能在寻找食物。”

视障人士又问GPT-4o：“我想知道什么时候有一辆亮着橙色灯的出租车过来，我想让它载我回家。”

GPT-4o回答：“我刚刚发现了一辆，它在路的左侧朝你驶来，准备朝它挥手”。

2.辅助学习

在发布会中，一位研发负责人Barret手写了一个方程，并打开摄像头拍给ChatGPT，让它扮演“在线导师”的角色帮助自己解题，而且只能给提示，不能直接说答案。

接到任务的ChatGPT，甚至开心大叫：“Oops，我好兴奋啊！”

Barret在纸上写下这样一个方程：3x+1=4。然后问ChatGPT自己写的是什么方程，ChatGPT语调自然地回答出来了。随后，在Barret的要求下，它一步一步说出了解题步骤。

最厉害的是，随着小哥在摄像头中解题，ChatGPT实时地就给出了鼓励和引导。

这简直是学渣和学渣家长的福音，不用再为辅导孩子作业感到崩溃头疼。

3.虚拟陪伴人

GPT-4o 不仅能够根据场景生成多种音调，还带有类人的情绪和情感。同时，GPT-4o的响应速度也变快了，平均延迟仅为 320 毫秒，接近于人类对话的反应时间。

这样的进步，使得GPT-4o的应用场景更广，比如，当一个哄睡师，给任性的人类讲睡前故事。

在演示中，ChatGPT没讲几秒，就被人类粗暴地打断了：多点情绪，故事里来点戏剧性行不？

ChatGPT表示可以，用更起伏的声调、更夸张的语气开始讲起了故事。

结果没几秒，它又被再次打断：不行，再多点情感，给我最大程度的表达。

接下来，我们听到一个仿佛在舞台上表演莎剧的ChatGPT，语气夸张到仿佛是个戏剧演员。

随后，它又多次被打断，并且耐心地按照人类的要求，依次变成了机器人声和唱歌模式。

ChatGPT听到要求自己唱歌时，甚至叹了口气，然后开始亮起了优美的歌喉。

如今，它已不再是工具，更像是你在生活中的好朋友、人生导师，甚至可以是一个虚拟男女朋友。

三、面对AI浪潮，别怕，拥抱它

看到这，你或许会想：

GPT-4o这么强，AI的迭代速度这么快，自己要被取代了怎么办？

面对AI浪潮，一味地逃避或抵抗，改变不了发展的事实。我们要主动适应它，拥抱它，在其中找到我们的机会。

1.发挥人类的协同优势

如今的人工智能，并非通用智能。人类最大的优势，就是通过系统协调它们。

举个例子：

英国在非洲修铁路时，他们要实现智能化调度和物流跟踪。但非洲许多地方的人没有文化，他们怎么办？

在许多关键位置设立岗位，岗位的人无需文化知识，只需在火车过来的时候拿起电话说火车过去，就这样对整个系统进行监测。

这是一个很典型的例子，员工都是新手，但系统很优秀，所以能运转。

现在的人工智能已经是中等水平的员工，理论上讲，它可以做很多事情。

人类的优势在于我们的复杂协同能力。每个人都无法掌握登月所需的所有知识，但合在一起就能登月，这就是复杂协同能力的力量。

2.学会指挥人工智能工作

至今，人工智能并未实现社会化，因此并未形成人工智能社会。然而，未来的发展肯定是向社会化方向进行的。

许多人质疑，人工智能是否会像电影《终结者》中的天网一样，毁灭人类？实际上，天网只是一个数据中心，而且一个超级智能体肯定不会毁灭人类，因为它肯定不如人聪明。

人的核心也不是超级智能，而是所有人在一起形成的社会化智能群体，文化作为智能的蓄水池，理性能帮助我们把智能东西总结成可交流的语言，沉淀到文化里。

因为有了文化，人类社会才特别强大。

有了人工智能，只会让人类智能进步速度继续加快，这意味着我们将有大量的服务机会产生，我们称之为服务规模化。

在过去，烹饪、教育、算账等事情都需要自己去做，现在，这些服务也可以交给别人或专家来做。

工业革命用机器让我们解放了很多，但在这一轮的智能革命中，我们可以用人工智能形成专家级服务，让我们的大脑有时间从事有创造力的工作。

而我们最重要的能力或价值，就是学会与AI协作，带动更多的机器工作，我们称之为拥有更高的机器智商。

未来的成功者是机器智商高的人类。我们要当领导人工智能的将军，好好使用这些中等水平的人工智能同事。

四、山姆・奥特曼发文：

GPT-4o将免费开放

在发布结束后，OpenAI CEO山姆・奥特曼久违地发表了一篇博客文章，介绍了推动GPT-4o工作时的心路历程：

在我们今天的发布中，我想强调两件事。

首先，我们使命的一个关键部分是将强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪地宣布，我们在 ChatGPT 中免费提供世界上最好的模型，没有广告或类似的东西。

当我们创立 OpenAI 时，我们的最初构想是：我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化，看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，我们所有人都会从中受益。

当然，我们是一家企业，会发明很多收费的东西，这将帮助我们向数十亿人提供免费、出色的人工智能服务（希望如此）。

其次，新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样，我仍然有点惊讶于它竟然是真的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的飞跃。

最初的ChatGPT暗示了语言界面的可能性，而这个新事物（GPT-4o 版本）给人的感觉有本质上的不同 —— 它快速、智能、有趣、自然且能给人带来帮助。

对我来说，与电脑交互从来都不是很自然的事情，事实如此。

而当我们添加（可选）个性化、访问个人信息、让 AI 代替人采取行动等等能力时，我确实可以看到一个令人兴奋的未来，我们能够使用计算机做比以往更多的事情。

最后，非常感谢团队为实现这一目标付出了巨大的努力！

*文章为作者独立观点，不代表笔记侠立场。

分享、点赞在看，3连3连

继续阅读

阅读原文