作者 | 冬梅、褚杏娟

上周，关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称，ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称，这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。

甚至还顺势在 X 上的一篇帖子中写道，“不是 GPT-5，也不是搜索引擎，但我们一直在努力开发一些我们认为人们会喜欢的新东西！对我来说就像魔法一样。”

就在刚刚，OpenAI 官宣了 Altman 口中的“就像魔法一样”的东西。

OpenAI 官宣旗舰款模型 GPT-4o，完全免费

在发布会刚开始，OpenAI 就发布了一款名为 GPT-4o 的新旗舰生成式人工智能模型，该模型将在未来几周内在公司的产品中“迭代”推出。

OpenAI 首席技术官 Muri Murati 表示，GPT-4o 提供了“GPT-4 级别”的智能，但改进了 GPT-4 在文本、视觉以及音频方面的能力。

“GPT-4o 通过语音、文本和视觉进行推理，”Murati 在 OpenAI 办公室的主题演讲中说道。为了让其更加智能，OpenAI 团队在语音模式背后添加了新技术，人们可以用麦克风与 ChatGPT 交谈。

OpenAI 之前的领先模型 GPT-4 接受了图像和文本组合的训练，可以分析图像和文本以完成从图像中提取文本甚至描述这些图像内容等任务。

GPT-4o 不仅可以将语音转换为文本，还可以理解和标记音频的其他功能，例如呼吸和情感。

此外，GPT-4o 具有先进的音频理解能力，并且可以控制其声音（听起来像机器人、声音兴奋、舒缓等）。

虽然这背后的更多技术细节没有公布出来，但 OpenAI 表示，现在 GPT-4o 在 50 种语言中的速度更快，也许使用的技术与他们在 GPT-4 上加速日语的技术相同。借助 GPT-4o/ChatGPT 桌面应用程序，用户可以有个编程伙伴一起交谈，并看到您所看到的内容。

此外，OpenAI 正在发布 ChatGPT 的桌面版本和更新的 UI。

OpenAI 研究员 William Fedus 表示，“GPT-4o 是我们最先进的新前沿模型。我们一直在 LMSys arena 上测试一个版本 im-also-a-good-gpt2-chatbot。”

“这不仅是世界上最好的模型，而且可以在 ChatGPT 中免费使用，这对于前沿模型来说是前所未有的。” Fedus 补充道，“我们发现在更难的提示集上——特别是编码——存在更大的差距：GPT-4o 比我们之前的最佳模型实现了 +100 ELO。”

奥特曼在推特里也表示，“GPT-4o 是我们最好的模型。”

另外，在 API 中，GPT-4o 的价格是 GPT-4-turbo 的一半，速度是 GPT-4-turbo 的两倍、5 倍速率限制。

通常，当 OpenAI 宣布其 ChatGPT 模型的新版本时，都会对特定付费用户开放。然而，此次是个例外，该公司已决定允许所有人使用这项新技术。

GPT-4o 可以像人类一样与你交谈，还能解方程式

一直以来，OpenAI 希望与 ChatGPT 交谈就像与真人交谈一样，但遗憾的是之前 ChatGPT 的反馈总是有些延迟，这就破坏了交谈的沉浸感。现在，该公司正在 GPT-4o 背后添加新技术，以使与聊天机器人的对话速度更快。

为了展示这一点，OpenAI 使用语音与 GPT-4o 进行了对话演示。GPT-4o 不仅在演示者结束讲话后几乎立即做出响应，而且还通过文本转语音进行响应，让您感觉就像在与某人实时交谈。在演示过程中，GPT-4o 指导演示者 Mark Chen 如何更好地呼吸；包括采集他的呼吸音频样本，并为他提供如何做得更好的建议。

另一位演示者展示了 GPT-4o 在提示“机器人和爱”的情况下讲睡前故事。故事进行到一半时，OpenAI 开发人员 Mark Chen 介入并要求 GPT-4o 调整它说话时的情绪。果然，GPT-4o 可以根据要求改变声音，从过于戏剧化的表演到冷漠、机械的语气。最后，他们展示了 GPT-4o 的一些歌唱能力来完善这个故事。

此外，此次发布会上演示者们还展示了 GPT-4o 在数学方面的“才能”。演示者写出了一个方程式并通过手机摄像头展示了 GPT-4o。它被指示帮助解决问题，但不泄露答案。果然，GPT-4o 指导演示者完成了求解简单方程的过程，几乎扮演了教师的角色。另外，它甚至还回答了典型的“我什么时候才能在现实生活中使用它？”问题，解释二次方程如何帮助我们完成日常任务。

演示者还使用桌面版 GPT-4o 来检查他们拥有的一些代码。GPT-4o 不仅可以解释代码的作用，还可以告诉您如果调整代码的特定部分会发生什么。

此前猜测全部落空

AIGC 赛道过去一年“卷疯了”似乎成为了业界共识，众多公司推出了自己的 AI 聊天机器人，谷歌的 Gemini、Anthropic 的 Claude 和 X 的 GrokAI 等竞争对手都在从 OpenAI 这里抢走更多关注。

这次发布会之前，网上对 OpenAI 的发布内容充满猜测：Abacus.AI CEO 猜测，新的 Siri 将来自 OpenAI，更具体地，有网友表示是 ChatGPT iOS 中的对话模式；英伟达高级人工智能研究科学家 Jim Fan 表示，“预计 OpenAI 明天将演示实时语音助手。”；有网友说是“Google 级别的抓取和每日模型更新”。

还有网友 Ananay 表示“OpenAI 似乎正在致力于在 ChatGPT 内进行电话通话，或者至少提供某种程度的实时通信，而不仅仅是文本。这可能只是周一宣布的活动的一小部分。”他甚至表示，“OpenAI 现在已经部署了 webRTC 服务器来实现这一点，并且最近配置了这些服务器。”

这是一个开源项目，用于在应用程序内提供实时通信 - 例如语音和视频会议。这可能是 ChatGPT 代理行为的一部分。有了这个，你就可以向人工智能发出指令，让它启动并代表你执行操作——给予它呼叫访问权限可以让它打电话预约或处理来电，而无需你参与。

Altman：每年烧掉 500 亿美元我都不在乎

值得注意的是，Sam Altman 最近在接受媒体采访时表示，他将不惜一切代价致力于构建通用人工智能 (AGI)。在与斯坦福大学的学生互动时，Altman 表示，开发 AGI 的任何成本都是合理的。

据《财富》杂志报道，他表示：“OpenAI 可能有比我更有商业头脑的人担心我们的支出，但我并不这么认为。”

“无论我们每年烧掉 5 亿美元、50 亿美元还是 500 亿美元，我都不在乎，我真的不在乎，只要我们能保持在一条轨道上，我认为最终我们会为社会创造比这更多的价值，只要我们能找到一种方法来支付账单，就像我们制造通用人工智能一样，这将是昂贵的，但完全值得，”他补充道。

内容推荐

探索智能科技的新边疆，《2024 年第 1 季度中国大模型季度监测报告》正式发布！OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来，正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中，AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号，回复「季度报告」领取。