OpenAI最新发布的GPT-4o模型是迈向更自然的人机交互的一步,232毫秒可响应音频输入
文| 邓思邈
编辑 | 郭丽琴
既不是GPT-5,也不是传闻中的搜索引擎,这次OpenAI于北京时间5月14日凌晨在春季更新活动上带来了GPT-4o,声称该模型可以对语音、图像和文本进行实时推理和交互。用OpenAI联合创始人兼CEO萨姆·奥尔特曼的话来说“就像魔法一样”。
GPT-4o在视觉和音频理解方面表现得较为突出。OpenAI官方介绍称,GPT-4o中的“o”指代“omni”,而“omni”在英语词缀中指代“总、全部、所有”,意为“全能”的意思。GPT-4o是迈向更自然的人机交互的一步——它可以将文本、音频和图像的任意组合作为输入和输出,并在短至232毫秒(平均320毫秒)的时间内对音频输入做出反应,与人类对话的响应时间类似。
OpenAI首席技术官Mira Murati
OpenAI还在社交媒体上宣布,GPT-4o从当日(5月14日)起向所有用户免费开放使用,对付费订阅的Plus用户的消息发送限制是免费用户的5倍。并称在接下来的几周内,将向Plus用户提供最新演示的语音和视觉交互功能。
全程看完发布会,直观感受是“好厉害”。北京居民樊女士之前经常用ChatGPT的GPT-3.5语音功能练口语,对她来说比较大的问题是GPT-3.5的回复没有那么自然,AI味比较重,好处是可以通过ChatGPT的回复修正一下自己的口语的问题。她说,“GPT-4o我还没好好试用,简单用文字问了几个问题,感觉会更有‘情商’了,比如一些回复会带感叹号。和他对话的反应也会更自然更像真人,对于我练口语帮助会比较大,因为你需要在一个自然的交流的语境下才能更好地锻炼自己的口语。”
达到人类的反应时间和表达能力
发布会结束后,奥尔特曼在其个人博客上强调了两点:第一,OpenAI的使命是将非常强大的AI工具免费提供给人们使用,OpenAI已经在ChatGPT中免费提供了世界上最好的AI模型,没有广告或类似的东西;第二,GPT-4o新的语音(和视频)模式是他使用过的最好的计算机界面,感觉就像电影里的AI一样,它的真实性还是让他有点吃惊,达到人类水平的反应时间和表达能力是一个很大的变化。
另外,奥尔特曼在其个人社交平台上提到了《她》这部电影,一位网友在奥尔特曼该条推文底下评论称“GPT-4o让他想到了《她》”。据相关资料介绍,《她》讲述了人与AI相爱的科幻故事,其中的AI萨曼莎拥有迷人的声线,温柔体贴又幽默风趣,高度人性化。
奥尔特曼的个人社交媒体
那么GPT-4o具体表现如何?在发布会现场,OpenAI三位工作人员为大家进行了demo演示,其中包括首席技术官Mira Murati、研究负责人Mark Chen、后训练主管Barret Zoph。
语音功能:理想的AI语音助手 
首先展示的是实时语音对话。
Mark对着手机里的ChatGPT(由于现场演示常常使用ChatGPT指代最新发布的产品,从此处开始,下文里提到的“ChatGPT”均特指“GPT-4o”),问道:“我现在就在台上。我正在做现场演示,坦白说,我有点紧张。你能帮我放松一下吗?”
ChatGPT回答:“你现在在做现场演示吗?太棒了!做一下深呼吸吧,记住你是个专家!”
紧接着,Mark说“我试着深呼吸几次。你能对我的呼吸作出反馈吗?”然后Mark用力大喘气了几次。
ChatGPT听了后马上说:“马克慢点呼吸,你不是吸尘器啊!”
Mark在现场演示中总结,在和GPT-4o模型互动过程中,不必等到它说完,你可以随时打断它说话;并且模型是实时响应的,这意味着在等待模型给出反应之前,不会有2到3秒的延迟。除此之外,Mark说,该模型能够注意到人的情绪——在你呼吸非常困难的时候,它会说你可能需要冷静一点。
其次是讲睡前故事,并且声音能够按照你的需求,任意变换成不同的情感风格。
Mark对ChatGPT说,“我的朋友Barret,他最近睡眠有点问题,我想让你给他讲一个睡前故事,关于恋爱中的机器人”。
ChatGPT听后马上开始讲述,语气比较平淡:“在很久以前的一个世界里,这个世界和我们的世界没有太大不同。有一个叫byte的机器人,是一个对外界非常好奇的机器人。”
Mark似乎对它的讲述不太满意,马上打断说:“我想让你的声音多一点感情,多一点戏剧性”。
ChatGPT说:“明白!咱们来点戏剧性”。随后在语气和语调上添了几分感情,把以上的内容重述了一遍。但话还没说完,又被Barret打断了,“我想要最大程度的情感,比你之前所表达的更多”。后面ChatGPT就像改头换面了一样,在话语中倾注更多感情,朗读了起来。
话还没说完,Mira又打断,要求ChatGPT用机器人的声音说话,它按照指令照做,换成了冷冰冰的、不带任何感情的语调。在此之后,Mark要求它用唱歌的方式结束这段故事,ChatGPT也能搞定。
视觉功能:生活与工作的好帮手 
除了用语音进行交互,用户还能通过视频(即图像)的方式与ChatGPT交流。
比如ChatGPT能充当用户的老师,一步一步实时教你解数学方程等式。
还没开始算,ChatGPT就说了句:“哎呀,我太兴奋了!你准备好了我就准备好了。”
伴随着Barret在白纸上写下:3x+1=4,ChatGPT能够读懂,并给予相应提示和反馈,教人类如何进行计算,在时间上没有出现延迟。
当人类问它为什么要学习解方程时,ChatGPT回应称:“线性方程出现在很多日常情况中,我们没有意识到这一点。例如,计算开支、规划旅行、烹饪,甚至在商业中需要计算盈亏,这是一种解决问题的方法。我们需要找到一个未知变量……”
当人类在纸上写下:“我爱ChatGPT”时,它不仅能看懂,还回应表示“你真是太好了!”
面对代码难题,ChatGPT也不在话下。
如图所示,人类要求它对图中的代码进行简短描述。ChatGPT马上回答:“该代码获取了特定位置和时间段的每日天气数据,使用滚动平均值平滑温度数据,在结果图上注释了重要的天气事件,然后显示该图一年中的平均、最低和最高温度”。
哪怕是针对画面中特定的问题进行语音提问,ChatGPT也能胜任。例如,现场嘉宾提问“在代码中有一个foo函数。你能给我描述一下如果我没有这个功能,情节会是什么样吗?”ChatGPT随后也不假思索作出了回复。

紧接着,ChatGPT还被要求看图说话,并回答用户问题。
OpenAI活动现场,要求ChatGPT看图说话
ChatGPT对画面中的图表进行阐释称:“该图显示了2018年全年的平均温度、最低温度和最高温度,并有一个显著的注释,标志了9月下旬的大降雨事件。”
当被问到“最高温度出现在哪几个月?它们大致对应的温度是多少?”ChatGPT准确无误回答道:“最高温度出现在7月和8月左右。这几个月的最高气温大致在25℃到30℃之间”。
这次推出的最实用的功能之一,莫过于实时翻译。
发布会现场,ChatGPT在不同文化之间搭建起了一座沟通桥梁——被要求当听到意大利语时,将它翻译成英语,当听到英语时,则将它翻译成意大利语,ChatGPT在现场翻译表现得比较流利,没有出现错误,很像地道的母语使用者。
最后一个,则是模型能够通过人脸表情识别情绪。
Barret对着手机说,“这是我。你认为是什么样的情绪?”ChatGPT好像翻车了,回答:“我好像在看一张木质表面的图片。”
OpenAI发布会现场,要求ChatGPT识别人脸情绪
Barret试图救场,对它说:“什么?那是我之前发给你的东西。别担心。我其实不是桌子。所以你再看一眼?”ChatGPT这回看出来了:“看起来你非常高兴和愉快,带着灿烂的笑容,甚至可能是一丝兴奋。不管发生了什么,你心情看起来很好。”
GPT-4o的强大之处还有什么?
外观设计上,OpenAI这次推出了新的UI设计。
来自OpenAI官网
在GPT-4o推出之前,人们可以使用语音模式与ChatGPT-3.5和GPT-4模型对话。但平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。而新发布的GPT-4o模型平均320毫秒(即0.32秒)就能做出实时响应。
来自OpenAI官网
OpenAI官网介绍称,在此之前,为了实现语音模式,处理流程如下:需要一个简单模型先将音频转换为文本,然后再由GPT-3.5或GPT-4模型接收文本并输出文本,最后是第三个简单模型将文本再转换回音频——这个过程意味着GPT-4模型失去了很多信息,它不能直接观察说话人的语调、同时应对多个说话者或背景噪音,也不能向外输出笑声、唱歌或表达情感。
相比之下,GPT-4o是单一的端到端的跨文本、视觉和音频训练的新模型,这意味着所有的输入和输出都由同一个神经网络来处理。
GPT-4o在英语文本和编程代码方面的表现与GPT-4 Turbo模型相当,在非英语语言的文本上有显著的改进,同时在API(应用程序编程接口)上速度提高一倍,并且便宜50%,单位时间调用次数是原来的5倍。与现有模型相比,GPT-4o在视觉和音频理解方面表现得尤为突出。这里的“GPT-4 Turbo”指OpenAI在GPT-4的基础上进行优化和改进的版本,旨在提供更高效和快速的性能,常被用于需要高效处理大规模数据的应用场景。
来自OpenAI官网
对比其他友商模型,据OpenAI官网介绍,在文本评估中,GPT-4o几乎碾压一众模型,包括Claude 3 Opus、Gemini Pro 1.5,甚至是Llama 3 400B。不过要注意的是,在DROP这一项指标中,GPT-4o的表现稍落后于GPT-4 Turbo。
来自OpenAI官网
在音频翻译任务上,GPT-4o模型强过OpenAI先进的语音识别模型Whisper-V3,同时也比Meta和谷歌的用于语音处理的模型强。
在视觉理解上,GPT-4o模型在任何一项指标都比谷歌的Gemini 1.0 Ultra模型和Anthropic公司的Claude Opus模型强。
来自OpenAI官网
从当地时间5月14日开始,OpenAI将向Plus用户推出macOS应用程序,还计划在2024年晚些时候推出Windows版本的应用程序。
OpenAI首席技术官Mira Murati在活动上介绍称,他们已经对50种不同语言的质量和速度进行了改进,今天已有超过1亿人使用ChatGPT产品来创造、工作、学习。Mira认为,模型能够通过语音、文本和视觉进行推理这一点非常重要,“因为OpenAI正在研究我们人类与机器之间交互的未来。”
有意思的是,就在OpenAI发布会结束后的北京时间5月15日凌晨,谷歌召开了I/O大会,推出了新的AI“全家桶”产品。
责编|王祎
继续阅读
阅读原文