听起来像人的语音助手到底存不存在？

作者

｜

唐健博

邮箱

｜

[email protected]

2024 年伊始，三星 Galaxy S24 系列全球发布，它有着 S23 系列的脸，却有着全新的心：AI 心。随后 OPPO 又对着 AI 手机加了一把火，宣布“正式进入手机 AI 时代元年”。

可是 AI 到底是什么形状？它能做什么？AI 手机是不是个噱头？

今年，AI 又以生成式的面貌席卷了各大媒体头条。面对这个熟悉又陌生的新事物，大众消费者脑袋里依旧装着十万个为什么。

因为只要提及“AI 人工智能”，大家对它的印象基本是两极分化：要么是特别高大上，和我们的生活毫不相干，要么就是营销大于实质，没有任何实用性。

但只要你用过 AI 功能，就会发现这些功能不仅直观、实用，且拟人化。

语音助手，对答如流

过去，人们之所以认为 AI 的存在感很低，很大程度上是因为 AI 不够直观，简单说就是看不到 AI 在工作。

生成式 AI 的出现，通过文字对话和语音聊天，向大家更直接地展示了 AI 的工作流。

国产手机第一梯队的品牌早在 2023 年中下旬就逐步实现大模型上机，当你发出询问，AI 助手就会上网实时搜索信息，并根据已有的信息进行分析，最终处理成可视化的答案，像有智商的人类一样。

例如我随意扔一个不熟悉的知识点，由大模型加持的语音助手，会在云端处理一遍，给出比以前更加准确的答案。如果是传统的语音助手，通常的工作流程是在手机端的数据库内进行处理，得到的答案非常局限，单一且无用。

你会发现，你在 AI 语音助手的聊天窗口里得到的结果，和知乎的回答有几分相似度——这是必然的，因为可能这个答案的部分来源就是知乎。

与其自己上知乎搜索，还不如让 AI 语音助手来帮你汇总。这不仅免去了你动手的繁琐步骤，还避开了搜索引擎夹带的广告私货。

在一定程度上，当前手机上的 AI 语音助手，像个有一点点智商的小孩子，帮你搜索、分析和处理信息，但是缺乏复杂的思考，更缺乏明确的判别能力。因此最终给出的答案还得由人脑甄别。

好消息是，经过我的实测，已上机的 AI 语音助手面对复杂或者无法处理的问题，通常是直接回答“我不会”，而不是像 ChatGPT 那样逞强，即使给一个似对非对的答案，也不愿意直接回答自己不会。

随着 AI 语音助手大模型的策略逐步成熟，它可能会改变普通人的搜索习惯——从打开浏览器的地址栏，到使用手机默认的搜索框，再到今后长按电源键呼出语音助手，自然是最后一种方式最适合懒人。

把 AI 的门槛打下来

通过语音助手这个入口，你可以发掘更多实用的 AI 功能。

但我并不认为目前手机内置的所有 AI 功能都很实用，不过你可以看得出厂商的苦口婆心：把功能进行罗列分类，例如“小红书文案”“朋友圈文案”“生成标题”......让更多人了解 AI 手机的能力。

IDC 发布的《AI 手机白皮书》给下了个定义，具备生成式 AI 能力后，才能叫做“AI 手机”。

生成，即创造，即生产。AI 又再回到了社会性的本质。

如果你熟悉最火的生成式 AI 的工具，那么也一定熟悉 AI 手机上的类似功能。除了语音助手外，我认为有具备实用性的 AI 功能有以下两大类：

第一，图片处理类，例如 OPPO/三星的 AI 消除。

顾名思义，通过 AI 大模型的能力，识别、理解、消除你想要的目标人物/物体。即使你没有完全框选目标物体的轮廓，系统也能准确判断你可能想要消除的对象，并通过分析整张画面，进行更无缝的画面修复。AI 消除完成之后，你几乎看不到瑕疵，就像是一张没有被处理过的图片一样。

相机是手机品牌最卷的阵地，没有之一。它能直观地体现品牌技术力的强弱，而用户们也越来越愿意拍照分享。因此 AI 消除也是使用频率最高的功能之一，旅游照、合照、扫街等照片都可以用它来进行处理。

一定会有人说，这种消除不就是 Photoshop 上的修补工具？非也，这是 Adobe 公司正在做的下一步的反向应用：AI 扩图的内修复版。如果你在一张图上反复使用 AI 消除，那么你会比愚公更厉害，不仅可以移山，还能重建城市风貌。

关于图片处理，还有生成式 AI 最拿手的技能：文生图。

不过在实际体验中，我输入同一个指令，最终得到的结果完全不同。有的可以做到以假乱真的地步，而有的却始终无法理解我的指令，这就有赖于厂商对于大模型的投入度了。

但在未来，AI 与图片可以有更多的想象空间，例如未来可以处理视频的瑕疵，甚至生成一个你没有拍过的却以你为主角的 Vlog......

第二，语言识别类，例如 AI 通话摘要。

它会将你的通话内容整理成待办事项，包括任务的时间、地点、人物等等关键信息，同时总结通话的主要内容，帮助你提高效率，以免忘记重要信息。类似的功能也可以是会议记录摘要，完全免去了人工做纪要的过程，是非常好的生产力工具。

OPPO 也基于 ChatGPT 的对话功能，推出了“小布英语老师”，试图帮助用户练习口语。我在试用了之后发现，这位英语老师更像是一个英文版的捧哏，它会想尽办法引导你继续对话，例如夸奖、反问、追问等等方式，不过用词都相对基础，是一个很好的练习口语入门的方式。另外还得提一句，由于是大模型训练出来的，它的发音也十分接近于真人，声音磁性，有抑扬顿挫，似乎还带着一点感情。

三星也有 AI 同声传译功能，当你和外国人通话的同时，它可以将你所说的语言转化为对方听得懂的语言，尽管文字早就有了实时翻译功能，但是说话的语言处理起来，还真得有大模型的加入才能有如此迅速和准确。

这两大类的功能，无非都在帮助我们提高生产力，这也是 AI 本来的使命。要知道，AI 能做到的远不止于此，只是受限于操作门槛，普通人并不了解 AI 能够完成哪些事情。

生成式 AI 已经或多或少进入我们的生活生产中，有文字媒体行业、广告影视行业等等。只要你仔细看看楼梯间的京东购物海报，就不难发现那些图片已经是 AI 生成的了，但如果对这行业不了解的人们，或许会以为是实拍图片。

听起来像人的语音助手

如果说语音助手已经足够直观，那么把语音助手的声音做得像真人一样，那就更能给人震撼了。

大家常刷的短视频，充斥着 AI 配音。早期刚出现的时候，相当多的人还没能发现这些视频的旁白都不是真人，但有经验的人，一定听得出，它除了能出声音之外，既没有正确的抑扬顿挫，也没有感情。

把机器的声音处理得和人一样，或许是这条赛道的终极目标。OPPO 曾在发布会中展示了 AI 的声音，是一位极具磁性的男性，如果不仔细甄别，你很容易相信这是一个真人在说话。

OPPO 的小布助手提供了 22 种音色，涵盖了不同性别、年龄、风格以及方言等等特点。但我认为更像人的，是那个叫“文锋-磁性男声”的音色。你让他讲个故事，念一首诗，或者转述书籍的内容，它都会像一个慈祥的播音员，加有一些节奏，随着声音的高低起伏娓娓道来。

开发较深的语音助手，也可以在一定程度上充当情感陪伴——我向不同品牌的语音助手询问“你喜欢谁”，得到的答案不尽相同。

有时候听着文锋的声音，会有一种错觉。像科幻电影《HER》里面，斯嘉丽约翰逊所配音的那个人工智能，没有实体，但随时陪伴着用户，给他生活建议，甚至会坠入虚拟的感情......

华为和小米也有音色切换，但是声音过于完美，有着更浓的机器味，而 vivo 并没有给“蓝心小V”别的音色选择，反而是在“Jovi 语音”里有更多选项。

当然，目前 AI 手机上所搭载的技术还不足以达到电影中所描述的场景，但相比过去的“语音智障”，至少它们听起来会更像人类一点了。

AI 手机，人工智能最接地气的实体

从紧密度上来说，手机无疑是最适合普及生成式 AI 的载体，但这并不是 AI 手机横空出世的唯一原因。

早期使用 ChatGPT 的朋友一定知道，AI 就像一个脑袋里装了 100 本百科全书的小孩子，它有很多料却不知道如何思考和行动，需要人类的训练和引导。

在人工智能聊天系统 ChatGPT 中，你想要让它帮助你完成脚本撰写，那么就得向它灌输足够的剧情背景、人物介绍、镜头语言等等；而在文生图的 midjourney 上显得更复杂，假如你想要它生成一张极其完美的图片，那么你得学会正确施法（prompt）；甚至是你在询问微软的大模型聊天工具 Copilot 的时候，还得学会辨认信息的真伪——因为 AI 并不会向你保证它所说的都是完全正确的，这一点也和人类一样。

普通人接触到 prompt 就已经开始头大了，更不用说还要不断训练模型。

当这一切生成式 AI 功能转战到终端设备上，成为原生功能之后，品牌就需要完成部分训练引导工作，并尽可能解决内容正确性和合规等问题，最终交给用户的功能是简单的、易用的、有效的。

因为在全球超过 66 亿的智能手机用户里，99.99% 都是普通人。他们不知道生成式 AI 这两年如此火爆，也不知道 AI 手机能做些什么，更没有用过 AI 手机的具体功能。但他们一定有可以被 AI 满足的需求，这就是 AI 落地的最佳使用场景。

AI 手机，可谓是来自于大众，回归大众。

因此从《AI 手机白皮书》中对“AI 手机”的定义来说，市面上绝大部分搭载大模型的手机，都可以称作“AI 手机”。如果不用“AI 手机”来给它命名，我还真找不到更合适的名词了。“超级手机”？“智能化反手机”？还是朴实的“超级智慧手机”？

近日关于下一代 iPhone 将会搭载大模型的传闻已是满天飞，无论是传言接洽的百度文心大模型，还是 Gemini AI，总之 iPhone 拥抱生成式 AI 几乎是板上钉钉。

至于 AI 手机到底是不是个噱头，让子弹再飞一会儿。

点个“在看”，再走吧👀

继续阅读

阅读原文