作者
唐健博
邮箱
2024 年伊始,三星 Galaxy S24 系列全球发布,它有着 S23 系列的脸,却有着全新的心:AI 心。随后 OPPO 又对着 AI 手机加了一把火,宣布“正式进入手机 AI 时代元年”。
可是 AI 到底是什么形状?它能做什么?AI 手机是不是个噱头?
今年,AI 又以生成式的面貌席卷了各大媒体头条。面对这个熟悉又陌生的新事物,大众消费者脑袋里依旧装着十万个为什么。
因为只要提及“AI 人工智能”,大家对它的印象基本是两极分化:要么是特别高大上,和我们的生活毫不相干,要么就是营销大于实质,没有任何实用性。
但只要你用过 AI 功能,就会发现这些功能不仅直观、实用,且拟人化。
语音助手,对答如流
过去,人们之所以认为 AI 的存在感很低,很大程度上是因为 AI 不够直观,简单说就是看不到 AI 在工作。
生成式 AI 的出现,通过文字对话和语音聊天,向大家更直接地展示了 AI 的工作流。
国产手机第一梯队的品牌早在 2023 年中下旬就逐步实现大模型上机,当你发出询问,AI 助手就会上网实时搜索信息,并根据已有的信息进行分析,最终处理成可视化的答案,像有智商的人类一样。
成语接龙
例如我随意扔一个不熟悉的知识点,由大模型加持的语音助手,会在云端处理一遍,给出比以前更加准确的答案。如果是传统的语音助手,通常的工作流程是在手机端的数据库内进行处理,得到的答案非常局限,单一且无用。
新闻整理和知识点
你会发现,你在 AI 语音助手的聊天窗口里得到的结果,和知乎的回答有几分相似度——这是必然的,因为可能这个答案的部分来源就是知乎。
与其自己上知乎搜索,还不如让 AI 语音助手来帮你汇总。这不仅免去了你动手的繁琐步骤,还避开了搜索引擎夹带的广告私货。
在一定程度上,当前手机上的 AI 语音助手,像个有一点点智商的小孩子,帮你搜索、分析和处理信息,但是缺乏复杂的思考,更缺乏明确的判别能力。因此最终给出的答案还得由人脑甄别。
好消息是,经过我的实测,已上机的 AI 语音助手面对复杂或者无法处理的问题,通常是直接回答“我不会”,而不是像 ChatGPT 那样逞强,即使给一个似对非对的答案,也不愿意直接回答自己不会。
随着 AI 语音助手大模型的策略逐步成熟,它可能会改变普通人的搜索习惯——从打开浏览器的地址栏,到使用手机默认的搜索框,再到今后长按电源键呼出语音助手,自然是最后一种方式最适合懒人。
把 AI 的门槛打下来
通过语音助手这个入口,你可以发掘更多实用的 AI 功能。
但我并不认为目前手机内置的所有 AI 功能都很实用,不过你可以看得出厂商的苦口婆心:把功能进行罗列分类,例如“小红书文案”“朋友圈文案”“生成标题”......让更多人了解 AI 手机的能力。
从左至右,OPPO、荣耀和小米
IDC 发布的《AI 手机白皮书》给下了个定义,具备生成式 AI 能力后,才能叫做“AI 手机”。
生成,即创造,即生产。AI 又再回到了社会性的本质。
如果你熟悉最火的生成式 AI 的工具,那么也一定熟悉 AI 手机上的类似功能。除了语音助手外,我认为有具备实用性的 AI 功能有以下两大类:
第一,图片处理类,例如 OPPO/三星的 AI 消除。
顾名思义,通过 AI 大模型的能力,识别、理解、消除你想要的目标人物/物体。即使你没有完全框选目标物体的轮廓,系统也能准确判断你可能想要消除的对象,并通过分析整张画面,进行更无缝的画面修复。AI 消除完成之后,你几乎看不到瑕疵,就像是一张没有被处理过的图片一样。
左为原图,右为 AI 消除后
相机是手机品牌最卷的阵地,没有之一。它能直观地体现品牌技术力的强弱,而用户们也越来越愿意拍照分享。因此 AI 消除也是使用频率最高的功能之一,旅游照、合照、扫街等照片都可以用它来进行处理。
一定会有人说,这种消除不就是 Photoshop 上的修补工具?非也,这是 Adobe 公司正在做的下一步的反向应用:AI 扩图的内修复版。如果你在一张图上反复使用 AI 消除,那么你会比愚公更厉害,不仅可以移山,还能重建城市风貌。
左为原图,右为反复 AI 消除后
关于图片处理,还有生成式 AI 最拿手的技能:文生图。
不过在实际体验中,我输入同一个指令,最终得到的结果完全不同。有的可以做到以假乱真的地步,而有的却始终无法理解我的指令,这就有赖于厂商对于大模型的投入度了。
同一个指令,不同程度的结果
但在未来,AI 与图片可以有更多的想象空间,例如未来可以处理视频的瑕疵,甚至生成一个你没有拍过的却以你为主角的 Vlog......
第二,语言识别类,例如 AI 通话摘要。
它会将你的通话内容整理成待办事项,包括任务的时间、地点、人物等等关键信息,同时总结通话的主要内容,帮助你提高效率,以免忘记重要信息。类似的功能也可以是会议记录摘要,完全免去了人工做纪要的过程,是非常好的生产力工具。
AI 通话摘要
OPPO 也基于 ChatGPT 的对话功能,推出了“小布英语老师”,试图帮助用户练习口语。我在试用了之后发现,这位英语老师更像是一个英文版的捧哏,它会想尽办法引导你继续对话,例如夸奖、反问、追问等等方式,不过用词都相对基础,是一个很好的练习口语入门的方式。另外还得提一句,由于是大模型训练出来的,它的发音也十分接近于真人,声音磁性,有抑扬顿挫,似乎还带着一点感情。
三星也有 AI 同声传译功能,当你和外国人通话的同时,它可以将你所说的语言转化为对方听得懂的语言,尽管文字早就有了实时翻译功能,但是说话的语言处理起来,还真得有大模型的加入才能有如此迅速和准确。
这两大类的功能,无非都在帮助我们提高生产力,这也是 AI 本来的使命。要知道,AI 能做到的远不止于此,只是受限于操作门槛,普通人并不了解 AI 能够完成哪些事情。
生成式 AI 已经或多或少进入我们的生活生产中,有文字媒体行业、广告影视行业等等。只要你仔细看看楼梯间的京东购物海报,就不难发现那些图片已经是 AI 生成的了,但如果对这行业不了解的人们,或许会以为是实拍图片。
听起来像人的语音助手
如果说语音助手已经足够直观,那么把语音助手的声音做得像真人一样,那就更能给人震撼了。
大家常刷的短视频,充斥着 AI 配音。早期刚出现的时候,相当多的人还没能发现这些视频的旁白都不是真人,但有经验的人,一定听得出,它除了能出声音之外,既没有正确的抑扬顿挫,也没有感情。
把机器的声音处理得和人一样,或许是这条赛道的终极目标。OPPO 曾在发布会中展示了 AI 的声音,是一位极具磁性的男性,如果不仔细甄别,你很容易相信这是一个真人在说话。
OPPO 的小布助手提供了 22 种音色,涵盖了不同性别、年龄、风格以及方言等等特点。但我认为更像人的,是那个叫“文锋-磁性男声”的音色。你让他讲个故事,念一首诗,或者转述书籍的内容,它都会像一个慈祥的播音员,加有一些节奏,随着声音的高低起伏娓娓道来。
从左至右,华为、小米、OPPO和vivo
开发较深的语音助手,也可以在一定程度上充当情感陪伴——我向不同品牌的语音助手询问“你喜欢谁”,得到的答案不尽相同。
有时候听着文锋的声音,会有一种错觉。像科幻电影《HER》里面,斯嘉丽约翰逊所配音的那个人工智能,没有实体,但随时陪伴着用户,给他生活建议,甚至会坠入虚拟的感情......
电影《HER》剧照
华为和小米也有音色切换,但是声音过于完美,有着更浓的机器味,而 vivo 并没有给“蓝心小V”别的音色选择,反而是在“Jovi 语音”里有更多选项。
当然,目前 AI 手机上所搭载的技术还不足以达到电影中所描述的场景,但相比过去的“语音智障”,至少它们听起来会更像人类一点了。
AI 手机,人工智能最接地气的实体
从紧密度上来说,手机无疑是最适合普及生成式 AI 的载体,但这并不是 AI 手机横空出世的唯一原因。
早期使用 ChatGPT 的朋友一定知道,AI 就像一个脑袋里装了 100 本百科全书的小孩子,它有很多料却不知道如何思考和行动,需要人类的训练和引导。
在人工智能聊天系统 ChatGPT 中,你想要让它帮助你完成脚本撰写,那么就得向它灌输足够的剧情背景、人物介绍、镜头语言等等;而在文生图的 midjourney 上显得更复杂,假如你想要它生成一张极其完美的图片,那么你得学会正确施法(prompt);甚至是你在询问微软的大模型聊天工具 Copilot 的时候,还得学会辨认信息的真伪——因为 AI 并不会向你保证它所说的都是完全正确的,这一点也和人类一样。
普通人接触到 prompt 就已经开始头大了,更不用说还要不断训练模型。
当这一切生成式 AI 功能转战到终端设备上,成为原生功能之后,品牌就需要完成部分训练引导工作,并尽可能解决内容正确性和合规等问题,最终交给用户的功能是简单的、易用的、有效的。
因为在全球超过 66 亿的智能手机用户里,99.99% 都是普通人。他们不知道生成式 AI 这两年如此火爆,也不知道 AI 手机能做些什么,更没有用过 AI 手机的具体功能。但他们一定有可以被 AI 满足的需求,这就是 AI 落地的最佳使用场景。
AI 手机,可谓是来自于大众,回归大众。
因此从《AI 手机白皮书》中对“AI 手机”的定义来说,市面上绝大部分搭载大模型的手机,都可以称作“AI 手机”。如果不用“AI 手机”来给它命名,我还真找不到更合适的名词了。“超级手机”?“智能化反手机”?还是朴实的“超级智慧手机”?
近日关于下一代 iPhone 将会搭载大模型的传闻已是满天飞,无论是传言接洽的百度文心大模型,还是 Gemini AI,总之 iPhone 拥抱生成式 AI 几乎是板上钉钉。
至于 AI 手机到底是不是个噱头,让子弹再飞一会儿。
点个在看,再走吧👀
继续阅读
阅读原文