最近,番茄小说的AI语音朗读因为几条魔性的BUG语音上了热搜。
任何一个人,没看过下面这个视频我都会伤心的,ok?
(点击视频收获今日快乐)
这段视频印证了我一直以来的一个猜想——

所有标榜“自动”的功能背后,都有一个藏着的活人在替机器负重前行。
这世间一定有那么一个人,白天躲在 ATM 机里往外扔钱,晚上在番茄小说里在线给人读故事。
而且读出来的英语还是正宗的天↘津→口↗音↘。
从“SSSSS”和“啊啊啊啊啊”那两段听来,这位神秘相声演员的肺活量也很是不错。

而且还能结合小说上下文,精准表达文本情绪,生动地演绎出了“失去语言组织能力的粉丝”见到“哥哥”时,
从激动到上天到激动得想死的跌宕心情,
从《大悲咒》的氛围里一路“啊”到了《釜山行》的片场。
这种真·魔音灌耳的朗读方式,“精准”还原了作者大大的意图,不愧是天花板般的存在!

经此一役,我终于也能说出那句经典的霸总台词:
AI朗读,你成功地吸引了西二旗首席霸总(我)的注意!
难道,AI语音除了要在小度、小爱、高德导航上猛刷存在之外,现在还要开始内卷有声小说圈了么?
果然,在这个世界里, AI才是卷王之王。
后来,我看到了番茄小说的回应:
看来这段AI朗读语音BUG背后的程序员大概率是被抓了几个祭天,剩下的兄弟们火速搞了迭代。
真是把我的快乐源泉扼杀在了摇篮里。
(点击查看修复后的AI朗读)
不仅性感的超长气泡音没有了,被送去恶补英语课后,成熟大叔音也成了正宗的、标准的、英国的,伦~敦~音~,一点唐山味儿都没有的那种。
没有了快乐源泉,语音朗读又一次回到了让听众难辨究竟是人还是机器的时代。

好奇如我不禁想问——AI语音朗读做个人有多难呢?
我问了问几个同行,大概就比电脑通过图灵测试要简单一半吧。
他们表示,要让AI朗读同真人朗读一样真假难辨,最基础的是训练AI的发音准确性和韵律自然度上。
在此基础上,还要表达出与文本剧匹配的丰富情感。
至于怎么做到?是对大量语气助词和副语言,如叹息、大笑、哭腔等一系列的精细控制。
尤其是面对现在越来越脑洞大开的网文,AI简直就是一个无辜的孩子,实在无法预料多才多艺的作者们笔下会写出什么样的名场面——
甚至无法预料作者笔下的语言是中文、英文、希腊文甚至精灵文……
所以!语言的壁垒让AI语音朗读BUG总有源源不断的“酷(b)爱(u)乐(g)”出现。
就拿英文读音这事儿来说,这些年我在听书功能里听到的奇葩英语数不胜数,只是有 Chinglish 口音的,已经算是口语水平不错的 AI 了。
还有干脆读不出来的、能读但是读字母的、能读英语读不了日语的、能把英语读得像俄语的......
那场面,就是让我的程序员兄弟听了也会半夜笑醒。
这些语音包,有的一听就是没上过英语课,缺少外语数据训练。
结果一上阵碰上作者拽外语,AI 就运用自己的已有经验,产出了各种奇葩的解决方式。
导致文里一有洋词儿,语音包就开始“八仙过海展奇才”。
(点击音频再次收获快乐)
至于解决方案,自然是让聪明的AI“掌握”一门外语咯。
过了语言这道硬件关,AI要想做个人,还需要音色
常见的 AI 朗读声音,男的像康辉、女的像 siri,如果不是赛博朋克主题文,很难靠这种音色代入剧情。
这些所谓的AI语音朗读让不论男频、女频,还是悬疑、言情,听起来都像NPC在读任务简介。

而且小说里什么最多?对话!
我的另一位冤种兄弟表示,他十年网文,从来不去听AI朗读,为什么?
因为很多作者写文时都会隐去对话中的发言者,不重复太多的“说”、“问”、“道”,靠对话内容让读者明白对话发生的对象。
但经常是 AI 一朗读,平铺直叙、平静如水、一马平川——所有角色都是同一个声音,多听几章什么激烈的宫斗权谋早就没了。
只剩下一个机器人在不知哪朝的宫殿里和你玩单口相声。
网文小说跟影视剧比起来,最大的优势其实在于读者自身的想象力。
脑补,是读小说最爽的事儿。但没有情感的语音,会打断读者大脑施法。
想象一下,兄弟!大男主集满经验、拉足血条、手持上古神器、马上要刀BOSS了。
结果在 AI 朗读的稳定输出下,情绪稳定,像是地图导航,一下就把我从屠仙灭神的异界大陆拽回了西三旗桥,再比博燃的打斗描写都白瞎。
什么?你问我解决方案,这就涉及到如何教会AI理解上下文了(对就是你九年义务教育学的那个)。
如果让我的程序员兄弟说得专业一点,这叫做:
文本转换音频,情感最难还原。
中文是一门不那么简单的语言,到目前为止逼疯了不知多少国际友人。
一大堆“特殊情况特殊记”,同一句话,重音不同,表达的意思千差万别。
就算是土生土长在中华大地上的活人演员,也经常在电视剧里出现台词不行、重音不准的情况。
这就是为什么异地恋一定要打电话或勤视频,打字聊天很容易吵架,因为语气、停顿、重音、语速这些文字以外的东西,也可以传递情感。
但这对 AI 来说就有点超纲,首先要能够理解文本含义,区分出不同的角色和情绪。
加上对情绪和语气、停顿、重音间的逻辑判断,才能呈现出一个“像人”的 AI 语音。
就拿最难表达的“笑”来举例,同样是笑,不同的笑法,传递的信息也不一样。

就像大男主手刃仇敌后的笑,和霸道总裁们带着三分凉薄四分讥讽的笑,能一样么?!
为了实现这种区别,AI语音必须要进行十分细致的精细化建模。
比如出了BUG的番茄就曾公开过,他们为笑声准备了多达7种细致的声音模型,适用于不同情境下的不同语意表达。
AI在开始朗读前要自己先预习一遍,通读全文后结合上下文的高频关键词,判断笑声的情绪,再从狂炫酷霸拽炸天的声音库中提取出对应感情的笑声。
这样一来,不论是主角的“哈哈哈”,还是反派的“桀桀桀”,AI都能把它成功还原出来。
这就是让AI语音朗读能够像个人样的精髓啦!

网文小说已经有二十多年的历史,我这一代人可以说是看着网文长大的,它也在跟着我成长。
实不相瞒,从学生时代到成为社畜,从在 mp4 里导 txt 到用智能手机当阅读器,网文承包了我成长过程中相当一部分的青春时光。
什么升级打怪捡宝贝、戒指里面有老头,都是哥年少的珍贵回忆。
在我的头发为互联网行业的发展而脱落前,就早已为了神界仙界的大事小情掉过一拨了。
尽管吐槽了一堆,但在睡前、开车等不方便、没时间读小说的时候,听书,已经成为了我的选择。
虽然有时候睡到一半会被 AI 的朗读 bug 活活笑醒。
谁都知道真人朗读的效果最好,但网文作者普遍比我们搞互联网的还能肝,码出来的文浩如烟海。
每一本书,都可能有自己的读者,想要选择听书的方式来获取内容。
这一点,只有 AI 能够实现。
不断完善技术,不断修补漏洞,尽可能多的把纸面上的情感还原到音频之中,才对得起“大大们”和“太太们”的心血。
遇到bug固然让人头秃、搞笑,但这也是技术成熟的必经之路。
以我多年听读的功力告诉你,目前为止市面上做得最好的平台已经基本上可以做到让人真假难辨。
行业里,番茄小说曾经做过一次测试实验,让人们来分辨听到的究竟是真人还是AI。
实验结果表明,「在盲听的情况下,92%的用户并不能分别出AI语音朗读是合成的还是真人录音」
而我在写这个稿子的时候还查到了这个:《番茄小说概念音色抢鲜听》,从字面意思理解,“概念音色”应该是个未来时。
但从这里展示的几个例子看,AI 对文本的理解、角色的识别,已经很“像个人了”,甚至还有方言……
我点进去试听了一下,别说,还真是那个味儿!
-END-
本文系“西二旗生活指北”原创
转载请标明出处
监制:景岁
脚本:景岁 大孟妮
排版:Ann
微博:西二旗生活指北
继续阅读
阅读原文