今年一月份的时候,Chromium 内核的 Edge 浏览器是毫无疑问的当红炸子鸡,每次提到 Edge 浏览器,留言里满满都是「真香」的声音。
不过说实话,虽然早在 2019 年新版 Edge 内测的时候咱就搞来了汉化版测试了一番,可新鲜归新鲜,我还真没准备从 Chrome 迁移到 Edge。
真正让我意识到 Edge 强大的,还是今年一月份写的那篇关于 Edge 「大声朗读」功能的文章,这才让我感受到 Edge 是真的香。
给不了解的小伙伴重新解释一下,相比谷歌的 Chrome,微软 Edge 上独占的「大声朗读」功能可以把浏览器内的文字生成 TTS 语音朗读,说白了就是提供了内置的文字转语音功能。
香的地方在于,一般的文字转语音调用的都是通用引擎,那发声一听就是程序合成的,根本让人听不下去。
而 Edge 背靠微软这颗大树,有着微软这些年在人工智能语音合成领域的技术沉淀背书,吐字清晰、字正腔圆,堪比真人,不信的小伙伴可以看看当时写的这篇文章:《微软Edge,你这是人干的事吗?》。
但是,要说但是了啊,那篇文章的最后有不少小伙伴留言说「想导出朗读的内容」,当时我的回复都是只能额外录音。
可这个问题我拿小本本记住了,就是有什么办法利用 Edge 的「大声朗读」把文字转过来的语音导出成独立的文件呢?
今天我找到了解决方案,Read Aloud,一个把「大声朗读」功能独立出来的文本转语音软件。
Read Aloud
满打满算也就 3M 大小出头的 Read Aloud,界面简约啥的咱就不说了,可麻雀虽小五脏俱全。
如果你就听听作罢,直接输入文本,选择合适的「语音」,然后点击「朗读」即可。
别担心它提供的接口不够,语音那栏里我数了数,和 Edge 上「大声朗读」里的支持的语音数量一致,都是 38 个(顺序有所差别),普通话、粤语、台湾方言都有,主流的外语也都不在话下。
但如果你想把语音导出到本地,就得在下方设置那安排好你的导出目录。
给大家录了个屏来展示一下操作,语音方面当然还是选择公认的拟人度效果最好的「xiaoxiao」了。
点击「录制」,Read Aloud 会自动开始播放文本,而在播放的同时,它会把语音保存到了你设置好的目录,唯一支持的文件格式为 .wav。
给大家听听「xiaoxiao」的效果:
啊,我又被治愈了。
当然,你可以在右下角设置最大录制时间,还能调整语速和音调,不过对于部分语音的音调是不可调的,比如「xiaoxiao」。
但作为一个 3M 的小工具,达成这样的效果已经很不容易了,回到一开始的问题,这不就是利用 Edge 的「大声朗读」把文字转过来的语音导出成独立的文件嘛。
什么,还有人嫌 Read Aloud 不够给力?
想想也对,之前的那篇文章里不是还介绍了如何利用微软提供的 SSML 语音合成标记语言,来手把手调教语音,现在一个把「大声朗读」独立出来的小工具可喂不饱大家。
我想了想,既然「大声朗读」的出处是 Edge,那老家自然是微软,我何不去探一探源头处微软「语音合成」的究竟。
高阶操作
既然是微软的 AI 服务,那应该就出自它们家的 Azure 了,陌生的小伙伴可以类比一下国内的阿里云和腾讯云。
去微软他们家的官网,找到 Azure 的页面,然后在「产品-AI + 机器学习-Azure 认知服务」的页面里找到我们的目标。
语音-文本转语音:
点进去,选择「免费开始使用」,登录你的微软账号,再注册 Azure 账号,填写个人资料,基本搞定。
其实上面都没啥好说的,有手就行,但最后一步有个门槛,需要绑定你的信用卡,主要用来验证真实用户,不扣费,在绑好信用卡注册成功后,你就可以享受原汁原味的微软服务了。
登录后添加项目,选择「语音-文本转语音」中的「语音库」。
你就能看到包括晓晓(xiaoxiao)在内的 174 种语音了,然后点击「创建音频」。
当你看到下面这个界面的时候,证明所有的准备工作就绪,非这么老鼻子劲,我倒要看看微软的文本转语音服务有多强。
还是选了《许三观卖血记》第一章的前两段话作为例子:
许三观是城里丝厂的送茧工,这一天他回到村里来看望他的爷爷。他爷爷年老以后眼睛昏花,看不见许二观在门口的脸,就把他叫到面前,看了一会儿后问他:
“我儿,你的脸在哪里?”
许三观说:“爷爷,我不是你儿,我是你孙子,我的脸在这里……”
试一下导出,有导出到「音频库」和导出到本地两种选择,不用说了肯定是后者,有意思的来了,支持高品质 16k 和 24k wav 格式文件,也支持标准品质 MP3 格式文件,可以整篇导出,也可以分段落导出音频。
晓晓的朗读效果是这样的:
好听归好听,可一切都是默认选项,和 Edge 自带的晓晓没什么区别,别急,在右侧的优化栏,我找到了「好东西」。
我把它分成了三栏,你可以在第一栏里从 174 种语音中选择不同的语音,这是最基础的,多国多人不同的语音。
而在第二栏,可以选择上面不同语音的说话风格,比如「助理、聊天、客服、新闻」,还有各种说话情绪,比如「撒娇、生气、平静、开心、不满、害怕、温柔、抒情、悲伤、严肃」。
至于第三栏,你可以设置语音的停顿、发音、语调、语速、音高、音量。
最最关键的是,上面的每一种选择,你都能应用在文本中的每一段、每一句、每一词,甚至每一字。
也就是说,一个文本,你可以多个人以不同风格讨论的形式念出来,比如这个样子:
当然,也可以让每句话带有不同的情绪。
这就很厉害了,我让晓晓以平静的语气念旁白,以害怕的语气念爷爷的对话,以撒娇的语气念许三观的话。
操作起来很简单,拉住需要改变的那句话,然后点击对应的选项就好了。
我们来听听效果:
有没有觉得,最后许三观说的话,「孙子」俩字发音听起来怪怪的,好解决,我们在单独改一下发音,然后插入个停顿就好了。
再来听听效果,是不是没有那种囫囵喊「孙子」的感觉,吐字更加清晰了。
丰富的操作,让合成的语音在你的巧手下变得更加真实,如果你愿意,甚至可以通过更改每个字来让晓晓口吐方言。
为了让大家感受一下微软这个服务的强大,我专门用抖音的剪映挑了个小姐姐的语音,来听听效果。
同样,我还充了个讯飞出品的「讯飞快读」的会员,这是高级 VIP 小媛的语音,听听看效果。
哪个更有人味不用多说了吧,重要的是微软的这个服务还是免费的,但实际上,微软的这个应用比市面上很多收费软件的效果都更出色,如果你是一名短视频创作者,相信你心中自有定论。
之前还需要 SSML 语音合成标记语言的代码,现在怎么就能这么点点就实现了,你点开上面「SSML」的开关,本质上是一样的:
听着晓晓的声音,想着合成语音的未来,嗯,千万别有什么大胆的想法。
结语
今天给大家安利的两个工具,一个初阶 Edge 「大声朗读」导出工具,一个高阶的微软 AI 服务,怎么选择还得看大家的需求咯。
不知道大家发现没有,现在不少推销电话都开始用 AI 合成音了,不过还是能听出来有 AI 那种特有的顿感。
那如果未来 AI 合成音更逼真了呢,不管是语调、尾音、口音,甚至说每句话的抑扬顿挫,和我们说话都差不多呢。
想想还真有点可怕。
不管怎么样,希望我们还能拿捏的住这技术,最后还是让晓晓帮我送上祝福吧:
这次别下次一定了,记得点赞三连啊!
长按二维码关注回复 20210818 获取
电报群:wldxh  QQ 群:451768616  网站:wldxh.com
继续阅读
阅读原文