微软Edge的独门绝技又进化了，效果惊人！

今年一月份的时候，Chromium 内核的 Edge 浏览器是毫无疑问的当红炸子鸡，每次提到 Edge 浏览器，留言里满满都是「真香」的声音。

不过说实话，虽然早在 2019 年新版 Edge 内测的时候咱就搞来了汉化版测试了一番，可新鲜归新鲜，我还真没准备从 Chrome 迁移到 Edge。

真正让我意识到 Edge 强大的，还是今年一月份写的那篇关于 Edge 「大声朗读」功能的文章，这才让我感受到 Edge 是真的香。

给不了解的小伙伴重新解释一下，相比谷歌的 Chrome，微软 Edge 上独占的「大声朗读」功能可以把浏览器内的文字生成 TTS 语音朗读，说白了就是提供了内置的文字转语音功能。

香的地方在于，一般的文字转语音调用的都是通用引擎，那发声一听就是程序合成的，根本让人听不下去。

而 Edge 背靠微软这颗大树，有着微软这些年在人工智能语音合成领域的技术沉淀背书，吐字清晰、字正腔圆，堪比真人，不信的小伙伴可以看看当时写的这篇文章：《微软Edge，你这是人干的事吗？》。

但是，要说但是了啊，那篇文章的最后有不少小伙伴留言说「想导出朗读的内容」，当时我的回复都是只能额外录音。

可这个问题我拿小本本记住了，就是有什么办法利用 Edge 的「大声朗读」把文字转过来的语音导出成独立的文件呢？

今天我找到了解决方案，Read Aloud，一个把「大声朗读」功能独立出来的文本转语音软件。

Read Aloud

满打满算也就 3M 大小出头的 Read Aloud，界面简约啥的咱就不说了，可麻雀虽小五脏俱全。

如果你就听听作罢，直接输入文本，选择合适的「语音」，然后点击「朗读」即可。

别担心它提供的接口不够，语音那栏里我数了数，和 Edge 上「大声朗读」里的支持的语音数量一致，都是 38 个（顺序有所差别），普通话、粤语、台湾方言都有，主流的外语也都不在话下。

但如果你想把语音导出到本地，就得在下方设置那安排好你的导出目录。

给大家录了个屏来展示一下操作，语音方面当然还是选择公认的拟人度效果最好的「xiaoxiao」了。

点击「录制」，Read Aloud 会自动开始播放文本，而在播放的同时，它会把语音保存到了你设置好的目录，唯一支持的文件格式为 .wav。

给大家听听「xiaoxiao」的效果：

啊，我又被治愈了。

当然，你可以在右下角设置最大录制时间，还能调整语速和音调，不过对于部分语音的音调是不可调的，比如「xiaoxiao」。

但作为一个 3M 的小工具，达成这样的效果已经很不容易了，回到一开始的问题，这不就是利用 Edge 的「大声朗读」把文字转过来的语音导出成独立的文件嘛。

什么，还有人嫌 Read Aloud 不够给力？

想想也对，之前的那篇文章里不是还介绍了如何利用微软提供的 SSML 语音合成标记语言，来手把手调教语音，现在一个把「大声朗读」独立出来的小工具可喂不饱大家。

我想了想，既然「大声朗读」的出处是 Edge，那老家自然是微软，我何不去探一探源头处微软「语音合成」的究竟。

高阶操作

既然是微软的 AI 服务，那应该就出自它们家的 Azure 了，陌生的小伙伴可以类比一下国内的阿里云和腾讯云。

去微软他们家的官网，找到 Azure 的页面，然后在「产品-AI + 机器学习-Azure 认知服务」的页面里找到我们的目标。

语音-文本转语音：

点进去，选择「免费开始使用」，登录你的微软账号，再注册 Azure 账号，填写个人资料，基本搞定。

其实上面都没啥好说的，有手就行，但最后一步有个门槛，需要绑定你的信用卡，主要用来验证真实用户，不扣费，在绑好信用卡注册成功后，你就可以享受原汁原味的微软服务了。

登录后添加项目，选择「语音-文本转语音」中的「语音库」。

你就能看到包括晓晓（xiaoxiao）在内的 174 种语音了，然后点击「创建音频」。

当你看到下面这个界面的时候，证明所有的准备工作就绪，非这么老鼻子劲，我倒要看看微软的文本转语音服务有多强。

还是选了《许三观卖血记》第一章的前两段话作为例子：

许三观是城里丝厂的送茧工，这一天他回到村里来看望他的爷爷。他爷爷年老以后眼睛昏花，看不见许二观在门口的脸，就把他叫到面前，看了一会儿后问他：
“我儿，你的脸在哪里？”
许三观说：“爷爷，我不是你儿，我是你孙子，我的脸在这里……”

试一下导出，有导出到「音频库」和导出到本地两种选择，不用说了肯定是后者，有意思的来了，支持高品质 16k 和 24k wav 格式文件，也支持标准品质 MP3 格式文件，可以整篇导出，也可以分段落导出音频。

晓晓的朗读效果是这样的：

好听归好听，可一切都是默认选项，和 Edge 自带的晓晓没什么区别，别急，在右侧的优化栏，我找到了「好东西」。

我把它分成了三栏，你可以在第一栏里从 174 种语音中选择不同的语音，这是最基础的，多国多人不同的语音。

而在第二栏，可以选择上面不同语音的说话风格，比如「助理、聊天、客服、新闻」，还有各种说话情绪，比如「撒娇、生气、平静、开心、不满、害怕、温柔、抒情、悲伤、严肃」。

至于第三栏，你可以设置语音的停顿、发音、语调、语速、音高、音量。

最最关键的是，上面的每一种选择，你都能应用在文本中的每一段、每一句、每一词，甚至每一字。

也就是说，一个文本，你可以多个人以不同风格讨论的形式念出来，比如这个样子：

当然，也可以让每句话带有不同的情绪。

这就很厉害了，我让晓晓以平静的语气念旁白，以害怕的语气念爷爷的对话，以撒娇的语气念许三观的话。

操作起来很简单，拉住需要改变的那句话，然后点击对应的选项就好了。

我们来听听效果：

有没有觉得，最后许三观说的话，「孙子」俩字发音听起来怪怪的，好解决，我们在单独改一下发音，然后插入个停顿就好了。

再来听听效果，是不是没有那种囫囵喊「孙子」的感觉，吐字更加清晰了。

丰富的操作，让合成的语音在你的巧手下变得更加真实，如果你愿意，甚至可以通过更改每个字来让晓晓口吐方言。

为了让大家感受一下微软这个服务的强大，我专门用抖音的剪映挑了个小姐姐的语音，来听听效果。

同样，我还充了个讯飞出品的「讯飞快读」的会员，这是高级 VIP 小媛的语音，听听看效果。

哪个更有人味不用多说了吧，重要的是微软的这个服务还是免费的，但实际上，微软的这个应用比市面上很多收费软件的效果都更出色，如果你是一名短视频创作者，相信你心中自有定论。

之前还需要 SSML 语音合成标记语言的代码，现在怎么就能这么点点就实现了，你点开上面「SSML」的开关，本质上是一样的：

听着晓晓的声音，想着合成语音的未来，嗯，千万别有什么大胆的想法。

结语

今天给大家安利的两个工具，一个初阶 Edge 「大声朗读」导出工具，一个高阶的微软 AI 服务，怎么选择还得看大家的需求咯。

不知道大家发现没有，现在不少推销电话都开始用 AI 合成音了，不过还是能听出来有 AI 那种特有的顿感。

那如果未来 AI 合成音更逼真了呢，不管是语调、尾音、口音，甚至说每句话的抑扬顿挫，和我们说话都差不多呢。

想想还真有点可怕。

不管怎么样，希望我们还能拿捏的住这技术，最后还是让晓晓帮我送上祝福吧：

这次别下次一定了，记得点赞三连啊！

长按二维码关注回复 20210818 获取

电报群：wldxh QQ 群：451768616 网站：wldxh.com

继续阅读

阅读原文