周一那篇不是分享了微软语音合成的最新动态嘛。
别的不说了,文章下评论区的一片好评,就足以说明微软这波操作有多给力。
容我把 AI 生成的语音再贴一遍,还不知道发生啥的小伙伴不妨听听看。
简单说,就是微软推出了一个主打「逼真」的语音模型,并将在这个月逐步放出。
当时挖了个坑,说是等中文模型多语言晓晓正式推出了,就给大家安排个教程。
但没想到,上午还在和大家说这个 AI 有多牛逼的时候,中午就已经能用了。
想起有老哥问这么逼真的语音,能不能读那种东西。
答案是肯定的,把少儿不宜的《少妇某洁》的文本扔进去,晓晓是真的能读。
嘿嘿,既然搞定了,那使用教程也就来了。
注册 Azure
像这种微软的 AI 服务,说到底是微软家的 Azure,陌生的小伙伴不妨类比成国内的阿里云和腾讯云。
说白嫖,那到底白嫖什么呢?
其实是微软云给注册 Azure 的用户,准备了免费额度,其中就有「文本转语音」的这一项。
按官网的说法,免费服务 30 天 200 美元,等转为「即用即付」的模式,像文本转语音的免费额度将永久有效。
即每月不超过标准模型 500 万字符,神经网络模型 50 万字符,这个免费额度可永久白嫖。
所以第一步要做的,就是去登录注册一下 Azure。
地址:azure.microsoft.com/zh-cn/free
大致流程就是——
登录你的微软账号,再注册 Azure 账号,填写个人资料,基本搞定。
国内的邮箱、手机号、地址就行,要说有啥注意的,就是出生日期别搞个未成年,免得以后因为这个吃亏。。。
但最后一步有个门槛,就是需要绑定你的信用卡或借记卡。
这是使用微软 AI 语音合成唯一的门槛,绑定过程中会扣 1 美元的验证,验证通过后再把 1 美元退回。
说白了就是验证真实用户,怕被黑、灰产用脚本白嫖的风控,不是真的扣费。
PS:早些时候看过绑定虚拟卡的操作,理论上现在还支持,但没研究过,就不多说了。
创建语音服务
等绑定好信用卡,会自动进入到 Azure 的管理后台,如果没有跳转,去 Azure 上登录一下就好。
在管理后台,我们直接搜「语音服务」。
点进去选择「创建」,名字什么都随便填,需要注意的是区域和定价层。
区域这里,美国东部、西欧和东南亚这几个地区可以使用最新的语音模型,我选的是 East US(美东)。
定价层这,一定要选 Free F0,即免费层。
填好这个表格,点击创建并等待审阅、部署就搞定了。
使用语音合成
当上面都配置好了,你可以跟着指示一步一步跳转,也可以直接访问语音库的页面。
地址:speech.microsoft.com/portal/voicegallery
在一众语音里,有个叫「晓晓 多语言」的模型,就是我们的主角。
右侧试用有 500 字符的限制,我们点「转至有声内容创作」,在下面这个页面就可以进行文本语音合成了。
具体操作起来,咱就不能用《少妇某洁》举例了,怕过不了审。
折中一下,我专门去 Z-lib 下了本书。
第一步,先把文本复制过来,可以分好段,方便后续操作。
选中文字,就可以添加配音,可以增加停顿、修改发音、设置语调、增快语速、改变音高音量了。
也就是说,只要你想,你可以弄个情景剧出来,但除了「晓晓 多语言」这个逼真向的模型,别的模型,还是以前的样子。
比如这个,让旧版晓晓读旁白,让新版晓晓演妇人,让云希念武松,模型好坏,高下立判。
有个小技巧啊,AI 生成每个字都是都完整念出的,但结束时就会很生硬,所以不妨在句子末尾加上语气词,比如「嗯、啊、哈、了、呢」之类的。
PS:每个字词的语调都能调整,但这个我是真玩不转。。。
不过新版晓晓的魅力,就是完成度很高,会根据这些语气词进行正确的连句。
算了算了,还是放一个完整的段落,我把周一那篇公众号文章的开头交给了新版晓晓。
这个效果,在会微调的玩家手中,绝对以假乱真。
PS:可惜的是,新版晓晓不支持撒娇、温柔的语气风格,如果后面加了,咱到时候再整个活。
结语
对了,之前不是说已经有动手动手能力强的大佬把晓晓接入了自己的播客嘛。
结果我去某宝了解了一下,已经有人把微软 Azure 这个「免费」的新手福利打包出售了。
99 元的定价,已售 800+,emmmm,这执行能力,就真挺厉害的。
既然新版晓晓也是免费放出,估计后面各种 TTS 的软件 App 也会新增这个模型。
大家可以稍微观望一下,记得 Pass 掉那种不合理骗钱的。
好了,这就是今天的全部内容了,最后送上晓晓的祝福,大家别忘了顺手点个赞啊。
继续阅读
阅读原文