▲点击上方 雷锋网 关注
搜狗输入法推出的变声功能,除了应用于手机端之外,还将融入多种智能语音互动产品。
 文 | 雷锋网 
平时,你有发语音消息的习惯吗?在和朋友聊天时,每一次点开小喇叭,听到的都是熟悉的声音,未免有些让人感到疲劳。5月21日,搜狗输入法正式上线了“变声功能”,受到了网友们的一致追捧。
在语音输入中选择变声功能,输入你想说的话,再选择你喜欢的一个角色,就能把你的声音秒变成该角色的声音。通过模拟他人的声音,搜狗输入法不仅让“语音消息”变得好玩有趣,更让这一独特的语音声音成为了打破僵局和调节气氛的制胜法宝。在兴起一场全民“变声”的热潮同时,许多人也不禁产生了疑问:搜狗输入法究竟是如何实现“变声”的呢?

聊天自带变声器,多个场景下carry全场

相关研究表明,同样的话用不同的音色来传达,很可能得到完全不同的效果。志玲姐姐的声音十分适合女孩子们撒娇卖萌,柔软甜蜜的温柔声线撩人心弦;星爷的声音用来和基友开黑则再适合不过了,一开口就是自带搞笑氛围;用小猪佩奇的声音来哄小朋友,熊孩子也能秒变乖宝宝。还有大叔音、萝莉音、公子音、御姐音等基础音色,可以在角色的特点上融入用户自己的个人风格,玩法相当灵活多变。
作为国民级的输入法品牌,搜狗输入法始终与当下年轻用户的兴趣爱好产生连接,在实用的技术上提供更好玩更有趣的语音互动体验。值得一提的是,本次搜狗输入法“变声功能”的模拟逼真度相当高,几乎可以“以假乱真”,关于实现这一功能背后的技术原理,自然也吸引了无数人的关注。

揭秘三大AI技术亮点,实现搜狗变声功能

搜狗变声,是一种将任意说话人音色(源端音色)实时高逼真度变换到指定说话人音色(目标音色)的创新技术,具备了如下3个亮点能力:
高还原度的变声:变声到指定说话人的音色与该说话人的原始音色相似度极高。这样的意义是保证变身后的语音可以做到更逼真,只提取了音色,也能使源端说话人有更多个人的语言风格特色。
自由度极高的变声:源端说话人不做任何限制,任意用户均可变声到预先指定的音色,不同人变声后的音色保持一致,真正实现了变声Any-to-One(任意人变声到一人)的能力。也就是说话人的声音可以通过搜狗变声来实现多次转变,比如女生不用在说话时刻意压低嗓子模仿男生低沉的声音,只需要按照平时说话的风格,即可通过搜狗变声来实现。
风格迁移的变声:变声到指定说话人音色后,源端说话人讲话内容、风格(语速、停顿、情感等)均能逼真度很高的迁移到变声后的音频。
搜狗输入法“变声功能”,最聪明的一点就是能够说出和你情感色彩一致的语音。与传统变声技术冷冰冰的机械音不同,变声后的语音能将源端说话人的情感、语调等很好的保留下来,而这一核心技术的突破,是由语音编码器通过表征学习完成。通过Attention和Decoder模块,对说话人声音进行声纹特征编码,并利用WaveRNN神经网络声码器恢复成波形,提取音色、韵律,再通过“说话人归一化”模块去除音色信息等,最后输出合成变声后的内容。
变声这个技术存在已久,此前也有相应的App声称具备变声功能,而当时的App只是利用已经存在的语音包进行简单的改变。而搜狗变声却通过独特的AI技术实现了高度还原。不仅实现了还原了原始语音的语调,对于源端说话人来说更是没有任何限制,不同的用户、不同的音色均可变声到预先设定的音色,极大地增强了真实感。与此同时,和以往的软件相比,在变声之后依然可以保持原始音频的讲话内容和风格,在音色高度还原的同时,也将用户的情感带入到语音中,真正做到声情并茂,以假乱真。

变声输入前景广阔,未来应用空间巨大

当前,语音输入已成为手机输入法市场的核心变革要素,逐渐影响输入法市场,正在深刻地改变用户的实用行为习惯。经过多年的积累,搜狗输入法已成为了国内第一大语音输入应用,拥有着海量的真实数据和技术储备。作为一款国民级输入法,搜狗输入法始终坚持不断投入技术创新,秉持以语言为核心的人工智能战略方向,让用户体验更加便捷,提高信息表达和沟通的效率。
随着AI时代的全面到来,科技对于生活的赋能也愈发密切。目前,在人工智能行业之中,搜狗已经展现出了领先的技术水准。本次搜狗输入法推出的变声功能,除了应用于手机端之外,还将融入多种智能语音互动产品,诠释更年轻更智能的社交理念。可以预计的是,未来搜狗还将这一技术在教育、医疗、新闻、娱乐等场景中广泛应用,探索更多的落地场景与商用方向,渗透进我们身边不同的生活场景之中。
- END -
继续阅读
阅读原文