揭秘“搜狗变声”：它是如何玩转花式变音的？

▲点击上方雷锋网关注

搜狗输入法推出的变声功能，除了应用于手机端之外，还将融入多种智能语音互动产品。

文 | 雷锋网

平时，你有发语音消息的习惯吗？在和朋友聊天时，每一次点开小喇叭，听到的都是熟悉的声音，未免有些让人感到疲劳。5月21日，搜狗输入法正式上线了“变声功能”，受到了网友们的一致追捧。

在语音输入中选择变声功能，输入你想说的话，再选择你喜欢的一个角色，就能把你的声音秒变成该角色的声音。通过模拟他人的声音，搜狗输入法不仅让“语音消息”变得好玩有趣，更让这一独特的语音声音成为了打破僵局和调节气氛的制胜法宝。在兴起一场全民“变声”的热潮同时，许多人也不禁产生了疑问：搜狗输入法究竟是如何实现“变声”的呢？

聊天自带变声器，多个场景下carry全场

相关研究表明，同样的话用不同的音色来传达，很可能得到完全不同的效果。志玲姐姐的声音十分适合女孩子们撒娇卖萌，柔软甜蜜的温柔声线撩人心弦；星爷的声音用来和基友开黑则再适合不过了，一开口就是自带搞笑氛围；用小猪佩奇的声音来哄小朋友，熊孩子也能秒变乖宝宝。还有大叔音、萝莉音、公子音、御姐音等基础音色，可以在角色的特点上融入用户自己的个人风格，玩法相当灵活多变。

作为国民级的输入法品牌，搜狗输入法始终与当下年轻用户的兴趣爱好产生连接，在实用的技术上提供更好玩更有趣的语音互动体验。值得一提的是，本次搜狗输入法“变声功能”的模拟逼真度相当高，几乎可以“以假乱真”，关于实现这一功能背后的技术原理，自然也吸引了无数人的关注。

揭秘三大AI技术亮点，实现搜狗变声功能

搜狗变声，是一种将任意说话人音色(源端音色)实时高逼真度变换到指定说话人音色(目标音色)的创新技术，具备了如下3个亮点能力：

高还原度的变声：变声到指定说话人的音色与该说话人的原始音色相似度极高。这样的意义是保证变身后的语音可以做到更逼真，只提取了音色，也能使源端说话人有更多个人的语言风格特色。

自由度极高的变声：源端说话人不做任何限制，任意用户均可变声到预先指定的音色，不同人变声后的音色保持一致，真正实现了变声Any-to-One(任意人变声到一人)的能力。也就是说话人的声音可以通过搜狗变声来实现多次转变，比如女生不用在说话时刻意压低嗓子模仿男生低沉的声音，只需要按照平时说话的风格，即可通过搜狗变声来实现。

风格迁移的变声：变声到指定说话人音色后，源端说话人讲话内容、风格(语速、停顿、情感等)均能逼真度很高的迁移到变声后的音频。

搜狗输入法“变声功能”，最聪明的一点就是能够说出和你情感色彩一致的语音。与传统变声技术冷冰冰的机械音不同，变声后的语音能将源端说话人的情感、语调等很好的保留下来，而这一核心技术的突破，是由语音编码器通过表征学习完成。通过Attention和Decoder模块，对说话人声音进行声纹特征编码，并利用WaveRNN神经网络声码器恢复成波形，提取音色、韵律，再通过“说话人归一化”模块去除音色信息等，最后输出合成变声后的内容。

变声这个技术存在已久，此前也有相应的App声称具备变声功能，而当时的App只是利用已经存在的语音包进行简单的改变。而搜狗变声却通过独特的AI技术实现了高度还原。不仅实现了还原了原始语音的语调，对于源端说话人来说更是没有任何限制，不同的用户、不同的音色均可变声到预先设定的音色，极大地增强了真实感。与此同时，和以往的软件相比，在变声之后依然可以保持原始音频的讲话内容和风格，在音色高度还原的同时，也将用户的情感带入到语音中，真正做到声情并茂，以假乱真。

变声输入前景广阔，未来应用空间巨大

当前，语音输入已成为手机输入法市场的核心变革要素，逐渐影响输入法市场，正在深刻地改变用户的实用行为习惯。经过多年的积累，搜狗输入法已成为了国内第一大语音输入应用，拥有着海量的真实数据和技术储备。作为一款国民级输入法，搜狗输入法始终坚持不断投入技术创新，秉持以语言为核心的人工智能战略方向，让用户体验更加便捷，提高信息表达和沟通的效率。

随着AI时代的全面到来，科技对于生活的赋能也愈发密切。目前，在人工智能行业之中，搜狗已经展现出了领先的技术水准。本次搜狗输入法推出的变声功能，除了应用于手机端之外，还将融入多种智能语音互动产品，诠释更年轻更智能的社交理念。可以预计的是，未来搜狗还将这一技术在教育、医疗、新闻、娱乐等场景中广泛应用，探索更多的落地场景与商用方向，渗透进我们身边不同的生活场景之中。

- END -

继续阅读

阅读原文