语音转换(Voice Conversion)是智能语音处理领域的典型研究课题。语音转换挑战赛(VCC)是语音转换领域的国际顶级赛事,已成功举办了三届。2023年VCC竞赛专注歌声转换(Singing Voice Conversion,SVC),由日本名古屋大学、腾讯AI Lab和卡内基梅隆大学(CMU)联办。歌声转换(SVC)扩展了普通语音转换(VC)的定义,旨在将源歌手的唱歌声音转换为目标歌手的声音,而不改变内容。SVC在娱乐方面具有广泛应用,例如为虚拟YouTuber提供新工具,美化卡拉OK中的歌声,甚至为残障人士提供唱歌辅助。SVC被认为比VC更具挑战性,因为唱歌通常比说话更难建模,并且数据收集更加困难。此外,在转换过程中,音乐乐谱被视为不能改变的内容的一部分,但某些唱歌风格,如颤音,为与歌手相关。这些与韵律相关的因素需要合适的建模方法。SVC也是语音处理和音乐处理的交叉方向。
此次SVCC竞赛围绕Any-to-one,即任意人到目标人的转换,包括两个任务,任务1为域内(In-domain)歌声转换,任务2为跨域(Cross-domain)歌声转换,后者只提供两个目标人的语音数据。据官方竞赛总结论文,24只来自国际学术界和工业界的队伍提交了竞赛结果。在语音旗舰会议ASRU2023上,竞赛将组织专门的议题Session。
竞赛网址:http://www.vc-challenge.org/
西工大ASLP实验室近期致力于语音和歌声转换方面的研究工作,包括向so-vits-vc贡献的VITS改进版Visinger,以及“AI谢老师”。
(基于小数据量的音色克隆,AI谢老师)
此次SVCC竞赛中,实验室与合作方组成了两支队伍,即与腾讯天琴实验室(TME)联队与西安交通大学、腾讯天琴实验室(TME)联队。据竞赛官方总结论文(https://arxiv.org/abs/2306.14422),两支队伍均取得了优异成绩。NPU-TME联队在任务 1 和任务 2 的自然度指标上排名第一和第二;NPU-XJTU-TME联队在任务2中,自然度和发音人相似度分别排名第一和第二。两篇竞赛方案总结论文近期已被语音旗舰会议ASRU接收,将在会议的竞赛Session上宣读。现对竞赛方案论文进行简要解读。

VITS-Based Singing Voice Conversion Leveraging Whisper and multi-scale F0 Modeling

  • 作者列表:宁子谦,姜月鹏,王智超,张斌,谢磊
  • 合作单位:腾讯音乐娱乐集团
  • 论文原文:https://arxiv.org/abs/2310.02802
  • 样例:https://nzqian.github.io/SVCC2023-t23-ASLP/
提交的歌唱转换模型基于 VITS,如图1所示,包含四个主要模块:先验编码器、后验编码器、解码器和并行转置卷积(PBTC)模块。我们利用鲁棒预训练 ASR 模型 Whisper 来提取瓶颈特征 (BNF) 作为先验编码器的输入。在提取 BNF 之前,我们会对输入音频进行音高扰动,以去除说话人音色,从而有效避免源说话人音色泄漏到输出音频中。此外,PBTC 模块提取多尺度 F0 作为先验编码器的辅助输入,从而更好地捕捉歌唱的音高变化。我们设计了一种三阶段训练策略,以便在目标说话人数据有限的情况下,使基础模型更好地适应目标说话人。官方竞赛测评结果证明,我们的系统在自然度方面取得了接近真人的水平,在任务 1 和任务 2 中分别排名第一和第二。
图1 NPU-TME系统整体结构

内容特征提取

良好的内容表征对歌声转换的可懂度有直接影响。鉴于 SVCC 2023 中提供的训练数据集包括不同语言的歌唱和语音录音,仅依靠英语数据集不足以训练 SVC 模型,因此我们选择了多语种语音识别模型Whisper用于内容表征提取。Whisper基于 68 万小时多语种上训练,表现出了很高的识别准确率,可以提取鲁棒的内容表征。由于ASR不同编码器层的中间表征在可懂度、风格相关性和说话人相似性方面对 SVC 结果有不同的影响,因此我们使用浅层编码器层的瓶颈特征来确保其中包含完整的内容信息。而浅层瓶颈特征中包含的丰富风格相关信息也有助于歌唱风格建模。为了防止 BNF 中说话人相关信息泄漏到转换结果中,我们在提取瓶颈特征之前对歌唱波形引入了随机音高扰动。

多尺度基频提取

演唱风格在 SVC 任务中起着至关重要的作用,直接影响着转换后歌声的自然度。直接应用 F0 有时会导致跑调等问题,这主要是由于 F0 提取算法的误差造成的。此外,如果没有特定设计的模型结构,SVC 模型很难捕捉到不同时间尺度的风格关系。为解决这一难题,我们采用了并行转置卷积(PBTC)模块用于提取多尺度 F0。如图2所示,PBTC 模块包括一个向量量化模块、一个投影层和一个一维转置卷积层阵列。阵列中每个卷积层都使用不同的dilation,后接一个线性层。具体来说,首先对 F0 序列进行全局归一化,并量化为  的one-hot向量。然后,量化后的 F0 会经过线性投影层输入多个并行的转置卷积中。使用不同dilation的转置卷积在不同时间尺度上提取F0信息,随后经过线性投影映射回原始时间维度。
图 2 用于多尺度F0建模的PBTC模块

训练策略

为了有效地学习仅有少量语料的低资源歌手的音色,SVC 模型会在多人歌唱数据上进行预训练,然后在目标歌手数据上finetune。然而,鉴于 SVCC 中可用的歌唱数据有限,并考虑 VITS 类模型的训练数据量会直接影响生成质量和鲁棒性,我们提出了一个额外的热身阶段。在这一阶段,我们利用语音数据初步训练 SVC 模型,然后再过渡到预训练和适应性训练。训练过程可总结为 (1) 热身:在语音数据上训练 SVC 模型;(2) 预训练:在唱歌数据上继续训练 SVC 模型;(3) 适应:使用目标歌手数据进行适应。
由于目标歌手的数据非常有限,因此根据目标说话人finetune SVC 模型可能会遇到模型过拟合的问题。为了缓解这一问题,我们增广了目标歌手的训练数据,以增加数据量和多样性。我们使用了四种数据增广,分别是共振峰平移、音高随机化、随机频率和语速调整。这些增广方法有助于增加目标歌手训练数据的数量和多样性,从而提高模型使目标歌手演唱不同风格歌曲的能力。同时,它还缓解了上文提到的因使用浅层瓶颈特征而导致的音色泄露问题。

VITS-based Singing Voice Conversion System with DSPGAN Post-processing for SVCC2023

  • 作者列表:周益全,陈梦,雷怡,祝继华,赵伟峰
  • 合作单位:西安交通大学、腾讯音乐娱乐集团
  • 论文原文:https://arxiv.org/abs/2310.05118
  • 样例:https://zirrtu.github.io/SVCC2023/
如图3所示,系统采用基于 VITS 的 SVC 模型,包含三个模块:特征提取器、语音转换器和后处理器。具体来说,特征提取器提供F0,并利用 HuBERT 模型从输入的歌声中提取与发音者无关的内容信息。语音转换器用于重新结合发音者的音色、F0 和内容信息,以生成目标发音者的音频。此外,为了进一步提高音频质量,我们还引入了微调的DSPGAN 声码器来重新合成音频。鉴于目标发音人的数据有限,我们采用了两阶段训练策略来使基础模型适应目标发音人。在模型微调过程中,我们也采用数据增强和与辅助歌手数据进行联合训练等技巧。官方挑战赛的结果表明,我们的系统取得了优异的成绩,尤其是在跨领域任务中,自然度和发音人相似度分别排名第一和第二。
图3 NPU-XJTU-TME系统整体结构

特征提取器

如上文所述,SVC 的关键就是将发音人的音色与歌唱音频中的语言内容分离开来。在近期的 SVC 研究中,来自自监督学习(SSL)模型(如 HuBERT)的特征在表征歌唱中的语言内容方面表现出了很好的鲁棒性。受此启发,我们采用了 HuBERT 的一个变体版本(ContentVec)来提取语言内容信息。我们采用查找表(LuT)来表征发音人嵌入。除了发音人身份和提取的 SSL 特征外,我们的系统还采用了PYIN 计算的 F0 作为额外特征。

歌声转换器

如图4所示,我们基于 VITS 实现了 SVC 模型,该模型包括四个部分:后验编码器、先验编码器、解码器和判别器。具体来说,在训练过程中,后验编码器将源波形  编码为隐向量  ,它模拟了后验分布  。然后,解码器将  重构为原始波形,并与后验编码器形成自重构模式。与 VITS 中的 HIFI-GAN 解码器不同,我们从 F0 中提取了基于正弦的激励信号,并将其添加到 HIFI-GAN 解码器的隐藏特征中,以提高歌声重构质量。
图4 基于VITS的转换器细节
此外,还采用了多周期判别器(MPD)和多尺度判别器(MSD),以对抗学习方式约束波形质量。先验编码器融合了歌手的音色、音高和语言内容,从而建立了先验分布模型。采用可转换流将先验分布转换为后验分布。在推理过程中,先验编码器和解码器直接将源歌声转换为目标歌声。

音高变换器

不同的歌手擅长演唱的歌曲通常有不同的音高范围。使用音源的  进行直接转换可能会降低转换结果中与目标发音人的相似度。为了减少这种情况,我们在推理过程中加入了音高变换器。首先,我们预先计算目标歌手  和音源  的平均音高。接下来,我们计算   和   之间的差值,得出  。然后,将声源的   与    相加,得到变换后的音高   。最后,我们将得到的  作为歌声转换器的输入。这一简单的调整有效提高了转换结果中发音人的相似度。需要注意的是,在跨域任务中,只有目标发音人的语音可用,为此我们使用了域内任务中的目标歌手平均音高进行音高变换。

歌声后处理器

在我们的 SVC 系统中,歌声转换器是端到端的结构,可以直接重建波形。为了提高生成音频的质量,我们引入了 DSPGAN 作为后处理器,它是一种基于 GAN 的通用声码器,用于高保真语音合成。其中,DSPGAN 使用正弦激励作为时域监督,以改进谐波建模并消除基于 GAN 的声码器中的各种伪影,从而有效消除我们在转换后的语音中观察到的电音。此外,DSPGAN 利用从 DSP 模块产生的波形中提取的旋律谱图作为基于 GAN 的声码器的时频域监督。这项技术消除了真实频谱图和声学模型预测频谱图之间的不匹配问题。具体来说,我们从语音转换器中提取歌声的语谱,并将其输入 DSPGAN 以获取更高质量的波形。
DSPGAN的论文和语音之家分享视频如下:
Kun Song, Yongmao Zhang, Yi Lei, Jian Cong, Hanzhao Li, Lei Xie, Gang He, Jinfeng Bai. DSPGAN: a GAN-based universal vocoder for high-fidelity TTS by time-frequency domain supervision from DSP, ICASSP 2023. https://arxiv.org/abs/2211.01087
训练策略
为了在低资源的条件下训练更好的SVC模型,我们应用了预训练-微调的训练策略,考虑到SVCC提供的歌声数据有限,且基于VITS的模型需要较多数据量才能够达到稳定的效果,预训练我们也分为了两部分,第一部分使用语音数据进行预训练,第二部分使用歌声进行预训练,微调阶段再使用目标歌手的数据进行微调。
为了避免微调阶段使用低资源目标歌手训练造成的过拟合现象,我们使用了数据增广技巧,随机调整语速而不改变音高,来扩展数据的多样性。与此同时,在微调的阶段还会引入一个辅助的发音人一同训练来降低过拟合的可能性。
“阅读原文”了解课程详细内容及报名通道
永久福利 直投简历
简历投递:[email protected]
扫码关注我们
助力AI语音开发者的社区
继续阅读
阅读原文