[10.18] Voice Audio Daily Paper （AdaSpeech系列）

1. AdaSpeech: Adaptive Text to Speech for Custom Voice

定制语音是商业语音平台中的一种特定的文本到语音（TTS）服务，旨在适应源TTS模型，使用目标说话人的少量语音为其合成个性化语音。定制语音为TTS自适应带来了两个独特的挑战：1）为了支持不同的用户，自适应模型需要处理不同的声学条件，这可能与源语音数据非常不同；2）为了支持大量用户，自适应参数需要足够小以用于每个目标说话人，从而在保持高语音质量的同时减少存储使用。在这项工作中，我们提出了AdaSpeech，一种用于高质量和高效定制新语音的自适应TTS系统。我们在AdaSppech中设计了几个技术来解决定制语音中的两个挑战：1）为了处理不同的声学条件，我们同时在句子级和音素级上建模声学信息。具体地，在预训练和微调阶段，我们使用一个声学编码器从目标语音中提取一个句子级别的向量，同时使用另一个声学编码器提取音素级别的向量序列；在推理阶段，我们从参考语音中提取句子级别的向量而且使用一个声学预测器去预测音素级别的向量序列；2）为了更好地权衡自适应参数和音频质量，我们在梅尔频谱解码器中引入条件层归一化，并且在说话人嵌入进行自适应的同时对这一部分进行微调。我们在LibriTTS数据集上预训练源TTS模型，在具有少量自适应的VCTK和LJSpeech数据集上进行微调，大约1分钟的语音。实验结果表明AdaSpeech相比于基线模型达到了更好的自适应效果，并且对每个说话人仅大约5K特定参数，表明了定制语音的有效性。

2. AdaSpeech2: Adaptive Text to Speech with Untranscribed Data

TTS被广泛用于合成目标说话人的个性化语音，其中训练好的源TTS模型用很少的配对的自适应数据(语音及其转录)对目标说话人进行微调。然而，在很多场景下，在自适应阶段只有未转录的语音数据，这对之前的TTS自适应流程(AdaSpeech)带来挑战。在本文中，我们开发了AdaSpeech2，一种在自适应阶段仅利用未转录的语音数据的自适应TTS系统。具体地，我们引入了一个梅尔编码器到一个训练好的TTS模型进行语音重建，而且同时约束梅尔编码器的输出序列和原始的音素编码器的输出序列尽可能相近。在自适应阶段，我们使用未转录的语音数据集做语音重建，并且仅微调TTS的解码器。AdaSpeech2有两个优点：1）即插即用的：我们的系统可以容易地应用到现存的TTS模型，无需重新训练。2）有效的：和有转录的TTS自适应系统AdaSpeech相比，我们的系统在相同数量的未转录数据下达到了同等的音频质量，而且比之前的未转录自适应方法达到了更好的音频质量。

3. AdaSpeech3: Adaptive Text to Speech for Spontaneous Style

虽然最近的TTS模型在生成阅读风格(audiobook)的语音上表现很好，但合成自发风格的语音(podcast, conversation)仍然具有挑战性，主要有两方面原因：1）缺乏自发语音的训练数据集；2）建模filled pauses(um, uh)困难和自发语音中的多样的韵律。本文我们开发AdaSpeech3，一个为了自发语音的微调训练好的reading-style的TTS模型的自适应TTS系统。具体地，1）为了在文本句子中合适地插入filled pauses(FP)，我们引入一个FP预测器到TTS模型中；2）为了建模变化的韵律，我们引入一个基于MOE的时长预测器，它包含3个分别负责快速、中速和慢速生成语音的专家，并对其进行微调；3）为了自适应到其他的说话人音色，我们微调用少量的语音数据微调解码器中的部分参数。我们爬取一个自发语音数据集，以支持我们研究这项工作，并促进未来对自发TTS的研究。实验表明，AdaSpeech 3以自发的风格合成了具有自然FP和节奏的语音，并获得了比以前的自适应TTS系统更好的MOS和SMOS分数。

4. AdaSpeech4: Adaptive Text to Speech in Zero-Shot Scenarios

自适应文本到语音（TTS）可以在零样本场景中有效地合成新语音，方法是使用经过训练的源TTS模型，而无需对新的说话人数据进行自适应。考虑到看得见和看不见的说话人有不同的特征，零样本的自适应TTS在说话人特征上需要很强的泛化能力，这给建模带来了挑战。本文开发了AdaSpeech4，一个用于高质量语音合成的零样本自适应TTS系统。我们对说话人特征进行了系统的建模以提升其在新说话人上的泛化能力。通常，说话人特征的建模可以分为三个步骤：提取说话人表示，以该说话人表示为条件，以及在给定该说话人表示的条件下合成语音。相应地，我们分三步提升建模：1）为了提取具有更好泛化能力的说话人表示，我们将说话人特征分解为基向量，并通过注意力对这些基向量进行加权组合来提取说话人表示。2）我们利用条件层归一化将提取的说话人表示集成到TTS模型中。3）我们提出了一种新的基于基向量分布的监督损失，以在生成的mel频谱图中保持相应的说话人特性。在不需要任何的微调的情况下，AdaSpeech4在多个数据集上达到了比基线更好的音频质量和相似性。

References:

AdaSpeech: https://arxiv.org/pdf/2103.00993.pdf
AdaSpeech2: https://arxiv.org/pdf/2104.09715.pdf
AdaSpeech3: https://arxiv.org/pdf/2107.02530.pdf
AdaSpeech4: https://arxiv.org/pdf/2204.00436.pdf

继续阅读

阅读原文