说话人匿名 (Speaker Anonymization) 的旨在保留原语音的音质和可懂度的情况下,隐藏说话人的身份,该任务的目标是满足以下要求:(a)输出语音波形;(b)隐藏说话人的身份;(c)保持语言内容和副语言属性不变;(d)确保来自给定说话人的所有数据均由同一个伪说话人发出,而来自不同说话人的语音由不同的伪说话人发出。目前主流方案通过将说话人表征和语义信息解耦,而后通过修改说话人表征来实现匿名。然而,通过这种方法匿名后的语音会降低伪说话人的独特性,即不同说话人之间音色区分度不大,且难以建模分布外说话人的语音而确保音质和可懂度。

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和喜马拉雅合作论文“SALT: Distinguishable Speaker Anonymization Through Latent Space Transformation”被语音领域旗舰会议IEEE ASRU 2023接收。该论文提出了基于隐空间变换的可区分说话人匿名系统SALT,通过对语音的隐空间表征进行随机权重插值,在实现良好的可懂度和音质的同时,获得了说话人的间高区分度。本文将对该文章进行简要的解读。
论文题目:SALT: Distinguishable Speaker Anonymization Through Latent Space Transformation
合作单位:喜马拉雅
作者列表:吕元骏,姚继珣,陈培坤,周鸿斌,卢恒,谢磊
论文原文:https://arxiv.org/abs/2310.05051
Demo地址:https://bakerbunker.github.io/SALT/
代码地址:https://github.com/BakerBunker/SALT
Google colab实时demo:https://colab.research.google.com/github/BakerBunker/SALT/blob/main/web_demo.ipynb
样例(匿名前->匿名后):

发表论文截图
扫码直接看论文

背景动机

由于社交媒体的广泛使用,互联网上的语音数据呈指数级激增。然而目前针对语音的诸多识别技术能够从给定的语音信号中提取各种个人敏感信息,包括说话者的身份、年龄、性别,甚至健康状况。如果恶意攻击者获取了个人的语音数据,就有可能泄露用户的敏感信息。
说话人匿名 (Speaker Anonymization) 是一种保护个人声音隐私不受侵害的方法。目前主流的方案通过将说话人表征和语义信息分离,并通过修改说话人表征来实现匿名,然而,通过这种方法匿名后的语音会降低伪说话人的独特性,且难以建模分布外说话人的语音质量和可懂度。针对以上问题,我们提出了SALT,该方案通过在隐空间对语音表征进行随机插值,实现了对说话人的匿名。在VPC ( Voice Privacy Challenge)竞赛数据集上进行的实验表明,我们提出的框架在保留了语音质量和可懂度的同时,在说话人可区分度方面达到了SOTA水平。

方案

图1 模型流程图,WavLM模型在训练时冻结,声码器将隐空间表征转换为音频
模型结构如图1所示,可以被分为编码器、说话人混合模块、声码器三个部分。编码器部分是一个语音预训练模型,用以提取语音对应的隐空间表征。说话人混合模块部分,受到kNN-VC [1]启发,我们在预训练模型编码的隐空间中对每一帧隐空间向量进行kNN配对,然后随机说话人权重进行插值以得到匿名后的语音表征。最后,声码器会将匿名后的语音表征转化为音频。

编码器

在大多数的匿名系统中,特征提取采用的是将内容和音色使用ASR模型和SV模型分别进行解耦,在这个过程中,不可避免地会产生信息的损失或者信息的泄露,从而导致音质和可懂度的下降。在本文提出的方法中,我们使用无监督预训练模型(WavLM)来提取音色和内容的共同表征,将源语音和所有参考语音通过无监督预训练模型提取隐空间表征。根据最近的研究,对于相同说话人的预训练隐空间表征,相同音素的隐空间表征之间的距离大于不同音素的隐空间表征距离,并且对于不同说话人,预训练表征也有基于说话人聚类的倾向,因此,预训练的隐空间表征十分适合说话人匿名化的任务。

说话人混合模块

生成伪说话人 为了将源语音的表征转换为匿名后的表征,我们需要一个伪造说话人作为目标,因此我们设计了一个说话人生成方法,如图1的下方所示。我们首先从参考说话人池中随机选择出m个说话人,并将源语音的表征在这些说话人表征中做kNN匹配,得到m段不同说话人的语音表征。随后,随机初始化每个说话人的权重,我们使用softmax函数使得说话人权重在0-1之间并且和为1。最终,我们计算m段表征的加权和作为匿名后的表征.为了权衡匿名和可懂度之间的平衡,我们引入了保留参数p,通过在匿名后的表征中保留比例为p的源语音表征来降低可懂度的损失。

说话人外插 在多数匿名方法中,匿名的手段是在平均说话人表征周围做随机扰动,这导致在低方差的扰动下,伪说话人音色间会比较相似,不易区分。而在高方差的扰动下,又容易出现分布外 (Out-of-distribution) 表征。在我们的系统中,通过放松“说话人权重在0-1之间”这一约束,我们能够在合理的可懂度损失下扩展伪说话人的多样性。我们引入缩放参数s来控制权重的取值范围,外插后的说话人权重为

声码器 为了将隐空间表征还原为音频,我们遵循了kNN-VC的方案,使用了HiFiGAN-V1的结构,并且在训练之前将训练集进行了prematch。prematch的过程是对每个说话人选择一部分音频,并提取它们的隐空间特征作为参考集合,再对训练集中的每个音频进行knn匹配来重建它们的特征。在训练期间,我们使用prematch过后的特征音频对进行训练。
下面是匿名过程的伪代码:
defanon(source,ref_pool,m,s,k):defextrapolate(origin_weight,s):return origin_weight*(s+1)-s/m source_feat=extract_feat(source) ref_feats=[extract_feat(ref) for ref in random.choices(ref_pool,k=m)] target_feats=[kNN_match(source_feat,ref_feat,k=k) for ref_feat in ref_feats] weight=softmax(randn(m)) weight=extrapolate(weight,s)return vocoder(weight@target_feats)

实验

实验部分,我们仿照了VPC 2022竞赛 [2]的实验设置进行了实验,预训练模型部分我们使用了在librispeech上训练的WavLM-Base [3]和94,000小时数据训练的WavLM-Large,声码器部分使用了在LibriSpeech-train-clean-100上训练的声码器。
我们按照VPC 2022的指标设置了五个指标,分别是表示说话人错误率的EER、表示词错误率的 WER、表示韵律相似度的  、表示伪说话人多样性的  、表示主观感受的MOS。在这些指标中,我们使用Librispeech [4]和VCTK [5]测试集,并与VPC 2022竞赛中的NWPU-ASLP系统 [6]和Baseline系统做了对比。
表1 EER指标,其中[B L]-Sx-Px中,[B L]表示使用了WavLM Base或Large表征,Sx代表缩放参数为x,Px代表保留参数设置为x
从表1中可以看出,我们系统的EER指标大幅度高于其它系统,表明我们的匿名系统能够有效的隐藏说话人的特征信息。
表2 各系统的  指标
从表2中可以看出,我们的系统能在有效隐藏说话人信息的前提下,有效保留源语音的韵律信息,同时也说明了保留源语音表征的方法对韵律保留的作用。
表3 各系统的  指标
从表3中可以看出,我们系统的  指标远远高于了其它系统,且能够做到>0的指标,这说明系统生成的匿名音频的可区分性已经超过了真实音频。这也是在公开文献中,首次在VPC竞赛测试集上首次超过0的  指标。
表4 各系统的WER指标,其中数据代表使用Whisper Large/U2++/TDNN-F测试得到的指标
在表4中的WER测试部分,我们除VPC 2022要求的TDNN-F模型之外,额外使用了U2++ [7]和Whisper Large [8]模型进行了测试,我们发现不同模型间得到的WER指标差异比较明显。通过进一步研究,我们发现该差异来自于不同口音的英文语音,我们的系统有效保留了不同说话人的口音信息,这会使得对口音泛化能力稍差的ASR模型得到更高的WER结果。不同抄本的对比已经在demo页面中展示。
在ASR的测试中,我们得到了和其它系统相近的分数,说明我们系统在匿名过程中带来的可懂度损失较小。
图2 MOS分指标
根据图2的MOS分数指标,我们的系统得到了所有系统中最高的分数,并且使用WavLM-Large模型的分数最高,说明系统能够生成最自然的匿名语音。
我们进一步验证了上文提到的多样性与质量的权衡,根据之前的结果,当我们增加缩放参数时,我们观察到多样性和匿名指标(如    和 EER)变得更好,而质量指标(如   、WER 和 MOS)变得更差;当我们增加保留参数时,我们观察到相反的结果。这些结果表明,我们的系统可以通过调整sp参数在多样性和质量之间做出权衡。
图3 匿名说话人聚类,蓝色点为外插后的说话人表征,橙色点为外插前
根据图3中对说话人表征聚类的观察,我们发现,缩放参数为1时的说话人表征多样性优于缩放参数为0时。这表明对表征的外插可以得到更广泛的伪说话人分布。

参考文献

[1] Matthew Baas, Benjamin van Niekerk, and Herman Kamper, “Voice conversion with just nearest neighbors,” in Interspeech, 2023.
[2] Natalia A. Tomashenko, Xin Wang, Xiaoxiao Miao, Hubert Nourtel, Pierre Champion, Massimiliano Todisco, Emmanuel Vincent, Nicholas W. D. Evans, Junichi Yamagishi, and Jean-Franc ̧ois Bonastre, “The voiceprivacy 2022 challenge evaluation plan,” CoRR, vol. abs/2203.12468, 2022.
[3] Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, and Furu Wei, “Wavlm: Large-scale self-supervised pre-training for full stack speech processing,” IEEE J. Sel. Top. Signal Process., vol. 16, no. 6, pp. 1505–1518, 2022.
[4] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur, “Librispeech: An ASR corpus based on public domain audio books,” in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 124, 2015. 2015, pp. 5206-5210, IEEE.
[5] J. Yamagishi, C. Veaux, and K. MacDonald, “CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92),” 2019.
[6] Jixun Yao, Qing Wang, Li Zhang, Pengcheng Guo, Yuhao Liang, and Lei Xie, “NWPU-ASLP system for the voiceprivacy 2022 challenge,” CoRR, vol. abs/2209.11969, 2022.
[7] Di Wu, Binbin Zhang, Chao Yang, Zhendong Peng, Wenjing Xia, Xiaoyu Chen, and Xin Lei, “U2++: unified two-pass bidirectional end-to-end model for speech recognition,” CoRR, vol. abs/2106.05642, 2021.
[8] Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever, “Robust speech recognition via large-scale weak supervision,” CoRR, vol. abs/2212.04356, 2022.
“阅读原文”了解课程详细内容及报名通道
永久福利 直投简历
简历投递:[email protected]
扫码关注我们
助力AI语音开发者的社区
继续阅读
阅读原文