IEEE ASRU 2023录用论文解读 | 打造极致听觉体验，腾讯云MPS音频处理能力及降噪算法原理

近期，语音与语言处理领域旗舰会议IEEE ASRU 2023论文入选结果公布。腾讯云媒体处理（MPS）在语音增强降噪方向的创新成果再获业界认可，《Magnitude-and-phase-aware Speech Enhancement with Parallel Sequence Modeling》（简称MPCRN）和《VSANet: Real-time Speech Enhancement Based on Voice Activity Detection and Causal Spatial Attention》（简称VSANet）两篇论文被IEEE ASRU 2023录用。本文将结合论文内容，与大家分享腾讯云媒体处理（MPS）在音频处理方面的最新能力、相关技术方案以及算法原理。

随着互联网与5G等基础设施的全面普及，以直播、点播为代表的视频消费已经融入了人们的日常生活，越来越多的用户通过观看视频的方式来娱乐、学习，而优异的音画质量对于用户的观赏体验有至关重要的影响。一方面，这些场景之下，人们希望获得优质的画面质量，另一方面，更好的听觉体验也不可或缺，这包括更少的噪声干扰、更稳定的音频响度等。腾讯云音视频媒体处理（MPS）已经涵盖视频、音频、字幕等，其音频处理能力也在不断的演化，助力直播、点播等业务极致的音频体验。

图1.腾讯云MPS-音频处理

腾讯云MPS音频处理能力

目前MPS音频处理能力主要分成四部分，涵盖音频降噪、音频分离、音量均衡以及音频修复美化等，各项音频处理能力可以独立针对不同的应用场景和实际需求对音频进行增强，也可以组合起来对复杂需求下的音频流进行综合处理，提升音频综合听觉体验。

图2.MPS音频增强模版

音频降噪

噪声干扰是影响直播、点播观赏体验的重要因素，目标人声的语音可懂度和流畅度都会受到负面影响。一般而言，在混合音频流中除了目标人声以外的所有音频成分，都会被认为是噪声干扰，在不同的环境下，噪声干扰的类型、强度都会有所不同。比如在户外直播场景中，噪声干扰来源主要包括交通噪声（汽车引擎、鸣笛）、自然风噪、动物叫声等，而在室内直播场景中，噪声干扰来源主要包括家电噪声（空调、风扇、油烟机）、鼠标键盘声、嘈杂背景人声等。复杂的噪声环境对于音频降噪任务而言是一个巨大的挑战，这要求降噪算法具备强大的泛化性、鲁棒性。传统的基于信号处理方法的噪声抑制方案只能对部分平稳噪声进行处理，而对于瞬态噪声则基本没有效果，为此我们自研了基于AI的噪声抑制方案。

基于大量的纯净语音数据和真实噪声数据，通过随机混合纯净语音数据和噪声数据来模拟不同环境、不同信噪比条件下的带噪语音信号，由此采用监督学习的方式训练出具备强大泛化性的语音增强降噪模型。算法流程如图3所示，MPS的噪声抑制方案具备以下特性：

最高支持48kHz采样率全带信号降噪。本方案适用于多种常见的采样率信号，如16kHz、32kHz、44.1kHz、48kHz等，对于原始采样率低于48kHz的音频信号，经过上采样进行降噪处理将不会损失频带宽度。
支持多语种、多噪声类型降噪任务。我们在训练集中以中文、英文为主，并且加入了俄语、法语、德语、西班牙语、意大利语等多语种纯净语音数据，并且采用了庞大的噪声数据集，包括户外、室内各种常见的噪声类型，模型具备强大的泛化性和鲁棒性，在抑制噪声干扰的同时，能够保证目标人声的完整度。
支持可控力度噪声抑制。本方案可根据实际需求，对带噪语音中的噪声成分进行定量压制，比如将带噪语音信号的信噪比提升10dB。此项特性能够平稳降低底噪强度，凸出语音信号成分，经过处理之后的音频信号，既保留了原始环境特征，又提升了语音可懂度和流畅度。

图3.语音增强降噪算法模型示意图

噪声抑制案例：

噪声环境	处理前	处理后
户外噪声（自然风噪+鸟叫）
室内噪声（喷麦+背景人声+平稳噪声）

可控力度降噪案例：

处理前
降噪弱
降噪较弱
降噪较强
降噪强

音频分离

音频降噪任务目标是从受到噪声污染的混合语音信号中恢复较为纯净的人声信号，音频分离任务与之相似，目标也是从混合音频流中抽离出目标信号成分，只是其目标成分不仅局限于单一的语音信号。在点播场景中，我们听到的音频流通常是多种声音成分的混合，有的是在录制阶段麦克风同时采集到不同的声源，有的是在后期制作中人工进行混音处理。比如在影视剧和有声书中，音频流可以看成是台词人声和背景音乐、道具声的混合，在歌曲中，音频流可以看成是vocal和BGM、各类乐器声音的集合。将混合音频信号中的不同音频成分进行分离，有很多应用场景。比如在短视频创作领域，可以利用音频分离技术进行二次创作，为文案搭配新的背景音乐或者保留背景音乐替换文案。在k歌场景中，可以将原歌曲的vocal部分和BGM分离，得到演唱伴奏。

与降噪任务类似，我们设计了基于AI的音频分离方案，算法流程如图4所示。我们的音频分离方案具有以下特性：

支持通用降噪功能。本方案可以从混合音频信号中提取出人声成分，等效于常规语音降噪方案，并且可以将混合信号中背景噪声成分单独分离，有助于进行噪声分析。
支持有声书、影视剧台词与背景声分离。本方案可以将语音和各类背景声进行分离，并且语音成分和背景声成分都有较高的保真度，能够用于二次创作。
支持歌曲伴奏分离。本方案可以将歌曲的vocal部分和BGM进行分离，并且支持将BGM部分进一步进行乐器分离，可以得到bass、drum音轨，可应用于k歌或混音编曲场景。

图4.音频分离算法模型示意图

音频分离案例：

影视剧旁白与背景音乐分离

处理前	人声	背景声

歌曲伴奏分离

处理前	人声	背景声

音量均衡

音频流响度对于音频听感效果也有直接的影响，在直播、点播场景中，稳定适中的音频响度能够给用户带来更舒适的听觉体验。音量过大会让人难以忍受，甚至会对听力造成损伤。音量过小时，人耳很难分辨音频内容，很多音效细节也将不可闻。而音量忽大忽小，则最让人头疼，这会给人耳带来显著的不适感。音频响度不合适时，用户可以自行调整播放设备音量，但这显然会降低用户的体验感。如果出现音量忽大忽小问题，比如在短视频场景，相邻视频音频响度相差过大，则需要频繁调节音量，这会对用户造成困扰。所以在直播、点播场景，我们需要采用自适应的音量均衡算法来自动调节音频流的响度，使之稳定在合适的区间，提升用户的听觉体验。

我们基于自动增益控制算法和EBU R.128音频响度标准研发了音量均衡方案，能够解决音量过大、过小、忽大忽小等问题。我们的音量均衡方案具有以下特性：

支持音频文件综合响度与动态范围自动调整。在点播场景中，本方案可以基于EBU R.128标准对音频进行响度标准化处理，使音频综合响度、峰值响度、动态范围满足输出要求。
支持实时音量调节。最低延迟10ms，动态调整音频响度，减少音量突变现象，使音频流响度稳定。

音量均衡案例：

音量问题	处理前	处理后
音量过大
音量过小
忽大忽小

音频美化

在直播和点播场景中，可能会存在由于麦克风工作失常、网络传输丢包、音频分帧处理不连续等引起的脉冲噪声、爆音现象，这类音频故障也会对听感造成负面影响。因此我们研发了杂音检测修复技术，能够对音频流进行实时诊断，判断其是否存在杂音干扰，并且自动修复故障，还原高清音频。另外对于语音信号，我们研发了齿音压制方案，能够对高频气流引起的嘶嘶声进行美化，提升语音听感质量。

音频修复美化处理案例：

美化类型	处理前	处理后
杂音修复
齿音压制

算法原理介绍

接下来我们将结合两篇论文，简要介绍MPS的音频降噪技术方案和算法原理，如对更细节的部分感兴趣，推荐各位阅读论文原文。

MPCRN

在MPCRN中，我们提出了一种新颖的语音信号重建方案，如图5所示。基于经典的encoder-decoder框架，采用参数共享策略，在不显著增加模型参数量和计算复杂度的前提下，同时对纯净语音的幅度掩码和归一化复数掩码进行估计，进而从带噪语音信号中同时恢复纯净语音信号的幅度谱和相位谱，提升了算法对信号时域偏移的鲁棒性。另外，我们设计了一个并行序列分析模块用以提取音频信号的时序特征和频域特征，更加全面细致地对语音信号的时序依赖关系和频域周期特性进行建模，最终提升算法的噪声抑制效果。

图5.MPCRN系统结构示意图

MPCRN系统可以分成三个模块，分别是信号前处理和特征提取模块、网络前向推理模块和信号重建模块。基于加性噪声模型假设，带噪语音信号可以看成是纯净语音信号和噪声干扰的叠加，表达式如下：

前处理模块主要对带噪语音信号进行时频特征提取，在本方案中，我们提取的特征是短时傅里叶变换（STFT），时频表达式为：

网络模型的输入是带噪语音STFT实部和虚部的组合，则纯净语音理想时频复数掩码为：

对应的理想幅度掩码和相位掩码分别为 , 。而网络模型的输出有三个值，分别是，其中是网络对的估计值，而是对归一化理想复数掩码的估计值。在信号重建模块，我们对网络输出的三个估计值进行处理，并且与带噪语音的STFT结合，可以获得目标纯净语音的STFT估计值。修正归一化理想掩码为：

则目标纯净语音的幅度谱和相位谱估计值为：

结合二者，最终得到目标纯净语音的STFT估计值：

最后执行逆短时傅里叶变换操作，便可得到增强信号的时域波形。在公开数据集Voice Bank+DEMAND上训练并测试了算法效果，证明我们的方案相较其他方案具有一定优势。

VSANet

在VSANet中，我们提出了一种基于多任务学习的语音增强降噪方案，如图6所示。在本方案中，将噪声抑制任务和语音有效性检测（VAD）任务结合在一起。与MPCRN类似，本方案采用了encoder-decoder框架，两个子任务共用模型的encoder部分，实验表明VAD任务有助于噪声抑制的学习。VAD模块能够准确标注带噪语音中的语音片段和纯噪声片段，这会帮助降噪模块在非语音段完全压制噪声，减少噪声残留。另外，它还能让降噪模块能够更专注于语音片段的特征学习，能够在语音片段更好地识别语音特征，提取目标语音成分。两个任务共用encoder，在训练阶段采用两个子任务的加权损失来优化更新模型参数，而在应用推理阶段，我们可以舍弃VAD模块，所以这种多任务方案并不会增加模型推理参数量和计算复杂度。与MPCRN不同的是，本方案对带噪语音的短时余弦变换（SDCT）特征进行建模，由于SDCT是实数谱，所以这种方法避免了相位估计的问题。除此之外，我们提出了一种因果空间注意力机制(CSA)模块，如图6所示，用于对音频信号时频谱特征的分析建模。考虑到音频信号的稀疏特性，该模块能够使模型更好地学习有效音频特征，有助于语音信号成分与噪声成分的分离，实验结果也表明了其有效性。并且CSA是一个轻量且具备因果性的结构，所以它并不会影响整个语音降噪系统的实时性。

图6.VSANet系统结构示意图

图6.因果空间注意力机制模块

同样地，我们也在公开数据集Voice Bank+DEMAND上训练并测试了VSANet，经过消融实验和横向对比，我们验证了采用VAD辅助降噪任务学习的有效性，并且相对于其他先进降噪算法，本方案具有一定优势。

总结展望

本文主要对腾讯云MPS音频处理部分能力进行了介绍，并且结合我们在IEEE ASRU 2023发表的两篇论文分享了相关算法原理。事实上，我们在音频处理方向有很深的技术积累，发表过多篇学术论文和技术发明专利。对于未来的研发展望，MPS也有以下思考：

技术为产品的理念，所有的技术研究为产品服务，MPS会在服务客户的过程中不断打磨音频处理相关技术，以期望成为更加贴近用户需求的媒体处理产品。
保持对新技术的敏感性，不断丰富MPS音频处理能力矩阵，为客户的音频问题提供更多的工具选择，通过新技术给用户带来更好更新的听觉体验。
提升音频处理能力的普适性，针对服务侧和端侧给出不同的优化方案，尝试降低各项算法的参数量、计算复杂度，从而降低资源消耗。

扫描下方二维码添加音视频小姐姐微信，与产研团队直接沟通，了解更多详细信息。

腾讯云音视频在音视频领域已有超过21年的技术积累，持续支持国内90%的音视频客户实现云上创新，独家具备腾讯云RT-ONE™全球网络，在此基础上，构建了业界最完整的 PaaS 产品家族，并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK，助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代，提供坚实的数字化助力。

继续阅读

阅读原文

关键词

模型

语音

特征

用户

论文

处理前
降噪弱
降噪较弱
降噪较强
降噪强