中科院声学所研究人员提出基于泰勒展开形式的端到端语音增强算法

在当前基于深度神经网络模型的单通道和多通道语音增强算法研究中，通常着重于设计合理的网络拓扑结构以尽可能提升降噪算法的性能，往往忽略了对深度神经网络模型自身结构设计合理性与可解释性的探索。因此在大部分现有工作中，科研人员们在结构设计和参数确定等方面经验较丰富，但这些工作缺乏数学理论的指导和支撑。

对此，中国科学院声学研究所噪声与音频声学实验室郑成诗研究员和李晓东研究员研究团队提出了基于泰勒级数展开形式的单通道与多通道语音增强算法，将单通道场景中的幅度-相位解耦与多通道场景中的空间-谱域解耦重新建模并通过泰勒级数展开进行分解，使得网络结构具有类似泰勒展开的数学形式。相关研究成果在线发表于学术期刊IEEE/ACM Transactions on Audio, Speech, and Language Processing（中国科学院期刊分区声学一区，IF：5.4）和Information Fusion（中国科学院期刊分区计算机一区top，IF：18.6）。两篇论文的通信作者均为中国科学院声学研究所郑成诗研究员，第一作者均为其指导的博士研究生李安冬，主要作者还包括李晓东研究员、余果宸、刘文哲、范存航副教授等。

研究人员对单通道降噪问题进行重新建模，将降噪处理表示为幅度域滤波与复数域映射叠加的形式，对多通道降噪问题建模表示为波束域滤波与谱域残留噪声消除的形式；进一步引入泰勒展开的数学形式来重新设计模型结构，通过将其中潜在不稳定数值操作替换为稳定的可学习模块，使得模型可采用端到端的形式进行训练和学习，有效提升了算法的性能和可解释性。　　

图1 基于波束域多通道算法框图

（图/中国科学院声学研究所）

图2 不同时刻算法估计的波束域滤波系数与波束图可视化

（图/中国科学院声学研究所）

实验结果表明，相比于当前的主流基线方法，这种新算法在单通道场景与多通道场景下均达到了现有最优的性能，同时由于其具有泰勒展开的结构，在结构设计层面具有良好的可解释性，有助于研究人员更好理解基于神经网络的降噪算法的内在处理机制。

本研究得到国家自然科学基金（No.61571435）和国家重点研发计划项目（No.2021YFB3201702）资助。

参考文献：

LI Andong; YU Guochen; ZHENG Chengshi*; LIU Wenzhe; LI Xiaodong. A General Unfolding Speech Enhancement Method Motivated by Taylor’s Theorem. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023. (in Press)

LI Andong; YU Guochen; XU Zhongweiyang; FAN Cunhang; LI Xiaodong; ZHENG Chengshi*. TaBE: Decoupling spatial and spectral processing with Taylor’s unfolding method in the beamspace domain for multi-channel speech enhancement. Information Fusion, 2023, 101976. DOI: 10.1016/j.inffus.2023.101976.

论文链接：

https://ieeexplore.ieee.org/document/10246357　　https://www.sciencedirect.com/science/article/pii/S1566253523002920

永久福利直投简历

简历投递：[email protected]

扫码关注我们

助力AI语音开发者的社区

继续阅读

阅读原文