中科院声学所研究人员提出基于泰勒展开形式的端到端语音增强算法
在当前基于深度神经网络模型的单通道和多通道语音增强算法研究中,通常着重于设计合理的网络拓扑结构以尽可能提升降噪算法的性能,往往忽略了对深度神经网络模型自身结构设计合理性与可解释性的探索。因此在大部分现有工作中,科研人员们在结构设计和参数确定等方面经验较丰富,但这些工作缺乏数学理论的指导和支撑。
对此,中国科学院声学研究所噪声与音频声学实验室郑成诗研究员和李晓东研究员研究团队提出了基于泰勒级数展开形式的单通道与多通道语音增强算法,将单通道场景中的幅度-相位解耦与多通道场景中的空间-谱域解耦重新建模并通过泰勒级数展开进行分解,使得网络结构具有类似泰勒展开的数学形式。相关研究成果在线发表于学术期刊IEEE/ACM Transactions on Audio, Speech, and Language Processing(中国科学院期刊分区声学一区,IF:5.4)和Information Fusion(中国科学院期刊分区计算机一区top,IF:18.6)。两篇论文的通信作者均为中国科学院声学研究所郑成诗研究员,第一作者均为其指导的博士研究生李安冬,主要作者还包括李晓东研究员、余果宸、刘文哲、范存航副教授等。
研究人员对单通道降噪问题进行重新建模,将降噪处理表示为幅度域滤波与复数域映射叠加的形式,对多通道降噪问题建模表示为波束域滤波与谱域残留噪声消除的形式;进一步引入泰勒展开的数学形式来重新设计模型结构,通过将其中潜在不稳定数值操作替换为稳定的可学习模块,使得模型可采用端到端的形式进行训练和学习,有效提升了算法的性能和可解释性。
图1 基于波束域多通道算法框图
(图/中国科学院声学研究所)
图2 不同时刻算法估计的波束域滤波系数与波束图可视化
(图/中国科学院声学研究所)
实验结果表明,相比于当前的主流基线方法,这种新算法在单通道场景与多通道场景下均达到了现有最优的性能,同时由于其具有泰勒展开的结构,在结构设计层面具有良好的可解释性,有助于研究人员更好理解基于神经网络的降噪算法的内在处理机制。
本研究得到国家自然科学基金(No.61571435)和国家重点研发计划项目(No.2021YFB3201702)资助。
参考文献:
LI Andong; YU Guochen; ZHENG Chengshi*; LIU Wenzhe; LI Xiaodong. A General Unfolding Speech Enhancement Method Motivated by Taylor’s Theorem. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023. (in Press)
LI Andong; YU Guochen; XU Zhongweiyang; FAN Cunhang; LI Xiaodong; ZHENG Chengshi*. TaBE: Decoupling spatial and spectral processing with Taylor’s unfolding method in the beamspace domain for multi-channel speech enhancement. Information Fusion, 2023, 101976. DOI: 10.1016/j.inffus.2023.101976.
论文链接:
https://ieeexplore.ieee.org/document/10246357 https://www.sciencedirect.com/science/article/pii/S1566253523002920
永久福利 直投简历
简历投递:[email protected]
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。