丰桥技术科学大学(Toyohashi University of Technology)信息技术教育中心(CITE,Center for IT-Based Education)助理教授Yuya Hosoda开发了一种从通话音频中估计人类声带振动音高的方法。
红线和白线分别表示实测值和估计值。(a)以前的研究(b)建议的方法。来源:丰桥技术科学大学
该方法通过对复平面上语音的振幅和相位谱提取的特征量进行积分来估计基音。实验结果表明,该方法不仅可以有效地处理受通信标准限制的通话音频,而且可以在有背景噪声的环境下保持良好的鲁棒性。这项研究发表在《IEEE/ACM Transactions on Audio, Speech, and Language Processing》上。
帕金森病等神经退行性疾病的一种早期症状是构音障碍,为了防止疾病的加重,对构音障碍进行早期诊断是可取的。
构音障碍的特征是声音颤抖和呼吸紊乱。虽然临床测试是根据病人的声音来诊断症状的,但这样既耗时又费力。此外,在山区等偏远地区进行面对面诊断也很困难。因此,在本研究中,其目标是开发一种通过通信设备进行查房、通过远程医疗自动诊断构音障碍的系统。
发声过程中出现异常的构音障碍患者中,其中发声是由喉咙和口腔中肺部释放的空气产生的声带振动产生的。在这项研究中,我们的目的是估计振动周期(音高,pitch),以诊断这些声带振动的状况。
目前,基于语音频率分析得到的幅度谱特征量,设计了一种对背景噪声具有较好的鲁棒性的基音测量方法。然而,由于通信标准的限制,通过远程医疗的呼叫音频缺乏一些期望的振幅频谱。因此,从具有简化信息的振幅谱中提取特征量可能导致基音估计误差。
在这项研究中,我们提出了一种从频率分析的副产物相位谱中提取附加特征量的方法。推导出了在时间和频率方向上相移与基音的关系方程,研究人员已经证实,将观测到的相移代入关系方程可以估计基音。
基于这一发现,研究人员从相谱中提取新的特征量来定量评估与关系方程的拟合程度。最后,通过在复平面上对从振幅谱中提取的特征量进行积分,研究人员补偿了在呼叫音频的基音估计中出现的特征量的缺失,同时保持了对背景噪声的鲁棒性。
在以往仅使用幅度谱的研究中,由于频带限制减少了信息量,估计出的基音高于原始值。然而,在该方法中,利用与振幅和相位谱相关的特征量,可以准确地从呼叫音频中估计出基音。
此外,总间距误差(GPE,gross pitch error)是一项表示出现错误的片段百分比的评估指标,之前研究的42.2%提高到9.5%。此外,对于有背景噪声的呼叫音频,该方法的GPE达到了15.2%,具有较好的鲁棒性。
虽然本研究的重点是音高估计来检测声带振动的异常,但呼吸和口腔异常也会导致构音障碍。为了检测这些症状,研究人员已经设计了从幅度谱中提取特征量的方法。然而,相谱的使用还没有得到充分的验证。
在未来,研究人员也将从其他情况下的相谱中提取相关的特征量。此外,通过综合分析这些特征量,目标是开发一个构音障碍诊断系统,可以有效地与远程医疗一起工作。
信息源于:medicalxpress

  关于我们  
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。
  合作推广  
稿件投稿  |  项目推广  |  创业支持
请发送需求至以下邮箱,我们将派专人与您联系
[email protected]
  版权声明  
文中所有图片和文字版权归21dB声学人所有
如需转载或媒体合作,请与我们联系
继续阅读
阅读原文