大多数使用过降噪耳机的人都知道,在正确的时间听到正确的声音至关重要。有人可能想在室内工作时消去汽车喇叭,但在繁忙的街道上行走时就不需要了。然而,人们无法选择耳机消除什么声音。
现在,华盛顿大学(University of Washington)的研究人员领导的一个团队开发了一种深度学习算法,可以让用户通过耳机实时选择过滤的声音。该团队称该系统为“语义听力”(semantic hearing)。耳机将捕获的音频流传输到连接的智能手机上,从而消除所有环境声音。
通过语音指令或智能手机应用程序,耳机佩戴者可以从20个类别中选择他们想要包含的声音,比如警报声、婴儿哭声、语音、吸尘器和鸟鸣声。只有选定的声音才会通过耳机播放。
该研究小组于11月1日在旧金山举行的UIST第23届会议上发表了他们的发现。未来,研究人员计划发布该系统的商业版本。
Paul G. Allen计算机科学与工程学院的教授、资深作者Shyam Gollakota说:“了解鸟类的声音,并从环境中所有其他声音中提取出来,需要实时智能——而这是今天的降噪耳机还没有做到的。”
“挑战在于,耳机佩戴者听到的声音需要与他们的视觉感官同步。你不可能在别人跟你说话两秒钟后听到他们的声音。这意味着神经算法必须在百分之一秒内处理声音。”
由于时间紧迫,语义听力系统必须在连接的智能手机等设备上处理声音,而不是在更强大的云服务器上。此外,由于来自不同方向的声音在不同的时间到达人们的耳朵,系统必须保留这些延迟和其他空间线索,以便人们仍然可以有意义地感知环境中的声音。
该系统在办公室、街道和公园等环境中进行了测试,能够提取警报声、鸟鸣声、警报声和其他目标声音,同时消除所有其他真实世界的噪声。当22名参与者对系统输出的目标声音进行评价时,他们说,平均而言,与原始录音相比,质量有所提高。
在某些情况下,该系统很难区分具有许多属性的声音,如声乐和人类语言。研究人员指出,用更多真实世界的数据训练模型可能会改善这些结果。
该论文的其他共同作者是Bandhav Veluri和Malek Itani,他们都是华盛顿大学艾伦学院的博士生;Justin Chan,他在艾伦学院(Allen School)攻读博士时完成了这项研究,目前在卡内基梅隆大学(Carnegie Mellon University);以及AssemblyAI的研究主管Takuya Yoshioka。
Bandhav Veluri et al, Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables, Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology (2023). DOI: 10.1145/3586183.3606779
信息源于:techxplore

  关于我们  
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。
  合作推广  
稿件投稿  |  项目推广  |  创业支持
请发送需求至以下邮箱,我们将派专人与您联系
[email protected]
  版权声明  
文中所有图片和文字版权归21dB声学人所有
如需转载或媒体合作,请与我们联系
继续阅读
阅读原文