AI降噪耳机技术可以让佩戴者选择他们听到的声音

大多数使用过降噪耳机的人都知道，在正确的时间听到正确的声音至关重要。有人可能想在室内工作时消去汽车喇叭，但在繁忙的街道上行走时就不需要了。然而，人们无法选择耳机消除什么声音。

现在，华盛顿大学（University of Washington）的研究人员领导的一个团队开发了一种深度学习算法，可以让用户通过耳机实时选择过滤的声音。该团队称该系统为“语义听力”（semantic hearing）。耳机将捕获的音频流传输到连接的智能手机上，从而消除所有环境声音。

通过语音指令或智能手机应用程序，耳机佩戴者可以从20个类别中选择他们想要包含的声音，比如警报声、婴儿哭声、语音、吸尘器和鸟鸣声。只有选定的声音才会通过耳机播放。

该研究小组于11月1日在旧金山举行的UIST第23届会议上发表了他们的发现。未来，研究人员计划发布该系统的商业版本。

Paul G. Allen计算机科学与工程学院的教授、资深作者Shyam Gollakota说：“了解鸟类的声音，并从环境中所有其他声音中提取出来，需要实时智能——而这是今天的降噪耳机还没有做到的。”

“挑战在于，耳机佩戴者听到的声音需要与他们的视觉感官同步。你不可能在别人跟你说话两秒钟后听到他们的声音。这意味着神经算法必须在百分之一秒内处理声音。”

由于时间紧迫，语义听力系统必须在连接的智能手机等设备上处理声音，而不是在更强大的云服务器上。此外，由于来自不同方向的声音在不同的时间到达人们的耳朵，系统必须保留这些延迟和其他空间线索，以便人们仍然可以有意义地感知环境中的声音。

该系统在办公室、街道和公园等环境中进行了测试，能够提取警报声、鸟鸣声、警报声和其他目标声音，同时消除所有其他真实世界的噪声。当22名参与者对系统输出的目标声音进行评价时，他们说，平均而言，与原始录音相比，质量有所提高。

在某些情况下，该系统很难区分具有许多属性的声音，如声乐和人类语言。研究人员指出，用更多真实世界的数据训练模型可能会改善这些结果。

该论文的其他共同作者是Bandhav Veluri和Malek Itani，他们都是华盛顿大学艾伦学院的博士生；Justin Chan，他在艾伦学院（Allen School）攻读博士时完成了这项研究，目前在卡内基梅隆大学（Carnegie Mellon University）；以及AssemblyAI的研究主管Takuya Yoshioka。

Bandhav Veluri et al, Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables, Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology (2023). DOI: 10.1145/3586183.3606779

信息源于：techxplore

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。

合作推广

稿件投稿｜项目推广｜创业支持

请发送需求至以下邮箱，我们将派专人与您联系

[email protected]

文中所有图片和文字版权归21dB声学人所有

如需转载或媒体合作，请与我们联系

继续阅读

阅读原文