「专题速递」回声消除算法、低功耗音频、座舱音频系统、智能音频技术、低延时音效算法、手机外放增强算法

随着多媒体和通信网络技术的持续升级，以及新型音视频应用场景的不断涌现，音频处理技术正朝着更加智能化和沉浸化的方向迅猛发展。人们对音频听觉体验的要求也逐渐提高，无论是在何种场景下，都期望获得更加清晰的声音，并感受到身临其境的沉浸感。

在数字时代，音频已成为多媒体应用和通信的核心组成部分。从在线音乐流媒体到语音助手，从虚拟现实到远程会议，音频在各个领域都扮演着关键角色。为了满足用户的需求，音频技术不断演进，包括降噪技术、音频增强、空间音频处理等方面的创新，以提供更出色的音频体验。

在本次技术大会中，我们将深入探讨音频新体验的前沿技术和趋势，展示音频处理技术在不同领域的应用案例。我们将了解如何借助AI技术实现智能音频技术，聆听座舱音频系统的构建和低功耗音频的开发，学习回声消除算法、手机外放增强算法、低延时音效算法如何满足不同场景下的用户需求，进一步提升听觉体验。通过音频新体验，我们将一同探索音频技术在数字时代的无限潜力，为用户创造更为丰富和令人愉悦的声音世界。

手机外放增强（Super Audio®）

算法

申厚拯

维沃移动通信有限公司（vivo）

音频算法组总监

智能手机是人们使用最多的智能设备。声音作为视听体验的重要组成部分，提升外放音质及沉浸式立体声效果能显著提升用户使用手机时体验。由于手机尺寸小及追求极致的外观，喇叭尺寸小，存在外放声音小，低频缺失，钢琴曲声音杂音大，频响性能差，喇叭容易非线性失真。扬声器间距小，声场宽度窄，扬声器上下不对称，导致声音左右不均衡等问题。

vivo通过对喇叭腔体及消费者喜好长期的研究，开发出虚拟低音，响度自适应控制，多段动态范围控制，自适应均衡，振幅及温度控制，非线性补偿，立体声增强算法。本文详细介绍vivo Super Audio® 音效架构及立体声增强算法，从内容，器件，生理声学及心理声学等方面来提升外放效果。

YY直播超低延时音效算法设计与开发

陈超

百度 YY直播技术专家

当下，元宇宙和VR技术的发展正在为在线直播业务带来新的机遇和挑战，音频的超低延时是保证直播体验的关键因素之一。对于需要低延迟的场景，例如在线K歌合唱、合奏等场景等，常见音效模块可能会带来几十毫秒的延迟，这是一个非常大的挑战。

我们对直播中常见音效算法仔细分析后，以“零延时”为指导，结合信号处理和深度学习方法，将YY直播音效模块的延迟降到了最低，顺利支持YY直播超低延时场景上线。同时我们还推出一套VST版本音效插件，方便独立使用。

本次分享将分为三个部分，

第一部分，论述音效算法对于超延时直播业务的重要性和挑战。论述音频处理的难点，包括延迟、效果质量、计算复杂度等，并探讨如何在这些挑战中保证音频质量和超低延时。

第二部分，介绍超低延时音效算法的开发和设计经验。介绍如何结合信号处理和深度学习技术来研发超低延时算法。

第三部分，介绍超低延时音效算法在YY直播平台上的应用以及VST音效插件，以及对超低延时直播场景的思考。

智能音频能力移动端落地实践

马金龙

趣丸科技媒体算法负责人

随着泛娱乐社交的持续火热和AIGC的兴起，越来越多的场景需要用到智能语音处理技术来辅助内容理解和智能交互，因此打造端上智能语音技术显得尤为重要且迫切。

例如，用户可以通过端上音频事件检测和端上语音识别对内容进行实时标定，为理解用户意图提供了技术保障。同时，端上语音识别为我们打造基于AIGC的智能交互助手提供了低成本方案。

本次分享主要分为四部分，第一部分是端上智能音频技术现状和挑战，通过此部分了解业界端上智能音频技术目前面临的问题和困难，定位问题，分析问题。第二部分是我们团队针对端上打造的一系列智能音频技术，例如端上语音情感识别，端上娇喘&炸房识别，端上语音识别等。这部分不仅涵盖了技术原理，优化思路，训练经验，还有针对端上的压缩剪枝方法。第三部分是端上智能音频技术的应用和落地场景案例分析，例如基于端上ASR+ LLM + TTS 的智能语音助手，开黑场景语音房的端上内容理解（语音情感+音频事件检测）等。最后一部分是未来展望，针对移动端技术优化思路和结合AIGC落地应用提供自己的见解和看法。

座舱音频系统的架构设计和音频体验

高林

蔚来 座舱音频系统软件负责人

近年来新能源汽车行业快速发展，智能座舱体验成为竞争力的核心。其中由于座舱场景的独特性，音频体验变得尤为重要，得到了车企的广泛重视，音频系统在座舱内的应用被快速推进。音频功能的逐渐增加、麦克风和扬声器数量不断堆积、平台资源的愈加紧张使得音频系统的复杂性与日俱增。

面对汽车音频领域的新挑战，我们应该如何系统性思考架构设计和技术方案，是本次分享的主题，希望启发业界同仁更多的探讨，推动音频技术在座舱场景的更多应用。

移动语音设备低功耗音频开发实践

赵梦梦

小米 高级嵌入式工程师

在智能设备和物联网广泛应用的背景下，移动设备和物联网设备已经成为人们生活中不可或缺的一部分。无论是智能手机、智能音箱还是智能手表，都离不开音频技术的支持。为了满足用户对长续航和便携性的需求，低功耗音频技术已经逐渐成为这些设备的核心技术之一。

本次分享将分为三个部分：

第一部分中介绍系统框架。重点讨论硬件选型和设计音频通路时需要考虑的要点。此外，还会分享音频通路设计的关键因素，以帮助开发者更好地实现低功耗音频。

第二部分中，分享实际开发过程中遇到的一些问题和挑战。其中常见问题是音频数据传输延迟过高，将相应的介绍一些解决方法，帮助开发者优化传输效率。其次还会探讨如何降低音频设备的功耗，以延长设备的续航时间。另外还会分享一些开发调试的技巧和注意事项，帮助开发者更高效地解决问题。

第三部分中，我们将展望语音设备结合多模态交互的未来。这包括将语音识别与图像识别相结合、语音交互与手势控制相协同应用等新发展。通过实现多模态交互，我们可以为用户提供更智能、更便捷的使用体验。

综上所述，本次分享将涵盖移动语音设备低功耗音频开发的多个方面。希望通过本次分享，能帮助用户更好地理解和应用低功耗音频技术，同时，我们也展望了未来的发展方向，希望能够激发更多的创新和探索。

子带卡尔曼滤波结合AI非线性处理的回声消除算法在RTC互娱场景中的落地

徐潇宇

荔枝 资深音频算法工程师

传统RTC的音频主要是针对语音做处理，以提升语音可懂度为目标，即听得懂，对音质要求不高。而随着技术的发展，RTC的音频不再局限于语音，而是涵盖了丰富的音频内容与业务玩法，除了听得懂，还要音质好，所以对RTC的音质也提出了更高的要求。

回声消除算法是RTC音频处理链路中最关键的算法之一，若处理不当，会产生回声或抑制近端音频，这是造成音质下降的主要原因。

为此，我们自研了一套基于子带的传统信号处理与深度学习相结合的回声消除算法，其中包含子带卡尔曼滤波、延时估计、深度学习NLP算法以及传统信号处理NLP算法、，并解决了落地过程中遇到的一系列困难。我们针对不同的互娱业务场景，提供不同的算法配置，以达到最佳的音质体验。

*本专题讲师陆续上线中，更多精彩请关注大会官网

如果你希望参与到音视频技术大会当中，此刻刚刚好：“LiveVideoStackCon 2023音视频技术大会深圳站”门票限时9折优惠中，报名立享优惠，团体参会优惠更多哦！现在报名，与您相约深圳。

时间：2023年11月24日-25日

地点：深圳圣淘沙酒店（翡翠店）

获票方式：扫描下方二维码，或咨询票务微信,了解大会详情。

优惠截止10月15日

票务服务：

微信同号13520771810

[email protected]

关于LiveVideoStackCon 音视频技术大会

LiveVideoStackCon是专注于音视频领域的技术大会，致力于分享一流的技术内容，在把握行业趋势和热点的同时持续挖掘技术深度。自首届以来的13场大会中，LiveVideoStackCon成为众多音视频技术人的舞台、国内多媒体生态的风向标，也成为大家技术交流、拓展专业网络、职场进阶的新方式。

LiveVideoStackCon 2023 深圳站，将以“沉浸·新视界”为主题，在2023年11月24日-25日在深圳和大家见面。本场音视频技术大会，依然聚焦在多媒体生态，精心打磨3场主题演讲、13场专题（包括一场圆桌专题）。本次大会规模约300+参会人员，50+技术分享，80+参会企业，并设有VIP社交晚宴、硬件体验区、扭蛋抽奖等各种活动，带来丰富、沉浸的技术大会体验。

▼点击下方阅读原文 ▼

进入LiveVideoStackCon 2023深圳站官网了解更多精彩演讲

继续阅读

阅读原文

关键词

声音

音质

声音

场景

用户