唇动则声至，所见即所闻——周杰伦快手直播背后的声画同步保障技术

7月18日，周杰伦（快手ID：周同学）携新专辑《最伟大的作品》在快手直播，聊聊有关新专辑“可以说的秘密”。直播预告一出，立刻引爆全网，预约直播人数迅速突破1000万。本场直播的直播间最高同时在线人数超过654万，直播间累计观看人数超1.1亿，总互动量超4.5亿，展现了无与伦比的影响力。

在顶级流量的背后，直播活动的保障工作也相对复杂。此次直播的地点在澳洲悉尼，当地设备及网络都与国内不同，因此带来了很多未知的技术风险，尤其可能发生因设备原因导致的声画不同步问题。为了保障直播流畅度，快手音视频技术团队打造直播声画同步解决方案，针对直播流的声画不同步情况进行实时检测和校正，从而提升用户的观看体验。

大型直播活动对声画同步有何挑战？

这场直播活动是快手直播声画同步解决方案在大型活动中的首次应用。与普通用户的直播间不同，该直播活动涉及频繁切换机位，并且插播画中画，这些因素都对声画不同步检测技术带来了更多挑战。

在大型直播活动中，平台和用户对声画不同步问题的敏感度更高，为了防止漏检情况，还需要提高检测频率、降低告警阈值。

基于上述特点，快手音视频技术团队进行了多次实验，针对本次活动定制了一套专属参数，并设置了告警机器人，以及时发现声画不同步问题。

该解决方案对彩排流程和正式直播进行了全程的保障，并在彩排设备调试期间检测到直播回放画面比声音快5~6帧的问题，自动进行了告警，为快速排除问题提供了有力支持，也确保了正式直播期间声音和画面全程保持同步。

直播中的声画不同步难题

什么是声画不同步？

声画不同步是指音频流与视频流之间出现时差，导致声音和画面不对位，这对用户直播观看体验有着直接影响。多数情况下，声音与画面错位的时间不会超过一秒，观众对于声画不同步最直观的感受就是直播中人物的声音和口型对不上。

声画不同步可以分为声音比画面超前和画面比声音超前两种情况。观众对这两种声画不同步的敏感程度是不同的，一般来说声音比画面超前更令人感到不适。

根据观众对不同错位时间的识别能力和接受程度，我们将声画不同步分为以下几个区间：

无法感知：-120ms < 错位 < 80ms
能够识别：-200ms < 错位 < -120ms 或 80ms < 错位 < 120ms
不可接受：错位 < -200ms 或错位 > 120ms

备注：负值表示画面比声音超前，正值表示声音比画面超前

如下是一组声画不同步情况视频示例（素材截取自快手一千零一夜）：

视频说明：声画同步

视频说明：声音比画面超前200ms

视频说明：画面比声音超前280ms

为什么直播中会出现声画不同步？

随着直播的普及，越来越多的用户参与到直播活动中，相关的专业设备逐渐增多。如果用户在直播中使用了外接设备，如声卡、外接麦克风、外接摄像头、调色系统等，就有可能会造成视频传输链路和音频传输链路的不同，导致视频信号与音频信号之间出现时差，从而出现声画不同步的情况。

对于大型活动直播来说，除了摄像机、麦克风等，音频及视频信号还要经过其他多种专业设备后才会到达编码设备，这就意味着大型直播活动出现声画不同步问题的风险更大。这类声画不同步问题的特点是只要前端传输链路没有改变，那么整个直播过程中声画错位的时间都是一致的。

大型直播活动音视频传播链路示意图

传统方法如何解决声画不同步？

针对声画不同步问题，行业常见的解决方案主要有以下两种：

打板：场记板合上时发出的清脆声音会在音频波形上产生短促的波峰，将场记板合上瞬间的画面与音频上的波峰对齐，可以实现声画同步校正。

人工校准：在直播开始前，出镜的人员数数或者说出指定台词，监控人员观察画面和声音的同步程度，并根据自己的主观感受调整声画之间的延时，从而实现声画同步校正。

但上述方法均存在不足，打板需要后续比对视频流和音频流，常用于后期制作，难以应用到直播中。而人工校准的方法主要依赖于校准人员的主观感受，个人敏感度往往存在差异，因此其准确性受个体差异影响，不够稳定。并且，这种方法比较耗费人力，当有大量直播间同时开播，都通过人工方式进行检测和校准是不现实的。

此外，一旦设备或者环境变化，声画不同步情况也会相应发生改变，而这两种方法难以对直播流进行持续监控，无法及时发现此类问题。

快手直播声画同步解决方案

快手直播伴侣内置声画对位调节功能，如果能够知道声画不对位的时差，用户就能调节视频流和音频流的时差，从而快速解决声画不同步问题。针对这种情况，快手音视频技术团队开发了全自动直播声画同步解决方案，用来检测直播流的声画不同步问题并估计声画错位的时差。该方案具有如下优点：

准确度高，稳定性强，方便快捷
节省人力，可以同时对大量直播间进行监控
对直播流进行持续监控，及时发现因设备或环境变化产生新的音画不同步现象

声画不同步检测原理

声画不同步检测的本质是要完成声音与画面的配对，本方案主要通过卷积神经网络来提取画面和音频特征，并对二者进行匹配，从而估算出声画时差。以下是该方案的几个关键点。

关键区域检测

直播画面内容通常十分丰富，而其中绝大部分信息无法帮助观众感知声画同步情况。人在说话时，不同发音对应不同的口型，观众对于声画不同步的感知也主要来自于声音和口型的不一致

。除此之外，画面中人物面部表情、头部姿态等也能辅助观众感知声画同步情况

。

为提炼画面信息，去除冗余干扰，需要先自动检测和截取视频流中的关键区域，即头部、唇部等，并组成连续的图像序列。

不同发音对应不同口型示例

多人入镜识别

多人入镜也是直播中常见的一种场景，在此场景下，算法侧会从直播画面中截取出属于多个不同人物的关键区域。为了保持画面信息的一致性，还需要对截取的人物进行识别和区分，确保同一个图像序列属于同一人物。

音频特征变换

对于音频来说，如果直接利用原始波形进行检测，会存在两个不足，一是原始波形中干扰较多，二是波形为一维数据，不利于后续采用卷积神经网络进一步提取特征。因此对音频波形做频域变换，得到其频谱数据。频谱数据在视觉和音频的联合任务³（Audio-Visual Learning）中被广泛使用，其抗干扰性更好，而且能够作为卷积神经网络的二维输入。

声音特征匹配

在得到关键区域的图像序列和对应的音频频谱数据后，可以利用卷积神经网络分别提取图像特征和音频特征，并计算二者之间的特征距离。如果声画是同步的，那么图像特征与同一时间点的音频特征间的距离是最近的。因此可以对一段时间内的图像特征和音频特征进行匹配，找到令图像与音频特征距离最近的时差，该时差即为声画错位的时差。

图像序列与音频频谱的对应关系示意图

素材来源：快手一千零一夜

快手直播声画同步解决方案

基于上述原理，快手声画同步解决方案流程如下图所示：

用户开播后，快手直播云定时截取直播片段输入到算法侧。算法侧利用卷积神经网络提取直播片段的图像特征和音频特征，并进行特征匹配，从而估计出声画错位时差，并给出结果的置信度。直播云将声画不同步估计结果下发给用户，用户基于该结果利用快手直播伴侣进行声画同步校正。

为了验证该方案的准确性，团队基于快手App上的直播视频制作了标准测试集，该测试集包含电商带货、直播连麦、直播K歌、电视节目等，帧率为15~30fps。在该测试集上，声画不同步检测算法的准确率和召回率均超过了90%，平均估计误差约1帧，证明该方法具有很高的准确度和可靠性。通过对线上告警的声画不同步问题进行回查发现，本方案的检测准确性超过了人工监控。

线上测试结果表明，该方案不仅能处理单人说话的场景，也能处理多人交替说话的场景。此外，对于一些特殊场景，如说话人和出镜人不是同一人、有人说话但无人出镜、有背景声但无人说话等，该方案也能有效识别，避免误检误报。

如下是一组对比视频（素材来源为快手平台央视新闻直播内容）：

视频说明：原始声画不同步直播流，

声音比画面超前280ms

视频说明：基于算法估计结果

进行声画同步校正后的视频

目前快手直播声画同步解决方案已经在快手直播云产品中落地应用，为多种类直播活动进行保障，力争毫秒之间，唇动则声至，所见即所闻。未来，团队还将围绕音视频相关技术能力进行持续探索，为用户视听感受带来无限可能。

参考资料

[1] Fried, O., Tewari, A., Zollhöfer, M., Finkelstein, A., Shechtman, E., Goldman, D. B., ... & Agrawala, M. (2019). Text-based editing of talking-head video. ACM Transactions on Graphics (TOG), 38(4), 1-14.

[2] Zhou, H., Sun, Y., Wu, W., Loy, C. C., Wang, X., & Liu, Z. (2021). Pose-controllable talking face generation by implicitly modularized audio-visual representation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4176-4186).

[3] Zhao, H., Gan, C., Rouditchenko, A., Vondrick, C., McDermott, J., & Torralba, A. (2018). The sound of pixels. In Proceedings of the European conference on computer vision (ECCV) (pp. 570-586).

推荐阅读

如何实现抠图自由？

快手智能弹幕防挡技术：super idol 的笑容，由我守护

来快手看“质臻影音”，定义你的视听新感受

*本文中涉及影视作品及图片截图仅作效果演示。

”

欢迎加入

快手音视频技术团队由业界资深的专家组成，通过工程建设、算法优化，结合数据驱动、专业质量评测及产品化的手段为用户打造极致的体验。团队自2016年成立以来，已经建立起了业界领先的短视频+直播技术体系，支撑快手在国内、海外的数亿用户。

在这里你可以：

接触世界最前沿的音视频技术
在丰富的应用场景中大展身手
和行业里最优秀的同学们并肩作战

我们期待你的加入！请发简历到：

[email protected]

”

继续阅读

阅读原文