卡塔尔世界杯科技系列：智能字幕与数智人手语

写在前面：生动精准的手语播报、自然连贯的动作……当笑意盈盈的「弋瑭」以一袭红色套装亮相时，真实感和亲切感瞬间扑面而来。这是世界杯上首次出现数智人手语主播，她带来了世界杯首次数智手语解说，也是中国移动咪咕公司为“科技观赛”注入的“人文情怀”。在「弋瑭」暖心播报的背后暗藏了哪些“黑科技”，这一期我们就了解她背后的技术。

全文约4500字，预计阅读10分钟

‍

背景篇

我国是世界上听障者人数最多的国家[1]，但是通用手语建设无障碍交流设施却相对比较匮乏，《残障人士保障法》等明文规定，政府有关部门应当研发、推广和应用适合残障人士使用的信息交流技术和产品，包括开办电视手语节目和提供手语服务。在此背景下，我们在2022年2月北京冬奥直播上线了“为了听不见的你”业务，通过智能字幕帮助听障人士等特殊群体解决观赛难的问题，这也是智能字幕在大型国际赛事超高清直播中首次规模化商用。但是相比于快速掠过的字幕展示，听障人士更加熟悉他们的第一语言“手语”的表达。因此，我们在世界杯直播贴心地推出了智能字幕的升级版——手语字幕，进一步升级了无障碍观赛体验。

然而这个升级并不简单，因为手语翻译与有声语言的翻译不同，需要手、眼、口共同配合，关注手指语、手势语和面部表情及口部变化[2]，涉及到听觉和视觉两种不同载体的语码转换。传统人工手语翻译工作量大，高水平的手语翻译员非常稀缺、手语翻译质量得不到保障[3]，而且节目主持人和手语主持人配合难度极高。

我们通过AI技术将文字、语音内容翻译合成手语，并利用虚拟主播播报，实现世界杯直播场景AI字幕与AI数智手语主播联动的首次应用突破，实现了本次世界杯直播手语字幕的精彩“解说”，这一期我们就一起揭开手语字幕背后的技术。

图1 “弋瑭”手语字幕世界杯直播精彩“解说”

技术篇

在今年北京冬奥会期间我们已经揭秘过暖心的实时智能字幕的核心技术，从架构上看手语字幕是文字版智能字幕的升级，在原有基础上增加了手语数智人渲染以及手语数智人视频流的同步、叠加等模块。从流程上看，字幕驱动手语数智人是新增的核心技术，包括以下几个模块：

图2 字幕驱动手语流程

首先，使用纯智能字幕驱动AI数智手语主播，采用前置降噪、深度图谱热词、全流程语言学模型优化等多种技术，实现高精准的驱动字幕。

其次，以超大规模预训练模型为基础，应用跨模态拟人生成算法、超高精度写实数智人技术等实现AI手语主播数智人的生成。用中文语义蒸馏模型算法提取出有效的关键语义信息，用AI 手语分词快编算法把语义信息转换成符合手语表达的词汇序列，驱动生成数智人手语视频流。

最后，实现字幕、手语、音频的三者同步实时输出。采用全局时间轴对齐技术，在字幕到手语转换的同时，将对应字幕的时间戳写入手语视频流媒体扩展信息（SEI）扩展信息中，为手语流增加全局统一时间依据，最终根据字幕、手语、视频源流的时间戳信息，实现音频解说、中英双语字幕、及数智手语主播的“音字人”三位一体实时同步呈现。

下面将对实现过程中的关键技术进行详细介绍。

高精准驱动字幕

字幕是AI手语的源驱动力，字幕的准确率直接影响AI手语的准确表达。但是，影响体育场景AI字幕准确率的因素众多，例如场上噪音干扰、专业体育术语名词、解说语速过快、解说口音等，智能字幕采取多种技术实现高精准驱动字幕，提供高质量的输入源。

针对噪音干扰，采用基于深度学习的场景化前置语音降噪技术，选用基于时频域方法中的基于时频掩蔽（mask）的方法进行模型搭建，利用傅立叶变换提取音频帧的频域特征，将傅立叶变换后的特征提供给长短记忆网络（LSTM）+全连接网络，训练得到音频特征在频域的mask，然后利用mask得到纯净语音信号的在频域特征，利用反傅立叶变换得到时域的音频帧。有效降低球场欢呼声、音乐等场上音的干扰影响，提升转写输入音频质量。

图3 基于深度学习的场景化语音降噪

针对体育场景人名及运动术语众多、难于正确转写的难题，依托中国移动九天人工智能平台大体育精细化知识图谱，深度构建世界杯足球图谱热词体系，词汇量超20万，针对每场比赛的球队特征，自动关联出每场比赛相关的热词，包括双方球队、首发球员、替补球员、教练、主裁判等专业术语词汇集合。结合比赛的时间维度，实现时效图谱热词，关联出解说可能提及的热门球员及话题热词等，最精准地覆盖解说可能提及的专业术语范围，为下一步的智能纠错提供基础。

图4 知识图谱球队球员关联样例

针对解说过快与口音的问题，研发智能语义纠错系统，研发多种纠错策略，并结合行业领先的快速纠正（fastcorrect）语音纠错模型及上千场次的解说语料深度训练，对偏离语义的字幕进行AI纠错优化，让字幕更能还原解说本意，让智能字幕更“懂足球”。

图5 Fastcorrect语音纠错模型

纠错技术通常存在误纠的情况，为及时发现误纠、降低误纠带来的影响，自研全流程循环迭代的字幕转写优化方案，建立误纠检测与纠错回溯机制，基于赛后的词热度分析等技术，回馈与校正纠错系统，进而不断提升语言学模型精准度。目前，世界杯足球场景中文字幕平均准确率超96%，最高达98%。

中文语义蒸馏模型

由于手播速度不及口播速度，字幕和手语词序列的长度存在不对等问题，需要对字幕进行语义提取，采用语义蒸馏技术，主要包括质量控制信号、广义线性（GLM）预训练模型和对比学习，三者有效配合实现精准高效提取语义词汇。

为了使语义蒸馏后的句子内容语义相对可控，设置质量控制信号作为有限制生成信号。质量控制信号是指句对中的复杂句与简单句之间的比值信息来表示词法复杂度、句法复杂度以及句子长度等。具体来说，质量控制信号包括句子长度比、编辑距离比、词汇复杂度比和句法树深度比等信息。由于标注数据集缺乏，采用基于无监督学习方式挖掘复杂句-简单句句对并计算每个句对之间的质量控制信号。

GLM预训练模型基本原理是基于自回归空白填充，按照自编码的思路，从输入文本中随机地空白出连续跨度的token，并按照自回归预训练的思路，训练模型依次重建这些跨度。鉴于GLM可以在自然语言理解（NLU）和文本生成（含有条件和无条件）方面表现出色。采用GLM预训练模型进行微调以实现语义蒸馏。

GLM预训练模型在各种条件文本生成任务上取得了显著的性能。然而，其中大多数研究是在Teacher-Forcing机制下训练，容易出现暴露偏差问题。为解决该问题，采用对比学习框架，将模型暴露于给定输入语句的各种有效或不正确的输出序列。根据对比学习框架，可以通过对比正对和负对训练模型学习基础真句的表示，其中从同一批中选择负对作为随机的非目标输出序列，然后将源文本序列和目标文本序列投影到潜在嵌入空间。最终使源序列和目标序列对之间的相似度最大化，同时使负序列对之间的相似度最小化。

图6 融合无监督学习和对比学习的语义蒸馏模型

通过以上方法的结合，不仅可以保证简化内容质量可控，并且能够提高简化句子的忠实度，为下一步AI手语分词奠定基础。

AI 手语分词快编算法

通过中文语义蒸馏模型提取文本语义信息，将语义信息发给手语分词快编模型；基于手语词典库，通过手语翻译编码算法进行分词，然后发送给手语解码器进行手语匹配。因此基于序列到序列、端到端的深度学习手语分词快编模型，能够有效的将输入中文语句转换成符合手语表达的词汇序列，驱动数智手语主播完成一系列相应动作。

图7 基于编码器-解码器的AI 手语分词快编算法

手语准确率优化

手语与句子不同，并不是按照句中的词逐个对应转换而来，而是对句子进行语义蒸馏，留下最关键、最重要的语义词语，这样既能最大限度保留句子的语义，又能言简意赅表达句子的意思。提取语义的准确性为手语准确性的前提。传统的根据句子中词的词性、TF-IDF 算法、特征提取等方法提取关键词，但在语义上表达还不完善。

我们的手语字幕通过基于质量控制信号，GLM预训练模型和对比学习相结合的中文语义蒸馏模型，能够从不同大小的中文文本中提取出有效的中文语义信息，保证后续语义到手语的准确性。其次，由于专业词汇的准确性对于句子的理解有着至关重要的作用，比如射门、头球、任意球、点球等。但手语词库中的专业词汇并不丰富，不能覆盖全面。通过对历届比赛的语料进行整理提取，协同手语老师与数据标注团队，将提取的专业词汇转化成手语，不断扩充到专业词库中，让手语更加准确易懂。

音字人实时同步对齐技术

在通过上述语义蒸馏等技术优化解说与手语的速度匹配度的基础上，为了保证良好的用户体验，还需要对解说、手语、字幕进行时间对齐输出。采用全局时间轴对齐技术，在字幕到手语转换的同时，将对应字幕的时间戳写入手语流扩展信息中，为手语流增加全局统一时间依据，根据字幕、手语、视频流显示时间戳（PTS）信息，实现音频解说、中英双语字幕、及数智手语主播的“音字人”三位一体实时同步呈现。

但是，在实际应用过程中，存在音视频流由于网络等情况导致的数据帧丢失，从而导致字幕时间轴与音视频流媒体时间轴无法对齐的情况。例如，假设一个直播流的帧时长为20毫秒，在一个直播节目中，如果丢帧50次，那么就是1000毫秒，也就是1秒的提前量。在直播节目中，若字幕相比视频提前1秒展示，将严重降低用户的体验感。针对该问题，进行丢帧补时，补时原理即：丢帧总时长=丢帧的帧数 * 帧时长。但是，此算法理论上在基于所有的帧长都是一定相同时长的情况下是正确的，而在实际中，往往每一路直播流的帧长并非固定不变的，即帧长可能发生变化。

为克服这种问题，设计了一种无需提前获知流媒体的帧长，即支持动态识别帧长，并进行音字同步补时的算法及方案，通过实时检测，将帧长加入帧池中，并统计各种帧长及出现的次数即权重。由于正常帧长占大多数，根据统计数据即可以判断哪些帧长是非法的，需要进行补时。补时时长同样可以通过统计数据获得最近的正常帧长进行补时。在丢帧严重的情况下，统计数据不能作为正常帧长的判断依据，通过设置告警域，在丢帧严重情况下，能够即时通知运营人员查看直播状态，发现直播异常，提升直播字幕质量。

图8 字幕补时算法-帧长权重动态监测示意图

通过丢帧补时实现音与字同步的同时，手语开始时间取自字幕的时间戳，自然就实现了手语的起始同步。

其次，字幕与手语同步方面，在长时间无有效字幕情况下，通过在字幕与手语侧加入心跳及空白帧保持手语侧工作状态与时间轴的同步。

应用篇

当前在电视直播、电商直播、短视频、游戏、远程教育、线上会议等业务场景中，手语字幕已有应用。例如《极限竞速：地平线5》开发团队Playground Games在2021年4月首次将手语字幕通过画中画方式加入到过长动画中；在2021年10月22日华为开发者大会的直播中，首次全程采用HMS Core团队的手语数智人进行手语直播，该数智人可以完成实时手语翻译，生成包括身体姿态、手部动作以及面部表情的手语。

图10 应用示意图

中国移动咪咕公司手语字幕，弥补行业此前在世界杯直播场景应用的空白，基于高准确率智能字幕驱动AI数智手语主播，实现AI字幕与AI数智手语主播联动的应用突破。卡塔尔世界杯期间，手语字幕在手机端、Pad端、Web等客户端多终端应用，扩大听障人士获取信息的范围，将无障碍理念传递到更多听力受损人群，平等共享美好生活。

展望篇

手语作为听障者参与现代社会生活的重要媒介，在手语翻译员稀缺、手语翻译质量得不到保障等背景下，手语字幕帮助听障人士打破了“无声的世界”,打通“信息无障碍”的桥梁，具有广阔的应用前景和社会经济价值。

随着物质生活水平的提高，我国听障人士的精神文化生活需求不断增长，亟待促进各种形式无障碍视听产品的均衡发展和数量提升。在AI数智手语主播研究方面，由于涉及多领域交叉、手语语料匮乏、语序复杂、翻译难等技术难题，未来仍面临着巨大挑战，需在语义的情感上继续深入探索，提高手语翻译的准确度和可接受度，以有爱科技，赋能科技向善，创造无障碍美好生活。

作者：徐嵩、周效军、相迎迎、陆彦良、王路路、吴熙、毕蕾

【参考文献】

[1]杨轶男.我国电视手语新闻节目的困境及突破创新[J].新闻传播,2022(08):100-101.

[2]王正胜,连淑红.中国手语翻译研究二十年述评[J].译苑新谭,2021,2(01):99-108.

[3]王继红.国内外手语翻译研究:历史与现状[J].上海翻译,2009(02):23-28.

卡塔尔世界杯科技系列往期回顾：

智能搜索助精彩赛事精准直达

继续阅读

阅读原文