只用嘴唇动一动，AI就能合成语音，效果自然流畅看不出破绽

梅宁航发自凹非寺

量子位报道 | 公众号 QbitAI

光动嘴不用出声，AI自动给你

合成语音

。

这就是来自印度信息技术研究所（IIIT）的黑科技——一个名为Lip2Wav的AI程序。

Lip2Wav可以学习个体的说话方式，并且实现准确的唇语合成。

△示例

值得注意的是，Lip2Wav和B站那些机械风格的鬼畜调音不一样。

这个AI效果炸裂，你几乎感觉不到是机器配音，就像人类在发言一样。

真实效果可以参见他们发布在油管的视频。

毕竟涉及到语音效果，光看文字是感觉不完整的。

另外，不要用来做坏事哟。

这是怎么实现的？

目前工业界普遍使用的唇语到语音/文本的数据集有两种。

一种是小规模的、受约束的词汇数据集，如GRID和TCD-TIMIT数据集，还有一种是无约束、开源的多人词汇数据集，如LRS2、LRW和LRS3数据集。

这些数据集前者存在数量不足，不足以模拟真实环境的问题，后者问题在于适用对象过于宽泛，个性化特征不够鲜明。

基于上述问题，作者提出新的思路，步骤如下：

1、准备数据。

准备针对个人的语音、视频大量数据，这是Lip2Wav的第一个显著特点，增加数据量来增强模型的拟合效果。

△5个演讲者

作者为Lip2Wav准备的数据集包含了5位演讲者的演说视频，这些视频包括国际象棋分析、化学课程、深度学习课程等类型。

每个演讲者都有大约20个小时的YouTube视频内容，作者使用了5个人、共计100+小时的数据，跨越5000+的丰富词汇量，基本涵盖日常英语词汇。

2、面部识别中得到唇部动作编码。

在整理好数据后，作者的思路是学习精确的个体说话风格，换言之追求对个体风格的极致模拟，而非普遍适用的通用模型。

△训练流程

这个示例针对的是国际象棋分析，训练AI去分析演讲者的面部表情动作，并进行特征编码。

当然，作者没有重复造轮子，而是利用face_alignment模型上二次开发，修改为一次分批提取人脸。

face_alignment模型对3D人脸识别效果良好，在GitHub有3.9k Star。

△face_alignment模型对人脸进行3D建模

3、使用LSTM根据唇部动作进行文字生成。

在得到人脸特征后，研究者要做的是把唇部动作和语音文字结合起来。

△训练示例

在数轮3D卷积神经网络训练后，研究者使用LSTM进行文字生成，以期匹配先前的唇语动作。

4、评估结果。

在得到训练结果后，研究者使用另外两份数据集进行验证，检测Lip2Wav模型的泛化能力。

他们使用了GRID和TCD-TIMIT数据集，其中的WER列为错误率❌的衡量参数。

根据比较结果，和现有模型相比，Lip2Wav模型得分最低，效果最好。

而更有创意的是，研究者为弥补他们数据集过于针对个人风格的特点，还设计了人类评估的步骤。

让人类志愿者进行客观评估。

他们要求志愿者手动识别并报告A，错误发音的百分比，B，单词跳字的百分比（单词跳读是指由于噪声或语调不清而完全无法理解的单词数量。），以及C，同音字的百分比。

△人类客观评估平均数

上图是从Lip2Wav数据集中的每个演讲者的未读测试分词中选取10个预测的结果。

个人风格过强的问题

作者发布之后，引起Reddit的热议。

但吃瓜群众的疑问在于，他们的模型是否能够针对普通人进行语音合成。

没想到模型作者现身说法，明确表示暂时还不行，只有针对训练的特定个人才能有效拟合数据。

而作者还在评论区回应，他们未来会增加视频字幕生成的能力，类似于YouTube的字幕生成功能，期待项目的进一步发展。

要不要动手试试~

参考链接：
https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be
https://arxiv.org/pdf/2005.08209.pdf
http://cvit.iiit.ac.in/research/projects/cvit-projects/speaking-by-observing-lip-movements#
https://github.com/Rudrabha/Lip2Wav

— 完 —

特惠福利 | 一站式音视频解决方案

想赶上直播电商、在线教育、小程序直播的风口？腾讯云音视频解决方案为您助力!

腾讯云推出9.9元产品体验包，包括云点播、云直播、实时音视频，总有一款适合你。识别二维码即可体验：

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

继续阅读

阅读原文

关键词

数据集

模型

结果

问题

作者