传统的语音识别系统,是由声学模型、词典、语言模型构成的,而其中的语音模型和语言模型是分别训练的,而不同的语言也有不同的语言模型,比如英语和中文。

最近崛起的端到端的语音识别系统,从语音特征(输入端)到文字串(输出端)中间就只有一个神经网络模型,成为语音识别领域新的研究热点。
硅谷密探独家专访了Baidu Silicon Valley AI Lab总监Adam Coates,探讨了语音和语音识别的新动向。
传统的语音识别系统
(来源:wiki)
传统的语音识别需要把语音转换成语音特征向量,然后把这组向量通过机器学习,分类到各种音节上(根据语言模型),然后通过音节,还原出最大概率的语音原本要表达的单词,一般包括以下模块:
特征提取模块 (Feature Extraction):该模块的主要任务是从输入信号中提取特征,供声学模型处理。一般也包括了一些信号处理技术,尽可能降低环境噪声、说话人等因素对特征造成的影响,把语音变成向量。
声学模型 (Acoustic Model): 用于识别语音向量
发音词典 (Pronnuciation Dictionary):发音词典包含系统所能处理的词汇集及其发音。发音词典提供了声学模型与语言模型间的联系。
语言模型 (Language Model):语言模型对系统所针对的语言进行建模。
解码器 (Decoder):任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。
传统的语音识别中的语音模型和语言模型是分别训练的,缺点是不一定能够总体上提高识别率。
端到端的语音识别系统
(来源:吴恩达NIPS 2016演讲)
端到端学习的思路则非常简单:音频→学习算法→转录结果;
而现在,我们可以直接通过深度学习将语音直接对标到我们最终显示出来的文本。通过深度学习自己的特征学习功能来完成从特征提取到音节表达的整个过程。
在给定了足够的有标注的训练数据时(语音数据以及对应的文本数据),端到端的语音识别方法的效果会很好。
Deep Speech 2
Baidu Silicon Valley AI Lab研发了端到端的能够识别英文的语音识别系统Deep Speech,之后在此基础上研发了能识别中英文的Deep Speech 2,Deep Speech 2通过使用一个单一的学习算法就能准确识别英语和汉语。

Deep Speech 2这个大规模的深度学习系统需要丰富的标记训练数据。为训练英语模式,这个系统使用了11940小时含800万标注的语音片段,而普通话系统采用了9400小时含1100万话语标记的讲话语音。
Deep Speech 2这种端到终的深度学习,可以利用数据和计算的增加不断改善语音识别系统。由于该方法是高度通用的,它可以迅速地应用于新的语言。
Deep Speech 2能够识别方言
Deep Speech 2最早是用英语训练的,最早只能够识别英语,但由于Deep Speech 2是端到端的训练模式,Adam在硅谷密探的采访中表示,在这个系统建立之后,只需要用中文训练数据替代英文训练数据,在经过训练之后就有了强大的中文识别引擎,就能够很好的识别中文。
同样的道理,只要给Deep Speech 2足够多的方言训练数据,比如粤语,那么Deep Speech 2理论上也能够很好的识别粤语。
能解决中英混合问题
中英混合一度是一个很头疼的问题,在我们使用Siri的时候,必须要选好一个语言,如果设置成了中文就识别不了英文。
但在我们日常生活中,由于专业术语或者品牌名等原因,有时不得不中英混合。基于同样的原因,Deep Speech 2也能很好的解决中英混合这个问题,只要我们训练的数据里同样是中英夹杂。
Adam Coates在采访中表示有一个特别有意思的现象,我们发现很多中文语音识别里经常出现一个明星Angelababy,然后Deep Speech 2就立马变成英文。
看来Angelababy已经是国际影星!晓明哥的英语要加强啊...
Deep Speech 2的开发难度
Adam Coates表示Deep Speech 2开发过程中,第一大难点就是获得标记的数据。大家想象中百度应该有大量的数据,然而大部分我们日常APP使用中产生的数据都是没有标记的,比如我们发了一个语音,对应的中文文本我们往往没有提供,这些都是没有标记的数据,无法用于语音识别的训练。即使有一些标记的数据,我们也不能保证其准确性,而数据清理往往耗费更多的时间。

Deep Speech 2的开发过程,除了通过把会话片段标记出文字(transcript)作为训练数据,还使用了大量的朗读数据(就是提供文本,然后花钱请人朗读成音频)。虽然后者的质量不如前者,但是非常便宜,而且能够获得大量的数据。
Deep Speech 2这个大规模的深度学习系统需要丰富的标记训练数据,这个系统使用了11940小时含800万标注的英文语音片段,以及普通话系统采用9400小时含1100万话语标记的讲话语音。
除了训练数据的获取,建立这样一个高性能计算系统(HPC)也是一个很大的调整。Adam表示他们拥有一个团队致力于构建深度学习系统。当然也少不了喜闻乐见的调参过程。
Deep Speech 2未来的发展方向
Deep Speech 2已经从Deep Speech的8%的错误率提升到了5%,Deep Speech的下一个目标就是继续降低识别错误率,并且处理语音识别的各种极端情况,比如重噪以及交叉谈话等场景。
目前Deep Speech 2只是纯软件和算法层面,没有涉及到硬件相关的优化,在问到是否可以结合硬件来提升Deep Speech 2的性能时,Adam表示结合硬件有提升识别率的可能性,但目前AI Lab没有尝试。
Adam把语音识别的噪音环境分成两大类,一大类是有噪音但是人类能无干扰的听到目标声音,第二大类则是有噪音干扰下人耳都听不清目标声音,在第一类环境下通过软件和算法优化就有很大的提升空间,而第二类则可能需要硬件参与进来获得超越人类听力的能力。
语音是未来
在问道最看好未来的下一件大事时(next big thing),Adam表示非常看好语音的前景。
目前语音识别能力还有提升空间,虽然语义理解、自然语言处理等的进步还需要更多时间,但是语音识别加上非常简单的自然语言处理就能显著的改善我们的生活。
Adam举了一个例子,斯坦福和华盛顿大学等高校的研究表明,用语音输入代替键盘输入,能提升约3倍的效率。
Adam希望语音识别的持续进步,能够使得语音成为一个大家真正放心使用的交互方式。
号外:Adam Coates会作为演讲嘉宾参加AI Frontier大会,同台演讲的还有Google大神Jeff Dean,欢迎读者们点击原文链接报名参与,近距离接触来自各大公司的技术大牛,报名链接点击阅读原文打开,后台回复“人工智能”将获得150美元优惠,前20名有效。

长按二维码关注,随密探潜入硅谷
网站:www.svinsight.com
微博 & 知乎:硅谷密探
继续阅读
阅读原文