语音识别 AI 挑战赛上线：用深度学习三种结构，对 50 种环境声音分类！

点击上方“蓝字”关注“AI开发者”

此前，AI 研习社（https://god.yanxishe.com）陆续推出了医疗、美食、安全等多个领域的图像识别挑战赛以及 NLP 方向的挑战赛 30 余场。在这过程中，各位 AI 大神在各个挑战赛中不仅进一步提升了自己的编程实力，也为更多开发者留下了令人印象深刻、受益匪浅的作品。

据一些大神选手反馈，可以肯定的是比赛主题选取都很新颖且有实际意义，只是现在的他们已经不再满足于初级难度的挑战啦，并询问我们是否能够推出难度更高的比赛呢？

当然没问题！这不，难度再次升级的「50 种环境声音分类」的语音识别挑战赛，来了！

深度学习与语音识别

在目前大多数语音识别应用中，深度学习是较为常见的一种方法。它通过模仿人脑结构，建立起了一个深层神经网络；通过输入层输入数据，由低到高逐层提取特征，建立起低级特征到高级语义之间复杂的映射关系。

从而实现对输入的复杂数据的高效处理，使机器可以像人一样智能地学习不同的知识，并且有效地解决多类复杂的智能问题；例如：语音识别、图像视频识别、语言处理和信息检索等领域。

根据深层神经网络的构造方式、训练方法等因素，我们将深度学习分为了 3 大类别：生成深层结构、判别深层结构以及混合深层结构。

深度学习与语音识别

深层神经网络结构

一、生成深层结构

美国哲学家乔姆斯基将语言的结构分为「深层结构」和「表层结构」两种结构。语言按一定的短语规则和句子规则生成深层结构 (语义介入)，而深层结构经转换规则处理后变成表层结构 (语音介入)，于是转换为了人类看得见听得懂的话语。

而生成深层结构则是使得机器能够通过学习观测数据高阶相关性，或观测数据和关联类别之间的统计特征分布来实现模式分类，从而转换为机器可以识别语言的一类深层结构。

DBN 的组成元件是受限玻尔兹曼机（RBM）

生成深层结构的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任网络（Deep Belief Networks，DBN）。它由多层神经元构成，通过一层一层训练其神经元间的权重，可以让整个神经网络按照最大概率来生成训练数据。

此外，该模型除了可以使用 DBN 识别特征、分类数据之外，它还可以被用来生成数据。

参考文献：
《A Fast Learning Algorithm for Deep Belief Nets 》by Geoffrey E. Hinton and Simon Osindero.
https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527

二、判别深层结构

判别深层结构是通过直接学习不同类别之间的区分表达能力来实现模式分类的一类深层结构。其代表模型是卷积神经网络（Convolutional Neural Network，CNN）。

目前在语音识别方向，deep cnn 算是其中较为热门的方向，这和 CNN 的三个重要的思想架构，包括：局部区域感知、权重共享、空间或时间上的采样有着极强的关联。

CNN 模型

我们知道在通常情况下，语音识别都是基于时频分析后的语音谱完成的，而其中语音时频谱则具有较强的结构特点。而卷积神经网络恰好提供了在时间和空间上的平移不变性卷积，将这一思想应用到语音识别的声学建模中，则可以很好的克服语音信号本身的多样性。

从这一角度来看，CNN 可以视为将整个语音信号分析得到的时频谱，当作一张图像来处理，然后再采用图像中广泛应用的深层卷积网络对其进行识别。

参考文献：
《ImageNet Classiﬁcation with Deep Convolutional Neural Networks》by Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.
http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

三、混合深层结构

混合深层结构是将上述生成深层模型和判别生成模式相结合而成的一类深层结构。在大部分混合深层模型训练中，生成单元首先将模型参数初始化为近似最优解，再使用判别单元全局微调，从而解决高度复杂问题的建模与推广问题。

例如：使用连续受限玻尔兹曼机（continuous restricted Boltzmann machine，CRBM）代替 RBM 对连续数据建模；将传统 CNN 与贪心逐层无监督学习算法结合从而提高有标签数据稀少时特征提取器的训练性能；用预训练算法（CD 算法）提高 RBM 的训练效率；或是采用全局优化算法解决深层神经网络模型中收敛速度慢、易于过拟合等问题。

这一结构往往更加复杂，但最终取得的效果也更佳。曾有一些研究者在迁移学习的基础上，将深度学习和机械学习相结合、并可在前端嵌入式实现的算法，使得最终环境声音识别准确率达到 88％（比此前全球最佳算法提高了近 2 个百分点）。