深度学习基础

文章来自：https://leonardoaraujosantos.gitbooks.io 作者：Leonardo Araujo dos Santos

深度学习是机器学习的一个分支，是基于数据来学习表示数据的一组算法。下面我们列出最受欢迎的一些深度学习算法。

卷积神经网络
深度信念网络
自动编码器
递归神经网络（RNN / LSTM / GRU）
对抗生成网络（GAN）

深度学习的目的之一是他们将取代手工制作的特征提取。这个想法是，他们将从给定的数据中“学习”到所需的最佳特征。

层与层

深度学习模型由多层构成，在人工神经网络的情况下，具有2个以上隐藏层的多层感知器（MLP）已经是深度模型。

作为一个经验法则，深层模型有可能比浅层模型表现更好。但是，越深的神经网络你需要越多的数据来避免过拟合。

层类型

这里列出一些最常用的图层：

卷积层
最大/平均池化层
Dropout层
批量标准化层
全连接层
Relu，Tanh，Sigmoid层（非线性层）
Softmax，交叉熵，SVM，欧几里得（损失层）

避免过拟合（正则化）

除了获得更多的数据之外，还有一些技巧用于解决过度拟合问题，这里列出了一些最常见的技术：

Dropout
L2正则化
数据增强

Dropout

这是一种在训练期间随机关闭全连接层中一些神经元的技术。

Dropout迫使全连接层以不同的方式学习相同的概念。

L2正则化

最常见的正则化形式是L2正则化，L2正则化是给损失函数添加一个额外的惩罚项，这个惩罚项也就是我们正在优化的所有权重/参数的平方值。对于神经网络的每一个参数ω,我们加入一项0.5λω²到损失函数中去，λ表示正则化强度的参数，当我们反向传播计算导数时，我们只是用了0.5λ作为正则化的强度。由于使用这种正规化，非常高价值的权重受到严重惩罚。所以我们更倾向于使用一层的所有权重作为输入，而不是少数一些权重带替代。这种方法的效果比较好，因为我们的模型权重将被最大限度地利用，并且我们有更少未使用的权重。

除了L2正则化之外，还有L1正则化和Max Norm，但这里没有讨论，因为L2一般表现更好。

数据增强

通过对输入数据进行一些转换，可以合成新的训练样例。例如，进行图像翻转或随机移动RGB值。在2012年Imagenet竞赛期间，Alex Krizhevesky（Alexnet）使用了2048倍的因子进行数据增强，这意味着用于训练其模型的数据集实际上比开始时大2048倍，并且在不使用数据增强的情况下改进了泛化。

分层的特征表示

它是让学习算法找到从输入到更深层的最佳表示。

浅层学会用简单的形式表示数据，深层用前面学到的特征来学习更高纬度的特征来表示数据。

卷积

卷积是一种数学运算，它对两个函数（信号）乘积进行积分，其中一个信号是被翻转。例如下面我们对2个信号f（t）和g（t）进行卷积。

首先要做的是水平翻转（180度）信号g，然后将翻转后的g滑过f，对应相乘并累加所有的值。

conv（a，b）== conv（b，a）的结果是一样的，

在这种情况下，规定蓝色信号 F（τ）F（τ）是我们的输入信号和 G（t ）G（Ť）作为我们的卷积核，当使用卷积来过滤信号时使用术语卷积核。

输出一维信号

在一维卷积的情况下，输出尺寸计算如下：

outputSize=(InputSize−KernelSize)+1

卷积的应用

人们在以下用例中对信号处理使用卷积：

滤波器信号（1D音频，2D图像处理）
检查一个信号与另一个信号的相关程度
在信号中查找模式

在matlab和python(numpy)中的简单例子

下面我们将两个信号x =（0,1,2,3,4）与w =（1，-1,2）进行卷积。

手工操作

为了更好地理解卷积的概念，我们手工完成上面的例子。我们要卷积2个信号（x，w）。首先是水平翻转W（或向左旋转180度）

之后，我们将翻转的W滑过输入X.

注意到在步骤3,4,5中，翻转后的窗口完全位于输入信号的内部。称为“有效”卷积。在翻转窗口不完全位于输入窗口（X）内部的情况下，我们可以将其视为零，只计算位于窗口内的数据，例如在步骤1中，我们将1乘以零，其余部分将被忽略。

对输入进行填充

为了保持卷积结果大小与输入大小相同，并避免称为循环卷积的效应，我们用零填充信号。

你把零放在哪个位置取决于你想要做什么，例如：在1D的情况下，你可以在每一端连接它们，但在2D上它通常放置在原始信号周围。

在matlab上，你可以使用命令'padarray'来填充输入信号：

>> x

x(:,:,1) =

 1     1     0     2     0
2     2     2     2     1
0     0     0     2     1
2     2     2     2     1
2     0     2     2     1

x(:,:,2) =

 2     1     0     0     0
0     2     0     1     0
1     0     1     2     0
1     2     0     2     1
1     2     1     2     2

x(:,:,3) =

 2     1     1     2     2
1     1     1     0     0
2     0     1     0     2
0     2     0     2     1
0     0     2     1     0

>> padarray(x,[1 1])

ans(:,:,1) =

 0     0     0     0     0     0     0
0     1     1     0     2     0     0
0     2     2     2     2     1     0
0     0     0     0     2     1     0
0     2     2     2     2     1     0
0     2     0     2     2     1     0
0     0     0     0     0     0     0

ans(:,:,2) =

 0     0     0     0     0     0     0
0     2     1     0     0     0     0
0     0     2     0     1     0     0
0     1     0     1     2     0     0
0     1     2     0     2     1     0
0     1     2     1     2     2     0
0     0     0     0     0     0     0

ans(:,:,3) =

 0     0     0     0     0     0     0
0     2     1     1     2     2     0
0     1     1     1     0     0     0
0     2     0     1     0     2     0
0     0     2     0     2     1     0
0     0     0     2     1     0     0
0     0     0     0     0     0     0

将卷积转为计算图

将操作转化为计算图，更容易计算每个节点参数的偏导数，这里我们演示将之前的一维卷积转化为计算图，这也可以扩展到二维卷积。