深度学习基础
![](http://static.careerengine.us/api/aov2/http%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_jpg_%7C_7fGU1ORT7bApY9Q2OicbXveduqbka2Wnexib45pXIciccmXy3rHESMQLfdkuPYQy2bE48cZrssHtpic7vic5cIa0Vyg_%7C_0%3Fwx_fmt%3Djpeg.jpg)
文章来自:https://leonardoaraujosantos.gitbooks.io
作者:Leonardo Araujo dos Santos
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKibwLYKjbAMiaVVJgvK3Rg5KaiaLZAk55YjZQPKDdyBvdXmicicF3Cr4jvwA_%7C_640%3Fwx_fmt%3Dpng.jpg)
深度学习是机器学习的一个分支,是基于数据来学习表示数据的一组算法。下面我们列出最受欢迎的一些深度学习算法。
- 卷积神经网络
- 深度信念网络
- 自动编码器
- 递归神经网络(RNN / LSTM / GRU)
- 对抗生成网络(GAN)
深度学习的目的之一是他们将取代手工制作的特征提取。这个想法是,他们将从给定的数据中“学习”到所需的最佳特征。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKTjTXnDicbcwQcJMWvESZhyCbASQLXM7aLJH9nEF8kLODic5rYDNGhTNQ_%7C_640%3Fwx_fmt%3Dpng.jpg)
层与层
深度学习模型由多层构成,在人工神经网络的情况下,具有2个以上隐藏层的多层感知器(MLP)已经是深度模型。
作为一个经验法则,深层模型有可能比浅层模型表现更好。但是,越深的神经网络你需要越多的数据来避免过拟合。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKNyEibdVnKHjmnndedLXg9ZoVicuODaY5haRHxRPgTmXdWGJfOwVbgDDw_%7C_640%3Fwx_fmt%3Dpng.jpg)
层类型
这里列出一些最常用的图层:
- 卷积层
- 最大/平均池化层
- Dropout层
- 批量标准化层
- 全连接层
- Relu,Tanh,Sigmoid层(非线性层)
- Softmax,交叉熵,SVM,欧几里得(损失层)
避免过拟合(正则化)
除了获得更多的数据之外,还有一些技巧用于解决过度拟合问题,这里列出了一些最常见的技术:
- Dropout
- L2正则化
- 数据增强
Dropout
这是一种在训练期间随机关闭全连接层中一些神经元的技术。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZK0RLeOUpgaMGiaYo3lx741Q6icRSa0NnKfmfSfVGVZwWZmgH5QdGGlSZg_%7C_640%3Fwx_fmt%3Dpng.jpg)
Dropout迫使全连接层以不同的方式学习相同的概念。
L2正则化
最常见的正则化形式是L2正则化,L2正则化是给损失函数添加一个额外的惩罚项,这个惩罚项也就是我们正在优化的所有权重/参数的平方值。对于神经网络的每一个参数ω,我们加入一项0.5λω²到损失函数中去,λ表示正则化强度的参数,当我们反向传播计算导数时,我们只是用了0.5λ作为正则化的强度。由于使用这种正规化,非常高价值的权重受到严重惩罚。所以我们更倾向于使用一层的所有权重作为输入,而不是少数一些权重带替代。这种方法的效果比较好,因为我们的模型权重将被最大限度地利用,并且我们有更少未使用的权重。
除了L2正则化之外,还有L1正则化和Max Norm,但这里没有讨论,因为L2一般表现更好。
数据增强
通过对输入数据进行一些转换,可以合成新的训练样例。例如,进行图像翻转或随机移动RGB值。在2012年Imagenet竞赛期间,Alex Krizhevesky(Alexnet)使用了2048倍的因子进行数据增强,这意味着用于训练其模型的数据集实际上比开始时大2048倍,并且在不使用数据增强的情况下改进了泛化。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKzThDZcd4TsrQWr41C9QExWm8EVyag7icpS1d27yeKIXCWNEDNER5Aiaw_%7C_640%3Fwx_fmt%3Dpng.jpg)
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKUvQsibNcODe5cJnCvNLG9hsib5vYbmuzl0knQNnh1IgFOwIoVN8n0Qrg_%7C_640%3Fwx_fmt%3Dpng.jpg)
分层的特征表示
它是让学习算法找到从输入到更深层的最佳表示。
浅层学会用简单的形式表示数据,深层用前面学到的特征来学习更高纬度的特征来表示数据。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKttBeIKO5aXQ8RfBjatacia9IRydNPGgHrx5Erc5Za76GEkDbTI4sAkQ_%7C_640%3Fwx_fmt%3Dpng.jpg)
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZK7klfJgj9BKUnpmcic2FBSaL7dtzgHGStaXGBAO0PXTnuLKiaU8v5BURw_%7C_640%3Fwx_fmt%3Dpng.jpg)
卷积
卷积是一种数学运算,它对两个函数(信号)乘积进行积分,其中一个信号是被翻转。例如下面我们对2个信号f(t)和g(t)进行卷积。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKbZL2bJqFib0Qr626Vht044XJrQQsStRY7hBiacl2HicHJ1gDKW4fPbq9w_%7C_640%3Fwx_fmt%3Dpng.jpg)
首先要做的是水平翻转(180度)信号g,然后将翻转后的g滑过f,对应相乘并累加所有的值。
conv(a,b)== conv(b,a)的结果是一样的,
在这种情况下,规定蓝色信号 F(τ)F(τ) 是我们的输入信号和 G(t )G(Ť) 作为我们的卷积核,当使用卷积来过滤信号时使用术语卷积核。
输出一维信号
在一维卷积的情况下,输出尺寸计算如下:
outputSize=(InputSize−KernelSize)+1
卷积的应用
人们在以下用例中对信号处理使用卷积:
- 滤波器信号(1D音频,2D图像处理)
- 检查一个信号与另一个信号的相关程度
- 在信号中查找模式
在matlab和python(numpy)中的简单例子
下面我们将两个信号x =(0,1,2,3,4)与w =(1,-1,2)进行卷积。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKz2eGlRGHuPrhib7Ciajbo2rRJ5ibJ4aY27K5q8Cyh5bNQ00Z2MCLxz8pg_%7C_640%3Fwx_fmt%3Dpng.jpg)
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKYeL6V6OmJXofM8ciahbLqnkx6gR8oiaXyX5yE4ibrLnWobGicAcHQ8VtyA_%7C_640%3Fwx_fmt%3Dpng.jpg)
手工操作
为了更好地理解卷积的概念,我们手工完成上面的例子。我们要卷积2个信号(x,w)。首先是水平翻转W(或向左旋转180度)
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKu0TIIVwTzRkCGAWkkoDNBLLtP4wwqXicYI3d7RB6rqn55CIVQh9Nt3g_%7C_640%3Fwx_fmt%3Dpng.jpg)
之后,我们将翻转的W滑过输入X.
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKskibCsRxdRZUdicJwZZeEJhF06CKSZiaVg6dfb4mHYnCWOUgxzsuibN21w_%7C_640%3Fwx_fmt%3Dpng.jpg)
注意到在步骤3,4,5中,翻转后的窗口完全位于输入信号的内部。称为“有效”卷积。在翻转窗口不完全位于输入窗口(X)内部的情况下,我们可以将其视为零,只计算位于窗口内的数据,例如在步骤1中,我们将1乘以零,其余部分将被忽略。
对输入进行填充
为了保持卷积结果大小与输入大小相同,并避免称为循环卷积的效应,我们用零填充信号。
你把零放在哪个位置取决于你想要做什么,例如:在1D的情况下,你可以在每一端连接它们,但在2D上它通常放置在原始信号周围。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKfZYprrqkYIHunaicJgWZmsmcUMRlhfPTZukHst7D7g8uQuK6Gtiar3rg_%7C_640%3Fwx_fmt%3Dpng.jpg)
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKUygzaRatTmbmY2OyYS0SXWpmGD6OX0lsvBib7qWxkOzeeic0RVIp6XNQ_%7C_640%3Fwx_fmt%3Dpng.jpg)
在matlab上,你可以使用命令'padarray'来填充输入信号:
>> x
x(:,:,1) =
1 1 0 2 0
2 2 2 2 1
0 0 0 2 1
2 2 2 2 1
2 0 2 2 1
x(:,:,2) =
2 1 0 0 0
0 2 0 1 0
1 0 1 2 0
1 2 0 2 1
1 2 1 2 2
x(:,:,3) =
2 1 1 2 2
1 1 1 0 0
2 0 1 0 2
0 2 0 2 1
0 0 2 1 0
>> padarray(x,[1 1])
ans(:,:,1) =
0 0 0 0 0 0 0
0 1 1 0 2 0 0
0 2 2 2 2 1 0
0 0 0 0 2 1 0
0 2 2 2 2 1 0
0 2 0 2 2 1 0
0 0 0 0 0 0 0
ans(:,:,2) =
0 0 0 0 0 0 0
0 2 1 0 0 0 0
0 0 2 0 1 0 0
0 1 0 1 2 0 0
0 1 2 0 2 1 0
0 1 2 1 2 2 0
0 0 0 0 0 0 0
ans(:,:,3) =
0 0 0 0 0 0 0
0 2 1 1 2 2 0
0 1 1 1 0 0 0
0 2 0 1 0 2 0
0 0 2 0 2 1 0
0 0 0 2 1 0 0
0 0 0 0 0 0 0
将卷积转为计算图
将操作转化为计算图,更容易计算每个节点参数的偏导数,这里我们演示将之前的一维卷积转化为计算图,这也可以扩展到二维卷积。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKxCAhjQ5j7qXMs1U6vbXgXwYVp7kvyaS5UVibIibQFiaKSwJ1EGD3ic6yuA_%7C_640%3Fwx_fmt%3Dpng.jpg)
计算图的创建是在翻转的内核完全插入被卷积的数据之前的。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKW3AWDXuDfibHPaq28Pfd42T9lSlHo3ud5XQ1ZBPMibHAcMORRydichB5w_%7C_640%3Fwx_fmt%3Dpng.jpg)
之后我们将使用这个图来推断卷积层的输入(x)和权重(w)的梯度。
2D卷积
现在我们延伸到第二个维度。2D卷积被用作图像滤波器。下面是一个2D图像卷积的例子:
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKFDYKib52mehEiabGH1ybL5rqmnSVffKBemQekxnia7yMzthTUdd7icViazA_%7C_640%3Fwx_fmt%3Dpng.jpg)
Matlab与Python示例
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKiah0sd4PcQMnhesRsL6HicaVVsyeuakR9RN4BiboqrdAbibknCR1G0oianw_%7C_640%3Fwx_fmt%3Dpng.jpg)
手工操作
首先,我们应该翻转内核,然后在输入信号上滑动内核。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKaHNzDb4Ovel9IsrcIia8SdWlM9sEVZYezwNz16L292rd12kcGPDeX9A_%7C_640%3Fwx_fmt%3Dpng.jpg)
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZK0zy2IPtHKXX4ApIEFucgeFHa7MlbfibibEbadrMuJiaWqvVNOMuPhya4A_%7C_640%3Fwx_fmt%3Dpng.jpg)
步长
默认情况下,当我们进行卷积运算时,我们的窗口每次移动一个像素(步幅= 1),但是在卷积神经网络中我们需要移动多个像素。例如,在使用大小为2的内核进行卷积时,我们将使用2的步幅。将步幅和内核大小都设置为2将导致输出沿着两个维度恰好为输入大小的一半。
观察红色内核窗口下方的移动远远多于一个像素。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKKATLzPvo739CDlEF2tlr8vEKw2vyLHDb2gicPVd3Ry910mj3H7TKy5A_%7C_640%3Fwx_fmt%3Dpng.jpg)
2D的输出尺寸
下面提供了一个公式计算我们卷积之后的输出尺寸 。
如果我们考虑将由P填充的空间大小[H,W]的输入与大小为F的方形核并使用步长S进行卷积,那么卷积的输出大小被定义为:
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKwAxZnwtAoJgc6DAxBVeWp3c9txwbv0gKcHvfgV4D4DO5reMWshAyQg_%7C_640%3Fwx_fmt%3Dpng.jpg)
F是内核的大小,通常我们使用方形内核,所以F既是内核的宽度又是高度。
实现卷积运算
下面的示例将对一个5x5x3的输入进行卷积,其中具有以下参数Stride=2,Pad=1,F=3(3x3内核)和K=2(两个滤波器)的conv层。
我们的输入有3个通道,所以需要3x3x3的内核权重。有2个过滤器(K = 2),所以最后会有2个输出。计算这两个输出的大小为:(5 - 3 + 2)/ 2 + 1 = 3。得到最终的尺寸(3x3x2)。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZKrF6l6icjxJ9vLeYLiaucicQqusjClBGjd8AH4LSgycLoNTY9S2juc3GUQ_%7C_640%3Fwx_fmt%3Dpng.jpg)
仔细看看这个例子,我们需要计算2个卷积,不要忘了给每个3x3x3滤波器(w0,w1)添加偏差。
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_png_%7C_iaTa8ut6HiawDW8F0NW9gcRy2rXecBO2ZK7lmdkZtOYMp0cALqr1S4WKYSAgp699iaSBicOtE2pzx9W4s01VXMvXZg_%7C_640%3Fwx_fmt%3Dpng.jpg)
推荐阅读
![](http://static.careerengine.us/api/aov2/https%3A_%7C__%7C_mmbiz.qpic.cn_%7C_mmbiz_jpg_%7C_7fGU1ORT7bAwHFfsiah1B2JkgUw4hp7ozJEGM4tfQo9EZnMCEGNOrC3dzXA1pc6dVpbdYsPv6mWLswgq4CyPUyw_%7C_640%3Fwx_fmt%3Djpeg.jpg)
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。