人工智能、机器学习、神经网络和深度学习的发展历程（下）

Hello，这里是行上行下

我是隔壁壹脑云准时不拖更的袅袅~

随着AlphaGo落下最后一枚棋子，举世瞩目的人机围棋大战以4:1的比分落下帷幕，这也是人工智能史上里程碑式的事件。从此，神经网络与深度学习等技术不断涌入大众的视野之中，并对社会产生了极其深远的影响。

之前向大家介绍了人工智能和机器学习的发展历程，今天我们分享神经网络和深度学习这一段同样跌宕起伏且波澜壮阔的发展历程。

阅读链接：人工智能、机器学习、神经网络和深度学习的发展历程(上）

一、前言

在介绍神经网络和深度学习起源之前，首先介绍一下人类大脑是怎么工作的。1981年的诺贝尔医学奖，分发给了David Hubel、Torsten Wiesel和Poger Sperry。前两位的主要贡献是发现了人的视觉系统的信息处理是分级的。如下图所示，从视网膜（Retina）出发，经过低级的V1区提取边缘特征，到V2区形成基本形状或目标的局部，再到高层V4形成整个目标（如判定为一张人脸），以及到更高层的PFC（前额叶皮层）进行分类判断等。从视觉处理机制可以看出高层的特征是低层特征的组合，从低层到高层的特征表达越来越抽象和概念化。

这个发现激发了人们对于神经系统的进一步思考。大脑的工作过程是一个对接收信号不断迭代、不断抽象概念化的过程。例如，从原始信号摄入开始（瞳孔摄入像素），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定眼前物体的形状，比如是椭圆形），然后进一步抽象（大脑进一步判定该物体是一张人脸），最后识别人脸。这个过程其实和我们的常识是相吻合的，因为复杂的图形往往就是由一些基本结构组合而成的。同时还可以看出：大脑是一个深度架构，认知过程也是深度的。

而深度学习，恰恰就是通过组合低层特征形成更加抽象的高层特征（或属性类别）。例如，在计算机视觉领域，深度学习算法从原始图像去学习得到一个低层次表达，例如边缘检测器、小波滤波器等，然后在这些低层次表达的基础上，通过线性或者非线性组合，来获得一个高层次的表达。此外，不仅图像存在这个规律，声音也是类似的。

二、起源阶段

1943年，心理学家麦卡洛克和数学逻辑学家皮兹发表论文《神经活动中内在思想的逻辑演算》，提出了MP模型。MP模型是模仿神经元的结构和工作原理，构成出的一个基于神经网络的数学模型，本质上是一种“模拟人类大脑”的神经元模型。MP模型作为人工神经网络的起源，开创了人工神经网络的新时代，也奠定了神经网络模型的基础。当时提出MP模型是希望能够用计算机来模拟人的神经元反应的过程，该模型将神经元的工作过程简化为了三部分：输入信号线性加权，求和，非线性激活（阈值法）。如下图所示：

1945年冯·诺依曼领导的设计小组试制成功存储程序式电子计算机，标志着电子计算机时代的开始。1948年，他在研究工作中比较了人脑结构与存储程序式计算机的根本区别，提出了以简单神经元构成的再生自动机网络结构。但是，指令存储式计算机技术的发展非常迅速，迫使他放弃了神经网络研究的新途径，继续投身于指令存储式计算机技术的研究，并在此领域作出了巨大贡献。虽然，冯·诺依曼的名字是与普通计算机联系在一起的，但他也是人工神经网络研究的先驱之一。

1949年，加拿大著名心理学家唐纳德·赫布在论文《The organization of behavior》中提出了神经心理学理论。赫布认为神经网络的学习过程最终是发生在神经元之间的突出部位，突触的连接强度随着突触前后神经元的活动而变化，变化的量与两个神经元的活性之和成正比。然后在《行为的组织》中提出了一种基础无监督学习的规则—赫布学习规则（Hebb Rule）。赫布规则模仿人类认知世界的过程建立一种“网络模型”，该网络模型针对训练集进行大量的训练并提取训练集的统计特征，然后按照样本的相似程度进行分类，把相互之间联系密切的样本分为一类，这样就把样本分成了若干类。赫布规则与“条件反射”机理一致，为以后的神经网络学习算法奠定了基础，具有重大的历史意义。

20世纪50年代末，在MP模型和赫布学习规则的研究基础上，美国科学家罗森布拉特发现了一种类似于人类学习过程的算法—感知机学习。并于1958年，正式提出了由两层神经元组成的神经网络，称之为感知器（Perceptron）。感知器本质上是一种线性模型，可以对输入的训练集数据进行二分类，且能够在训练集中自动更新权值。感知器的提出引起了大量科学家对人工神经网络研究的兴趣，对神经网络的发展具有里程碑式的意义。

在1969年，马文·明斯基和西蒙·派珀特共同编写了一本书籍《感知器》，在书中他们证明了单层感知器无法解决线性不可分问题（例如：异或问题）。由于这个致命的缺陷以及没有及时推广感知器到多层神经网络中，在20世纪70年代，人工神经网络进入了第一个寒冬期，人们对神经网络的研究也停滞了将近20年。

三、发展阶段

真理的果实总是垂青于能够坚持研究的科学家。尽管人工神经网络ANN的研究陷入了前所未有的低谷，但仍有为数不多的学者致力于ANN的研究。

1982年，著名物理学家约翰·霍普菲尔德发明了Hopfield神经网络。Hopfield神经网络是一种结合存储系统和二元系统的循环神经网络。Hopfield网络也可以模拟人类的记忆，根据激活函数的选取不同，有连续型和离散型两种，分别用于优化计算和联想记忆。但由于容易陷入局部最小值的缺陷，该算法并未在当时引起很大的轰动。

1984年，辛顿与年轻学者谢诺夫斯基等合作提出了大规模并行网络学习机，并明确提出隐藏单元的概念，这种学习机后来被称为玻尔兹曼机（Boltzmann machine）。他们利用统计物理学的概念和方法，首次提出的多层网络的学习算法，称为玻尔兹曼机模型。

由神经网络之父杰弗里·辛顿在1986年发明了适用于多层感知器（MLP）的BP算法（BackPropagation），并采用了Sigmoid函数进行非线性映射，有效解决了非线性分类和学习的问题。BP算法引起了神经网络的第二次热潮，其在传统神经网络正向传播的基础上，增加了误差的反向传播过程。反向传播过程不断地调整神经元之间的权值和阈值，直到输出的误差达到减小到允许的范围之内，或达到预先设定的训练次数为止。BP算法完美的解决了非线性分类问题，让人工神经网络再次引起了人们广泛的关注。

1991年BP算法被指出存在梯度消失问题，也就是说在误差梯度后向传递的过程中，后层梯度以乘性方式叠加到前层，由于Sigmoid函数的饱和特性，后层梯度本来就小，误差梯度传到前层时几乎为0，因此无法对前层进行有效的学习，该问题直接阻碍了深度学习的进一步发展。

此外90年代中期，支持向量机算法诞生（SVM算法）等各种浅层机器学习模型被提出，SVM也是一种有监督的学习模型，应用于模式识别，分类以及回归分析等。支持向量机以统计学为基础，和神经网络有明显的差异，支持向量机等算法的提出再次阻碍了深度学习的发展。

四、崛起阶段

2006年，杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念。他们在世界顶级学术期刊《Science》发表的一篇文章中详细的给出了“梯度消失”问题的解决方案——通过无监督的学习方法逐层训练算法，再使用有监督的反向传播算法进行调优。该深度学习方法的提出，立即在学术圈引起了巨大的反响，斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇，至此开启了深度学习在学术界和工业界的浪潮。

2011年，ReLU激活函数被提出，该激活函数能够有效的抑制梯度消失问题。2011年以来，微软首次将DL应用在语音识别上，取得了重大突破。微软研究院和Google的语音识别研究人员先后采用深度神经网络DNN技术降低语音识别错误率至20％~30％，是语音识别领域十多年来最大的突破性进展。

2012年，DNN技术在图像识别领域取得惊人的效果，在ImageNet评测上将错误率从26％降低到15％。在这一年，DNN还被应用于制药公司的DrugeActivity预测问题，并获得世界最好成绩。2012年，在著名的ImageNet图像识别大赛中，杰弗里·辛顿课题组为了证明深度学习的潜力，首次参加ImageNet图像识别比赛，其通过构建的CNN网络AlexNet一举夺得冠军，且碾压第二名（SVM方法）的分类性能。也正是由于该比赛，CNN吸引到了众多研究者的注意。深度学习算法在世界大赛的脱颖而出，也再一次吸引了学术界和工业界对于深度学习领域的注意。

随着深度学习技术的不断进步以及数据处理能力的不断提升，2014年，Facebook基于深度学习技术的DeepFace项目，在人脸识别方面的准确率已经能达到97%以上，跟人类识别的准确率几乎没有差别。这样的结果也再一次证明了深度学习算法在图像识别方面的一骑绝尘。

2016年3月，由谷歌（Google）旗下DeepMind公司开发的AlphaGo(基于深度学习算法)与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜；2016年末2017年初，该程序在中国棋类网站上以“大师”（Master）为注册帐号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩。

2017年，基于强化学习算法的AlphaGo升级版AlphaGo Zero横空出世。其采用“从零开始”、“无师自通”的学习模式，以100:0的比分轻而易举打败了之前的AlphaGo。除了围棋，它还精通国际象棋等其它棋类游戏，可以说是真正的棋类“天才”。此外在这一年，深度学习的相关算法在医疗、金融、艺术、无人驾驶等多个领域均取得了显著的成果。所以，也有专家把2017年看作是深度学习甚至是人工智能发展最为突飞猛进的一年。