如何对人工智能下个大家都能公认的定义?这个问题近来又引发了诸多唇枪舌战。有的人再次搬出了“认知运算”、“机器智能”的说法;有的人甚至直接错把AI理解成了“机器学习”。
出现这样的问题,大概是因为AI本身并不是一项单一的科技,而是一个包含诸多学科的广阔领域。这其中包括机器人学、机器学习等等。但是说到AI的终极目标,大多人却都能达成一致:AI的目标是创造出像人一样,拥有认知功能、会执行任务的机器。为了实现这一目标,机器就不能完全依赖程序员从头到尾、一行一行地写代码,而是要掌握自主学习的能力。
人工智能在过去的十年里取得了令人叹为观止的进步。自动驾驶汽车、语音识别和语音合成就都是其进步的产物。在此背景之下,人工智能越来越多地成为了人们茶余饭后的谈资。
看起来,它已经不再是和当今生活差了20年之遥的未来技术,而是已经走进人们的生活中了。
与此同时,大众媒体几乎每天都在报道人工智能;技术巨头们也不甘落后,一个接一个地介绍他们的工智能战略。如今,当一些投资人和企业家已经摩拳擦掌、渴望从这个新领域挖掘价值的时候,大多数人还在绞尽脑汁思考究竟人工智能会带来些什么。此外,各国政府也正在努力应对自动化给社会带来的影响(奥巴马在其离职演讲中就提到了这点)。
考虑到AI对经济世界能有这样大的影响力,而与机器交互的人又对AI握有几乎全方位的掌控权,我们就非常有必要认真了解一下这个领域。当然,我们得基于数据和事实进行学习,决不能只是随意猜测。主观臆测是件很容易的事儿。有的人看了几篇科研文章、或者业界媒体的供稿就开始自行猜测;也有些人,受了思维试验、或者本身就带有推测性的论断的影响,也误入歧途。
为此,我写了这篇文章、向大家科普六个你需要要关注的领域。
我说的这些领域都可能对未来的数字产品数字服务产生重要的影响,因此颇值得一提。我将一一列举这六个方向,解释其重要性以及目前的应用场景。其中每一条的最后,我还附上了一个名单,列出了我极尽心血找出来的正在进行该领域研究的公司和研究机构。下面就让我们开始探索吧。
1. 强化学习
强化学习是一种通过试误法进行学习的方法,其最初是受人类自身学习方法的启发而产生的。一般在强化学习过程中,代理者会通过观察当前所处的数字环境来采取行动,使得长期奖励的结果最大化。每执行完一次动作,代理者都会收到来自环境的反馈信息,这样它就能判断这次动作带来的效果是积极的还是消极的。
在这个过程中,代理者需要在两种决策中进行权衡:是要继续遵循以往的最佳策略、达成基本目标就好呢?还是探索全新的策略、以期找到更优的解决方案?Google的DeepMind团队在Atari游戏和围棋对抗(没错,最近引起轰动的Alpha go就是一个例子)中都运用了强化学习的技术。强化学习也正是因此而火起来的。再举个现实中的例子:强化学习曾被Google用来提高其数据中心冷却系统的能源利用率,且节省成本高达40%。强化学习有一个非常重要的优势,即在模拟环境中,它能以低廉的代价生成大量训练数据。相比有监督的深度学习任务,这个优势非常明显,节省了一大笔人工标注数据的费用和精力。
AphaGo与柯杰的世纪大战
应用场景:
多个代理在各自的环境中通过共享模型学习、或者在同样的环境中以交互形式学习;在迷宫、城市道路及其他类似三维环境中,为自动驾驶充当导航;通过逆行增强学习,将观察到的行为重现出来(比如通过观察人类的行为,将人类的特征赋予电脑中的游戏角色)
主要研究人员:
Pieter Abbeel (OpenAI), David Silver, Nando de Freitas, Raia Hadsell (Google DeepMind), Carl Rasmussen (Cambridge), Rich Sutton (Alberta), John Shawe-Taylor (UCL) 等
技术公司代表:
Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba/Microsoft, NVIDIA, Mobileye等
2. 生成模型
不同于用来完成分类、回归任务的判别模型,生成模型从训练样本中学到的是一个概率分布。通过从高维的分布中采样,生成模型能输出与训练样本相似的新样本。这意味着什么呢?比如说,若生成模型的训练数据是脸部的图像集,那么训练后得到的模型也能输出类似于脸的合成图片。想了解更多细节的话,我推荐看一下Ian Goodfellow在2016年NIPS(神经信息处理系统大会)上的那篇精彩报告。他提出的生成对抗模型(GAN)在当下学术界非常火热,因为它给无监督学习提供了一种新的思路。
Ian Goodfellow
GAN结构用到了两个神经网络:一个是生成器,它负责将随机输入的噪声数据合成为新的内容(比如合成为一张图);另一个是判别器,负责学习真实的图片,并判断生成器生成的内容是否足够以假乱真。对抗训练可以被认为是一类游戏,生成器必须反复学习用随机噪音数据合成有意义的内容,直到判别器无法区分合成内容的真伪。这套框架正在被扩展应用到许多数据模式和任务中。
GAN的两个对抗方
应用场景:
模拟一个时间序列未来的发展(比如在强化学习中规划任务);超分辨率图像;从二维图像复原三维结构;小规模标注数据集的泛化;由仅一次输入生成多个正确的输出(比如预测视频的下一帧);生成自然语言的对话内容(比如让机器人像人一样说话);加密传输及数据解密;在标记不完整的情况下进行半监督学习;艺术风格迁移;语音和音乐合成;图像修复等;
主要研究人员:
Ian Goodfellow (OpenAI), Yann LeCun and Soumith Chintala (Facebook AI Research), Shakir Mohamed and Aäron van den Oord (Google DeepMind), Alyosha Efros (Berkeley) and many others.
技术公司代表:
Twitter Cortex, Adobe, Apple, Prisma, Jukedeck, Creative.ai, Gluru, Mapillary, Unbabel
3. 记忆网络
所谓“逆水行舟、不进则退”。为了让人工智能系统像人类一样能够适应各式各样的环境,就得让他们持续不断地学习新的任务。但同时,他们还得将学过的东西牢记于心、才能在未来的场景中实际应用。问题是,传统的神经网络很难保证在学习的同时不会遗忘。这项缺点被称作“灾难性遗忘”。灾难性遗忘之所以产生,是因为在不同任务中网络的权重会发生改变。具体来说,当一个神经网络针对A任务完成训练之后,若是再训练它解决B任务,则网络模型的权重值会发生变化、不再适用于任务A。
这个问题虽然不能完美解决,但也不是完全没有对策。目前,已经有人构造出了若干强大的网络结构,能够让模型具备不同程度的记忆能力。其中包括长短期记忆网络(一种递归神经网络),它可以处理和预测时间序列;DeepMind团队的微神经计算机则结合了神经网络和记忆系统,以便从复杂的数据结构中学习;还有弹性权重巩固算法,该算法会通过经验评价任务的重要性。重要的任务给予更多权重,同时放慢其学习进程;最后是渐进式神经网络。它能学习各个独立模型之间的侧向关联,从这些已有的网络模型中提取出有用的特征,用来完成新的任务。
应用场景:
训练能够适应新环境的代理者;机器人手臂;自动驾驶车辆;时间序列预测(如金融市场、视频预测、物联网);理解自然语言及预测下文。
技术公司代表:
Google DeepMind,
NNaisense, SwiftKey/Microsoft Research.
主要研究人员:
Alex Graves, Raia Hadsell, Koray Kavukcuoglu (Google DeepMind), Jürgen Schmidhuber (IDSAI), Geoffrey Hinton (Google Brain/Toronto)
4. 微数据、微模型
众所周知,深度学习模型都是需要积累大量的训练数据才能达到最佳表现水平。举个数字的例子,某支参加ImageNet挑战赛的团队,他们使用了120万张、分布于1000个类别的人工标注图像来做训练模型。离开了大规模的训练数据,深度学习模型就不会达成最优设定,也无法在语音识别、机器翻译等复杂的任务上取得好的效果。
Google的cloud speech API,可进行语音识别
数据量需求的增长往往发生在用单个神经网络模型处理端到端的情况下。比如输入原始的语音片段,要求输出转换后的文字内容。单一神经网络的工作模式,与多个网络协同工作、各处理一步中间任务是不同的(比如,原始语音输入→音素→词→文本输出)。如果在你的任务中,发现获取训练数据极为困难,或者成本过高、耗费经历太多,那么你就得培养出能基于更少数据产生最后解决方案的模型。当训练数据集较小时,过拟合、异常值干扰、训练集和测试集分布不一致等问题都会接踵而至,你就得一一解决。或者换一种方法,那就是将在其它任务上训练好的模型迁移到新的任务中,即所谓的迁移学习。
与微数据问题相关的,还有一个微模型问题。微模型问题探讨的是,如何用更少的模型参数建立更小的深度学习架构,而与此同时模型的效果却保持最佳。这种技术的优势包括:分布式训练过程更加高效了(因为训练过程中需要传输的参数减少了);把新模型从云端传输到边缘设备所需的带宽更少了;把模型部署在内存大小有限的嵌入式硬件上也更为方便了。
应用:
通过模拟已经经过大规模已标注训练数据集训练的深度网络模型,来训练浅层模型;构建效果与普通结构相当、但参数更少的模型结构(如SqueezeNet);机器翻译等
技术公司代表:
Geometric Intelligence/Uber, DeepScale.ai, Microsoft Research, Curious AI Company, Google, Bloomsbury AI
主要研究人员:
Zoubin Ghahramani (Cambridge), Yoshua Bengio (Montreal), Josh Tenenbaum (MIT), Brendan Lake (NYU), Oriol Vinyals (Google DeepMind), Sebastian Riedel (UCL)
5.学习/推理硬件
促进人工智能发展的催化剂之一就是图形处理器(GPU)的升级。不同于CPU的顺序执行模式,GPU支持大规模的并行架构、因此可以同时处理多个任务。鉴于神经网络必须用大规模(且高维度)的数据集训练,GPU的效率远高于CPU。这就是为什么自从2012年第一个GPU训练的神经网络模型——AlexNet公布之后,GPU就宛若成了的点石成金的金手指。NVIDIA在2017年继续领跑行业,领先于Intel、Qualcomm、AMD和后起之秀Google。
然而,GPU并非专为模型训练或预测而生,它原本是用于电子游戏的图像渲染的。在以往,GPU需求并不如当今这么大,这主要因为GPU的极高精度计算能力显得颇为冗余,况且它还存在内存带宽和数据吞吐量的问题。
但今时非往昔。人工智能的发展使得Google之类的大公司和许多小型初创公司都不得不将目光转向GPU——毕竟这可是高维机器学习任务用到的芯片,谁不想抢到这个市场呢?芯片设计的改进方向包括更大的内存带宽、用图计算代替向量计算(GPU)和矢量计算(CPU)、更高的计算密度、更低的能源消耗等。人们都对这些改进感到欢欣鼓舞,因为它们最终都能反哺到使用者身上,大概的流程如下:更快和更有效的模型训练→更好的用户体验→用户更多的使用产品→收集更大的数据集→通过优化模型提高产品的性能。因此,能更快速、高效地训练和部署模型的人,自然会占据显著的优势。
应用场景:
模型的快速训练(尤其是针对图表的模型);数据需求小、且低能耗的预测运算;在边缘设备上运行AI系统(比如物联网设备);持续监听物联网设备;基础云服务;自动驾驶车辆;无人机;机器人等
技术公司代表:
Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex
6. 仿真环境
正如我之前所说,为人工智能系统准备训练数据是极具挑战性的一件事儿。而且,要想让人工智能产生价值,就必须先让其适应现实生活。鉴于以上两点,我们可以通过开发数字环境来模拟真实的物理世界和行为,这样就能测试人工智能系统的适应性。模拟环境会给人工智能呈现最原始的像素,然后AI就会根据设定的目标而采取某些行动。通过模拟训练,我们可以了解人工智能系统的学习原理,然后想出办法来改进系统。最终我们也就获取了可以应用于真实环境的模型。
应用场景:
模拟驾驶;工业生产;游戏开发;智慧城市
技术公司代表:
Improbable, Unity 3D, Microsoft (Minecraft), Google DeepMind/Blizzard, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard
主要研究人员:
Andrea Vedaldi (Oxford)

后台回复“资源”即可下载海量免费学习资源
你可能错过了:
继续阅读
阅读原文