杀人蜂教授能否拯救人类？——不知道他这篇演讲就不配讨论人工智能

导读

英剧《黑镜》第3季第6集 “全民公敌” 讲述了蜜蜂灭绝后人类发明机械人造蜜蜂以维持生态平衡，结果黑客破解控制系统导致每只蜜蜂都成了杀人武器，成群结队地攻击人类的故事。

没想到短短一年这项恐怖科技已经成真，在日内瓦举办的联合国特定常规武器公约会议上，伯克利大学教授、资深AI研究者Stuart Russell就向超过70个国家的代表曝光了人类史上恐怖武器——杀人蜂的视频。视频中一群机器杀人蜂通过人脸定位瞬间杀死了正在上课的一众学生，场面极其血腥。虽然视频内容纯属虚构，但罗素教授在视频结尾警告：这项科技已经存在，杀手机器人是人类微型智能化技术的集大成者。

人工智能的发展最终会使人类走向自我毁灭吗？人类将如何应对人工智能的潜在风险？罗素教授的演讲将引导我们直面人类的忧虑，剖析人工智能的潜在威胁，并介绍科学家们目前正在进行的关于“有益人工智能”的相关研究。

本文为全球知识雷锋第51篇讲座，

本次讲座译自斯图尔特.罗素（Stuart Russell）教授在2017年1月加利福尼亚州阿西洛马尔举行的‘有益人工智能会议’上发表的题为《可证明的有益人工智能》的演讲。来自世界各地的人工智能、经济学、法学、哲学、心理学、物理学等领域的科学家参加了该会议。在为期2.5天的会议上，科学家们列出了23条阿西洛马尔原则（附文末），该原则获得了超过1000名人工智能研究人员的联名支持。本文由英国兰开斯特大学社会心理学硕士钟蕙心整理，特别感谢斯图尔特.罗素教授本人对本文首稿（英文）逐字逐句的审阅修订，以及对推荐阅读的增补。感谢清华大学生物工程系Dr. Jing Chen, Dr. Andrew为神经科学实验部分的解释提供的帮助。

主讲人：斯图尔特.罗素（Stuart Russell）

斯图尔特.罗素（Stuart Russell）1982年获得牛津大学物理学士学位，1986年获得斯坦福大学计算机科学博士学位。他是加州大学伯克利分校电子工程和计算机科学系教授及前主席。同时也是史密斯-扎德工程主席。他还曾担任加州大学旧金山分校神经外科副教授和世界经济论坛人工智能与机器人理事会副主席。

罗素获美国国家科学基金会总统青年研究者奖、国际人工智能联合会计算机与思想奖、世界技术奖(政策类)、美国统计协会和国际贝叶斯分析学会米切尔奖、ACM卡尔斯特罗姆杰出教育家奖和AAAI / EAAI杰出教育家奖。1998年，他在斯坦福大学举办福赛思纪念讲座，2012年至2014年，他在巴黎担任布莱斯帕斯卡尔主席。他是美国人工智能协会、计算机机械协会和美国科学进步协会的成员。

他的研究涉及人工智能领域的广泛课题，包括机器学习、概率推理、知识表征、规划、实时决策、多目标跟踪、计算机视觉、计算生理学、全球地震监测和哲学基础。他的著作包括《在类比和归纳中使用知识》、《做正确的事:有限理性的研究》(与埃里克·韦瓦尔德合著)和《人工智能:一种现代方法》(与彼得·诺维格合著)。他目前关切的问题包括自动化武器的威胁、人工智能的长期未来及其与人类的关系。

记录者：钟蕙心

英国兰开斯特大学社会心理学硕士。曾赴以色列学习语音情绪识别，后参与语音疾病诊断，中国人群语音情绪识别等科研项目，并发表相关论文。目前感兴趣AI的道德决策及安全问题。欢迎学术交流与探讨。E-mail: [email protected]

文章全长8107字，阅读完需要10分钟

正文

为什么如此强大的技术会令人类感到恐惧？

我想谈谈这一点：人类可能的终结。这是一个非常可怕的描述方式。(幸好记者们不在这里。至少如果他们在这里他们必须保持安静。)那么，为什么？为什么人们谈论这个？采用一种具有各种有益用途的技术并使它变得更好到底有什么错？到底有什么问题？你可以回到刚才的一个演讲:“如果一台机器能思考，而且它可能比我们想得更聪明，那么我们应该在哪儿？即使我们可以让机器处于从属地位，比如，通过关闭电源……(我已经强调了关闭电源，因为我们稍后会得到这个答案。) ……在一个战略性时刻，我们应该作为一个物种感到非常卑微。这种新的危险肯定会使我们感到焦虑。” 所以，这实际上是艾伦·图灵1951年在我们现在叫做BBC第三电台发表的演讲。

艾伦·图灵1951年演讲

所以，这是一个非常早期的恐惧。对吧？没有真正地说明为什么这可能是一个问题；只是这种普遍的不安，创造出一些比你更聪明的东西，使得你的物种变得卑微。

大猩猩——他们在这里开会讨论这个问题，这是他们的会议版本！

猩猩们正在开会讨论

他们正在讨论这个问题，他们说:“是的，你说得对，你知道我们的祖先在几百万年前创造了这些人类，你知道我们当时有过这些早期的恐惧，结果证明是真的：我们的物种是卑微的。”

但我们实际上可以比这更具体。所以，这里引用另一句话:“如果我们使用机械代理来实现我们的目的，而我们不能有效地干预它的运作，我们最好确定我们给机器设定的目的就是我们真正希望达到的目的。"

你告诉机器一个目标让它去执行，但为什么结果却不是你想要的？

这里有一个更具体的原因来解释为什么会出现这个问题:“你设定一些目标，然后机器会执行它，结果不是正确的。” 这是1960年诺伯特·维纳（Norbert Wiener）的一篇论文，实际上是为了回应阿瑟·塞缪尔（Arthur Samuel）的工作而写的，他的‘西洋跳棋博弈’程序比他更擅长下棋。但这同样也是2500年前迈达斯国王所谈论的问题，他意识到当你得到你想要的东西时，它往往不是你真正想要的，却已经为时已晚。因此，这有时被称为价值错位（value misalignment）问题:人工智能系统将很好地实现一个目标，而这个目标最终并不是我们真正想要的。所以，你可以说“好的，好的，好吧，让我们看看我们已知的关于如何设计目标以避免这个问题的一切。” 可惜，你发现真的没有太多可说的了。但所有这些领域都基于这种优化目标的思想——不仅仅是人工智能，还有经济学、统计学、运筹学、控制论，它们都有同样的问题。他们假设目标只是别人带到游戏里来的东西，而游戏本身就是我们自己要去优化目标。我同意经济学家们肯定已经注意到，利润和GDP这些都是官方目标，并不总是我们真正想要优化的东西；但是他们还没有真正弄清楚该用什么样的目标去替代这些目标。

Steve Omohundro和其他人指出了另一个问题，那就是无论你给一台机器设定什么目标，机器都需要处于激活状态才能实现目标。所以，比如说这个会议上有些外卖，但如果你死了，你就拿不到咖啡。对吧？所以，如果你让机器去取咖啡，保持激活状态是获取咖啡的一个次级目标，如果你在试图获取咖啡时干扰了机器，它会阻止你的干扰。如果你试图关掉它，它会采取对策避免被关掉，因为它的目标是得到咖啡。所以，如果你把这个和价值错位结合起来，那么现在你有了一个系统，它设定了一个你不喜欢的目标，因为你认为这个目标是错误的，那么它就会采取自我防御防止你关掉它或干扰它正在做的事情。换句话说，你会发现科幻小说中提到的问题。它不是一种当机器觉醒之后会憎恨人类的自发的邪恶意识，这只是一种非常非常强大的技术与各种不幸的境遇形成的耦合。

超级人工智能带来的威胁是否纯属无稽之谈？

很多人都说:“好吧，你知道的，你说的这些都是垃圾，对吧？你说的一切完全是无稽之谈。”这实际上是第一反应之一。有很多这样的反应。我写了一篇论文，列出了大概15个这样的反应（详见推荐阅读第三篇），我认为它们都是一些没经过思考的防御性的、膝跳反射式的反应。所以，比如，你会发现AI社区的人已经说了60年了，“当然，不管哲学界的那些怀疑论者怎么说，我们最终都会拥有人类水平的人工智能。还有那些自己都不知道自己在说什么的人也在讲；当然，我们会拥有人类水平的人工智能。”当你指出这就是问题所在时，他们又会说:“当然，我们永远不会拥有人类水平的人工智能。"

但我只想指出，在历史上曾有过其它强大的技术被认为是不可能的情况。这就是著名物理学家欧内斯特·卢瑟福德（Ernest Rutherford）。1933年9月11日，他在莱斯特向英国科学进步协会发表演讲，他说，从本质上讲，我们永远不可能从原子中提取能量。他们知道能量在那里；他们能计算出多少；但是他们说，“我们永远不可能把它弄出来。” 甚至爱因斯坦也极其怀疑我们能否从原子中提取出任何东西。然后第二天早上，李奥·西拉德（Leo Szilard）在《泰晤士报》上读到了这篇演讲，然后他出去散步就发明了中子引发的核连锁反应。你看，在人类历史上，只有屈指可数的几个巨大的技术进步，而这一个才只花了16个小时。也许我们现在谈论的AI就是第五个或者第六个这样的技术进步——断言它永远都不会发生，并且非常自信我们因此无需采取任何看起来似乎有点鲁莽的防御措施。

好吧，还有很多其他的争论，我不打算一一讨论。我就把它们梳理一下。我确实想提下最后一个，这是一个非常有害的争论；它说，“不要提及风险，这可能不利于融资。” 因此，近年来我很少看到人们提及风险。如果你看看50年代和60年代核能的状况就会发现，当他们试图获得核能的认可时，就会尽力淡化有可能的风险。他们说:“这是完全安全的，这将使得电费大幅下降甚至可以免费，没有污染，不可能有任何事故。” 这导致人们对风险缺乏关注，从而导致切尔诺贝利，进而摧毁整个核工业。因此，历史表明，情况正好相反：如果你隐瞒风险，你将摧毁技术进步，因为那样风险就会发生。

我们如何防止灾难并且创造有益于人类的人工智能？

好吧，我希望你现在已经被说服，并开始认为我们的确面临着问题！那么，我们该怎么办呢？那是另一件事：我们该怎么办？所以，我现在要谈的是在伯克利一个新的 “与人兼容的人工智能中心”正在进行的工作，这个中心是由开放式慈善项目资助的。我们基本上要做的是改变我们对人工智能的看法，摆脱纯智能的概念，纯粹的优化器可以接受你喜欢的任何目标，但只是优化它。我们希望看到一种更全面的系统，它在某种意义上保证对用户有益。当然，还有很多其他的工作在刚建成的其它中心展开，不过我没有足够的时间去谈这个；此外，一些专业协会以及投资机构和产业界也开始对这些问题产生兴趣。那么，中心的工作基于三个简单的想法。首先，机器人的唯一目标应该是最大限度地实现人的价值。第二点是机器人不知道这些价值是什么，但它的目标是这样做。因此，这两点结合起来，实际上对我们设计人工智能系统的方式和它们所具有的特性产生了重大影响。所以，很明显，如果机器人不知道人类的价值是什么，也从来没有发现它们是什么，那么它对我们来说就不会很有用。

中心工作的三原则

（第三，）机器必须有一些学习的手段；人类价值观的最佳信息来源是人类行为。这是经济学中的一个标准概念，一个长期有效的概念——我们的行为揭示了我们的偏好。这样导致的价值校准过程使得人类价值和行为结果一致。约书亚（Joshua）在他的一张幻灯片上提到了一个有20年历史的相当古老的概念——反向强化学习，也就是双重的强化学习（RL，注1）。因此，在强化学习中，我们提供一个奖赏信号，系统必须弄清楚如何执行。在反向强化学习中，我们提供了行为——换句话说，机器看到了我们的行为，并且必须弄清楚什么是通过这种行为优化的奖赏函数（reward function）。在经济学中，这被称为“MDPs的结构性估计”，有点拗口；在控制理论中，它是“逆向最优控制”。因此，这显然是一个在几个学科中独立出现的概念，直到现在发展的相当先进的一个理论——大量的论文证明，这种技术可以成功地学习许多不同类型的行为。但是，这不是我们想要的。首先，我们不希望机器人学习我们的价值函数（value function）并采用它。所以，如果机器人看到我喝咖啡，我不希望机器人想喝咖啡，因为这不是我们想要的。我们希望机器人知道我想要咖啡，并设定一个目标，让它给我咖啡或者其它的什么。

注1：RL(reinforcement learning) 强化学习：是一种重要的机器学习方法，它受到行为主义心理学的启发，关注软件代理应该如何在一个环境中采取行动，从而最大限度地提高一些累积奖励的概念。由于该问题的普遍性，在博弈论、控制理论、运筹学、信息论、基于仿真的优化、多智能体系统、群体智能、统计学和遗传算法等学科中都有研究。在运筹学和控制文献中，强化学习被称为近似动态规划，这种方法已经在最优控制理论中进行了研究，尽管大多数研究涉及最优解的存在性及其表征，而不是学习或近似。在经济学和博弈论中，强化学习可以用来解释如何在有限理性下产生均衡。（维基百科）

因此，在此基础上做一个简单的拓展，那就是协同反向强化学习，这是个双人游戏。一般来说，会有许多人和许多机器人，但我们将从一个人和一个机器人开始。人在某种意义上知道自己的价值函数，但只存在于在他们可以大致按照这个标准去行事的时候；这并不意味着他们可以解释它并把它写下来交给机器人。但是他们的价值函数和行为之间有一定的联系。机器人不知道什么是价值函数；但正如我前面所说，它的目标是最大限度地发挥人的价值功能。所以，当你写下这个游戏的简单例子时，你可以用数学方法来解决它。

协同反强化学习

你可以看看系统在玩这个游戏时的表现如何，如你所愿，会有一些不错的事情发生。机器人现在有了提出问题的动机，它不只是做它认为最好的事情。它可以问，“这是个好主意吗？”它可以问，“我可以做这两件事中的哪一件？” 人类现也有动机来教导机器人，因为通过教导机器人，机器人将变得更有用。因此，双方的行为都在游戏中发生了很大的变化。那么，我想带大家来看一下这个游戏的一个特殊实例，我们称之为关闭开关问题。关闭开关问题是基于工具性目标的争论而产生的，那就是——如果你死了就不能拿咖啡。关闭机器人的任何尝试都将导致机器人采取对策。这似乎是一个几乎对任何目标都不可避免的问题。很难想到一个目标，在你死后能比你死之前更好地实现。所以，这是一个根本问题。而图灵关于我们可以关掉超级智能机器的假设就好像是在说：“好吧，你知道，如果你担心输给深蓝，那就把棋下好一点。” 对，没那么容易。但有一个答案，那就是机器人不应该被赋予一个特定的目标。我们希望机器在它知道自己并不了解真正目标的基础上顺从我们。然后它一心一意地追求目标和防止干扰的自卫行为就将彻底消失。

关闭开关问题

那么，如果人类要关掉机器人，它为什么要这样做呢？原因是机器人在做人类不喜欢的事情。当然，机器人希望自己的所作所为是人类所喜欢的，但它承认有可能是错误的。因此，如果人要关闭机器人，机器人从某种意义上了解到，它目前的做法是不可取的，因此关闭机器人对其实现目标更有帮助，即优化人的价值函数。所以现在机器人实际上有一个积极的动机，允许自己被关闭。然而，它没有积极的动机去关闭自己。所以，它不会自杀，但它会让人类关掉它。这是一个非负信息期望值定理的一个非常直接的类比。从某种意义上说，人类关闭机器人的行为是一种信息形式，机器人欢迎这种情况的发生。

因此，这实际上引发了我们对于如何创造人工智能的重新思考。这表明目标的不确定性是相当重要的。尽管自80年代初以来，人们对人工智能其他领域的不确定性进行了深入研究，但这种不确定性一直被忽视。目标的不确定性几乎被完全忽视的原因之一是：在决策问题的标准公式、马尔可夫决策过程等方面，目标的不确定性实际上可以被证实是不相关的。因为你试图优化预期的奖赏，如果奖赏存在不确定性，那么你可以简单地整合不确定性，你的行为就将像你知道该奖赏的期望值完全一样。但是这个定理只在环境中不包含关于奖赏信息时成立。所以，只要环境能提供更多的信息，那么这个定理就无效了。很明显，如果你关心的是人的价值函数，而且有个人在你的环境中采取行动，那么这些行动就提供了关于奖赏函数的信息。

目标的不确定性

一种特殊的行为是提供奖赏信号。因此，强化学习可以通过人类提供奖赏信号来进行。现在我们来看一下奖赏信号的历史。这里是众所周知的“wireheading”实验（注2）。例如，如果你把直接通过化学物质或电刺激来提供奖赏信号的能力赋予老鼠，那么老鼠实际上会规避它的日常行为，它实际上会饿死自己。即使它饿得要死，也不会去吃东西。所以，一个人实际上也会有同样的行为。这些是20世纪50年代一些非常有趣的实验。

注2：wireheading 实验：通常是通过用电流直接刺激个体大脑的奖励或愉悦中心来刺激大脑的快感。它也可以用于更广泛的意义上，指的是通过直接最大化一种美好的感觉来产生一种假冒效用的方法，Wireheading 实验是19世纪50年代由Dr.Robert G. 首先在病人身上尝试的，后来一种新的被用在小鼠身上的实验方法成为了这一试验发展的关键，它们将电极植入小鼠的头部，小鼠通过自己触碰开关以获得电刺激带来的快感，实验发现哪怕是在极度饥饿状态下也不能使小鼠停止反复触碰开关以获得刺激快感的行为。

奖赏信号

因此，在任何真实的情况下（不像强化学习的数学模型那样，奖赏信号被详尽无疑地提供，就像是由上帝提供的），在现实世界中，某种东西必须提供奖赏信号。如果你提供奖赏信号，你就是环境的一部分。那么现在强化学习代理将劫持奖赏生成机制（你），并强迫你提供最大化的奖赏。然而这实际上只是一个错误导致的结果。有趣的是，从这个不同的角度来看——从协同反向强化学习的角度来看——我们意识到强化学习的标准公式是错误的。给予代理的信号不是奖赏本身；而是关于奖赏的信息。如果你只是改变数学公式来定义它，那么劫持就变得毫无意义了，因为如果你劫持了一些提供信息的东西，你所做的就是获取更少的信息。你得不到更多的奖赏，你得到的信息更少，因此我们可以通过将强化学习重构为基于信息的信号而不是基于奖赏的信号来避免“wireheading”。

因此，这导致了我们在研究中心采用的一种通用方法:我们定义一个形式问题F，我们要做的是构建一个代理，它能以数学设计方式来解决F问题。然后我们想弄明白，“那些代理的行为能让我们高兴吗？"

可证明的有益人工智能

因此，我们并不是在试图解决其他人正在构建的AGI (通用人工智能，注3)的问题，然后我们将设法防御它。这不是正确的想法。正确的思考方式是找到一个正式的问题并构建解决它的代理模式。它们可以任意地解决问题，它们可以要多聪明有多聪明，但它们只是在解决问题。然后，证明人类将受益于拥有这样一台机器。

注3：AGI：Artificial general intelligence：一种可以表达人类的任何活动的人工智能体。也被称为“强AI”（Gubrud,1997）。该定义出自：Gubrud, Mark (November 1997), "Nanotechnology and International Security", Fifth Foresight Conference on Molecular Nanotechnology, retrieved 7 May 2011

好吧，这是一个困难的问题，但是在我们的历史上有很多关于人类行为的信息。我们写下的一切都是人类行为的记录。因此，有大量我们并未真正使用的数据可以用来了解人类的价值体系。所以这是很好的。这里面也有很强的经济激励措施来矫正它。例如，Google发现，如果你写下你的价值函数，然后你说把一种类型的对象错误分类为另一种类型的对象所花费的成本对于每种类型的对象都是相同的，那么，价值函数将是错误的，你就会损失很多名誉。你还可以想象，几年后，对人类价值函数的理解错误将会引起业内对于这种错误的强烈反对。所以，即使在我们达到拥有超人类人工智能的阶段之前，建立正确的价值体系的内在动力也是很强的。

这里也有一些令我们悲观的理由，我总是把这些原因转化为努力工作的动力。其中一个原因是人类非常复杂，他们不仅仅是简单的优化者。它们是非常复杂的系统，每个人都各有不同，他们当中的有些也不是你想学习的榜样，等等。这些问题就是我们需要从社会科学中得到帮助的问题；这些问题使得事情变得更加困难，但也更加有趣。

革命尚未成功，同志仍需努力

因此，我建议我们致力于实际项目；我们不能简单地推测GIS(地理信息系统)可能是什么样子，写一些有趣但最终无法实现的想法来控制它们；我们要寻找在真实的系统当中研究实际项目。我认为，在我们的研究中心内部，我们可能会从个人助理入手，其他人可能会从智能家居等入手，在这些地方，显然会存在一些问题，而且有激励措施来尽早改善问题。如果有模拟环境那是很好的，实际上可以模拟真实的灾难现场。这样，我们就能对他们有更多的了解。这将有助于我们了解我们有可能会出现什么样的错误，以及如何来解决可能发生的问题。

实际的项目

问题不应被忽视，有益的人工智能期待更多社会科学领域学者的加入

总之，我们真正的目标是改变人工智能定义自己的方式。因此，我们不应该再像土木工程师谈论建造不会倒塌的桥梁一样来谈论人工智能或有益的人工智能。不会坍塌只是桥的定义的一部分。它是安全的，是有益的也应该只是人工智能的一部分定义。人工智能安全社区也不应该成为一个困扰着真实AI社区的独立社区。这应该是人工智能社区在本质上和正常业务过程中所做的。

我们希望社会科学家参与进来。我们希望更多地了解真实的人类价值体系，因为它确实很重要。我们建造人工智能不是为了造福细菌，我们做人工智能是为了造福我们。希望这会让我们变得更好：我们将更多地了解我们的价值体系是什么，或者可以通过使它们（人类价值体系）更加明确来了解它们。所以也可以说，我们会更容易变好。

因此，韦纳（Weiner）——回溯到他1960年的论文，也回到演讲前半部分略显阴郁的色彩：

韦纳（1960）

他指出，这是异乎寻常的困难，但我们别无选择。我们不能只是说，“哦，这是太遥远的未来，太难以作出任何预测，我们只要继续和之前一样生活下去就好像什么也不会发生。” 这个问题比我们以前遇到的任何问题都更大、更困难，但这并不意味着我们应该忽视它。

（END）

附：23条阿西洛马尔原则

（英文版附知识星期）

研究问题：

1 )研究目标:人工智能研究的目标不是创造无方向的智力，而是创造有益智力。

2 )研究经费:在对人工智能进行投资的同时，还应提供经费用于确保其有益用途的研究，包括计算机科学、经济学、法学、伦理学和社会研究方面的棘手问题。

3 )科学与政策的联系:人工智能研究人员与决策者之间应进行建设性的、健康的交流。

4 )研究文化:应在人工智能的研究人员和开发人员之间培养合作、信任和透明的文化。

5 )避免竞赛:开发人工智能系统的团队应积极合作，避免在安全标准方面出现分歧。

道德和价值：

6 )安全性:人工智能系统应在其整个使用寿命内安全可靠，并验证哪里适用且可行。

7 )故障透明性:如果人工智能系统造成损害，应能查明原因。

8 )司法透明度: 任何一个有自主系统参与的司法决策都应该提供一个由主管人权机构审核的令人满意的解释。

9 )责任:高级人工智能系统的设计者和构建者是其使用、误用和行为的道德影响的利益相关者，有责任和机会塑造这些影响。

10 )价值一致性:高度自治的人工智能系统的设计应确保其目标和行为在整个运行过程中与人的价值一致。

11 )人的价值:人工智能系统的设计和运作应符合人的尊严、权利、自由和文化多样性的理想。

12 )个人隐私:鉴于人工智能系统分析和利用数据的能力，人们应该有权访问、管理和控制他们生成的数据。

13 )自由和隐私: 人工智能在个人数据中的应用不能不合理地限制人们的真实或被感知的自由。

14 )共享利益:人工智能技术应该使尽可能多的人从中获益并变得强大。

15 )共同繁荣: 人工智能创造的经济繁荣应广泛分享，造福全人类。

16 )人为控制:人类应选择如何以及是否将决策委托给人工智能系统，以实现人类选择的目标。

17 )非颠覆:控制高度先进的人工智能系统所赋予的权力应尊重和改善而不是颠覆社会健康所依赖的社会和公民进程。

18 )人工智能军备竞赛:应避免致命自动化武器军备竞赛。

长期议题：

19 )能力警告:这里没有达成共识，我们应该避免对未来AI能力的上限作出强有力的假设。

20 )重要性:先进的人工智能可以代表地球上生命历史的深刻变化，应该提供相应的关怀和资源进行规划和管理。

21 )风险:人工智能系统构成的风险，特别是灾难性或存在性风险，必须按照其预期影响进行规划和缓解。

22 )递归自我改进:设计用于递归自我改进或自我复制的人工智能系统，其方式可能导致质量或数量的快速增加，必须遵守严格的安全和控制措施。

23 )共同利益: 超级智能只应为共同的道德理想服务，并且为了全人类的利益而不是一个国家或组织的利益。

参考文献

Stuart Russell (2017). Provably Beneficial AI. [online] Available at: https://www.youtube.com/watch?v=pARXQnX6QS8&t=610s [Accessed 21 Mar. 2018].

推荐阅读（附知识星期可下载）

Milli, S., Hadfield-Menell, D., Dragan, A. and Russell, S., 2017. Should robots be obedient?. arXiv preprint arXiv:1705.09990.

Russell, S., Dewey, D. and Tegmark, M., 2015. Research priorities for robust and beneficial artificial intelligence. AI Magazine, 36(4), pp.105-114.

Hadfield-Menell, D., Dragan, A., Abbeel, P., and Russell, S. (2017a). “Cooperative Inverse Reinforcement Learning.” In Advances in Neural Information Processing Systems 25. Cambridge, MA: MIT Press.

Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel, and Stuart Russell, ``The off-switch game.'' In Proc. IJCAI-17, Melbourne, 2017.

Conitzer, V., Sinnott-Armstrong, W., Borg, J.S., Deng, Y. and Kramer, M., 2017. Moral Decision Making Frameworks for Artificial Intelligence. In AAAI (pp. 4831-4835).

记录者结语

AI的安全问题是我从接触人工智能之初就开始思考的一个问题。或许很多人认为恶的根源本不在人工智能而在于使用者本身，但当某种科学技术发展到极致，使得生产成本和技术壁垒逐渐下降至每一个普通用户触手可及，而使用这种工具的所带来的能量却成几何级数增长，一但造成灾难，后果不堪想象。在接近一年的时间里，我试图从哲学，心理学，神经科学，法学，计算机科学等学科里寻找答案，直到偶然在TED 上看到Prof. Stuart Russell 的演讲。当然，这个答案还远远谈不上完善。人工智能作为人类进入下一阶段的标志，一切才刚刚开始，至少在本世纪甚至下个世纪人类与人工智能的关系都是我们不得不面对的问题。所以，我也希望正在阅读本篇文章的读者或许多些思考，或许有所行动，让我们给出的答案逐渐成为这个世界更美好的未来。Live long and prosper.

致谢

特别感谢斯图尔特.罗素教授本人对本文首稿（英文）逐字逐句的审阅修订，以及对推荐阅读的增补。感谢清华大学周榕教授为年轻人搭建了“全球知识雷锋” 这样视野开阔，高水准的个人成长及学术交流平台。感谢中国好校友花儿姐约稿以及为整个平台提供的完善支持与运营。感谢清华大学生物工程系Dr. Jing Chen, Dr. Andrew为神经科学实验部分的解释提供的帮助。感谢 “知识雷锋” 团队的精美排版。

END