人类已进入一个风险社会,而我们所处的时代至为关键。物种灭绝、文明崩溃、反乌托邦社会的“锁定”,已然不是只出现在科幻电影和政治小说中的情节桥段,而是在我们可见的未来将确确实实面临的生存危机。核战争、气候变化、生物技术、基因工程大流行、反向污染等风险将在多大程度上摧毁人类?人类还有多少机会能安然度过本世纪和接下来的几百年? 
这是一个满怀希望的时代,同时也是一个充满道德挑战的时代。人们对人工智能固化社会歧视、导致大规模失业、支持压迫性的监控以及违反战争准则等问题表示严重关切。 
人工智能的发展会不会在这个最广泛的范围内构成风险?这种情况发生的可能性有多大,以及什么时候会发生呢? 《危崖:生存性风险与人类的未来》一书,或许能带给我们新的思考。
人类未来的命运,会被人工智能主宰吗?
文/托比·奥德
来源/《危崖:生存性风险与人类的未来》
2016 年,有人对 300 多名机器学习领域的顶级研究人员进行了详细调查。当被问及人工智能系统何时能“比人工更好、成本更低地完成每一项任务”时,他们的平均估计是到2061年有 50% 的可能,而到不久后的 2025 年出现这种情况的可能性为10%。

这份调查结果应该谨慎地解读。它评估的并不是通用人工智能何时会被创造出来,甚至不是专家们认为有可能发生什么事情,而且得的预测众说纷纭。然而,这次调查向我们表明,专家群体基本上认为通用人工智能并不是难以实现的梦想,而是有可能在十年内出现的,在一个世纪之内出现的可能性更大。因此,让我们以此为出发点评估风险,并思考如果通用人工智能被创造出来会发生什么。
人类目前还掌握着自己的命运,我们可以选择我们的未来。当然,每个人对理想未来有着不同的看法,我们中的许多人更注重个人诉求,而不是实现任何这样的理想。但如果有足够多的人愿意,我们可以选择任何一种丰富多彩的未来。而对于黑猩猩、山鸟或者地球上的任何其他物种来说,情况就不一样了。正如我们看到的那样(在第一章中),人类在世界上的独特地位是我们独一无二的心智能力所产生的直接结果。无与伦比的智慧带来了无与伦比的力量,从而让我们得以掌控自己的命运。
如果研究人员在本世纪某个时候创造了一种几乎在每一个领域都超越人类能力的人工智能,会发生什么事情?这种创造的行为会使我们把自己的地位拱手相让,使我们不再是地球上心智能力最强的实体。如果没有一个非常好的计划来保持情况受控,我们还会把最强大物种的地位以及可以掌控自我命运的物种这一地位让出来。
就这种情况本身而言,也许并不值得过于担心。因为有很多方法能让我们有希望保持控制权。我们可能会试着制造总是服从人类命令的系统,或者系统可以自由地做它们想做的事情,但它们的目标与我们的目标完全一致——这样,在构筑它们的理想未来时,它们也会构筑我们的未来。不幸的是,为数不多的正在研究这类计划的研究人员发现,这些计划比预期的要困难得多。事实上,提出担忧的主要就是这些研究人员。
为了了解他们为什么担忧,我们需要探讨得再深入一些,审视我们目前的人工智能技术,以及为什么这些技术很难规范或控制。有一项或可让我们最终创建通用人工智能的领先范式把深度学习与早期称为强化学习的理念结合了起来。人工智能体会因在各种情况下表现出的行为而获得奖励(或惩罚)。
例如,一个玩雅达利游戏的人工智能每次在游戏中获得分数时,就会得到奖励,而一个搭建乐高的人工智能体可能在拼好零件时得到奖励。有了足够的智慧和经验,人工智能体就会变得非常善于将环境引导到获得高额奖励的状态。
明确哪些行为和状态会让人工智能体得到奖励的规定被称为人工智能体的奖励函数。这可以由设计者规定(如上述情况)或由人工智能体习得。在后一种情况下通常允许人工智能体观察专业人士对任务的演示,推断出最能解释专业人士行为的奖励系统。
例如,人工智能体可以通过观察专业人士操控无人机来学习,然后构建一个奖励函数,惩罚飞得离障碍物太近的行为,以及奖励到达目的地的行为。不幸的是,这两种方法都不能轻易地上升到在人工智能体的奖励函数中写入人类价值观。我们的价值观太复杂、太微妙了,无法靠手指输入来指定。
而且我们还不能通过观察人类的行为推断出人类复杂的价值观的全部。即使我们能够做到,人类也是由许多个体组成的,他们有不同的、不断变化的以及不确定的价值观。每一种复杂情况都会带来深刻的未解难题,即如何将观察到的东西结合成人类价值观的某种总体表征。
因此,短期内任何使人工智能体与人类价值观相一致的尝试都只会产生一个有缺陷的版本。其奖励函数中将缺失我们所关心的重要部分。在某些情况下,这种错位大多是无害的。但人工智能系统越是智能,越能改变世界,情况就越难办。
哲学和小说经常要求我们思考,当我们为了某些关心的事情而去优化社会,却忽视或误解了一个关键的价值,会发生什么。当我们对结果进行反思时,就会发现这种失序的乌托邦尝试可能大错特错了:我们会像《美丽新世界》里那样浅薄,或者像杰克·威廉森的《无所事事》里那样失去控制权。如果我们不能对齐人工智能体,它们就会努力创造这样的世界并让我们受困其中。
甚至这也属于最好的情况。它假设系统的构建者正在努力使人工智能体与人类的价值观相一致。但我们应该认为,一些开发者会更专注于通过构建系统来实现其他目标,比如赢得战争或实现利润最大化,而且可能不太关注道德约束。这些系统可能危险得多。
这些问题自然会让人们认为,如果我们发现人工智能系统将我们引向一条错误的道路,我们可以直接关闭它们。但到了最后,即使是这种由来已久的退路也可能失败,因为我们有充分的理由相信,一个足够智能的系统有能力抵制我们关闭它的尝试。这种行为不会被恐惧、怨恨或求生等情绪所驱动。相反,它直接来自系统一心一意追求回报最大化的偏好:被关闭是一种丧失能力的形式,这将使它更难获得高额回报,所以系统有动力去避免被关闭。这样一来,回报最大化的终极结果将使高智能系统产生谋求生存这一工具性目标。
而这不会是唯一的工具性目标。人工智能体也会抵制使其奖励函数更符合人类价值观的尝试——因为它可以预知,这将影响它获得当前它认为有价值的东西。它将寻求获得更多的资源,包括计算能力上的、物理上的或者属于人类的,因为这些资源会让它更好地塑造世界以获得更高的奖励。而最终它将有动力从人类手中夺取对未来的控制权,因为这将有助于实现所有这些工具性目标:获得大量资源,同时避免被关闭或者奖励函数被改变。
由于人类干扰所有这些工具性目标在其意之中,它会有动机向我们隐瞒这些目标,直到我们再也来不及进行有意义的抵抗。
对上述情景持怀疑态度的人有时会说,这种情况所依赖的人工智能系统要聪明得可以控制世界,但又要愚蠢得无法意识到这不是我们想要的。但这属于一种误解。因为事实上我们对人工智能动机的简述已经明确承认,系统会发现它的目标与我们的目标不一致——这才是促使它走向欺骗、冲突和夺取控制权的原因。
真正的问题是,人工智能研究者还不知道如何制造这样一个系统:它在注意到这种错位后,会把它的终极价值更新至与我们保持一致,而不是更新它的工具性目标来战胜我们。
END
推荐阅读
十点公社
一个时代的记录
自由评论
只为苍生说人话
继续阅读
阅读原文