新书推荐 | 人机对齐：探索“未知的未知”，AI时代下的人类自救指南

人类之所以蔑视其他物种，是因为它们无法对人类说“不”，而我们自己创造的人工智能则不然，它们未必是有意违抗我们，相反，它们可能恰恰是在“服从”的过程中造成了我们最不想看到的后果。

比如，一个机器人要完成“取咖啡”的任务，在此过程中它可能会与任何阻止其完成任务的人殊死搏斗，只因为它“恪尽职守”。

2018年，优步自动驾驶汽车在亚利桑那州坦佩市撞死了过马路的伊莱恩·赫尔茨贝格。美国国家交通安全委员会在事故审查中发现“系统从未将她归类为行人……因为她在没有人行横道的地方过马路。”

因此，布莱恩•克里斯汀在《人机对齐》一书中写道：“我们必须小心谨慎，不要让这样一个世界成为现实：我们的系统不允许超出它们认知的事情发生，它们实际上是在强制执行自己有局限的理解。”

这正是所谓的“对齐问题”，即如何让人工智能“以我们想要的方式行事”，最终能够符合我们的利益和价值观。

在布莱恩•克里斯汀看来，进入21世纪，越来越多的人都在致力于让人类社会更多的系统进入“无人驾驶”模式，可是当我们的贷款申请、求职简历、体检结果甚至司法审核都由人工智能来评估时，人们不禁会产生与面对自动驾驶汽车时一样的疑问，我们能完全信任这位“驾驶员”吗？

带着对这个问题的好奇，在历时4年，行程数万公里，完成数百次采访对话之后，布莱恩•克里斯汀发现我们正在一片荒原上开拓，眼前的情形令人兴奋也令人恐惧。

要知道机器学习并非通过手工编程而是通过海量数据，但是就算通过大数据学习，人工智能的模型完美地复刻现实世界，这也绝非万事大吉，因为这个现实世界本身就充满偏见。

比如，在筛选简历的时候，人工智能很可能会把名叫“约翰”人的排在叫“玛丽”的人前面，因为在现有的工程师数据库中男性的名字出现频率更高，与这个职位关联更强，而且因为最终男性被录取的可能性更高，人工智能还会根据自己的“成功经验”继续强化这种偏见，导致现实中女性简历被筛选出的几率越来越低。

如此一来，机器学习建立的模型可能会悄悄改变它所建模的事实，这有点类似于社交网络的大数据审美最终控制了整形医师的手术刀。

此外，我们需要进行人机对齐还因为“我们不知道它们究竟知道了什么”。神经网络学习效率很高，但是它们学习的方式不同于我们的头脑，神经网络对人类来说就是一个“黑匣子”，他们最终掌握的知识从某种意义上说属于“暗知识”，无法用可被人类理解的语言阐明，这是因为人类用概念来思考而神经网络是通过数字。

比如，人工智能系统能模仿莎士比亚的风格写作并不是因为它真正理解了莎翁的字字句句，感受到了其中的魅力，只是因为它建立了一个数学模型。

这种“不可解释性”本身就是安全隐患，因为我们不了解它们究竟如何运作。不仅如此，人工智能还经常会捕捉到人类认知中被认为是无关紧要的信息，而忽视了真正值得关注的信息。

比如，一个神经网络在分辨照片中有无动物时居然更关注图片的背景而不是前景，这是因为在很多动物照片中，为了突出主体，摄影师都会选择“虚化”背景，所以神经网络其实是虚化探测器而不是动物探测器。

再比如，有一个皮肤科医学诊断系统识别癌症的准确率很高，但是，该系统在数据学习中无意中“学到了”标尺代表着恶性，仅仅是因为该类肿瘤的医学图像经常会附有标尺。

简单来说，人类目前调教人工智能的方式类似于教育孩子，对于“令人满意”的结果或行为会给予奖励，通过这样的“强化”，我们希望人工智能（或我们的孩子）会越来越接近自己的期望。

但是，事情并没有看上去那么简单，《人机对齐》中就提到了一个很有趣的例子：一位认知科学家在他的小女儿清扫地板后会极力地夸奖她，结果他的女儿很快就找到了这个奖励制度的漏洞，为了获得更多的赞美，她会把垃圾再从撮箕里倒回地板上。

机器学习中也会出现这样的情况，强化学习系统是“奖励的奴隶”，无论我们设计怎样的奖励系统，它们都会通过反复试错找出其中的漏洞来获得奖励。换句话说，我们最终所奖励的并非我们所期望的。

对于这一问题，克里斯汀在书中提到了一个思路，即奖励状态而不是行为，比如对于那位认知科学家的女儿，我们可以赞美：“哇！地板真干净！”，而不只是说“干得漂亮！你真勤劳！”。其实养育子女的问题也涉及到了“对齐问题”。

正如书中所说：

“人类文明故事的一条主线就是关于如何向奇怪的、陌生的、人类水平的智慧生物灌输价值观，这些将从我们手中接管社会的智慧生物也就是我们的孩子。

而且这种相似之处甚至更深，对AI和子女养育的仔细分析表明，两者在很大程度上能相互启发。”

克里斯汀不仅写到了如何奖励孩子，还分析了孩子的好奇心、模仿行为和推断能力等。他从人工智能设计的角度还原和拆解了孩子的学习过程，同时也为家长理解和教育孩子提供了富有启发的新视角和新知识。

俗话说“言传不如身教”，孩子在模仿我们，人工智能也在模仿我们，但，我们真的是理想的被模仿对象么？

从脑内的多巴胺到社会的价值观，《人机对齐》一书也给了我们这样一次自我审视的机会——

要想创造人工智能，我们先要了解自己。

正如学者赵汀阳所说：“人工智能的发展正是对人类智慧的一个终极测试。”

因为人工智能不只是一次技术革新，而是我们试图再次创造自己，而且还是一个“理想自我”。我们希望人工智能不仅能分辨善恶，还能做到理想中的不偏不倚。

在书中，克里斯汀直言不讳地指出，对于很多关乎人类社会的议题，连社会学家都无法定义何为所谓的“最优解”，而在“人机对齐”的过程中，我们试图将自身的价值观和伦理注入人工智能，如何才能保证我们引以为傲的价值观和伦理是正确的呢？

正如我们现在回望百年前一样，当今的价值观和伦理也许在一百年后会被认为相当原始野蛮。所以，我们其实是在“无知”的情况下企图“教育”出理想的人工智能。

正如每一代父母对孩子所做的一样，此时我们最需要的就是保持谦卑和开放，而非自以为是，因为真正的危险也许来自人类自身的局限和幽暗的人性。

类似的，理想中的人工智能也应该知道自己有“未知的未知”，而不是强行给出答案，但这恰恰也是目前人工智能最缺乏的——“知道自己什么时候知道，什么时候不知道”，即自知之明。

在近期的一次TED Talks演讲中，主持人向OpenAI联合创始人格雷格·布罗克曼提出了一个问题：

如果他面前的桌子上有一个小盒子，这个盒子里有可能是精美的礼物，也有1%的可能是潘多拉的魔盒，打开它会给世界带来难以想象的灾厄，他是否会打开这个盒子？

布罗克曼回答说，如果有两个选项，一个是5年后，一个是500年后打开，他现在会选择500年后，这样人类才有更多时间可以让这项技术走上正轨。

可是，正如克里斯汀所说：“无论是好是坏，这个世界都将充斥着类似2岁孩子的算法”，而且“对齐会很混乱，这是很自然的。无论好坏，它的故事都将是我们的故事”。

现如今，每一个终将生活在人工智能之网中的人都需要认识并格外审慎地对待这个问题，因为它关乎到我们每一个人，这大概也是阅读此书最大的现实意义。

继续阅读

阅读原文