AI技术爆发的背后:安全、伦理与责任|对话青年AI研究员符尧

最近 6 个月,以 ChatGPT 为代表的生成式 AI 技术出现了「寒武纪大爆发」。每天我们都能看到生成式 AI 涌现出新能力、新场景、新应用。作为一直研究和从事科技创新的创业者和投资人,我既感到非常兴奋,又和很多同行一样产生深深的担忧。最近 Elon Musk,Geoffrey Hinton 等知名企业家和科学家都公开表达了对 AI 爆发未来的忧虑,其中很多观点我是十分认同的,因为我认为这一波生成式 AI 技术的爆发和历史上其他技术革命相比,具备很多不一样的特点:
• 以往的技术革命基本是在不断改进人类所使用的工具,而这一次在使用工具的主体侧也出现了变革。
• 人类从未遇到过一个可以和自己深度交流,在大量领域具备相当甚至更多知识的存在,这将会对每个人类个体和整个社会产生深远的社会学心理学政治学影响。一个简单的例子:AI 可以通过学习人类所有的辩论说服技巧,并且通过类似 AlphaGo 的自我对抗训练来培养极强的劝说能力。想想一个小孩子遇到成年人的时候有多么容易被欺骗吧。
• 目前的 AI 技术已经呈现出自我反思,分解任务目标,规划执行步骤,选择合适的工具,观察执行结果并调整计划等复杂能力的迹象。一个有可能对自己进行自动化改善的数字技术将可能以我们所意想不到的速度进行进化。
• 先进的 AI 技术正在迅速的变得低成本且开源。ChatGPT 发布 6 个月以后,我们已经看到开源模型的表现逐渐接近刚发布的 ChatGPT。
当一种新技术被创造出来的时候,其实被同时创造的还有相应的责任,但这种责任往往需要很长时间才会被人类所发现。历史的教训告诉我们,在新技术造成大问题之前,人类世界往往是来不及去全面考虑新技术背后的责任的。
与此同时,新技术的爆发必然会带来诸多实体之间的激烈竞赛。《人类简史》的作者,以色列学者尤瓦尔·霍拉里说:核武器对物理世界意味着什么,AI 对虚拟和象征世界就意味着什么(What nukes are to the physical world...AI is to the virtual and symbolic world)。但和核武器的军备竞赛不同,核武器的实验很容易被探测到,核武器有限且其流转相对容易被监管。相比之下,先进 AI 的研究不容易被发现,也不容易被限制。更让人担心的是,我们现在仍然不知道很多 AI 新能力产生的原因为何,其潜在的边界在哪里。
同时,作为早期投资人,我也坚定相信禁止不是办法,因为希望用新技术作恶的人不会服从禁令,并且只有当我们更了解新技术本身,才能够更好地驾驭新技术为人类创造福祉。我们会带着好奇而又谨慎的态度,持续投资和支持负责任的创业者在 AI 领域的创新。
这期播客录制于 2023 年 4 月,我邀请了很活跃的青年 AI 学者符尧交流关于 AI 安全和对齐(Alignment)的一系列话题。符尧本科毕业于北京大学计算机系,在哥伦比亚大学获得硕士学位,主要学习自然语言处理,生成模型。现在在爱丁堡大学攻读自然语言处理的博士。他曾经在字节跳动、腾讯北美、阿里巴巴、Allen Institute for AI 等公司与机构实习。除了学术研究之外,符尧也积极通过社交媒体对大语言模型的进展进行科普和讲解。他写的几篇介绍 ChatGPT 涌现能力、技术路线图、复杂推理能力,以及对中国大语言模型追赶 OpenAI 的思考都获得了热烈的反响。
——真格基金管理合伙人 戴雨森
内容纲要
在本期播客中,他们将会谈到:
• 什么是 AI alignment?目前主流的研究和进展是什么?
• 大语言模型的能力不断增强,未来可能看到的能力是什么?AI 的能力边界在哪里?
• 面对动态变化的价值观,怎么 align AI?
• 针对 AI safety 的研究有什么大框架?AI 是否具有意识?
• 大模型方面中美的差距在哪里?
我们将他们的对话内容整理成文,也欢迎大家移步小宇宙 APP、喜马拉雅或 Apple Podcast 搜索并订阅「科技沉思录」收听完整版。
对齐、AI 能力的未来和边界
Yusen:
首先请符尧介绍一下你的具体研究方向,具体在研究什么,最近在关心什么?
符尧:
我自己研究的方向是人类语言的大规模生成模型,最近大语言模型非常火,我在 2022 年一整年追踪了 GPT 所有的演化的版本,从 GPT-3 到初代 InstructGPT 到达芬奇 001、达芬奇 002,然后达芬奇 003 和 ChatGPT,每一个版本出来之后,我都测了一遍,相当于一直在盯着模型的演化。在整个过程之中,我观察到它以极快的速度在变得非常非常得强。
我自己的研究方向在大模型方面,相当于怎么把大模型的各项能力从无到有训练出来,在这个过程之中怎么样去把涌现能力给训练出来,涌现能力它的内部的机理,然后如何让模型做复杂的推理,以及最近很感兴趣的一个话题,怎么让多个智能体相互交互,相互学习,然后在这个过程之中与人类对齐,这是我比较感兴趣的一系列的问题。
Yusen:
能不能向听众简单介绍一下什么叫 alignment(对齐),什么叫对齐?目前有哪些主流的研究和进展?大家关注的有哪些问题?
符尧:
Alignment 对齐问题,更加细讲的话就是希望 AI 符合人类的期望,希望 AI 的行为是按照人类的要求去走的,希望 AI 给你的回复符合人类价值观。
大家在跟 ChatGPT 交互的时候,alignment 会有各种各样的表现。比如说你问它一个问题,它能回答你的问题,而不能顾左右言其他。或者说你在多轮对话的时候,它能跟随你说话的节奏。这个层级上面的 alignment 是 AI 的表现要符合人类的期望。再往上升到价值观这个层级,就是当你问 AI 一个问题的时候,AI 回答的这个价值观是要对的,它需要善良,需要诚实,需要尽它所能来帮助你,它让 AI 不伤害任何一方。
现在国际前沿研究 alignment 的几个组,一个是 OpenAI alignment 的团队,他们的风格比较偏产品,偏有用;然后是 Anthropic,Anthropic 本身是 OpenAI alignment 团队在 2021 年分拆出来的,理念更以安全为导向。然后是 DeepMind, DeepMind 在 alignment 方向做得也非常多,他们的风格更偏科学。
每家在 alignment 实操的过程之中也不一样,现在比较常见的是 OpenAI 的实际操作,他们在自己的一篇博文《Our approach to alignment research》中详细地阐述了 alignment 的三个阶段。
Open AI 的《Our approach to alignment research》
划分 alignment 的阶段,很大的程度上是以 AI 的强弱划分的:第一个阶段 AI 没有特别得强,可以根据人类的喜好去训练 AI, GPT-3.5 和 ChatGPT 的 alignment 过程就符合这个阶段,表现出来的是当 ChatGPT 跟人类交互的时候,它试图帮你,同时试图让自己变得更加安全;当 AI 强到一定程度,人不能直接教得了 AI, 在这个阶段,OpenAI 的方法是让一个很强的 AI 帮助人类对另外一个 AI 做 alignment;第三个阶段的 alignment 是最难的,这个阶段假设 AI 非常非常得强,人类即使是在另外一个同等强的 AI 帮助之下,也很难对一个很强的 AI 做 align,在这种情况之下,我们到底应该怎样去 align 一个超强的 AI。
最近这个领域发展得太快了,在我看来又会存在一个新的 alignment 问题,那就是当你想要 align 的东西不是一个很强的AI,而是一群很强的 AI 的时候,多个 AI 形成群体,可能产生群体智能,如何把 AI 作为一个物种去 align?
Yusen:
前阵子有个非常著名的公开信,Elon Musk 等企业家和学者有上千人签署希望呼吁停止高于 GPT-4 水平的研究 6 个月,当然现在大家嘲笑他买了 1 万块 A100,你怎么看待公开信这个事件?或者说应该用什么样比较客观的眼光去看待这样的呼吁?
由未来生命研究所公布的公开信
符尧:
在我这儿有一个原则,我是觉得堵不如疏。呼吁大家停止做研究,有一点点只防好人不防坏人,因为好人听到公开信就停了,坏人悄悄自己玩不告诉你,但是你希望做的事情是防坏人而不是防好人,所以公开信这个操作本身或许跟想达到的目标并不匹配,这是一个方面。
另外一个方面的话,我觉得担心比 GPT-4 更强的 AI agent 出现,这一点是非常合理的。停六个月目标是说让 alignment 的速度追上 capability 模型能力的速度,但我觉得这一点是可以跟模型 capability 增加同步进行的,它也需要跟模型的 capability 增加同步进行,因为你需要边了解模型会有怎样的能力,才能够更加深刻地对这个模型做 align。
Yusen:
最近我们在大模型里面观察到的能力,每天都在发生目不暇接的变化,你一直在跟踪这方面的研究,这里面最让你觉得惊讶,以及你作为前沿研究员已经有所准备,可能提前看到未来会发生的能力是什么?
符尧:
对于各项涌现能力来说的话,我最开始观察到涌现能力是在 2020 年,那时候观察到的并不是模型增大的涌现,而是数据增多的涌现。Google 发了一篇《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,很清晰地讲到当模型变大,特别是数学上面的多步推理就会变得非常强,在 4 月份, Google PaLM 的模型训练出来了,他们把模型的大小又提了一个量级,复杂推理的能力往上面提的量级提得非常大,我开始预期复杂推理是会接着变强的。
Google 发表的论文
所以当 GPT-4 出现更强复杂推理的时候,我没有像 PaLM 刚出现时感到那么惊讶,但 GPT-4 的另外一项涌现能力在我看来是很惊讶的,那就是不需要人类反馈,自己给出和吸收自己的反馈,因为它意味着 AI 的进化可以脱离人类很强的掌控自己进化。这项涌现能力跟之前复杂推理的涌现能力不一样。复杂推理是说当模型和数据大到一定程度的时候它就能够涌现,但给出和接收反馈这一项涌现能力不只需要模型大到一定程度,而且还需要模型对齐到一定程度,对齐的话就是让模型跟人长得像。
当然还会有其他的一些涌现能力,让模型跟真实的世界物理接轨之后,加上视觉之后,这些涌现能力跟刚刚说的自我进步的涌现能力叠加在一起,应该还会有一些新的东西。再然后这些涌现能力,当它不是单个的智能体,而是很多个智能体相互交互的时候,它们应该会出现群体性的行为和群体性的涌现,这些都是很值得期待的,也值得深思。
Yusen:
在 ChatGPT 出来之后,我们看到了很多雏形的东西,从大模型可以给出到接收反馈信号、自我迭代、然后到群体智能。那么这才几个月的时间,所以未来 AI 的成长和演化路径是怎样的,有哪些事儿是 AI 现在不能做但未来可以做的?有哪些事情对 AI 来说从根本上来说会难的事情?
符尧:
首先我觉得 AI 应该会在很多的维度上都可以超过人类,并且是极大程度地超过人类。一来就是我们从第一性原理的角度去想,这个 AI 的上限天生就会比人类的高,比如说它的并行阅读的速度。二来就是 AI 的进化速度也会远超人类,在可预见的未来之中,它在很多的维度应该都会比人类要强很多。
但即使是这个样子的话,应该也会存在一些维度 AI 或许就怎样都不行的。其中的一个例子是复杂推理,就是现在的复杂推理虽然一直在进步,但我不确定到最终是会说完全被解决,还是说存在一部分怎样都不行。一个复杂推理的例子是 AI 现在学复杂推理的方式是说我给它喂进去了大量的数据,我从这些大量的数据之中抽象出来一套推理的规则,然后按照学习的经验性的方式,依据抽象出来的规则去做推理,当然中间可能会有误差,这是一种推理的方式。但是另一方面我们去想数学,比如说欧氏几何是说我给 5 条欧氏几何的公设,然后我以这 5 条欧氏几何的公设作为起点就可以推出整个欧氏几何的这个大厦。从一开始的时候,它的起点不是超多的数据,它的起点是正好相反的,最小的量的数据,这个跟 AI 的学习方式是相反的,人类的学习其实也是需要输入,并拥有从 5 条欧氏几何公设推出欧氏几何大厦的这样的一个能力。我不确定 AI 能够得到类似的能力。
Yusen:
这里面有一个问题,首先有这个奇点理论觉得 AI 会到达一个跟人类智能相当的点,并且由于 AI 它是不断在发展的,它的进化速度比人快得多,所以奇点理论认为 AI 到达人类智能之后不会停在这,它会超过人类智能,甚至大大地超过变成 super intelligence。问题是,第一,你觉得这种远超人类的人工智能,在现实中会是一个潜在的危险吗?第二,如果有一个这样的超级人工智能真的出现,那人类能够去 align 它吗?
符尧:
有几个视角去看如何 align super intelligence,一个是从 AI 进化速度的视角,假设人类的智能可以被量化,比如说人类是 N 次方,存在一种智能体它是 2N 次方,这种情况就像人类真的遇到了三体,想要去 align 这种东西,很可能难度会非常大。我们现在能够考虑的是,当 AI 的智能跟人类在同一个数量级,我们如何提前为这样量级的智能体准备它的 alignment?
这样量级准备的 alignment 又有两个视角,一个视角我管它叫做运动员和教练,世界冠军在某项运动的能力应该是超过他的教练的。但即使是这种情况,教练首先可以帮助运动员进步,还可以找出运动员哪里不足。这里面的核心底层的原理是说,判别问题比生成问题要简单,你不一定自己能够完成这个事情,但你能够有这样的判断力,知道这个事情完成得好或不好。另外一层是说运动员他的能力是一个很专业化的能力,他只在一个专业的方向会很好,但是他在通用的方向不一定会特别得好,在这种情况之下的话,教练是可以约束这个运动员,我觉得这是强 AI 很需要去发展的一个方向,当 AI 很强的时候,我们需要把这个 AI 的能力切片到一个一个的方向上,相当于把 AI 的某个方向做一个专业化。如果是这种思路的话,AI 的能力比人类要高一个数量级,这个是可以被接受的,在通用的方向上, AI 的能力还是需要被人类压住,但我们需要防止或者是特别小心思考的是,当 AI 在很通用的方向上都开始超过人类数量级的时候,这个时候怎么去给它做 align?这是一个比较难做的问题,现在还不是很有答案。
关键词
模型
数据
人类
大模型
技术
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。