编者按:
当机器写下第一行诗,我们对自己大脑的认识也开始改变。
这几周,商业机会和失业恐惧同时成为热议 GPT 时的关键词。但这个领域的科学家或许有着不太一样的思考:例如当机器认知在飞跃,我们对人类自己的认知是否也有新认识。
本期,我们请来了在智能语言模型领域耕耘多年的专家、中国人民大学高瓴人工智能学院长聘副教授宋睿华,从人脑的认知过程出发,探讨人类与人工智能在理解世界过程上的异同、能力上的边界,进而解释为什么在 AI 时代,我们需要更多向内在、向真实世界探索来培育人的独特性,更好地与 AI 共处。
▲更丰富的对话语境,可收听相关音频
「用有限的语法创造出无限的句子」不再独属于人类语言  
声东击西:六年前您就已经在让人工智能写诗了,人类史上第一本人工智能诗集《阳光失了玻璃窗》,就是用您团队的核心技术开发的,对么?
睿华:诗其实一个古老的话题,很早的时候大家就会用不同的语言模型写诗,因为大家觉得诗既是人类智慧、情绪的体现,同时它又可以允许新用法的产生,在词的拼凑上,哪怕做一点小小的设计也会产生奇妙的结果。
我 2017 年的作品,人工智能诗集《阳光失了玻璃窗》,是在 RNN(递归神经网络) 的模型的基础上完成的,比现在 ChatGPT 用的 Transformer 技术要早一代。Transformer 强大之处在于可以输入 2. 5 万个字,它可以往前看很远很远。
▲《阳光失了玻璃窗》
以前用搜索引擎,可能只能输入短短 10 来个关键字就很了不起了,并不是因为我们不能够让这个输入框更大,是当时的技术没有办法理解你那么多的要求。关键字越多,要在文档里找到包含这些关键字的文档的概率就越小。
ChatGPT 会让我们反思自己到底是怎么理解语言的。认知科学家也都研究这个问题,大家可能原先有很多想法,看到 GPT4 的效果之后需要再做一次更新了。
人的理解并没有那么复杂,我们好像并不是在先知道了是什么语法、词性,然后又经过了很复杂的分析,才知道了意义。我跟你们在聊天的时候,似乎都没有计划过我下一个字要说什么,但是就说出来了。因为你们在我的周围,作为我的环境,我就很清楚自己下一个字要说什么,它是流出来的。这就是人的智能,说下一个字的概率非常准。
曹蔚:乔姆斯基开创了生成语法学,他认为人类语言的独特性是在于它能在有限语法下就是创造出无限的句子。但其实现在 GPT 已经拥有了这个能力。你在翻译《Louder Than Words》的时候,认为人理解语言其实不仅仅是学习符号,而是通过语言去想象,对自己身处这个情景的体验,也就是具身模拟。可以解释一下什么是具身模拟吗?
睿华:书里一开篇,编造了一个北极熊鼻子的故事,说以前的水手发现北极熊在捕捉海豹的时候,会捂着鼻子往前走。其实在书后面会告诉大家这个事情根本没有被证实,是一个编的故事。
但是语言很厉害,哪怕是没有发生的事情,你也能想象出来。所以他就用这个例子告诉大家,当你听到比如北极熊爱吃海豹肉,你脑海里就有白色的北极熊,以及一个模糊的海豹,说到爱吃的时候你还可能会有一种想流口水的感觉。
后面马上就有一句话说,北极熊可以完美地将自己隐身于周遭的冰天雪地。这句话其实要有一点逻辑才能明白是什么意思。因为需要知道常识里北极熊是白的、冰天雪地是白的,隐身是指前景和后景的颜色很像的时候,你不容易发现它。
▲图片来源:Unsplash
这些其实都不是那么容易理解。那 AI 怎么办?AI 没有眼睛,不知道北极熊是白的,也不知道北极是白的,它该怎么知道隐身是什么意思呢?所以具身智能就呼之欲出。
认知学上,在 1990 年的时候就有很多人发现,如果我们把文字只当成符号,然后像字典那样去理解语言的话,会走进死胡同,有很多问题解释不清楚。他们就提出了一种假说,在人类理解语言的时候,也许不光是语言的区域在起作用,有可能是在调动视觉、听觉、感觉和一切其他的器官在一起模拟这个场景。
声东击西:这当中有几个前提,乔姆斯基说的生成语法学,通过语法来掌握语言,传递意义,没有办法解释很多问题。宋睿华老师赞同认知神经科学关于具身模拟给我们的语言带来意义的逻辑。同时您也提到, GPT 这样的技术出现之后,我们对于人脑是怎么理解世界,机器怎么理解世界的问题有了反思。所以,这两种理解的差别在那里?
睿华:做机器学习的人都会思考以人为目标。大家经常会说人类学习的泛化性很好,意思是我只简单地看几个话筒,我就可以知道其他话筒,哪怕长得颜色形状不一样,颜色不一样,好像抓住了这个东西的本质,能够应对变化。那么一个好的模型应该泛化性很好,不光能够记住自己见到的东西,还能够应对自己没见过的东西。
今天大家会觉得这件事情好像对 GPT 4 很容易,因为它的数据的空间太大了。以前都是一个小小的数据上建立了一个模型,然后用在大量的数据上,但现在是所有网上的文字都被读过了,我们很难找出了这个圈的数据。
▲图片来源:Unsplash
AI 可以对现存的知识掌握得很好,但是不能发明一个新知识。今天 GPT 4,你考不住它也不用害怕,它能不能创造出新值是更加难的部分。
网红与平台:AI 能完成大部分工作任务,但工作不只是任务
声东击西:OpenAI 那篇讨论哪些职业会被替代的论文您看了吗?
睿华:没有,其实我觉得替代这件事情大家有点太紧张了。我周围的朋友,其实很多的时候他是在利用他的强大的语言能力,去帮他润色论文,去帮他写一个 email,写一个招聘广告。他一键就帮你生成了一个稿子,你再稍微填一下你的内容就好了。这些都是非常好的一些成果。
GPT 会吸收网上大多数人的看法总结给你看,但是他不会去质疑其中可能大部分人想错的地方。很多批判思考大家并没有写到网上去,以及就是有时候真理掌握在少数人手里。你用这种统计的方法,你找出来最大概率的一些观点,可能中规中矩,但并不一定带来一些新的思考。
声东击西:OpenAI 那篇论文当中还有说到用科学的方法去探索一个事情的能力是不能替代的。
睿华:科技是在前沿,去找大家还没探索过的东西,网上就找不到这种存量的知识,所以他就很难去替代这一部分。
曹蔚:AI 可以完成很多任务,我们的工作当然也是由各种任务构成的,但是我们工作最终的要求不是完成任务,而是要去达到一些结果。
我们评估的是结果的好坏,以及我们去看这些结果是不是真的能解决问题和推动事情的发展。我做这个任务之后它能实现的结果是什么,以及我到底选择什么任务去做,我觉得这个其实是真正工作里面重要的能力。
GPT 在一些地方可能比人类去做这些任务会更节省时间。那我们要得到的一个反思是,我可以借助更好的工具。我可以选择使用工具去节省我的工作时间,提升工作效率。
▲图片来源:Unsplash
另外一方面它也促使我们人类去考虑,现有的方法已经可以被 AI 替代,那我有没有更好的方法去做这个事?我其实可以改变方法,不一定要再做这些任务。
睿华:越早用越好。早用的话是有一个差的,就是别人还认为这个任务会花很长时间的时候,你却用了这个工具,花了很短的时间。
AI 也将拥有具身模拟的能力吗?
声东击西:AI 下一步的发展方向是什么?
睿华:大家现在都开始关注多模态这个方向。就是说把文字和视觉、听觉融合起来去做一些事情。而且可能要进一步追求艺术性,现在虽然(AI 的产出)基本符合语义了,之后会有更高的追求,大家的标准也在不断提高。
我这里还想分享一个故事,有一次我儿子拿着我们家阳台上一块方形的、青灰色的瓷砖,表面还有些粗糙的那种,一个劲地跟我说,妈妈这是我的猪,我的猪可乖了。
我当时就很纳闷,我就问他说,你跟我说说这个瓷砖跟猪有什么共同点,你说出 3 条来,妈妈就认。他就想了一会儿跟我说,第一它们皮肤都很粗糙。我一看,哇,确实挺像;第二它们都很懒,它不动;第三是什么我还给忘了,反正他就真说出来 3 条,让人挺惊喜的。
人对于这种八竿子打不着的东西能找到共通之处,其实是人们进行创作或者创新的很重要的能力。然后我就拿这个题目去问 GPT,一块瓷砖和一只猪有什么共同点?GPT 不知道,很难得地问垮了他。
但小朋友能看到、能体会到,他的大脑中是有这种多模态的联系的。他就觉得不动其实也可以作为小猪和瓷砖的共同点,这就是一种具身模拟。
所以未来 OpenAI 一定会做,现在其实已经在做了。
声东击西:那当更多感官的数据接入之后,我们是可以期待说AI会有更加颠覆我们想象的飞跃吗?
睿华:就看这个数据能不能够收集到那么多。
声东击西:乔姆斯基在写文章批评 OpenAI 和 GPT 这个路线的时候说,GPT 其实没有在更好地模拟人脑,您怎么看?
睿华:我不同意这样的说法。老一代的人会比较在乎 GPT 有没有真正的「理解」,总觉得这个理解是一定要像他设想的那样到达语法层面,然后回答他的那些问题。但是今天 GPT4 可能还没想到背后的隐喻,但它一样能回答出来。它甚至可以在一个新的场景里回答出来,这个就是它做到了理解。
我觉得我们要有一根弦去想说,是不是这个路线不一定是对的路线,还有没有其它的可能性,它还缺什么?这个是一定要思考的,但不能拒绝承认 GPT4 在今天展示出来的这种能力。
声东击西:那您现在还带学生吗?AI 会给教学带来什么样的转变?关于怎么教、教什么。
睿华:我经常跟我的学生说,你们不要以为这个领域是靠大佬们创造出来的,其实最厉害的人就是你们现在这个年纪的人,你们是主流的用户,你们的需求就是我们科学界需要解决的那些需求。
所以多从自身的需求去出发,去想一想,有什么东西不理想,然后把它作为你的研究题目。
关于教育,GPT 也给我们带来很多的思考。比如不应该让学生们去大量地记忆、背诵,而是要让他们有 critical thinking 的能力,让他们有创造出现有知识之外的东西的能力。
继续阅读
阅读原文