3月23日凌晨,英伟达创始人兼CEO黄仁勋与OpenAI联合创始人兼首席科学家伊尔亚·苏茨克维针对ChatGPT进行了深入探讨。伊尔亚·苏茨克维指出,和之前版本相比,ChatGPT-4最大的提升在于更强大的神经网络功能,能通过逻辑推理对未来进行预测。但ChatGPT-4目前的推理能力还没有达到预期水平,如果能进一步扩大数据库,保持目前的商业运转模型,其推理能力将会得到进一步提升。
黄仁勋认为,ChatGPT是AI界的“iPhone时刻”,但这一时刻的到来并非一蹴而就。
以下为中国电子报记者整理的本次对话内容精华:
黄仁勋:近期,ChatGPT的热潮让AI获得了全世界的关注,OpenAI作为研发者备受行业关注。为什么会决定聚焦AI深度学习领域?
伊尔亚·苏茨克维:人工智能通过不断的深度学习,给世界带来了巨大的改变。对于个人而言,主要体现在两方面:
首先,关注AI深度学习的初心在于,人类对于各种各样的问题都有一定的直觉性理解。人类是如何通过智力完成这样的预判,以及人类意识、人类体验的如何进行定义,使我非常感兴趣。
其次,在2002年—2003年上大学期间,认为“学习”这项技能,只有人类才能完成,计算机无法做到。可当时突然冒出一个想法——如果让计算机也能够不断学习,或许会为整个AI领域带来改变。
我当时的专业正好是研究神经网络学习。神经网络是AI领域的一个非常重要的进步,人们一直在探索如何通过神经网络去进行深度学习,如何让神经网络像人类的大脑一样思考,以及如何将处理数据的能力反映到计算机的工作方式上。那时,我其实并不清楚研究这个领域的未来会怎样,只是觉得长期来看很有前景。
黄仁勋:你曾说过,GPU将会影响接下来几代人的生活,GPU可能会对深度学习的培训带来帮助。你是在何时意识到这一点的?
伊尔亚·苏茨克维:我们在多伦多实验室中,第一次尝试使用了GPU来培训深度学习,当时并不清楚如何使用GPU,以及如何让GPU获得真正的关注。但随着我们获得的数据集越来越多,我们也越来越清楚,这将会为传统模型带来的优势。我们希望能够加速数据处理的过程,培训出过去科学家从来没有培训过的内容。GPU的使用,给我们带来了一个转变性的革命,让我们能不断地去培训神经网络,训练神经网络的图像处理能力。
黄仁勋:ChatGPT和OpenAI是否已经打破了过去计算机编辑图像的模式?
伊尔亚·苏茨克维:我认为不是打破了计算机图像的编辑,而是用另外一种处理方式。大部分人都是用传统的思维模式去处理数据集,但我们的处理方式更先进,是“超越式”的。曾经,我们也认为这是一件艰难的事情,甚至觉得几乎不可能完成,但如果我们能做好,就是让人类生活有了一大进步。
黄仁勋:担任Open AI的首席科学家,你认为最重要的工作是什么?我觉得Open AI在不同的时间点,关注焦点并不相同。我认为ChatGPT是“AI界的iPhone时刻”,你是如何实现这样的跨时代转变的?
伊尔亚·苏茨克维:最开始,我们也不太清楚如何开展整个项目,而且,我们现在所得出的结论,和当时使用的逻辑完全不同。无法想象现在的用户已经有这么好用的ChatGPT工具,来帮助大家创造出非常好的艺术效果和文本效果。但在2015年、2016年时,我们还不敢想象能达到当下的程度。
在当时,我有两大想法:一是,想让机器具备一种不受监督的学习能力。虽然,现在认为这是理所当然的,可以用自然语言模型培训所有内容。但在2016年,不受监督的学习能力仍旧是没有被解决的问题,也没有任何科学家有过相关的经验和研究。我当时认为“数据压缩”是技术上的瓶颈。但实际上ChatGPT确实压缩了我们的培训数据集。最后,我们还是找到了数学模型,通过不断培训来压缩我们的数据。
二是,希望通过培训神经网络来预测下一个字符。我认为,下一个神经元的单位会和我们的整个视觉神经的网络密切相关,这和我们验证的方法是一致的。再次重新证明了,下一个字符的预测、下一个数据的预测能够帮助我们去发掘现有数据的逻辑,这就是ChatGPT培训的逻辑。关键在于,培训一些神经网络去预测下一个字符,是一个值得努力的目标。
黄仁勋:扩大数据规模能够提高AI的表现能力,更多的数据、更大的数据集能够帮助生成式AI获得更好的结果。你觉得GPT-1、GPT-2、GPT-3的演变过程,是否符合这样的“摩尔定律”?
伊尔亚·苏茨克维:OpenAI的目标之一,是解决扩大数据集的问题。刚开始面临的问题,是如何提升数据的高精准度。因此,我们在做Open AI项目时,通过让它做一些策略性的游戏,来提升精准度,比如,竞争性的体育游戏,训练它必须足够快、足够聪明,还要和其它队竞赛。作为一个AI模型,它需要不断重复基于人类反馈的强化学习过程。
我们的工作原理,就是通过不断培训神经网络体系,让神经网络去预测下一个单词。预测的单词和过去的单词之间,能够达成一定的逻辑上的一致。从神经网络来看,它更像是根据方方面面来得出一个结论。但我们的模型还没有达到这样的效果。人类的反馈很重要,越多的反馈能使AI更可靠。
黄仁勋:你可以让AI做一些事情,但是你能不能让AI不做一些事情?如何让AI知道自己的界限在哪里?
伊尔亚·苏茨克维:可以实现。未来,第二阶段的培训序列,就是和AI、神经网络去进行交流,我们对AI训练得越多,AI的精准度越高,就会越来越符合我们的意图。我们不断地提高AI的忠诚度和准确度,它就会变得越来越可靠、越来越精准,而且越来越符合人类社会的逻辑。
黄仁勋:相比较于以前的版本,GPT-4有怎样的升级?未来在哪些方面、哪些领域有更多的升级?
伊尔亚·苏茨克维:GPT-4基于ChatGPT的性能,做了很多改善。对GPT-4的训练大概是6~8个月之前开始,GPT-4和之前GPT版本最重要的区别,是GPT-4有更强大的神经网络预测功能,能够更精确的去预测下一个单词是什么,意味着能够对人们说的话有更精准的理解。
这与人们此前常说的直觉有很大不同,GPT-4采用的是推理能力。比如,在一篇推理小说中,小说中有各种不同的人物和情节,有密室、有谜团,人们在读推理小说的过程中,完全不清楚接下来会发生什么。但是能通过小说中不同的人物和情节,来预测结局。GPT-4也是如此,能够像推理小说一样预测结果。
黄仁勋:语言模型是如何学习到推理和逻辑的?GPT-4现在有哪些缺陷,在接下来的版本中将进一步完善?
伊尔亚·苏茨克维:想清楚定义逻辑和推理并不容易,但是未来可通过将逻辑和推理定义的更精准,来获得更确切的答案。
神经网络是有一些缺陷,用神经网络去打破之前固有的思维模式,那么就需要考虑这个神经网络能够走多远的问题
神经网络依旧面料一些挑战,比如,让神经网络去打破固有的思维模式,但这也就意味着人们要思考神经网络到底能走多远,也就是神经网络到底有多大潜力。目前GPT-4的推理能力确实还没有达到预期的水平,未来希望GPT-4的推理和逻辑能够达到更高的水平。但未来如果能更进一步的扩大数据库,保持过去的商业运转模型,未来推理的能力会进一步提高,对此也很有信心。
黄仁勋:ChatGPT是否有一种自然属性,能够不断地去理解新内容?
伊尔亚·苏茨克维:是的,神经网络确实有这些能力,但是有时候也并不准确,这也是神经网络接下来面临的最大挑战。在很多情况下,神经网络会出现很多奇怪的错误,甚至出一些人类根本不会犯的错误。针对这些“不可靠性”,需要进一步针对神经网络来进行研究,从而未来能够给人们一个更精准的结果,甚至能够纠正一些错误,让神经网络变得更可靠。
现在GPT-4的模型已经被公开发布了,它其实没有追踪数据模型的能力,它的能力是基于文本去预测下一个单词,根据数据调节来得出结果,所以是有局限性的。有人认为,可以让GPT-4去找出某些数据的来源,然后会对数据来源做更深入地调查,来不断提升能力。
总体而言,尽管GPT-4并不支持内部的数据收集,但它肯定会在持续的数据挖掘之中变得更加精准。GPT-4甚至已经能够从图片中进行学习,并且根据图片和内容的输入进行反馈。
黄仁勋:多模态学习如何能够加深GPT-4的理解能力?为什么多模态学习定义了GPT和OpenAI?
伊尔亚·苏茨克维:多模态学习可以从两个维度来看:
第一,多模态在视觉和图像识别上特别有帮助。因为整个世界是由图片形成的,人们和其他动物都是视觉动物,人脑1/3的灰质都是用来处理图像的,GPT-4也能够去理解这些图像。
第二,随着人们对于世界的认知不断加深,通过图片或文字对世界的理解是一样的。对于一个人而言,一个人可能一生之中只会说10亿个词。这通过计算人一生有多少时间,以及一秒能处理多少词,再减去睡觉的时间,就能算出一生处理了多少单词。人和神经网络的不同之处在于,人如果10亿个词汇无法理解,可以用其他万亿级的词汇来理解。对于AI神经网络而言,可以通过文本,将人们对于世界的知识和信息慢慢渗透给AI的神经网络。外加视觉图片等其他元素,神经网络可以更精准地进行学习。
黄仁勋:对于文本和图片方面的深度学习,如果我们想要人工智能去理解其背后的逻辑,甚至是理解这个世界的基本原理——比如我们人类日常的表达方式,一个词其实有两种含义,声音的高低变化,其实都代表着两种不同的语气。说话的语言和语调的变化,对AI去理解文本是否有一定帮助呢?
伊尔亚·苏茨克维:是的,这类场景非常重要。对于语音和语调,包括声音的大小和语气,对于AI而言都是非常重要的信息来源,提供了领域中重要的解读信息的方式。
黄仁勋:请总结一下AI正处于怎样的发展阶段?以及在不远的将来,生成式AI能够达到怎样的高度?大语言模型的未来是什么?
伊尔亚·苏茨克维:预测未来比较困难的。目前能做的,是把现有的事情继续做下去,让人们看到GPT更惊艳的系统版。未来,希望通过提高数据的可靠度,让系统更进一步获得人们的信任。目前,生成式AI在解读这个文本过程中,还无法完全验证文本的真实性以及信息来源。对于未来的展望,是让神经网络必须要确认所有数据来源的真实性,准确地服务人们每一步的需求。
黄仁勋:在第一次使用ChatGPT-4时,有哪些性能让你觉得很惊艳和震惊?
伊尔亚·苏茨克维:我认为AI本身存在的意义,是可以给人类带来帮助。之前的ChatGPT版本,神经网络只会回答问题,甚至有时候会误解问题,在回答方面很不理想。但是GPT-4基本没有误解问题的情况,甚至能够去处理更复杂的任务。简而言之,它的可靠性更好。例如,GPT-4能够写诗,可以写押头韵的诗,也能写押尾韵的诗。甚至它能去理解笑话,能明白笑话背后的意思。
延伸阅读:

作者丨许子皓 沈丛
编辑丨陈炳欣
视频丨沈丛
美编丨马利亚
监制丨赵晨
继续阅读
阅读原文