▲点击订阅，抓住风口

昨天，我们和大家分享了：黄仁勋回答华尔街分析师的对谈记录，万字长文信息量爆炸。

今天，我们带来英伟达GTC第二大重磅节目，黄仁勋和Transformer论文作者访谈。

Transformer简单说就是今天AI这么聪明的原因，OpenAI的研究者也承认，正是这个架构出现让ChatGPT能够落地。

如今这8位论文作者都已各自创业，所以老黄能把他们请来，有人戏称是集齐了AI「8龙珠」。

这场对谈，黄仁勋和8位作者聊了非常多关键问题，回顾了为什么要研发Transformer？AI变革中反复验证的规律是什么？畅想了下一次AI技术变革将如何到来。

创新地图的小伙伴将对谈做了精炼，方便大家快速get到关键点。

如果你还想了解GTC上更多的技术动态，扫描AI变革的下一个前沿，欢迎长按文首入口，加入前哨科技特训营。

3月28日，下周四晚8点，王煜全将在直播间和你一起深度分享。

访谈完整内容

黄仁勋：过去六十年，计算机技术看似没什么大的变化。我们现在用的系统，比如多任务处理、硬件和软件的分开、兼容性和备份，都是基于IBM System360的设计。

1964年以来，我就一直觉得现代计算没什么根本改变。

现实是80和90年代有了巨大的变化，形成了我们熟悉的样子。计算机的价格一直在降低，每十年降一半，十五年降一千倍，二十年降一万倍。这种大幅度的降低给社会带来了很大动力。

试想一下，如果你生活中的贵重物品价格也降了一万倍，比如二十年前花20万美元买的车，现在只要1美元，你能想象吗？但是，计算机价格的下降并不是一下子就降下来的，而是慢慢下来到一个临界点，然后就不再降了，只是每年都有一点点的改进。

这就是我们开始探索加速计算时的情况，这很难，需要从头开始设计。过去，我们按步就班地解决问题，但现在，我们需要重新设计整个流程，这是一个全新的科学领域，需要把老的规则改成并行算法。

我们知道这一点，相信如果我们能加速1%的代码，节省99%的运行时间，一定有应用会受益。我们的目标是让不可能变可能，或者已经可能的变得更高效，这就是加速计算的意义。

回顾公司历程，我们发现我们可以加速各种应用。一开始，我们在游戏领域有了明显的进步，这让人会误以为我们是游戏公司。但实际上，我们的目标不只是游戏，因为这个市场很大，可以推动很多技术进步。

简单说，2012年，AlexNet开始了我们在人工智能领域的旅程。几年后，我们找到了一个适合我们的应用场景。

这些成就帮助我们发展了生成式人工智能。生成式AI不仅可以识别图片，还可以把文字变成图片，甚至可以创造新的内容。现在，我们有技术可以理解像素，识别它们，理解它们的意义。通过理解意义，我们可以创造新的内容。这是一个很大的变化。

我们相信，这是新的工业革命的开始。在这个革命中，我们正在创造新的东西。比如，在以前的工业革命中，水是能源，我们用水来驱动我们的机器，产生电力，就像魔法一样。

生成式AI是一种新的"软件"，它可以创造软件，这需要很多科学家的努力。想象一下，你给AI数据，数据进入我们的机器，就可以产生神奇的结果。它正在改变一切，我们正在看到“AI工厂”的出现。

这是一个新的工业革命。在过去，我们没有经历过这样的变化，但现在，它正在发生。不要错过接下来的十年，因为在这十年中，我们将会创造很大的价值。我们的研究人员已经开始行动了。

今天我们邀请了Transformer的创造者来一起讨论未来的生成式AI。

今天请大家踊跃发言，任何话题都可以讨论，你们可以自由地谈论问题。我们从基础问题开始，谈谈你们当时遇到的问题，是什么让你们想到做Transformer？

Illia Polosukhin：如果你希望找到一个能真正阅读搜索结果的程序，例如处理一堆文档，你就需要一个可以快速处理这些信息的模型。当时的循环神经网络（RNN）就无法满足这样的需求。

虽然当时循环神经网络（RNN）和一些初级的注意力机制（Arnens）已经引起了关注，但它们需要逐字阅读，效率并不高。

Jakob Uszkoreit：当时我们能够生成的训练数据量比能够训练的AI架构的速度要快得多。实际上，我们使用的是更简单的架构，如使用n-gram作为输入特征的前馈网络。这些架构在谷歌的大量训练数据中，由于训练速度更快，通常会超过那些更复杂、更先进的模型。

然而，强大的RNN，尤其是长短期记忆网络（LSTM）已经存在了。

Noam Shazeer：我们在2015年就开始研究Scaling law（缩放法则，AI模型越大性能越好），发现随着模型规模的增大，智能程度也会提高。这个问题很有意思，只需要预测下一个token，就能提高智能程度，做很多不同的事情，只需要增加规模就可以。

但是，RNN处理起来很困难。我听到有人说，我们可以用卷积或者注意力机制来替代它。我觉得这是个好主意，我们就这么做。我觉得Transformer就像是从蒸汽机升级到内燃机，虽然我们可以用蒸汽机完成工业革命，但内燃机更好。

Ashish Vaswani：在研究生期间，我在做机器翻译工作时发现，AI其实不需要去学习那些复杂的语言规则。

梯度下降—我们训练AI模型的方法——是比总结规则更好的老师。所以我不会去学习这些规则，我只会让梯度下降为我做所有的工作。

我从这些经验中学到，那些可以扩大的通用结构最终会在长期竞争中胜出。

今天可能是token，明天可能是我们在电脑上做的动作，AI将开始模仿我们的活动，并能自动完成我们的许多工作。正如我们讨论的，Transformer和自注意力机制，有很广的应用，它也让梯度下降变得更好。另外就是物理学，因为我从Noam那里学到，矩阵乘法是个好主意。

Noam Shazeer：这个模式一直在重复。每次你添加一堆规则，结果是梯度下降比你更懂这些规则。现在，我们正在构建一个像超级计算机的AI模型。超级计算机就是模型，我们正在构建超级计算机形状的新模型。

黄仁勋：所以你们（当时做这方面的研究）要解决什么问题？

Lukasz Kaiser：机器翻译。五年前，这个过程非常复杂，需要收集大量数据才能进行翻译，但结果可能只是勉强正确。那时的水平还很基础。但现在，即使没有数据，这些模型也能学会翻译。你只需提供一种语言和另一种语言，模型就能自学翻译，这种能力似乎自然而然地出现，而且效果好。

Llion Jones：但是，"Attention"就是你所需要的。因此，我想出了这个标题，这基本上就是我们在寻找标题时发生的事情。

我们只是在做一些折腾，开始把模型的一些部分去掉，只是想看看会不会变得更差。但令人惊讶的是，模型开始变得更好。甚至像这样把所有的卷积全部去掉，效果都会变得更好。所以，这就是标题（Attention is all you need）的来源。

Ashish Vaswani：有趣的是，我们从最基础的框架开始，然后逐渐添加了一些内容，如卷积，但后来我们又去掉了这些。还有其他很重要的东西，如多头注意力等。

黄仁勋：谁想出了Transformer的名字？为什么叫Transformer？

Jakob Uszkoreit：我们喜欢这个名字，因为它有创意，意味着AI改变了我们的数据制作方式。所有的机器学习都是Transformer，都是颠覆者。

Noam Shazeer：我觉得这个名字很简单，很好。我考虑过很多名字，最后选择了“Transformer”。这个名字解释了模型的工作方式，它改变了输入的信号，所有的机器学习都会被转换。

Llion Jones：Transformer之所以被熟知，不只是因为它的翻译功能，也因为我们想更全面地描述这种变革。我不认为我们做得特别好，但作为一个推动者和引擎，有其合理之处。大家能了解它是一种大型的语言模型、引擎和逻辑，这都在早期就开始了。

我们知道，我们实际上在创造通用的东西，可以将任何东西变为其他东西。我们没想到Transformer在图像上会这么好，这很惊讶。你可以将图像切片并标记每个小块，对吧。这在设计上早就有了。

所以，当我们构建张量库时，我们真正关注的是扩大自回归训练的规模。这不只是语言，还有图像、音频等。

就像Lukasz说他在做翻译。但我觉得他低估了自己，所有这些想法，我们现在看到这些模式结合在一起，它们都加入了模型。

事实上，这些想法早就存在了，只是需要一些时间来渗透。Lukasz的目标是我们要利用所有这些学术数据集，从图像到文本，从文本到图像，从音频到文本，从文本到文本。我们应该对一切进行训练。

这个想法推动了扩展工作得以成功，它很有趣，因为我们可以将图像翻译成文本，将文本翻译成图像，翻译文本到文本。

你可以用它来研究生物学，或生物软件，它可能像计算机软件一样，从程序开始，然后编译成可以在 GPU 上运行的东西。

生物软件的生命始于某种行为。比如，你想打印一个蛋白质，就像细胞中的特定蛋白质一样。然后你学会了如何用深度学习将其转化为RNA分子，但实际上一旦进入你的细胞，就会表现出这些行为。所以这个想法不仅仅是翻译成英语。

黄仁勋：你们是否创建了一个大型的实验室来生产所有这些（数据）？

Aidan Gomez：大量的数据是可用的，大部分还是公开的，因为这些数据大多是由公共资金支持的。但你仍然需要数据来明确说明你要研究的现象。

比如，我们尝试在产品中进行建模，例如蛋白质表达和 mRNA 疫苗等。或者在帕洛阿尔托，我们有很多机器人和穿实验室外套的人，包括学习研究的人和以前是生物学家的人。

现在，我们认为自己是新事物的领导者，致力于创造这些数据并验证设计这些分子的模型。但最初的想法就是翻译。

黄仁勋：机器翻译是Transformer的源头。你们在提升和突破架构的过程中，有什么关键的发现？这些发现又是如何影响Transformer的设计的？

Aidan Gomez：大家都看到了过去的工作，你们觉得在基础的Transformer设计上还有更大的改进空间吗？我注意到在推理这一方面，已经有很多努力在提高这些模型的效率。

我还是有点担心，因为我们现在的模型还是和最初的设计太像了。我认为我们需要的不只是一个更好的Transformer，我们大家都希望有一种新的模型能够取代它，带我们达到一个新的性能水平。

我想问大家一个问题。你们认为接下来会发生什么？我觉得现在的情况很令人兴奋，但也有点像六七年前的情况，你们觉得呢？

Llion Jones：是的，我想大家会对你所说的相似程度感到惊讶，对吧？我经常被问到接下来会发生什么，因为我是这篇论文的作者。

（大家觉得）就像魔法一样，你挥一挥魔法棒，下一步会发生什么呢？我想说的是，想想它是怎么设计出来的。我们不仅要做得更好，而且要明显做得更好。

因为如果只是稍微好一点，那么这还不足以推动整个人工智能行业向新的方向发展。因此，我们一直在使用原始的模型，即使它可能不是我们现在可以拥有的最强大的工具。

但是，每个人都清楚他们想要的工具是什么，你们想要做得更好的上下文窗口，你们想要更快地产生token。我不知道你是否喜欢这个答案，但他们现在使用了很多的计算资源。我觉得我们浪费了很多计算。我们正在努力提高效率，谢谢。

黄仁勋：我觉得我们是让这一切更加有效，感谢！

Jakob Uszkoreit：我觉得主要看我们怎么用资源，不是总共用了多少。我们不想在简单问题上花太多资源，或在难题上花太少，结果找不到答案。

Illiya Polosukhin：比如2+2，如果你正确输入，这个模型会用上一万亿个参数。我觉得自适应计算是必需的，我们要知道在特定问题上应用多少资源。

Aidan Gomez：我们知道计算机现在能做什么，我觉得这是我们要关注的，我觉得这会改变世界，这是未来的方向。

Lukasz Kaiser：这个概念在Transformer模型出现前已经存在，而后被融入Transformer。可能你们不知道，我们最初的目标并未实现。我们本想模拟Token的整个生成过程，不只是线性生成，而更像文字或代码的逐渐进化。我们会迭代和编辑，这样我们不只可以模仿人的写作过程，还可以在过程中得到反馈。

我们都读过香农的论文，最初我们只关注语言建模，但实际上这并未实现。我觉得这是我们可以进步的地方。这也和我们如何有效组织计算资源有关，这种组织方式现在也用在图像处理上。我想说的是，扩散模型有一个特点，就是它们可以通过迭代不断提高质量。但我们现在还没有这个能力。

我想说的是，这有个基本问题：哪些知识应该内化在模型中，哪些应该在模型外？应不应该使用检索模型？

RAG（Retrieval-Augmented Generation）模型就是个例子。这同样涉及到推理问题，哪些推理应该通过外部符号系统完成，哪些应该在模型内完成。这主要是一个效率的问题。我相信大模型最后会学会如何计算2+2，但如果你要计算2+2，却用累加的方式，那就不高效了。

黄仁勋：如果AI只需做2+2的计算，它应该直接用计算器，这样能最省力。但是，如果有人问AI，你怎么知道2+2是对的？这会消耗很多资源。

Noam Shazeer：你说得对。你刚才的例子很好，我相信在场的人工智能系统都足够聪明，会自主使用计算器。

现在全球公共产品（GPP）就是这么做的。我觉得现在的模型太便宜，规模也太小。之所以便宜，是因为像NV这样的技术，感谢它的贡献。谢谢你创造了这么多的计算资源。

但是，你看一个有五千亿参数的模型，每个token计算一万亿次，大概是一美元百万token，这比买一本书、读一本书便宜100倍。我们的应用程序的价值比在大型神经网络上进行高效计算要高百万倍或更多。我的意思是，它们的价值无疑比治疗癌症等更高，但不只是这些。

Ashish Vaswani：我觉得让世界更聪明的意思是如何获取世界的反馈，并实现多任务、多线程的并行处理。如果你想帮助我们建立这样的模型，这将是一个很好的方式。

黄仁勋：能快速分享一下你们为什么创办你们的公司吗？

Ashish Vaswani：我们公司（Adept AI）的目标是建立模型和解决任务。我们的工作是理解任务，满足客户的需求。从2021年开始，我发现，除了让模型更聪明，我们还需要找人解读模型。我们希望和模型一起进步，使模型更好。在实验室里开始学习，但是还需要进步。

Noam Shazeer：2021年，我们创建了公司（Character.AI）。我们有很好的技术，但还未惠及许多人。实际上，因为技术的进步，我们的目标是帮助全世界的人。我们需要测试，需要开发快速的解决方案，让许多人能用这些程序。一开始，不是所有人都用这些程序，很多人只是为了娱乐，但是它们很有效。

Akob Uszkoreit：在2021年，我参与创立了Inceptive公司，我们旨在解决具有影响力的科学问题。以往我们处理的项目很复杂，但自从我有了孩子，对世界的看法也随之改变。我们希望简化人们的生活，并对蛋白质研究做出贡献。我渴望改变医疗系统，希望科技能对人们的生活产生积极影响。尽管蛋白质结构研究已取得一定成果，我们仍然面临数据缺乏的问题。我认为基于数据的努力是我的责任。

黄仁勋：我很赞同你的观点，我对新医药设计和计算机学习新药开发及生成过程始终保持浓厚兴趣。如果能通过学习和设计新药，并在实验室进行测试，我们就能验证这种模型的可行性。

Llion Jones：我是最后一位发言人。我们共同创立的公司名为Sakana AI，意即“鱼”字面意思。选择这个名字是因为我们像鱼群一样，自然界的启示促使我们寻找智能的灵感。

通过整合多个检验元素，我们能够创造出复杂而精妙的成果。虽然许多人可能不了解具体的过程和内容，但我们的核心理念是“学习永远处于胜利之中”。

在生成式人工智能的进程中，学习帮助我们取得成功。作为在场的研究者，我想强调，我们赋予AI模型的真正意义在于它们帮助我们理解宇宙的奥秘。实际上，我们即将宣布一项新进展，这让我们感到非常兴奋。尽管我们已有一系列研究成果作为基石，但我们正处于一场变革之中，当前的模型管理是有组织的，它促使人们真正参与进来。我们正努力使这些模型更加可行，并使用这些大型模型及变革性方法，来改变人们对世界及宇宙的认知。这是我们的目标。

Aidan Gomez：我创立公司的初衷与Noam Shazeer类似。我认为计算机正在进入一种新的模式，正在改变现有产品和工作方式。一切都基于计算机，并且其内部发生了变化。我的目标是弥合差距，弥合鸿沟。我们看到不同的企业创建这样的平台，帮助每个企业适应并融合产品，这是面向用户的直接方式。这是我们推动技术进步的方式，我们致力于让技术更经济、更普及。

黄仁勋：我特别欣赏的是，当Noam Shazeer显得特别平静时，你却显得非常兴奋，你们俩的个性对比非常鲜明。现在，请Lukasz Kaiser发言。

Lukasz Kaiser：我在OpenAI的经历非常颠覆性，公司里的氛围充满乐趣，我们致力于处理大量数据。但归根结底，我的角色是数据处理者。

Illiya Polosukhin：我是第一个离开的人。我坚信我们将取得重大进展，软件将改变世界。最直接的方式是教会机器编写代码，让编程变得更加普及。

在NEAR，我们的进展虽有限，但我们致力于结合人类智慧，获取相关数据。这样不仅能进一步启发人们，还能使我们认识到需要一种基础性的方法论。这种方法论是基础性的进展，大型模型在全球范围内得到广泛应用，不仅在航天等领域有所作为，还促进了各领域之间的交流与互动，实际上为我们赋予了新的能力。随着使用的深入，我们发现这些模型带来了更多可能性，目前关于版权的争议并不多。

我们正处于一个新的生成式时代，这是一个鼓励创新和创新者的时代，我们希望积极参与并拥抱这种变化。因此，我们探索不同的方法来帮助构建一些非常酷的模型。

黄仁勋：这种积极的反馈系统对我们的整体经济非常有益。我们现在能够更好地设计经济体系。我想问，在这个以GPT模型为代表，正在训练数十亿token的数据库的时代，下一步我们将面临什么？新的模型技术将是什么？你们想要探索什么？你们的数据来源是什么？

Illia Polosukhin：我们的起点是矢量和位移。我们需要的是真正具有经济价值的模型，人们能够对其进行评估，并最终将这些技术和工具应用到实际中，使整个模型得到改善。

黄仁勋：你如何对模型进行领域训练？最初的互动和交互模式是什么？是模型之间的交流和互动吗？还是存在生成式的模型和技术？

Illia Polosukhin：在我们的团队中，每个人都拥有自己的技术专长。

Jakob Uszkoreit：下一步是推理。我们都认识到推理的重要性，但许多工作目前还依赖于工程师手动完成。我们实际上是在教导他们以交互式问答的方式回答问题，我们希望他们能够理解协同工作的意义，并共同形成强有力的推理模式。我们希望模型能够生成我们所需的内容，这种生成方式是我们追求的目标。不管是视频、文本还是3D信息，都应该被整合在一起。

Lukasz Kaiser：我想问，大家是否理解推理实际上是基于数据的？如果我们开始进行推理，我们就会用到手头的数据，然后思考这些数据为什么特别。之后，我们会发现各种不同的应用，实际上都是基于数据推理的过程。由于计算机的能力和这样的系统，我们可以从这里开始进一步发展。我们可以推导出相关的内容，进行实验。

Noam Shazeer：我们需要设计数据，比如教学机器，这可能涉及数百个、数亿个不同的Token。

Ashish Vaswani：我想强调的是，在这一领域，我们有很多合作伙伴取得了里程碑式的进展。最好的自动化算法是什么？其实就是把真实世界的任务分解成不同的部分。我们的模型也很重要，它帮助我们获取数据，观察数据是否处于正确的位置。一方面，这有助于我们关注数据；另一方面，这样的数据为我们提供了高质量的模型来完成抽象任务。因此，我们认为衡量这些进展也是创新的一种表现，是科学发展的方式，同时也是我们自动化发展的路径。

黄仁勋：如果没有良好的评价体系，就无法完成优秀的工程项目。你们之间有没有什么问题想要相互提问？

Illia Polosukhin：实际上，我们都想深入了解自己的工作步骤。我们希望能够获取足够的数据和信息，进行合理的推理。例如，如果你可以通过五步来完成推理，就不需要六步。有时你并不需要那么多步骤，但有时又确实需要更多。那么，如何在不同的场景下复现这样的过程？你从Token开始，进一步发展需要什么呢？

Lukasz Kaiser：我个人认为，复现这样的大模型是一个非常复杂的过程。系统不断进步，但从根本上说，你需要设计出一套方法论。人类擅长复现成功的案例，在人类历史中，我们不断地复现成功的场景。

黄仁勋：很高兴能与各位进行交流，也希望你们有机会相互交流，产生难以言喻的魔法。非常感谢各位的参与！

【前哨科技特训营第四季前瞻】

1. 前哨科技特训营直播课程第四季（2023年）共50讲+，除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容，实际平均时长为2小时。
3. 每周四晚八点准时直播，会员可无限次观看回放。
4. 新入会员，可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】，最新AI大模型开发的专属科技分析助手

6. 每周组织【前哨·创新启发局】，链接科技/产业一线人士，打开技术/应用前沿视野

7. 优先获取全球科技产业一线游学、访问机会，接触科技/产业专家，获取最新、最前沿的趋势洞察，人脉链接

8. 本课程为虚拟内容服务，年费订阅服务制。一经订阅概不退款，线下活动需另行支付差旅成本，请您理解。

【课程咨询】

请加“创新地图助手”：

微信：innovationmapSM

继续阅读

阅读原文

黄仁勋集齐AI「八龙珠」，万字对谈实录