黄仁勋首次公布未来3年路线图，英伟达凭什么成为AI时代缔造者？

摩尔定律已死，AI加速计算已来。

文｜王奕昕陈斯达

编辑｜李然

封面来源｜视频截图

英伟达CEO黄仁勋6月2日在台大COMPUTEX大会上发表开幕演讲，正式宣告：新的工业革命由AI正式开启，英伟达是最重要的公司，没有之一。

黄仁勋在演讲中称，144年前，特斯拉发明了交流发电机，成为了人类第二次工业革命的标志性时刻。而英伟达现在正在源源不断地“制造智能”，开启新的工业革命。

老黄说，英伟达如今的成功，绝不是因为幸运：

在30年前成立英伟达时，他们就相信GPU所代表的计算方式，将是计算的未来；12年前，他们发明了CUDA，让GPU成为AI所需的加速计算的能源；8年前，他们生产全世界第一台AI超级计算机，但是当时没有人知道用它可以干什么，所以他们一台也卖不出去。只有旧金山一家新成立的小公司——OpenAI向他们订购了一台。

有人说英伟达的成功，是因为赶上了时代的风口，成为了AI掘金热中卖铲子的人，成为了那只飞得最高的猪。

而老黄的说法是，是英伟达用12年的时间，一手缔造了生成式AI浪潮出现所需要的算力基础和生态，他们不是那只飞起来的猪，而是吹风的神。

而未来，英伟达将会以年为单位，不断推出逼近物理极限的GPU，以及性能最强大的AI超算平台，加速工业革命的发展。

英伟达在三月推出的芯片平台Blackwell，号称自家“史上最成功的产品”。但不到三个月，黄仁勋就又首次官宣了全新的Rubin平台：

它将配备新GPU、基于Arm的新CPU——Vera，以及采用NVLink 6、CX9 SuperNIC 和 X1600、并融合InfiniBand/以太网交换机的高级网络平台。

未来三年的路线图：Blackwell Ultra（2025年）——Rubin（2026年）——Rubin Ultra（2027年）（从Hopper开始，3个平台基于同一个构架）。

老黄还强调，路线图不是纸上的规划，而是已经100%开始执行的内容。

当竞争对手还在追赶英伟达GPU性能时，英伟达已经在发力整个数据中心的构架层创新，通过提供更快的芯片互联，更强的算力调度能力，将GPU打包成综合性能无人能敌的数据工厂，交付给全世界。

为此，英伟达专门制作了一段酷炫的动画，演示了将一块现在已经量产了的Blacwell GPU，变成能够训练像GPT-4这样规模的大语言模型的超算集群，需要经历的过程。

将计算核心与有效地连接，是构建超大规模计算集群的核心。

为了完成这样的联结，英伟达开发了像NVLink，InfiniBand，SPTECTUM-X等最前沿的连接和网络技术，AI算力工厂才得以成型。

到Blackwell为止，英伟达已经把AI模型有效扩展到万亿级别的规模。

1.8万亿参数的GPT-4模型，在Blackwell平台上的训练能效，和8年前相比增加了350倍。

未来，已经量产的Blackwell将进一步进化。指引了半导体行业发展几十年的摩尔定律，也已经被GPU所代表的AI加速计算所突破——8年内，英伟达提供的AI算力已经成长了1000倍，远超摩尔定律。

而除了不断交付业内最顶尖的算力硬件，面向未来，英伟达依然在继续布局“Next Big Things”——这些业务也许就像“2016年GTC上发布的DGX超算”那样，成为英伟达开启未来全新市场的金钥匙。

英伟达数字孪生平台Omniverse继续更新，推出了API。机器人开发平台NVIDIA Isaac也在继续更新。

而未来，这些平台有可能结合起来，为一个充满机器人的世界，提供高效的开发和管理生态——也许就像12年前推出的CUDA一样，成为英伟达在新时代最深的护城河。

下面就让我们进一步看一下老黄演讲的具体细节。

AI引发的新的工业革命

发布会一开场，老黄用一段AI模拟现实世界的视频引出了未来英伟达的方向：人工智能和加速计算的交汇将重新定义未来。

黄仁勋表示，“人工智能的出现之所以成为可能，是因为我们完全相信，如果我们让计算变得越来越便宜，就会有人发现它有很大的用处。”

在过去十年间，英伟达将一个特定算法的边际计算成本降低了一百万倍。这让使用互联网上的所有数据来训练大型语言模型在现在看来是一件非常合乎逻辑的事。

以CUDA为例，黄仁勋表示，它已经实现了良性循环。它的安装基础正在增长，计算成本也在下降，这使得更多的开发人员提出更多的想法，催生更多需求。

人工智能引发的工业革命，万物皆可转化为词元（token）。比如，用NVIDIA Earth-2准确预测天气预报，就是在正在生成天气的词元。

“计算机不再只是信息存储或数据处理的工具，而是为每个行业生成智能的工厂”。”老黄大胆预测独属于人工智能的工业革命：“这将是一个制造业，不是计算机制造业，而是在制造业中，使用计算机——这是以前从未发生过的。”

计算世界还建立在六十年前的想法上，但是英伟达及其合作伙伴已经重构计算基底——基于GPU的加速计算和CUDA系统将“加速”计算机的应用研发速度。

老黄还划重点（带货），只有基于人工智能芯片，企业才能控制不断扩大的数据需求带来的“计算膨胀”。

“我作为CEO给你们算一笔账，买得越多，省得越多。可能不太精准，但绝对正确！”

Blackwell平台已经量产，但是AI工厂需要的不仅仅是GPU

“我们需要基于物理并理解物理定律的AI。”

黄仁勋说，“我们即将进入一个阶段，在这里，AI可以学习物理和理解定律，并以物理世界的数据为基础，因此我们预计模型将继续增长，我们需要更大的GPU。Blackwell就是为这一代人设计的。”

在Blackwell设计中，最为显著特点便是“大”。

这是世界上最大的芯片，也是功能和性能最强大的芯片。其中，每个裸晶包含两个GPU，用10TB/s的NVLink技术串联起来。

我们拿了两个最大的芯片，一个是TSMC所能做到的最大的芯片，我们将其中两个最先进的GPU连接在一起，带宽达到10TB。然后我们将其中两个放在一个计算机节点上，用一个Grace CPU连接它。

第五代NVLink技术增强了多GPU之间的连接性。这款产品还是公司首次采用具备可靠性和可用性引擎（RAS）的设备，能够自动检测并修复潜在的硬件故障，显著提升了系统的整体稳定性和可靠性。

这一点对于持续运行复杂的模型训练尤为关键。

｜DGX Blackwell系统：高性能AI计算的标杆

DGX Blackwell是一款高性能AI计算系统，内置八个GPU，采用气冷技术，功率达到15千瓦。

针对需要更高冷却效率的应用场景，英伟达还提供了基于MGX模块化框架的液体冷却新系统。

该系统支持x86架构，并与英伟达已有的Hopper基础设施兼容。每个节点包含两个Blackwell板，每板四个Blackwell芯片，形成一个两层系统。通过组合九个这样的节点，可以实现一个具有72个GPU的强大系统。

而且这次大会上，老黄还专门详细地介绍了未来构成超算和AI算力网络的其他关键技术。

｜第五代NVLink交换器：数据传输的革命，世界上最先进的GPU互连技术

第五代NVLink交换器数据传输速率极高，黄仁勋称之为“科技上的一种奇迹”。这种高速数据连接技术是连接大量GPU的关键，让整个系统在处理巨大的数据时更加高效。

通过NVLink技术，72个GPU可以互联，形成一个强大的网络，使得在每个GPU上的操作看起来如同在一个单一GPU上进行，极大地提高了计算效率。

黄仁勋解释说：“NVLink把所有芯片串联在一起。大型语言模型不能只有一个节点，不能只有一个GPU。我们必须把整个机架里头所有的GPU全部都连接在一起，这样才能有一个可以处理十兆参数以上的大型语言模型。它有500亿个晶体管，72个端口，4个NVLink，每秒速度是1.8TB。”

此外，NVLink的设计还考虑到了能源效率。通过优化数据传输路径和控制数据流，NVLink不仅提升了性能，还帮助节省了大量能源。例如，通过特殊的背板设计，一个机架可以节省高达20千瓦的电力。

｜InfiniBand

InfiniBand技术在英伟达的AI工厂和超级电脑中扮演着至关重要的角色。

黄仁勋解释称：“我们要打造AI工厂，所以我们必须要有更高速的网络技术。”

但他同时指出，不是所有的数据中心都能直接使用InfiniBand，尤其是那些已经部署了以太网的中心。因此，英伟达采取了将InfiniBand功能整合到以太网架构中的策略。

图源：NVIDIA官网

InfiniBand适配器图源：NVIDIA官网

｜RDMA和Spectrum-X

整合的核心挑战在于两种网络设计的根本差异。

黄仁勋指出，传统以太网是为了满足高平均传输量而设计，而AI工厂中的GPU之间的通信需求则完全不同。

他解释说：“AI工厂中的深度学习系统的GPU是他们彼此之间在做沟通，因为他们在收集数据，然后进行缩减，再重新进行分配。”

为了应对这些挑战，英伟达开发了RDMA（远程直接内存访问）技术，专门为以太网络设计，以提高数据传输效率。此外，英伟达还实施了拥塞控制系统、自适应路由和流量隔离技术，以优化数据流并减少训练模型时的延迟。

网络性能的提升对成本控制具有显著影响。

他提到：“我们已经打造了一个50亿或者30亿美金造价的资料中心来做训练。假如网络的利用率降低40%，培训时间延长了20%，那么50亿美元的数据中心实际上花费了60亿美元。”

图源：网络

｜Spectrum-X交换机

黄仁勋特别强调了Spectrum-X交换机的重要性。

他表示：“使用Spectrum-X以太网基本上允许我们大大提高性能，因此网络基本上是免费的。”

Spectrum-X交换机系列，包括即将发布的Spectrum-X 800 Ultra和X 1600，专为服务成千上万乃至数百万GPU而设计，预示着数据中心的未来。

当我们希望训练更大的模型时，在未来，几乎你与互联网或计算机的每次互动都可能在云端运行生成式AI。生成式AI正在与你合作，与你互动，生成视频、图像或文本，或者可能是数字人。
因此，你几乎一直在与计算机进行交互，并且总是有一个生成式AI与之相连。有些在本地，有些在你的设备上，其中很多可能在云端。
这些生成式AI还将具有大量的推理能力，而不仅仅是一次性答案，它们可能会对答案进行迭代，以便在将答案提供给您之前提高答案的质量。因此，未来我们将要处理的生成内容的数量将是非凡的。