一切从一个不算好的赛道开始。
文丨贺乾明 邱豪
编辑丨黄俊杰
整整两年前,英伟达发布 AI 芯片 H100,训练大模型的性能是上一代产品的 9 倍。直到去年底,竞争对手 AMD、英特尔才拿出硬件性能可以和 H100 相比的产品——算上软件生态,还有不少差距。

其实 H100 刚推出的时候,资本市场并不看好英伟达的未来。当时 ChatGPT 还没上线,谁会需要一款专门针对大模型优化的芯片呢?H100 推出后的半年,又赶上比特币矿难,英伟达股价腰斩。
后来 ChatGPT、GPT-4 接连发布,H100 成为稀缺的战略物资,推着英伟达毛利润在 2023 年飙升到 73%,远超苹果,甚至超过了爱马仕。
3 月 19 日发布的 B200 则表明,即便在资本市场已经丧失信心的时候,英伟达创始人、CEO 黄仁勋依然坚定看好 AI 的未来。他在 H100 发布后又投入 100 亿美元——相当于前年的利润两倍多——研发新一代 AI 芯片。
根据英伟达公开的数据,B200 训练万亿大模型的性能是 H100 的 4 倍,推理性能最多提升 30 倍。
B200 依然不愁卖。在 2 月的财报会上,黄仁勋就已经预告 B200 供不应求。亚马逊、Google、微软和甲骨文等云计算公司已经下了大单。
英伟达对极致性能的投入还在加速。按照其去年公布的产品路线图,它的下一代 GPU 已经在准备中,将在明年发布。按照黄仁勋的行事风格,新款 GPU 的性能大概率会大幅提升。
“就像流水线上的工人一样。” 一位英伟达 GPU 架构工程师如此形容他的工作,每完成一个 GPU 架构中自己负责的部分,下一代架构就来了。
游戏行业 30 年塑造的独特惯性
黄仁勋 1993 年创办英伟达时,选择做 PC 上的图形处理器,是为了押注 3D 游戏行业未来会发展壮大,会有越来越多的人会用 PC 玩游戏。那一年《毁灭战士》(Doom)发布,游戏开始有了 3D 画面。
当时做一款专业的 PC 图形处理器并不容易。PC 主要用处是办公,而不是玩游戏,也没那么多 3D 游戏给人玩。赚钱的复杂图形处理市场被硅谷巨头 SGI 垄断,斯皮尔伯格制作《侏罗纪公园》得去买专门的图形工作站。
为了提高产品吸引力,英伟达在第一款产品 NV1 中塞了多个功能:不只提供 2D、3D 图形计算,还要接管音频处理(当时还需要在电脑里插一张单独声卡)、自带游戏手柄接口(当时还没有 USB 接口,需要专门的接口)。黄仁勋当时接受采访说:“PC 消费者会为我们的成果感到震惊。”
凭借团队过去在芯片行业的积累,英伟达两年就把它造了出来,但因为每个方向都不突出,最后惨遭滑铁卢。英伟达想打翻身仗的第二代产品 NV2 还没做出来,就被大客户世嘉抛弃。
这时黄仁勋已经创业 3 年,资金只能维持公司再经营 9 个月。他决定放手一搏,做一款专注图形处理的处理器。这就是后来的 RIVA 128,性能达到同行的 4 倍,上市 4 个月就卖出 100 万张。然后每隔每半年,英伟达就迭代一次产品,成功度过生死危机,并在 1999 年上市。
沿用这个策略,英伟达继续推出 GeForce 256,把性能提升到竞品的 5 倍,再次成功。“当技术发展如此之快时,如果你不重塑自己,你就会慢慢死去。” 黄仁勋 2003 年在斯坦福大学的商业课上说。
接下来 10 多年,英伟达一直保持类似的产品迭代节奏,而游戏行业也给了它这个环境。
1998 年,Epic Games 发布虚幻引擎,大幅降低 3D 游戏的开发门槛,让游戏开发者把竞争重心放到了游戏的真实感上。游戏行业的需求,不再只是简单呈现 3D 画面,还有模拟真实世界的光影变幻、让游戏中人物或物体之间的交互变得自然,每一项都要求图形处理器有更高性能。《孤岛危机》(Crysis)2007 年发布时,画面已经逼真到没什么 PC 处理器可以带得动。
上图:1993 年发布的《毁灭战士》游戏画面;
下图:2007 年发布的《孤岛危机》游戏画面。
英伟达只能不断提高处理器性能,芯片的晶圆面积也越做越大。“每一年,我们的产品性能都是前一年的两倍。但每一年,人们都会说,‘这还不够好’,我想要更强的。” 黄仁勋说。
没几个公司坚持下来。1990 年代与英伟达竞争的 90 多家公司都倒了。ATI 也卖给了 AMD,分精力去做成本更低、适合更广泛场景的 GPU。英特尔把优先级放在 PC 办公领域,更在意芯片成本和能耗,而不是图形处理器的性能。
英伟达追求极致性能的惯性,让它很难适应许多领域的竞争,比如给移动设备开发的芯片 Tegra 以失败告终。但这个习惯也让它在 AI 领域找到了发挥空间。
同行们都没有英伟达同等的规模效应
专门给 AI 开发芯片,Google 比英伟达早。它在 2015 年就在内部使用 TPU,英伟达直到 2016 年才发布针对深度学习优化的 P100。同一年,市场还出现一批 AI 芯片创业公司,比如英国的 Graphcore,中国的寒武纪。
但因为当时模型普遍较小,消耗算力不多,AI 芯片市场规模有增长,但不算大。根据 Stratview Research 数据,2021 年整个 AI 芯片市场只有 108 亿美元规模——差不多是汽车芯片的 1/5、整个芯片行业的不到 2%。
没有哪家公司能靠专卖 AI 芯片很好地活下来,创业公司基本都是巨亏,需要持续不断的巨额融资。称得上有规模的只有 Google 和英伟达,分别依赖内部需求和游戏主业为 AI 芯片 “输血”,但发展路线截然不同。
Google 一直专注为内部业务开发新款 TPU。英伟达则是做平台,借助免费的 CUDA 吸引更多 AI 开发者,占住 AI 芯片市场超 80% 的市场份额。
等到 ChatGPT 爆发后,借助游戏业务加持,英伟达的 AI 芯片已经建立起同行都无法匹敌的规模优势。当前高性能 AI 芯片主要供应瓶颈是 CoWoS 先进封装和高带宽内存(HBM),英伟达比竞争对手更容易拿到产能。
CoWoS 先进封装最大的供应商是台积电。因为游戏业务,英伟达与台积电合作 20  多年,一直是它的大客户。随着 AI 芯片出货量加大,到 2024 年,英伟达已经是台积电第二大客户,仅次于苹果。这让它有机会用更低的价格抢占台积电的产能。
HBM 的主要供应商是三星和 SK 海力士。因为高性能游戏显卡也需要高性能的显存,英伟达同样一直是它们的大客户。随着英伟达 GPU 供不应求,HBM 采购量扩大,它们更加依赖英伟达。
英伟达也在充分利用它的规模优势。根据 SemiAnalysis 的信息,英伟达早早包下了台积电约六成 CoWoS 产能,并向 HBM 的三家供应商 SK 海力士、三星等下了巨额订单,尽可能抢占有限产能,保证自己供应时,还可以挤压对手。
借助 CUDA 聚集的数百万开发者和销售 GPU 积累的庞大客户群,英伟达还能比大多数同行更早感受到变化到来。最典型的例子是英伟达 2022 年 3 月发布的 H100,当时距离 OpenAI 发布 ChatGPT 还有大半年,它就针对 Transformer 架构做了优化。
“过去几十年来,我们改进芯片架构的一个重要部分就是与许多关键客户的联系。” 英伟达 CFO 科莱特·克雷斯(Colette Kress)前不久参加一场活动时说。“他们不会对新架构感到意外,因为我们一直在了解他们的需求,以便将其纳入新架构中。”
规模优势为英伟达带来了高额利润。去年英伟达毛利率达到 73%,比爱马仕还高,远超同行。这让英伟达有充分的资金可以继续投入研发、抢占供应链产能,把规模做得更大。
挖更深的护城河
庞大的 AI 芯片需求和丰厚利润,给英伟达带来更多的竞争对手。微软、Meta、Google、亚马逊、特斯拉等英伟达的大客户,都投入更多资源研发 AI 芯片,甚至 OpenAI 都开始筹备芯片项目。
竞争对手已经在蚕食英伟达的领地。Google 用 Gemini Ultra 证明,不用英伟达的顶级 GPU 也可以训练出比肩 GPT-4 的大模型,它还成功把自研的 TPU 卖给 OpenAI 的竞争对手们。微软、Meta 等英伟达的大客户也开始采购更便宜的 AMD 芯片。
竞争必然更激烈。英伟达的利润率有多高,对手甚至客户就有多大动力替换它。
英伟达的反击不只是用更短的时间推出性能更强的 GPU。它还在借助自己的 GPU 供不应求,扩大业务边界,尽可能绑定客户。
去年 3 月的 GTC 上,英伟达推出云计算服务 DXG Cloud:英伟达把卖给云计算公司的 GPU 租回来,由英伟达员工进一步优化,提供软件服务,再出租给需要 GPU 算力的客户。一来一回,云计算平台承担了数据中心的建设成本,客户却去了英伟达。但微软、Google、甲骨文依然加入了英伟达的计划,AWS 抗争大半年后,也只能选择加入,换取更快购买新款 GPU 的资格。
今年英伟达继续在软件上加码,推出软件平台 NIM,让用户更容易在生产环境中部署定制和预训练的 AI 模型。像当年的 CUDA 一样,NIM 免费提供,但只能与 GPU 搭配使用。在分析师本·汤普森(Ben Thompson)看来,这是英伟达试图在大模型时代锁定客户的尝试。现在大模型架构趋于固定,CUDA 的优势在削弱。
英伟达 NIM 架构图。
英伟达销售的产品也不再限于单张 GPU,或者用多张 GPU 做成的服务器,还用 2019 年收购 Mellanox 获得的 Infiniband、以太网等数据中心网络产品,搭上自研的 CPU、GPU,推出整个数据中心解决方案。
黄仁勋称它为 “人工智能工厂”,他认为这是一个全新的行业,不只提供数据存储、计算服务,还能直接把数据变成有价值的大模型,“这和上次工业革命中的交流发电机没什么不同”。
当被问及英伟达如何看待 AMD 等公司的竞争,英伟达 CFO 科莱特·克雷斯说,现在的英伟达,业务已经不再是简单地设计芯片、解决某个特定任务,而是提供数据中心需要的任何形式的计算方案,包括计算基础设施、网络基础设施、内存……. 和一个完整的超级计算机。
题图来源:Stratechery 博客
1957 年,人造物体第一次进入宇宙,绕着地球飞了三个星期。人类抬头就能在夜幕里看到一颗小小的闪光划过天空,与神话里的星宿并行。

这样的壮举跨越种族与意识形态,在全球各地激起了喜悦之情。但并不是我们可能猜想的那种为人类壮举所感动的胜利喜悦。根据政治哲学家汉娜·阿伦特(Hannah Arendt)当年的观察,人们的情绪更接近于一种等待多时的宽慰——科学终于追上了预期,“人类终于在摆脱地球这个囚笼的道路上迈出了第一步”。
人们总是根据技术探索,快速调整着自己对世界的预期。当科幻作家的一桩畅想变成现实,往往是技术终于追上了人们的预期,或者用阿伦特的话说,“科技实现并肯定了人们的梦想既不疯狂也不虚无。”
今天这样的时候,多一点梦想是更好的。
这也是《晚点 LatePost》启动 TECH TUESDAY 这个栏目的预期。我们希望在《晚点》日常关注的商业世界外,定期报道新的科学研究与技术进展。
这些可能关于一项前沿研究的进展、可能是对一个技术应用的观察,也可能是对一些杰出技术、乃至一个时代的致敬。
这个栏目将从科学与技术的角度出发,记录这个世界的多样变化。在这个旅途中,希望读者能和我们一起,对这个世界增加一分理解。
·  FIN  ·
继续阅读
阅读原文