英伟达未来AI芯片架构推演

前篇内容请参看文章：

Nvidia AI芯片路线图分析与解读

、

Nvidia芯片工艺洞察和推演

、

Nvidia AI芯片架构分析

、

H100/H200、B100、X100 GPU架构演进总结

。

互联技术在很大程度上塑造了芯片和系统的物理架构。从互联技术的发展历程出发，以芯片布局为线索，并考虑工程工艺的物理限制，可以对Nvidia未来AI芯片架构进行预测。这种推演也有助于发掘对互联技术的新需求。

NVLink和NVLink C2C演进推演

互联技术的演进是一个渐进的过程，其基本技术要素如带宽、调制和编码等都遵循着其内在的发展规律。这些物理规律相对稳定，通过将这些技术进行组合并结合当前工程工艺的发展趋势以及需求，就可以大致描绘和预测出互联技术的发展方向。在这里不深入探讨晦涩难懂的互联技术本身的发展，而是从宏观技术逻辑和外在可观察的指标两个角度出发，探讨NVLink和NVLink C2C的历史演进，并对其未来发展进行预测。

从NVLink的演进看，当前其演进了四个代际，NVLink C2C当前只有一个代际，通过与当下不同协议的速率演进对比及NVLink宣传材料，可以清晰的看到每个代际的NVLink技术的竞争对手和其要解决的痛点问题。当前接口有两大开放的互联生态，PCIE互联生态和Ethernet互联生态，CXL协议依托于PCIE互联生态，而InfiniBand则依托与Ethernet互联生态。NVLink的主要目标是解决GPU之间的互联问题，而早期的GPU一定需要保留与CPU互联的PCIE接口，用于GPU互联是也天然的继承了这一技术，因此NVLink早期的竞争对手是PCIE。从PCIE、Ethernet和NVLink的发展轨迹来看，NVLink的SerDes速率介于同时期PCIE和Ethernet SerDes速率之间。这意味着NVLink利用了Ethernet生态成熟的互联技术来对抗PCIE，实现接口速率超越PCIE。通过复用Ethernet生态的成熟互联技术，NVLink在成本方面也具有优势。

值得注意的是，NVLink并未完全遵循Ethernet的互联技术规范。例如，在50G NVLink3.0采用了NRZ调制，而不是Ethernet所采用的PAM4调制 [30]。这意味着NVLink3.0利用了100Gbps PAM4 SerDes代际的技术，并通过采用更低阶NRZ调制来实现链路的无误码运行，免去FEC实现低时延。同样以低时延著称的InfiniBand在50G这一代际则完全遵从了Ethernet的PAM4调制，这在一定程度上使其在50G这一代际丧失了低时延的技术优势，市场不得不选择长期停留在25G代际的InfiniBand网络上。当然，InfiniBand网络也有其无奈之处，因为它需要复用Ethernet光模块互联生态，所以它必须完全遵循Ethernet的互联电气规范，而与之对应的NVLink3.0则只需要解决盒子内或机框内互联即可。

同样的事情也会在100G代际的NVLink4.0上发生，NVLink4.0完全摆脱了盒子和框子的限制，实现了跨盒子、跨框的互联，此时为了复用Ethernet的光模块互联生态，NVLink4.0的频点和调制格式也需要遵从Ethernet互联的电气规范。以前InfiniBand遇到的问题，NVLink也同样需要面对。在100G时代，可以观察到Ethernet、InfiniBand和NVLink的SerDes速率在时间节奏上齐步走的情况。实际上，这三种互联接口都采用了完全相同的SerDes互联技术。同样的情况在200G这一代际也会发生。与InfiniBand和Ethernet不同的是，NVLink是一个完全私有的互联生态，不存在跨速率代际兼容、同代际支持多种速率的接口和多厂商互通的问题。因此，在技术选择上，NVLink可以完全按照具体应用场景下的需求来选择设计甜点，在推出节奏上可以根据竞争情况自由把控，也更容易实现差异化竞争力和高品牌溢价。

NVLink的发展可以分为两个阶段。NVLink1.0~3.0主要在盒子内、机框内实现GPU高速互联，对标PCIE。它利用了Ethernet SerDes演进更快的优势，采用了更高速的SerDes，同时在NVLink2.0时代开始引入NVSwitch技术，在盒子内、机框内组成总线域网络，在带宽指标上对PCIE形成了碾压式的竞争优势。NVLink4.0以后NVLink走出盒子和机框，NVSwitch走出计算盒子和机框，独立成为网络设备，此时对标的是InfiniBand和Ethernet网络。

虽然NVLink4.0没有公开的技术细节，但是从NVLink网络的Load-Store网络定位和满足超节点内部内存共享的需求上看，一个合理的推测是，NVLink4.0很可能采用了轻量FEC加链路级重传的技术支持低时延和高可靠互联。在时延和可靠性竞争力指标上对InfiniBand和Ethernet形成碾压式的竞争力，这更有利于实现内存语义网络，支持超节点内内存共享。提供传统网络所不能提供的关键特性，才是NVLink作为总线域网络独立存在的理由。

基于NVLink C2C的产品目前只有GH200这一代，但是从Nvidia在该领域公开发表的论文中可以大致看出其技术发展的脉络。从技术演进上看，它是封装内Die间互联的在均衡上的增强。从Nvidia SuperChip超级芯片路标来看，它将在未来的AI芯片中继续发挥重要作用。对于这类接口，仍需保持连接两个独立封装芯片的能力和极低的时延和功耗。

当前的NVLink C2C采用9*40Gbps NRZ调制方式。未来NVLink-C2C可能会向更高速率和双向传输技术方向演进。而50G NRZ是C2C互联场景下在功耗和时延方面的设计甜点。继续维持NRZ调制，选择合适工作频率，走向双向传输将是实现速率翻倍的重要技术手段。虽然NVLink C2C针对芯片间互联做了优化设计，但由于它与标准SerDes之间不存在速率对应关系，无法实现与标准SerDes之间比特透明的信号转换，因此其应用场景受限。在与标准SerDes对接时需要多引入一层协议转化会增加时延、面积和功耗开销。未来可能存在一种可能性，即采用类似NVLink C2C这种高密单端传输技术，同时与标准SerDes实现多对一的速率匹配，这种技术一旦实现将极大地扩展C2C高密单端互联技术的应用空间，也有可能开启SerDes面向更高速率演进的新赛道。

从NVLink和NVSwitch的演进来看，每一代速率会是上一代的1.5到2倍。下一代NVLink5.0大概率会采用200G每通道，每个GPU能够出的NVLink接口数量从18个增加到32个，甚至更高。而NVSwitch4.0在端口速率达到200G以外，交换芯片的端口数量可能在NVSwitch3.0交换芯片64端口的基础上翻2倍甚至4倍，总交换容量从12.8T到25.6T甚至51.2T [30]。

B100 GPU架构推演

以H100 GPU芯片布局为基础，通过先进的封装技术将两颗类似H100大小的裸Die进行合封，可以推演B100 GPU架构。B100 GPU有两种“双Die”推演架构：IO边缝合和HBM边缝合[31][32]。“HBM边缝合”利用H100的HBM边进行双Die连接，这种方案的优点在于，它可以使得IO可用边长翻倍，从而有利于扩展IO带宽。然而，它的缺点在于HBM可用边长并没有改变，因此无法进一步扩展HBM容量。“IO边缝合”利用H100的IO边进行双Die连接，这种方案的优势在于HBM可用边长能够翻倍，从而有利于扩展内存。然而，它的缺点在于IO可用边长并未改变，因此需要进一步提升IO密度。考虑到每代芯片与上一代相比，在内存、算力、互联三个层面需要实现两倍以上的性能提升，采用“IO 边缝合”方案的可能性更大。采用“IO 边缝合”的方案需要提升 IO 的边密度。

H100不具备旋转对对称性，而双Die的B100仍需支持 GH200 SuperChip 超级芯片，因此B100可能由两颗异构 Die组成。按照不同的长宽比采用“IO边缝合的方式”B100 的面积达到3.3到3.9倍的Reticle面积，小于当前TSMC CoWoS先进封装能够提供的4倍Reticle面积的能力极限。计算 Die 之间互联可以复用 NVLink C2C 互联技术，既利用 NVLink C2C出封装的连接能力覆盖Die间互联的场景。

为了实现计算Die的归一化，可以将IO从计算Die中分离出来，形成独立的IO Die。这样，计算Die的互联接口就实现了归一化，使计算Die具备了旋转对称性。在这种情况下，仍然存在两种架构：一种是同构计算Die与IO Die合封，另一种是计算Die与IO Die分别封装并用C2C互联将二者连接。计算Die的同构最大的优势在于可以实现芯片的系列化。通过灵活组合计算Die和IO Die，可以实现不同规格的芯片以适应不同的应用场景的需求。

Nvidia B100 有“异构 Die 合封”，“计算Die与IO Die分离，同构计算 Die 与 IO Die 合封”，“计算 Die 与 IO Die 分离并分别封装，并用C2C互联将二者连接”三种架构选项。Nvidia B100 如果采用单封装双 Die 架构，封装基板面积达到 3.3~3.9倍 Reticle面积，功耗可能超过 1kW。计算 Die 之间互联可以复用 NVLink C2C 互联技术。将计算 Die 和 IO Die 分离可以实现计算 Die 的同构化，降低成本。利用 NVLink C2C 出封装互联的能力，可以将 IO 扇出，降低 IO 边密度压力。需要注意的是，当前 NVLink C2C 速率与 PCIE & NVLink 的 SerDes 无法匹配，因此需要 IO Die 上作协议转换，无法做到协议无关。如果 C2C 互联和 SerDes 速率能够进行多对一的匹配实现比特透明的 CDR，这样可以消除协议转换的开销。考虑到B100 2024年推出的节奏，方案一、三匹配当前先进封装能力，但方案三需要引入额外的协议转换；方案二超出当前先进封装能力。

X100 GPU架构推演

Nvidia X100如果采用单Socket封装四Die架构，封装基板面积将超过6倍Reticle面积，这将超出2025年的先进封装路标的目标。而如果采用双Socket封装架构，则需要使用10~15cm的C2C互联技术来实现跨封装的计算 Die间的互联，这可能需要对当前NVLink C2C的驱动能力进一步增强。

Nvidia X100 GPU如果采用四Die架构，如果要控制封装基板面积在6倍Reticle面积以下，匹配2025年先进封装路标，则需要在计算Die上通过3D堆叠的方式集成HBM [21][22]。因此X100如果不采用SuperChip超级芯片的架构而是延续单封装架构，要想在2025年推出，技术挑战非常大。一方面需要先进封装基板达到6倍Reticle面积，另一方面需要实现在计算Die上堆叠HBM，同时要解决HBM和计算Die堆叠带来的芯片散热问题。

在满足2025年的工程约束的前提下，X100也可以采用SuperChip超级芯片架构在B100双Die架构的基础上进行平面扩展。在这种情况下，Nvidia X100 也有“异构 Die 合封”，“同构计算 Die 与 IO Die 合封”，“计算 Die 与 IO Die 分别封装”三种架构选项。如果采用封装间互联的超级芯片的扩展方式，先进封装的基板面积约束将不再会是瓶颈，此时只需要增强NVLink C2C的驱动能力。

未完待续…

作者：陆玉春

来源：

https://www.chaspark.com/#/hotspots/950120945305616384