互联技术在很大程度上塑造了芯片和系统的物理架构。从互联技术的发展历程出发,以芯片布局为线索,并考虑工程工艺的物理限制,可以对Nvidia未来AI芯片架构进行预测。这种推演也有助于发掘对互联技术的新需求。

NVLink和NVLink C2C演进推演

互联技术的演进是一个渐进的过程,其基本技术要素如带宽、调制和编码等都遵循着其内在的发展规律。这些物理规律相对稳定,通过将这些技术进行组合并结合当前工程工艺的发展趋势以及需求,就可以大致描绘和预测出互联技术的发展方向。在这里不深入探讨晦涩难懂的互联技术本身的发展,而是从宏观技术逻辑和外在可观察的指标两个角度出发,探讨NVLink和NVLink C2C的历史演进,并对其未来发展进行预测。
从NVLink的演进看,当前其演进了四个代际,NVLink C2C当前只有一个代际,通过与当下不同协议的速率演进对比及NVLink宣传材料,可以清晰的看到每个代际的NVLink技术的竞争对手和其要解决的痛点问题。当前接口有两大开放的互联生态,PCIE互联生态和Ethernet互联生态,CXL协议依托于PCIE互联生态,而InfiniBand则依托与Ethernet互联生态。NVLink的主要目标是解决GPU之间的互联问题,而早期的GPU一定需要保留与CPU互联的PCIE接口,用于GPU互联是也天然的继承了这一技术,因此NVLink早期的竞争对手是PCIE。从PCIE、Ethernet和NVLink的发展轨迹来看,NVLink的SerDes速率介于同时期PCIE和Ethernet SerDes速率之间。这意味着NVLink利用了Ethernet生态成熟的互联技术来对抗PCIE,实现接口速率超越PCIE。通过复用Ethernet生态的成熟互联技术,NVLink在成本方面也具有优势。
值得注意的是,NVLink并未完全遵循Ethernet的互联技术规范。例如,在50G NVLink3.0采用了NRZ调制,而不是Ethernet所采用的PAM4调制 [30]。这意味着NVLink3.0利用了100Gbps PAM4 SerDes代际的技术,并通过采用更低阶NRZ调制来实现链路的无误码运行,免去FEC实现低时延。同样以低时延著称的InfiniBand在50G这一代际则完全遵从了Ethernet的PAM4调制,这在一定程度上使其在50G这一代际丧失了低时延的技术优势,市场不得不选择长期停留在25G代际的InfiniBand网络上。当然,InfiniBand网络也有其无奈之处,因为它需要复用Ethernet光模块互联生态,所以它必须完全遵循Ethernet的互联电气规范,而与之对应的NVLink3.0则只需要解决盒子内或机框内互联即可。
同样的事情也会在100G代际的NVLink4.0上发生,NVLink4.0完全摆脱了盒子和框子的限制,实现了跨盒子、跨框的互联,此时为了复用Ethernet的光模块互联生态,NVLink4.0的频点和调制格式也需要遵从Ethernet互联的电气规范。以前InfiniBand遇到的问题,NVLink也同样需要面对。在100G时代,可以观察到Ethernet、InfiniBand和NVLink的SerDes速率在时间节奏上齐步走的情况。实际上,这三种互联接口都采用了完全相同的SerDes互联技术。同样的情况在200G这一代际也会发生。与InfiniBand和Ethernet不同的是,NVLink是一个完全私有的互联生态,不存在跨速率代际兼容、同代际支持多种速率的接口和多厂商互通的问题。因此,在技术选择上,NVLink可以完全按照具体应用场景下的需求来选择设计甜点,在推出节奏上可以根据竞争情况自由把控,也更容易实现差异化竞争力和高品牌溢价。
NVLink的发展可以分为两个阶段。NVLink1.0~3.0主要在盒子内、机框内实现GPU高速互联,对标PCIE。它利用了Ethernet SerDes演进更快的优势,采用了更高速的SerDes,同时在NVLink2.0时代开始引入NVSwitch技术,在盒子内、机框内组成总线域网络,在带宽指标上对PCIE形成了碾压式的竞争优势。NVLink4.0以后NVLink走出盒子和机框,NVSwitch走出计算盒子和机框,独立成为网络设备,此时对标的是InfiniBand和Ethernet网络。
虽然NVLink4.0没有公开的技术细节,但是从NVLink网络的Load-Store网络定位和满足超节点内部内存共享的需求上看,一个合理的推测是,NVLink4.0很可能采用了轻量FEC加链路级重传的技术支持低时延和高可靠互联。在时延和可靠性竞争力指标上对InfiniBand和Ethernet形成碾压式的竞争力,这更有利于实现内存语义网络,支持超节点内内存共享。提供传统网络所不能提供的关键特性,才是NVLink作为总线域网络独立存在的理由。
基于NVLink C2C的产品目前只有GH200这一代,但是从Nvidia在该领域公开发表的论文中可以大致看出其技术发展的脉络。从技术演进上看,它是封装内Die间互联的在均衡上的增强。从Nvidia SuperChip超级芯片路标来看,它将在未来的AI芯片中继续发挥重要作用。对于这类接口,仍需保持连接两个独立封装芯片的能力和极低的时延和功耗。
当前的NVLink C2C采用9*40Gbps NRZ调制方式。未来NVLink-C2C可能会向更高速率和双向传输技术方向演进。而50G NRZ是C2C互联场景下在功耗和时延方面的设计甜点。继续维持NRZ调制,选择合适工作频率,走向双向传输将是实现速率翻倍的重要技术手段。虽然NVLink C2C针对芯片间互联做了优化设计,但由于它与标准SerDes之间不存在速率对应关系,无法实现与标准SerDes之间比特透明的信号转换,因此其应用场景受限。在与标准SerDes对接时需要多引入一层协议转化会增加时延、面积和功耗开销。未来可能存在一种可能性,即采用类似NVLink C2C这种高密单端传输技术,同时与标准SerDes实现多对一的速率匹配,这种技术一旦实现将极大地扩展C2C高密单端互联技术的应用空间,也有可能开启SerDes面向更高速率演进的新赛道。
从NVLink和NVSwitch的演进来看,每一代速率会是上一代的1.5到2倍。下一代NVLink5.0大概率会采用200G每通道,每个GPU能够出的NVLink接口数量从18个增加到32个,甚至更高。而NVSwitch4.0在端口速率达到200G以外,交换芯片的端口数量可能在NVSwitch3.0交换芯片64端口的基础上翻2倍甚至4倍,总交换容量从12.8T到25.6T甚至51.2T [30]。


B100 GPU架构推演

以H100 GPU芯片布局为基础,通过先进的封装技术将两颗类似H100大小的裸Die进行合封,可以推演B100 GPU架构。B100 GPU有两种“双Die”推演架构:IO边缝合和HBM边缝合[31][32]。“HBM边缝合”利用H100的HBM边进行双Die连接,这种方案的优点在于,它可以使得IO可用边长翻倍,从而有利于扩展IO带宽。然而,它的缺点在于HBM可用边长并没有改变,因此无法进一步扩展HBM容量。“IO边缝合”利用H100的IO边进行双Die连接,这种方案的优势在于HBM可用边长能够翻倍,从而有利于扩展内存。然而,它的缺点在于IO可用边长并未改变,因此需要进一步提升IO密度。考虑到每代芯片与上一代相比,在内存、算力、互联三个层面需要实现两倍以上的性能提升,采用“IO 边缝合”方案的可能性更大。采用“IO 边缝合”的方案需要提升 IO 的边密度。
    H100不具备旋转对对称性,而双Die的B100仍需支持 GH200 SuperChip 超级芯片,因此B100可能由两颗异构 Die组成。按照不同的长宽比采用“IO边缝合的方式”B100 的面积达到3.3到3.9倍的Reticle面积,小于当前TSMC CoWoS先进封装能够提供的4倍Reticle面积的能力极限。计算 Die 之间互联可以复用 NVLink C2C 互联技术,既利用 NVLink C2C出封装的连接能力覆盖Die间互联的场景。

为了实现计算Die的归一化,可以将IO从计算Die中分离出来,形成独立的IO Die。这样,计算Die的互联接口就实现了归一化,使计算Die具备了旋转对称性。在这种情况下,仍然存在两种架构:一种是同构计算Die与IO Die合封,另一种是计算Die与IO Die分别封装并用C2C互联将二者连接。计算Die的同构最大的优势在于可以实现芯片的系列化。通过灵活组合计算Die和IO Die,可以实现不同规格的芯片以适应不同的应用场景的需求。
Nvidia B100 有“异构 Die 合封”,“计算Die与IO Die分离,同构计算 Die 与 IO Die 合封”,“计算 Die 与 IO Die 分离并分别封装,并用C2C互联将二者连接”三种架构选项。Nvidia B100 如果采用单封装双 Die 架构,封装基板面积达到 3.3~3.9倍 Reticle面积,功耗可能超过 1kW。计算 Die 之间互联可以复用 NVLink C2C 互联技术。将计算 Die 和 IO Die 分离可以实现计算 Die 的同构化,降低成本。利用 NVLink C2C 出封装互联的能力,可以将 IO 扇出,降低 IO 边密度压力。需要注意的是,当前 NVLink C2C 速率与 PCIE & NVLink 的 SerDes 无法匹配,因此需要 IO Die 上作协议转换,无法做到协议无关。如果 C2C 互联和 SerDes 速率能够进行多对一的匹配实现比特透明的 CDR,这样可以消除协议转换的开销。考虑到B100 2024年推出的节奏,方案一、三匹配当前先进封装能力,但方案三需要引入额外的协议转换;方案二超出当前先进封装能力。

X100 GPU架构推演

Nvidia X100如果采用单Socket封装四Die架构,封装基板面积将超过6倍Reticle面积,这将超出2025年的先进封装路标的目标。而如果采用双Socket封装架构,则需要使用10~15cm的C2C互联技术来实现跨封装的计算 Die间的互联,这可能需要对当前NVLink C2C的驱动能力进一步增强。
Nvidia X100 GPU如果采用四Die架构,如果要控制封装基板面积在6倍Reticle面积以下,匹配2025年先进封装路标,则需要在计算Die上通过3D堆叠的方式集成HBM [21][22]。因此X100如果不采用SuperChip超级芯片的架构而是延续单封装架构,要想在2025年推出,技术挑战非常大。一方面需要先进封装基板达到6倍Reticle面积,另一方面需要实现在计算Die上堆叠HBM,同时要解决HBM和计算Die堆叠带来的芯片散热问题。
在满足2025年的工程约束的前提下,X100也可以采用SuperChip超级芯片架构在B100双Die架构的基础上进行平面扩展。在这种情况下,Nvidia X100 也有“异构 Die 合封”,“同构计算 Die 与 IO Die 合封”,“计算 Die 与 IO Die 分别封装”三种架构选项。如果采用封装间互联的超级芯片的扩展方式,先进封装的基板面积约束将不再会是瓶颈,此时只需要增强NVLink C2C的驱动能力。
未完待续…
作者:陆玉春
来源:
https://www.chaspark.com/#/hotspots/950120945305616384
相关阅读:
转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情

继续阅读
阅读原文