来源参考“英伟达发布L40S GPU,中高速光模块或将受益”。在SIGGRAPH 2023上,NVIDIA宣布推出全新的NVIDIA L40S GPU以及搭载L40S的NVIDIA OVX服务器。L40S GPU和OVX服务器主要针对生成式人工智能模型的训练和推理环节,有望进一步提升生成式人工智能模型的训练和推理场景下的计算效率。
L40S基于Ada Lovelace架构,配备有48GB的GDDR6显存和 846GB/s 的带宽。在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下,可以提供超过 1.45 PFLOPS 的张量处理能力。根据英伟达给出的数据,在微调(Fine-tune)和推理场景的测试用例下,L40S 的计算效率较 A100 均有所提高。
相比于 A100 GPU,L40S 在显存、算力等多方面有所差异:
(1)L40S采用较为成熟的GDDR6显存,相比A100与H100使用的 HBM 显存,在显存带宽上有所降低,但技术更成熟,市场供应较为充足。
(2)L40S 在 FP16 算力(智能算力)上较 A100 有所提高,在 FP32 算力(通用算力)上较 A100 提高明显,更适应科学计算等场景。
(3)L40S 在功率上较 A100 有所降低,有利于降低数据中心相关能耗。
(4)根据 Super Micro 的数据,L40S 在性价比上较 A100 更有优势。
与A100 类似,L40S 通过 16 通道的 PCIe Gen 4 接口与 CPU进行通信,最大双向传输速率为 64 GB/s。相比之下,NVIDIAGrace Hopper 通过 NVLink-C2C 技术将 Hopper 架构的 GPU 与Grace 架构的 CPU 相连,在 CPU 到 GPU、GPU 到 GPU 间实现900 GB/s 的总带宽,较 PCIe Gen 5 快 7 倍。
基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 PetaFLOPS的张量处理能力。
对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。
此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212TFLOP的光线追踪性能。功耗同时也达到了350瓦。
对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。
在L40S GPU的加持下,英伟达还针对数据中心市场,推出了最多可搭载8张L40S的OVX服务器。英伟达方面宣布,对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调;对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。
L40S = 两个L40 用准先进封装(非CoWoS),利好国内先进封装,毕竟高端2.5D~3D不行,给国内2.2D封装指了一条明路,面对日益高涨的AI需求,分析与判断如下:
(1)由于PCIe Gen4接口的限制,L40S在GPU网络计算上的应用有所限制,因此对目前800G光模块的需求量影响有限。
(2)相较于A100,L40S在部分面向生成式人工智能模型的应用场景下有计算效率上的优势,且更具性价比。
(3)相较于A100,L40S使用GDDR6等相对成熟技术,有助于确保上游供应的稳定。
(4)L40S的前述优势可能促使下游云厂商加大采购,或将为以200G和400G光模块为代表的中高速光模块带来新的增长空间。
近日,英伟达公布 FY2024 第二季度财报。报告期内:英伟达营收为 135.1 亿美元,创历史新高,同比增长 101%,环比增长88%;毛利润为 94.6 亿美元,同比增长 225%,环比增长104%,毛利率达到 70%;净利润为 61.9 亿美元,同比增长843%,环比增长 203%。
在数据中心业务方面,受益于生成式人工智能训练和推理需求的强劲增长,英伟达在 FY2024Q2 实现收入 103.2 亿美元,同比增长 171%,环比增长 141%。英伟达方面表示,针对生成式人工智能场景、采用 Grace Hopper 架构的 GH200 芯片已全面生产,CY2023Q3 有望推出搭载 GH200 芯片的 OEM 服务器。同时,英伟达针对生成式人工智能模型微调场景推出了 L40S 服务器,并与惠普、戴尔、联想等系统制造商展开合作,L40S 服务器未来有望在全球企业中得到部署。
今年以来,在 ChatGPT和 Bard等生成式人工智能应用落地的影响下,生成式人工智能模型的训练和推理计算需求快速增长。相关算力集群的规模持续上升,也为以光模块为代表的人工智能基础设施领域带来了新增量。
下载链接:
375+份重磅ChatGPT专业报告(全网最全)
《NVIDIA A100 Tensor Core GPU技术白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110架构白皮书》
《NVIDIA Tesla P100技术白皮书》
《NVIDIA Tesla V100 GPU架构白皮书》
《英伟达Turing GPU 架构白皮书》
申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。
推荐阅读
更多架构相关技术知识总结请参考“架构师技术全店资料打包汇总(全)(39本全)”相关电子书已经更新至39本,持续更新中。
1、下单“架构师技术全店资料打包汇总(全)”,包含服务器基础知识全解(终极版)pdf及ppt版本,价格仅收239元(原总价399元)。
2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情

继续阅读
阅读原文