从2023 GTC谈NVIDIA硬核技术

2023 年 GTC 大会上，英伟达 CEO 发布了四个全新推理平台，每个平台都包含针对特定的 AIGC 推理工作负载优化的 NVIDIA GPU 以及专用软件：

1）用于图像渲染和 AI 视频的 L4。L4 提供增强的视频解码/转码、视频流、增强现实以及生成 AI 视频等功能，可提供比 CPU 高 120 倍的 AI 视频性能，一台 8 卡 L4 服务器能够替代 100 多台用于处理 AI 视频的双插槽 CPU 服务器。

2）用于 Omniverse、图像生成、文本转图像等各类生成式 AI 的 L40。L40 针对图形和支持 AI 的 2D、视频和 3D 图像生成进行了优化。L40 平台作为 Omniverse 的引擎，用于在数据中心构建和运行元宇宙应用程序，推理性能是云推理 GPU T4 的 10 倍。

3）用于大语言模型（LLM）推理的 H100 NVL。H100 NVLGPU 适用于大规模部署 ChatGPT 等大型 LLM。H100 NVL 通过 NVLINK 将两张 H100 PCIE 桥接在一起，其中的每张卡拥有 94GB HBM3 内存，同时内置 Transformer 引擎。与目前唯一可以在云上处理 GPT 模型的 HXG A100 相比，一台搭载四对 H100 NVL 和双 GPU NVLINK 的服务器可以将推理速度提高 10 倍。

4）Grace Hopper Superchip 适用于推荐模型、向量数据库和大型语言模型的 AI 数据库，并通过 NVLink-C2C 技术为 Grace CPU 和 Hopper GPU 之间提供高达 900GB/s 的高速连接，CPU 查询和存储巨型嵌入表，GPU 负责将收到的结果进行推理，整体是 PCIE 速度的 7 倍。

下载链接：

《143份重磅ChatGPT专业报告》

华为AI盘古大模型研究框架（2023）

英伟达GPU、DGX云、AI工厂三驾马车，AI算力和应用再迎跃进

从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新机遇

文心一言、GPT3.5及GPT-4的应用测评对比

从算力、算法、数据及应用看AIGC（2023）

人工智能深度：AIGC行业综述—开启AI新篇章（2023）

文心一言发布，国内厂商离复现ChatGPT走多远

Nvidia GTC 2023 Presentation

《英伟达GTC技术大会合集》

1、AIGC系列研究报告：从英伟达开发者大会看AI能做什么 2、英伟达GTC和Adobe发布新品，AIGC落地将提速 3、人工智能发展持续加速，从2023 GTC看电子发展新机遇

AI+平台化双轮驱动，云计算开启新纪元

人工智能研发运营体系（MLOps）实践指南（2023）

半导体：ChatGPT推动AI芯应用，算力提升终端多点开花

《IC板载系列报告合集》

（1）：ABF板载国产化替代在即，先进封装注入新活力（2）：高端封装材料多点开花，业务协同加快国产化替代步伐

SOC芯片研究框架（2022）

GPU技术专题下载链接

CPU和GPU研究框架合集

一、DGX Cloud AI超级计算服务

DGX Cloud提供专用的NVIDIA DGX AI超级计算集群，搭配NVIDIA AI软件，可让企业立即访问为生成AI和其他突破性应用程序训练高级模型所需的基础设施和软件。该服务使每个企业都可以使用简单的网络浏览器访问自己的AI超级计算机，企业按月租用DGX Cloud集群，确保可快速轻松地扩展大型多节点训练工作负载的开发，而无需等待通常需求量很大的加速计算资源。

NVIDIA Base Command™平台软件：可使用其管理和监控DGX Cloud训练工作负载，该软件可在DGX Cloud以及本地NVIDIA DGX超级计算机上提供无缝的用户体验。使用Base Command Platform，客户可将其工作负载与每项工作所需的正确数量和类型的DGX基础设施相匹配。

DGX Cloud包括NVIDIA AI Enterprise，平台的软件层，提供端到端的AI框架和预训练模型。今日发布的NVIDIA AI Enterprise 3.1提供了新的预训练模型、优化框架和加速数据科学软件库，为开发人员的AI项目提供了额外的快速启动。

行业巨头案例：

①Amgen（世界领先的生物技术公司之一）正在使用DGX Cloud和NVIDIA BioNeMo™大型语言模型软件来加速药物发现，包括NVIDIA AI Enterprise软件，内含NVIDIA RAPIDS™数据科学加速库。

②CCC Intelligent Solutions (领先的财产和意外伤害保险经济云平台，CCC)正在使用DGX Cloud来加速和扩展其AI模型的开发和培训。

③ServiceNow（数字业务平台提供商）将DGX Cloud与本地NVIDIA DGX超级计算机结合使用，以实现灵活、可扩展的混合云AI超级计算，这有助于推动其在大型语言模型、代码生成和因果分析方面的AI研究。

二、Picasso Service云服务

用途：用于构建和部署生成式AI驱动的图像、视频和3D应用程序，具有高级文本到图像、文本到视频和文本转3D功能，可通过简单云API提高创造力、设计和数字模拟的生产力。

用法：软件制造商、服务提供商和企业可使用Picasso在其专有数据上训练NVIDIA Edify基础模型，以构建使用自然文本提示的应用程序，从而为数百个用例快速创建和定制视觉内容，包括产品设计、数字孪生、讲故事和人物创作。

拓展：要构建自定义应用程序，企业还可以从Picasso的Edify模型集开始，这些模型使用完全许可的数据进行预训练，还可以使用Picasso来优化和运行生成式AI模型。

三、NVIDIA BioNeMo服务

BioNeMo Service是一种用于早期药物发现中生成AI的云服务，具有九种最先进的大型语言和扩散模型。可通过Web界面或完全托管的API访问，并且可以在NVIDIA DGX Cloud上进一步训练和优化，生物学生成式AI的工作流程得到了优化和统包。

BioNeMo服务具有九个AI生成模型，涵盖了开发AI药物发现管道的广泛应用：AlphaFold 2、ESMFold和OpenFold用于根据一级氨基酸序列预测3D蛋白质结构、用于蛋白质特性预测的ESM-1nv和ESM-2、用于蛋白质生成的ProtGPT2、MegaMolBART和MoFlow用于小分子生成、用于预测小分子与蛋白质结合结构的DiffDock等。

四、推出四种配置：L4、L40、H100 NVL、Grace Hopper

L4：一台8-GPU L4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。

L40：针对Omniverse、图形渲染以及文本转图像和文本转视频等生成式AI，推出L40，其性能是云推理GPU T4的10倍。

H100 NVL：针对ChatGPT等大型语言模型的推理，推出Hopper GPU，配备双GPU NVLink的 PCIE H100 , H100 NVL配备94GB HBM3显存，可处理拥有1750亿参数的GPT-3, 同时还可支持商用PCIE服务器轻松扩展。

Grace Hopper：新超级芯片，通过900GB/秒高速一致性芯片到芯片接口，非常适合处理大型数据集，例如推荐系统和大型语言模型的AI数据库借助Grace Hopper，Grace可以查询嵌入表，并将结果直接传入到Hopper，速度比PCIE快7倍。

五、Omniverse应用

Omniverse是实现工业数字化的数字到物理操作系统，是云原生，同时不限平台，可让团队随时随地在我们的虚拟工场中展开协作。Omniverse网络中的网络正在呈指数级增长，还连接了Siemens Teamcenter、NX和Process Simulate、RockWell Automation Emulate3D、Cesium、Unity等许多应用。

应用于汽车企业数字化：

①沃尔沃汽车公司和通用汽车使用Omniverse USD Composer连接和统一其资产工作流，并将汽车零部件在虚拟环境中组装成数字孪生汽车，在工程和仿真中， Omniverse将Powerflow空气动力学可视化。

②新一代梅赛德斯-奔驰和捷豹陆虎汽车，使用Omniverse Drive Sim生成，梅赛德斯奔驰使用Omniverse为新车型构建、优化和规划组装流水线。

③丰田公司使用Omniverse构建工厂的数字孪生。

三款专为Omniverse设计的系统：

①新工作站，由NVIDIA Ada RTX GPU和英特尔最新款CPU提供动力支持，适合光线追踪、物理仿真、神经图形和生成式AI，2023年3月起，BOXX、戴尔、惠普、联想将提供这款工作站。

②新型NVIDIA OVX服务器，由Omniverse优化而来，OVX由服务器GPU Ada RTX L40和BlueField-3组成，将由戴尔、HPE、Quanta、技嘉、联想和Supermicro提供。

③Omniverse Cloud，基于NVIDIA OVX运算系统推出，每一层Omniverse堆栈包括芯片、系统、网络和软件都是新发明，正将Omniverse连接到微软365生产力套件。

六、超算及云服务

发布Grace、Grace-Hopper和BlueField-3三款新芯片，适用于超级节能加速数据中心，更新了100个加速库,包括用于量子计算的cuQuantum、用于组合优化的cuOpt、以及用于计算光刻的cuLitho（与台积电、ASML和Synopsys合作，达到2nm及更高制程），可将计算光刻用时提速40倍。

计算光刻：500套DGX H100（包含4000颗Hopper GPU）可完成与4万颗CPU运算服务器相同的工作量，但速度快40倍，功耗低9倍，即意味着GPU加速后，生产光掩模的计算光刻工作用时可以从几周减少到八小时。

NVIDIA DGX AI超级计算机是生成式大型言模型取得突破的引擎，DGX H100 AI超级计算机正在生产,并即将通过全球不断扩大的OEM和云服务合作伴网络面世。DGX没有止步于研究，正在成为现代化AI工厂，Nvidia通过与Azure、Google GCP、Oracle OCI合作，拓展NVIDIA DGX Cloud业务模式。