新智元报道  

来源:NVIDIA
编辑:小匀、LQ、yaxin
【新智元导读】英伟达凡尔赛一号玩家黄仁勋来了!他带着自家ARM架构CPU从加速器辅路杀进了CPU三环主路,战火直接烧到了英特尔后院,帕特·基辛格同志要小心了!
黄仁勋、皮衣、自家厨房。
这一次,老黄的头发有点长。
今日凌晨,NVIDIA GTC2021开幕。
今年,「GPU大哥」英伟达居然「不讲武德」,发布一个基于Arm架构的新数据中心CPU Nvidia Grace,它将直接挑战英特尔在服务器和数据中心计算领域的主导地位。
毫不奇怪,英特尔和AMD的股价在这一消息上下跌了几个百分点。
随着英伟达进军CPU领域,且能大大超越Intel和AMD的处理器,英特尔和AMD或将在这一技术领域输掉竞争?
先来看看英伟达的CPU有多强。
英伟达CPU:因AI而生,进击英特尔最赚钱的领域
对英特尔和AMD来说,这是个坏消息。
英伟达宣布出算力强大的CPU, 把战火烧到了英特尔后院。
十年前在英特尔试图狙击Nvidia GPU杀进HPC异构并行的努力,画了一张图,今天随手在手机上指头画了一下,CPU和GPU分别从高浮点算力和高通量处理的南北山头向顶端攀登,
现在看,借助AI兴起,英伟达势头更猛一些,帕特基辛格同志要小心了。
专攻GPU的英伟达在这次GTC大会上推出了基于Arm架构的中央处理器(CPU)—— Grace,用于大规模人工智能和高性能计算应用。
黄仁勋表示,「这是英伟达第一个数据中心CPU,专为大型应用建立」。
这款CPU以美国海军少将、计算机编程先驱Grace Hopper的名字命名。
Grace Hopper是计算机科学的先驱之一,也是哈佛Mark 1的第一批程序员和第一个链接器的发明者。
她在20世纪50年代开创了计算机编程,发明了世界上第一个编译器,被称为「计算机软件工程第一夫人」。
GPU用于运行视频游戏和数据中心的数据密集型计算任务。而CPU更像是「通才芯片」,可以执行诸如运行操作系统之类的基本任务。
这款名为Grace的CPU使用了节能 Arm 核心—— Neoverse,为系统训练大型人工智能模型提供了巨大的性能飞跃。
具体讲,基于Grace的系统与NVIDIA GPU紧密结合,性能将比目前最先进的NVIDIA DGX系统(在x86 CPU上运行)高出10倍。
它能够满足世界上最先进应用的计算需求,包括自然语言处理、推荐系统和人工智能超级计算,这些应用分析需要超快计算性能和大容量内存中的巨大数据集。
Grace还是一款高度专用型处理器,主要面向大型数据密集型HPC和AI应用。新一代NLP模型的训练会有超过一万亿的参数。

这款CPU的基本性能是第四代Nvidia NVLink互连技术,该技术在Grace和Nvidia图形处理单元之间提供每秒900 GB的连接,使总带宽比目前领先的服务器高出30倍。
英伟达表示,新产品将于2023年初上市。
黄表示,使用经过授权的 ARM IP,英伟达将 Grace 设计成专门用于大规模人工智能和高性能计算的 CPU。
「加上 GPU 和 DPU,Grace 为我们提供了计算的第三个基础技术,以及重新构建数据中心的能力,以推进人工智能。英伟达现在是一家三芯片公司。」
英伟达新推出CPU将会在明年两台性能强大的AI超算上实现首次应用。
黄表示,「这是世界上第一个为 TB 级计算设计的 CPU」。
作为首批客户,瑞士超级计算中心(CSCS)和美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)将是第一个使用由惠普打造的Grace驱动的超级计算机的机构。
Grace将为世界上最快的超级计算机提供驱动力。这台被称为阿尔卑斯山的超算将具有20亿次浮点运算的能力。
这比当今领先的人工智能超级计算机——2.8亿次运算的 Nvidia Seline 超级计算机的计算能力高出约7倍。
GTC 2021推出的第一款服务器微处理器Grace,代表了英伟达想要在CPU领域一展宏图,抢占英特尔最赚钱的市场领域。
BlueField-3 DPU
黄仁勋宣布NVIDIA BlueField-3 DPU将为构建超大规模数据中心、工作站和超级计算机所需的基础设施提供进一步的加速。
这款新一代数据处理器将提供最强大的软件定义网络、存储和网络安全加速功能。
BlueField-2能够卸载相当于30个CPU核的工作负载,而BlueField-3实现了「10倍」的性能飞跃,能够替代300个CPU核,以400Gbps的速率,对网络流量进行保护、卸载和加速。
英伟达「三芯」
数据中心路线图包括CPU、GPU和DPU这三类芯片,Grace和BlueField是其中必不可少的关键组成部分。
每个芯片架构历经两年的打磨周期(周期内可能出现转变),一年专注于 x86 平台,另一年专注于 Arm 平台。
「我们每年都会发布激动人心的新品。三类芯片,逐年飞跃,一个架构。」
Arm无可比拟
Arm是全球最受欢迎的CPU,黄仁勋解释:「理由很充分,因为它超级节能,而且其开放式授权许可模式激励了全世界的创新者。」
在云计算、企业和边缘数据中心、超级计算、PC等其他市场中,Arm也开始崭露头角。
黄仁勋宣布与多家重要的Arm合作伙伴展开合作,包括云计算领域的AWS、科学和云计算领域的Ampere Computing、超融合边缘服务器领域的Marvel、以及将打造Chrome OS和Linux PC SDK与参考系统的联发科。
面向AI的计算机DGX
软硬件双管齐下,黄仁勋宣布升级NVIDIA专为工作组打造的「便携式AI数据中心」——NVIDIA DGX Station,以及NVIDIA专为密集型AI研发打造的AI数据中心产品——NVIDIA DGX SuperPod。
全新DGX Station 320G借助320GB超快速HBM2e连接至4个NVIDIA A100 GPU,内存带宽达到每秒8TB。然而,仅需将其插入普通的壁装电源插座即可使用,耗电量只有1500瓦。
DGX SuperPOD使用全新80GB NVIDIA A100,将其HBM2e内存提升至90TB。目前它已经升级至采用NVIDIA BlueField-2,且NVIDIA如今还为该产品提供配套的NVIDIA Base Command DGX管理和编排工具。
Omniverse:还原尼尔·斯蒂芬森的《雪崩》世界
人类与AI和机器人共存的虚拟实时3D世界不再只是科幻小说中的故事情节。
NVIDIA Omniverse是一个云原生平台,其特点包括:可以扩展至多个GPU、具有高物理精度、能够充分运用RTX实时路径追踪和DLSS、可以使用NVIDIA MDL模拟材料、可以使用NVIDIA PhysX模拟物理学并且与NVIDIA AI完全集成。
黄仁勋表示:「Omniverse旨在创建共享虚拟3D世界,就像尼尔·斯蒂芬森在1990年代早期的小说《雪崩》中所描述的科幻虚拟空间那样。」
黄仁勋还宣布将从今年夏季开始提供Omniverse企业授权许可。自公测版发布以来,建筑领域的福斯特建筑事务所(Foster and Partners)、娱乐领域的ILM、游戏领域的Activision以及大型广告公司WPP等合作伙伴都将Omniverse运用到了其工作中。
NVIDIA Jarvis,加速AI对话
此次NVIDIA还发布了用于训练Transformers的框架—— NVIDIA Megatron。
在keynote中,黄仁勋详细介绍了NVIDIA用于计算药物研发加速库Clara Discovery的一些新模型,以及与Schrodinger的合作。
Schrodinger是一个基于物理学和机器学习的顶尖药物研发与材料科学计算平台。
为加快有赖于量子比特的量子计算研究,黄仁勋发布了cuQuantum,其能够为量子电路模拟器提供加速,以助力研究人员设计出更完善的量子计算机。
为加快对话式AI的发展,黄仁勋宣布先进的深度学习AI——NVIDIA Jarvis已经可用,其能够实现语音识别、语言理解、翻译和表达性语音。
为帮助客户将自身专业知识应用于AI领域,黄仁勋发布了NVIDIA TAO,其可以运用客户和合作伙伴的数据,对NVIDIA预训练模型进行微调和适配,同时保护数据隐私。
最后出场的是推理服务器NVIDIA Triton,它可以从进入客户EGX服务器或云实例的连续数据流中获取洞察。
黄仁勋说:「这包括任何在cuDNN上运行的AI模型,也就是几乎所有的AI ,包括来自TensorFlow、Pytorch、ONNX、OpenVINO、TensorRT或自定义C++/python后台等的任何框架。」
NVIDIA Drive Orin:汽车的中央大脑
最后是自动驾驶。
黄仁勋表示,自动驾驶汽车领域是「机器学习和机器人技术所面对的最严峻的挑战之一,同时也是最棘手、影响最大的挑战之一。」

NVIDIA正在为价值「10万亿美元」的交通运输行业构建模块化的端到端解决方案,使合作伙伴能够充分利用所需要的部件。
黄仁勋表示,将于2022年投产的NVIDIA自动驾驶汽车计算系统级芯片——NVIDIA DRIVE Orin,旨在成为汽车的「中央电脑」。
沃尔沃从2016年开始应用NVIDIA DRIVE的算力,基于NVIDIA DRIVE Xavier,为新车型开发AI辅助驾驶功能,软件则由沃尔沃汽车旗下的自动驾驶软件开发公司Zenseact自主研发。
沃尔沃新一代汽车的自动驾驶计算机将配备NVIDIA DRIVE Orin。
 这也是英伟达和合作伙伴致力推广的「软件定义车型」的概念。
与此同时,黄仁勋宣布了NVIDIA新一代车载系统级芯片NVIDIA DRIVE Atlan,为汽车带来真正的数据中心。
Atlan可以达到每秒超过1000万亿次(TOPS)运算次数,这是DRIVE平台首次集成DPU,通过Arm核为自动驾驶汽车带来数据中心级的网络,致力于应用到2025年的车型。
Atlan约是上一代Orin处理器的4倍,超过了绝大多数现有无人驾驶出租车的计算能力。
NVIDIA DRIVE Orin - 2019年年底公布但至今没有出货的芯片方案算力254 TOPS;2020年的Xavier方案有30 TOPS,而2018年的Parker仅可以提供1 TOPS。
TOPS就是新马力
黄仁勋表示:「Atlan集NVIDIA在AI、汽车、机器人、安全和BlueField安全数据中心领域的所有技术之大成,堪称一项技术奇迹。」
黄仁勋还发布了NVIDIA第八代Hyperion汽车平台,包括参考传感器、自动驾驶汽车和中央计算机、3D地面真实数据记录仪、网络以及所有必要的软件。
黄仁勋还宣布DRIVE Sim将于今年夏季开放供业界使用。
正如Omniverse能够构建汽车生产工厂的数字孪生一样,DRIVE Sim也可用于创建自动驾驶汽车的「数字孪生」,并将其用于自动驾驶汽车的开发。
In a word, 黄仁勋表示:「几乎可以说,NVIDIA将助力您成就毕生的事业。」
参考资料:
https://blogs.nvidia.com/blog/2021/04/12/nvidia-drive-atlan-autonomous-vehicle-platform/
https://venturebeat.com/2021/04/12/nvidia-unveils-grace-arm-based-cpu-for-giant-scale-ai-and-hpc-apps/
https://nvidianews.nvidia.com/news/nvidia-unveils-nvidia-drive-atlan-an-ai-data-center-on-wheels-fornext-gen-autonomous-vehicles
继续阅读
阅读原文