Meta使用16000个 Nvidia A100 打造超级计算机

来源：内容由半导体行业观察（ID：icbank）编译自tomshardware，谢谢。

Meta（以前称为 Facebook）正在一个目前未公开的位置构建一个新的人工智能超级计算机，称为人工智能研究超级集群。根据 Meta的说法，如果性能指标超过 220 Linpack petaflops，它将成为迄今为止世界上最快的超级计算机。RSC 目前正在运行，但仍在建设中。

这台新超级计算机的规格令人印象深刻，因为 RSC 目前具有 760 个 Nvidia 最先进的 DGX A100 AI 计算单元，每个单元包括 8 个 Nvidia A100 GPU。这使得整个超级计算机总共有 6,080 个 GPU。但是，一旦完成，RSC 将包含多达 16,000 个 GPU 和额外的 1,240 个 DGX 节点。第二个安装阶段将在 7 月的某个时候完成。

对于网络，超级计算机将配备 Nvidia 的 Quantum InfiniBand 网络系统，该系统可输出高达 200Gb/s 的带宽。存储方面，超级计算机配备了 175PB 的 Pure Storage FlashArray、10PB 的 Pure Storage FlashBlade 和 46PB 的缓存存储。

据英伟达介绍，一旦完全部署，Meta 的 RSC 预计将成为 NVIDIA DGX A100 系统的最大客户安装。

“我们希望 RSC 能够帮助我们构建全新的 AI 系统，例如，可以为一大群人提供实时语音翻译，每个人都说不同的语言，这样他们就可以在研究项目上无缝协作或玩 AR 游戏一起，”该公司在博客中说。

当 RSC 在今年晚些时候完全建成时，Meta 的目标是用它来训练具有超过一万亿个参数的 AI 模型。这可以推进诸如实时识别有害内容等工作的自然语言处理等领域。

除了大规模性能之外，Meta 还引用了极高的可靠性、安全性、隐私性和处理“广泛的 AI 模型”的灵活性作为 RSC 的关键标准。

新的 AI 超级计算机目前使用 760个NVIDIA DGX A100 系统作为其计算节点。它们在NVIDIA Quantum 200Gb/s InfiniBand网络上连接了总共 6,080 个NVIDIA A100 GPU ，以提供 1,895 petaflops 的 TF32 性能。

尽管面临 COVID-19 的挑战，RSC 仅用了 18 个月的时间就从纸上的想法变成了可运行的 AI 超级计算机（如下视频所示），这部分归功于 Meta RSC 基础的 NVIDIA DGX A100 技术。

英伟达表示，这是 Meta 第二次选择 NVIDIA 技术作为其研究基础设施的基础。2017 年，Meta 使用 22,000 个 NVIDIA V100 Tensor Core GPU 构建了第一代 AI 研究基础设施，每天处理 35,000 个 AI 训练工作。

Meta 的早期基准测试表明，RSC 训练大型 NLP 模型的速度比之前的系统快 3 倍，运行计算机视觉作业的速度快 20 倍。

在今年晚些时候的第二阶段，RSC 将扩展到 16,000 个 GPU，Meta 认为这些 GPU 将提供高达 5 exaflops 的混合精度 AI 性能。Meta 旨在扩展 RSC 的存储系统，以每秒 16 TB 的速度提供高达 1 EB 的数据。

★ 点击文末【阅读原文】，可查看本文原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2931内容，欢迎关注。