拉高基准：Graphcore的首次MLPerf结果

我们很高兴分享Graphcore的首次MLPerf^TM提交结果。MLPerf是AI行业最受认可的比较基准测试过程。

我们取得了非常出色的结果。在我们的IPU-POD₆₄上，BERT的训练时间只有9分多钟，ResNet-50的训练时间为14.5分钟，这已达到超级计算机级别的AI性能。

MLPerf还对比了市面上的Graphcore系统与NVIDIA的最新产品，结果证实我们在“每美元性能”（Performance-Per-Dollar）的指标上稳居领先地位。

对于我们的客户来说，这项重要的第三方测试确认了Graphcore系统不仅具有新一代AI的出色性能，而且在当今使用范围最广的应用中也表现得更出色。

如今，毫无疑问，有着成熟软件栈、创新架构和高性能系统的Graphcore是AI计算中值得关注的公司。

加速创新

MLPerf由MLCommons^{TM [1]}监管。Graphcore是MLCommons的创始成员。除了Graphcore之外，MLCommons的创始成员还包括其他50多个来自AI领域的成员和附属机构、非营利组织和商业公司。

MLCommons的使命是“加速机器学习创新并扩大其对社会的积极影响”，这也是我们全力以赴、为之奋斗的志向。

训练和推理结果每季度轮流公布。您可以在此^[2]查看Graphcore提交的最新一轮训练的原始数据。

应用和模型

对于我们第一次MLPerf（训练版本1.0）的提交，我们选择聚焦在图像分类和自然语言处理的关键应用基准测试类别。

MLPerf图像分类基准使用流行的ResNet-50版本1.5模型，在ImageNet数据集上训练,以达到适用于所有提交情况的准确率。

对于自然语言处理，使用了BERT-Large模型和选取的一个的代表性片段。该片段大约占总训练计算工作负载的10%，并使用维基百科数据集进行训练。

在很大程度上，我们决定提交使用ResNet-50和BERT的图像分类和自然语言处理是由我们的客户和潜在客户驱动的。这是他们最常用的一些应用和模型。

我们在MLPerf中的强劲表现进一步证明了我们的系统可以满足当今的AI计算要求。

Graphcore系统

我们提交了两个Graphcore系统的MLPerf训练结果，这两个系统分别是IPU-POD₁₆和IPU-POD₆₄。

这两个系统均已在生产中交付给客户，因此我们将它们都列入了“已上市”类别，而不是“预览”类别——这对于我们的MLPerf“首秀”来说是一项重大的成就。Graphcore价格实惠、结构紧凑的5U IPU-POD₁₆系统适用于刚开始构建IPU AI计算能力的企业客户。它由4个1U的IPU-M2000和1个双CPU服务器（dual-CPU server）组成，可以提供4 PetaFLOPS的AI处理能力。

我们纵向扩展的IPU-POD₆₄包含16个IPU-M2000和数量灵活的服务器。Graphcore的系统实现了服务器和AI加速器的解耦，因此客户可以根据工作负载指定CPU与IPU的比率。例如，和自然语言处理相比，计算机视觉任务通常对服务器的需求更高。

对于MLPerf，IPU-POD₆₄在BERT的提交中使用了1台服务器，在ResNet-50的提交中使用了4台服务器。每台服务器均由2个AMD EPYC™ CPU驱动。

开放提交和封闭提交

MLPerf有两个提交分区：开放分区和封闭分区。

封闭分区严格要求提交者使用完全相同的模型实施和优化器方法，包括定义超参数状态和训练时期。

开放分区保证和封闭分区完全相同的模型准确性和质量，但支持更灵活的模型实施以促进创新。因此，该分区支持更快的模型实现，更加适应不同的处理器功能和优化器方法。

对于像Graphcore IPU这样的创新架构，开放分区更能体现出我们的性能，但我们还是选择在开放和封闭分区都进行了提交。

Graphcore MLPerf结果：开放和封闭分区

这些结果展现了Graphcore系统的优秀表现，即使在具有限制规格的开箱即用的封闭分区上也是如此。

更令人瞩目的是开放分区的结果，我们能够在其中部署优化，以充分利用我们的IPU和系统功能。这更贴切地反映了真实世界的用例，客户可以利用可用的性能改进。

价格/性能

MLPerf被称为比较基准，在尝试针对一个制造商的技术评估另一个制造商的技术时经常被引用。

实际上，进行直接比较可能很复杂。从相对简单的硅片到有着昂贵存储的复杂堆栈式芯片，如今的处理器和系统架构可谓千差万别。

与我们的客户一样，我们发现从“每美元性能”的角度来看这些结果是最能够说明问题的。

Graphcore的IPU-POD₁₆是一个5U的系统，标价149,995美元。如前所述，它由4个IPU-M2000加速器以及行业标准主机服务器构成。每个IPU-M2000由4个IPU处理器构成。MLPerf中使用的NVIDIA DGX-A100 640GB是一个6U机盒，标价约为300,000美元（基于市场情报和公布的经销商定价），有8个DGX A100芯片。IPU-POD₁₆的价格是它的一半，对于那些试图通过加速器来降低结果的观察者来说，我们可以看到在这个系统中，IPU-M2000的价格和一个DGX A100 80GB的价格是一样的，或者在更细的层次上，一个IPU的价格是它的四分之一。

在我们的MLPerf比较分析中，我们采用了严格监管的封闭分区的结果，并针对系统价格对其进行了归一化。

结果

对于ResNet-50和BERT，很明显Graphcore系统提供了比NVIDIA产品更好的每美元性能。

在IPU-POD₁₆上进行ResNet-50训练的情况下，Graphcore的每美元性能是NVIDIA的1.6倍。在BERT上，Graphcore的每美元性能是NVIDIA的1.3倍。

MLPerf训练：ResNet-50

MLPerf训练：BERT

这些MLPerf图表反映了Graphcore真实客户的发现：我们系统的经济性可以更好地帮助他们实现其AI计算目标，同时，由于IPU专为AI构建的架构特点，我们的系统还可以解锁下一代的模型和技术。

持续的承诺

首次提交MLPerf就获得如此强大的结果，我们感到非常自豪。正是Graphcore CE团队的一部分人以及整个公司的全体同事的非凡努力，帮助我们取得了这样的成果。

我们的参与还具有更广泛的价值，因为在为支持提交的准备阶段所做的所有改进和优化都会反馈到我们的软件栈中。世界各地的Graphcore用户已从MLPerf远多于BERT和ResNet-50的模型中受益匪浅。

我们致力于继续参与MLPerf，包括训练和推理。我们这样做是为了追求三个目标：更优的性能、更大的规模和添加更多模型。

性能

我们在近期发布的Poplar SDK中所取得的基准测试方面的进展，体现了我们对持续改进软件的关注。从2020年12月到2021年6月的六个月内，我们进行了3次更新。在这一过程中，我们实现了2.1倍的ResNet-50性能提升，1.6倍的BERT-Large性能提升，和1.5倍的计算机视觉模型EfficientNet性能提升。

与追求持续软件改进相结合，Graphcore的研究团队也在不断突破当前和下一代模型的可能性。他们最近发表的《我们如何使EfficientNet更高效》和《通过代理归一的激活消除卷积神经网络中的批次依赖性》与为MLPerf所做的准备工作直接相关。这些成果不仅有益于Graphcore的客户，更能有益于更为广泛的AI社区。

进行ResNet-50和BERT的MLPerf提交对于展示我们在当今最广泛使用的AI模型上的性能非常重要。

但Graphcore的IPU及其所赋能的系统的设计初衷是在下一代AI应用中脱颖而出，支持用户开发新的模型和技术，摆脱传统处理器架构的限制。

EfficientNet-B4就是这样的模型之一。EfficientNet-B4是一种更为先进但仍被广泛使用的计算机视觉模型，它显示出了IPU和GPU在性价比上不断扩大的差距。

MLPerf训练：EfficientNet-B4（非MLPerf）