在最新一轮的MLPerf比较基准测试[1]中,Graphcore IPU系统再次展现出了巨大的性能优势。
Graphcore的Bow Pod16在ResNet-50上的训练时间比更加昂贵的NVIDIA旗舰产品DGX-A100 640GB快31%。
Graphcore在BERT上的表现比上一轮MLPerf提高了37%,这确保了Graphcore系统在流行语言模型的性价比方面仍然表现出色。
在首次第三方使用Graphcore系统进行的提交中,百度使用飞桨软件框架在BERT训练上取得了类似的优异性能;这表明采用的便利性正在推动IPU生态系统的快速增长。
Graphcore在2021年进入了MLPerf流程。我们响应号召,展示了IPU在(相对)确立已久的人工智能计算性能测量方面的能力。
我们的客户和行业评论员希望看到IPU显著差异化的架构可以与向量处理器一起交付。ResNet和BERT就是基于这些向量处理器构建的。这很合理,我们做到了这一点,以及更多。
除了这些有用的数字之外,我们还专注于Graphcore客户现在正在部署的ResNet和BERT的继任模型,从而带来更高水平的准确性和效率。
图神经网络(GNN)等新兴的模型类别充分利用了IPU的MIMD架构、支持细粒度并行性的能力以及其他以人工智能为中心的特性。与构成当今大多数人工智能计算的向量处理器架构相比,这些类型的工作负载的性能差异在某些情况下达到了一个数量级或更大。
ResNet-50
与上一轮MLPerf(v1.1)相比,新的Bow IPU和软件改进的结合使ResNet-50的训练时间缩短达31%之多。
虽然性能全面提升,但Bow Pod系统的价格仍与前代产品相同,从而带来巨大的性价比优势。
客户选择IPU系统的动机之一通常是,在同样的资金投入下Graphcore能够提供更多的人工智能计算能力。
现在,与价格更高的系统(如DGX-A100 640GB)相比,Graphcore的性能优势更加明显了。
BERT和百度
BERT上高达37%的训练速度提升转化为了Graphcore的显著性价比优势。
百度飞桨使用Bow Pod16和Bow Pod64训练BERT的提交显示,其结果与Graphcore自己使用PopART提交的结果相当。
这不仅是对Bow Pod性能的强有力的第三方验证,而且表明Graphcore系统的灵活性正在推动IPU生态系统的快速增长。百度能够将Poplar与被广泛使用的百度飞桨软件框架相集成,并提供出色的结果。
RNN-T
Graphcore还提交了RNN-T在开放分区中的结果。
递归神经网络传感器(Recurrent Neural Network Transducers)是一种进行高度准确的语音识别的精密方式。它们在移动设备上被广泛使用,因为它们能够在手机上部署训练好的模型,以实现尽可能小的时延。
在这种情况下,Graphcore与客户Gridspace合作,专注于RNN-T训练。Gridspace提供包含客户服务、合规和流程自动化在内的语音解决方案。
RNN-T模型在700GB或10000小时的语音上进行了训练,并拓展为在Bow Pod64上运行,将训练时间从几周缩短到几天。
我们向MLPerf 2.0提交的RNN-T反映了Graphcore为实施和优化面向IPU的模型而采取的以客户为中心的方法。
超越MLPerf
除了ResNet、BERT和RNN-T之外,Graphcore模型花园中的绝大多数IPU就绪的模型都是由客户需求驱动的。
我们所支持的模型越来越精密,这些模型利用了IPU专为人工智能打造的MIMD架构,包括其运行数千个真正独立的程序线程的能力。
最近,Twitter的图机器学习研究主管Michael Bronstein概述了这样一个例子,他表明IPU为时间图网络提供了高达10倍的性能提升。
IPU在TGN上的表现优于GPU,对于普通的、较小的批尺寸来说,差异尤其明显。
同样,美国能源部的PNNL实验室报告称,与V100 GPU设置相比,使用IPU Classic系统的SchNet GNN的结果效率提高了36倍。
SchNet GNN在IPU Classic和V100 GPU上的性能表现
除了GNN用例中显示的显著优势,IPU友好型技术如条件稀疏性和混合专家也正逐渐走出研究实验室,进入更广泛的世界。
演进的人工智能计算
如果人工智能要继续以目前的速度发展,那么下一代模型除了需要带来新的功能和更高的准确性,还需要能够更有效地运行。这反过来又需要Graphcore所提供的那种计算平台。
在短短几年内,模型的规模和复杂性已经从几亿个参数增长到几十亿个,现在达到了几万亿。
这给了我们前所未有的功能,包括能够处理文本、语音、视觉等的多模式模型。
然而,跟上这样的增长速度,超过了许多芯片的能力。相反,几年来,业界一直在简单地依靠投入更多的计算来解决这个问题,而这是一个不可持续的解决方案。
我们面临着这样一个非常现实的前景:训练最大的模型可能需要数百万个处理器连续工作数月,耗资数十亿美元甚至更多。
避免这种“计算紧缺”并确保人工智能的持续进步需要的是在像IPU这样的系统上开发和优化先进模型。
这就是Graphcore所从事的工作,我们已经与我们的客户和合作伙伴一起看到了成果。
我们最近宣布计划与Aleph Alpha合作开发其大型多模式模型,使用IPU支持的下一代技术,提供更高的计算效率。
对大型人工智能计算系统的需求不会消失,但通过IPU的高度差异化方法,可以通过更实惠的系统达到数万亿参数规模。
为此,我们正在开发Good Computer(古德计算机),它将利用下一代IPU处理器以及系统内存和大容量存储的新方法。
Good Computer不仅仅是Graphcore产品路线图中的下一步;它还代表了人工智能计算的可持续发展方式,以及由此产生的诸多有益应用。
观看:用于超人类认知的计算机——Simon Knowles在AICAS 2022上的演讲。[2]
[1]https://mlcommons.org/en/training-normal-20/
[2]https://www.graphcore.ai/posts/computers-for-super-human-cognition-simon-knowles-at-aicas-2022
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
点击阅读原文,查看英文blog。
继续阅读
阅读原文