Graphcore发布第二代IPU及IPU-M2000 三大颠覆性技术定义AI计算的未来
Graphcore 联合创始人兼CEO在发布会上
介绍道:
Graphcore高级副总裁兼中国区总经理卢涛(Jason Lu)
谈第二代IPU如何推动中国的AI创新
Graphcore高级副总裁兼中国区总经理卢涛表示:
“将强劲算力与网络能力相结合,我们能够处理全球最先进、最复杂的算法模型。这样的算法模型,对中国本地的AI算法落地场景,如云计算、互联网和通信等场景都会产生推动作用,并将为AI产业者提供巨大的价值。
在中国市场,Graphcore与领先的本地商业用户展开紧密的早期合作,基于IPU的开发者云已于7月初正式上线,其IPU-POD产品技术,已在IPU开发者云上供用户访问。因此,中国很可能成为Graphcore最新推出的第二代处理器技术最先实现商业化落地的区域之一。
以上努力,仅仅是Graphcore在中国市场进行的相当规模的投资中的一部分。Graphcore还在本地构建了强有力的工程化团队,希望与本地的AI产业者和AI创新者进行紧密合作,以先进科技助推中国AI创新。”
每个IPU-M2000均由4个新的7纳米Colossus™Mk2 GC200 IPU处理器驱动,并得到Poplar™软件堆栈的完全支持。
Mk1 IPU产品的用户可以确信,他们现有的模型和系统可以在这些新的Mk2 IPU系统上无缝运行。虽然第一代Graphcore IPU产品已经处于领先地位,但与之相比,第二代产品的性能还将提高8倍。
IPU-M2000的设计使客户可以在IPU-POD™配置中构建多达64,000个IPU的数据中心规模系统,提供16ExaFlops的机器智能计算能力。新的IPU-M2000甚至能够处理最艰巨的机器智能训练或大规模部署工作负载。
您可以从一个直接连接到现有CPU服务器之一的IPU-M2000盒开始,或者将总共8个IPU-M2000连接到这台服务器上。对于大型系统,您可以使用我们的机架规模的IPU-POD64,该机架规模IPU-POD64内置于标准19英寸机架中,包含16个IPU-M2000,并可以横向扩展这些机架,以提供数据中心规模的机器智能计算。
Graphcore全新的IPU-Fabric™技术使大规模连接IPU-M2000和IPU-POD成为可能,该技术是专为机器智能通信而从头设计的,并提供了专用的低时延结构,可在整个数据中心内连接IPU。
我们的Virtual-IPU软件与工作量管理和编排软件集成在一起,可以轻松地为许多不同的用户提供训练和推理服务,并允许根据工作情况调整和重新配置可用的资源。
无论您是要使用单个IPU还是要使用数千个IPU来完成机器智能工作负载,Graphcore的Poplar SDK都可以使这一过程变得简单。您可以使用首选的AI框架(例如TensorFlow或PyTorch)。而且,从这一高级描述中,Poplar将构建完整的计算图,以捕获计算、数据和通信。然后,它会充分利用可用的IPU硬件,编译此计算图,并构建用于管理计算、存储和网络通信的运行时程序。
如果您希望将机器智能计算添加到数据中心,没有什么比Graphcore IPU-M2000更强大、更灵活、更易于使用的了。
Graphcore客户遍布金融、汽车、医疗、消费互联网、研究等多个领域。
使用Graphcore系统的公司、组织和研究机构的数量正在迅速增长,其中包括微软、Oxford Nanopore、EspresoMedia、牛津大学、Citadel和Qwant。
摩根大通正在评估Graphcore的技术,以了解我们的解决方案是否可以加速其在AI方面的进步,特别是在自然语言处理和语音识别领域。
随着IPU-M2000和IPU-POD64的推出,我们能够提供的竞争优势进一步扩大。
Graphcore的最新产品线是通过一系列雄心勃勃的技术创新实现的,这些创新可提供客户期望的行业领先性能。
每个IPU-M2000的核心都是我们新的Graphcore Colossus™Mk2 GC200 IPU。该芯片采用台积电最新的7纳米工艺技术开发,每个芯片在一个823平方毫米的裸片上包含超过594亿个晶体管,使其成为有史以来最复杂的处理器。
GC200集成了1472个独立的IPU内核,并能够执行8832个独立的并行计算线程。每个IPU处理器内核都可以从Graphcore开发的一组称为AI-Float的新颖浮点技术中获得性能提升。通过调整机器智能计算中能量和性能的运算实现,我们能够在每个IPU-M2000 1U刀片服务器中提供1PetaFlop 的AI计算能力。
通过对FP32 IEEE浮点运算的领先支持,我们还支持FP16.32(16位乘以32位累加)和FP16.16(16位乘法累加)。但是,我们的Colossus IPU有其独特之处,即,它在硬件支持的算术上支持随机取整,并以处理器的全速运行。这使Colossus Mk2 IPU可以将所有算术保持为16位格式,从而减少了内存需求,节省了读写能量,并减少了算术逻辑中的能量,同时提供了全精度的机器智能结果。8832个并行程序线程中的每一个上的1472个处理器内核中的每一个都可以生成具有成形噪声的独立随机数种子,从而具有独特的计算能力来支持概率模型和进化策略(Evolution Strategy)机器智能模型。
AI-Float算术块还为稀疏算术浮点运算提供了本机支持。我们为各种稀疏操作提供库支持,包括块稀疏性和动态稀疏性。这意味着IPU不仅可以在推理中而且可以在训练过程中提供更高效的稀疏数据计算,从而帮助创新者创建新型复杂模型,以更少的参数、更快的训练时间和更少的能量提供最先进的性能。
我们的IPU与Poplar配合,为内存组织提供了一种全新的方法。首先,每个IPU都有大量的In-Processor Memory™。我们的新型Mk2 GC200在处理器内部具有史无前例的900MB超高速SRAM,在每个处理器内核旁边都设有大量RAM,以实现每位最低能量的访问。与我们的Mk1 IPU相比,900MBytes的密度提高了3倍,足以在处理器全速运行的情况下在芯片中容纳大型模型、预先状态、甚至于世界最大模型的多层。
我们的Poplar软件还允许IPU通过我们独特的Exchange-Memory™通信访问Streaming Memory™。这甚至可以支持具有数千亿个参数的最大模型。每个IPU-M2000都可以支持密度高达450GB的Exchange-Memory™,以及前所未有的180TB/秒的带宽。因此,即使与最新的7纳米GPU产品相比,IPU Exchange-Memory的密度优势也超过10倍,内存带宽优势超过100倍。
总体而言,IPU访问内存的独特方式,领先的处理器内存储设计,Exchange Memory功能以及对稀疏性的本机支持,这些优势结合在一起,使用户可以以极高的速度执行机器学习模型,无论这些模型有多大或者多么复杂。
与其他解决方案不同,您无需添加昂贵的InfiniBand网络卡即可连接Mk2 IPU处理器刀片。IPU-M2000具有内置的专用AI联网。我们将其称为IPU-Fabric™。
我们创建了一个新的Graphcore GC4000 IPU-Gateway芯片,该芯片可提供令人难以置信的低时延和高带宽,每个IPU-M2000均可提供2.8Tbps。当您将越来越多的IPU-M2000机箱连接在一起时,总带宽将增加到每秒许多Petabits。
尽管IPU-Fabric是从零开始构建的,目的是在基于IPU的系统中实现性能最大化,但它也旨在与现有数据中心基础设施实现最大程度的兼容性。
IPU-Fabric使用标准的铜缆或光学OSFP连接器,将IPU向上和向下链接到机架。在较大的配置中,IPU-POD之间的通信使用以太网隧道技术来维持吞吐量,同时允许使用标准QSFP互连和100Gb以太网交换机,这突显了Graphcore致力于在混合用途数据中心里实现简单客户部署的承诺。
在整个系统中,IPU-Fabric使用3D环形拓扑,原因是效率最大化,以及它很好地映射了机器智能计算中并行性的三个维度。
我们的Poplar SDK完全支持IPU-Fabric。随着客户通过添加额外的IPU-POD扩展其数据中心设置,我们的Virtual-IPU软件用于告知Poplar每个工作负载现在有多少台机器。Poplar负责编译和其他过程的所有后续调整。
在从数十个IPU扩展到数以万计个IPU的过程中,令人难以置信的IPU-Fabric技术使通信时延几乎保持恒定。
IPU-M2000还实现了灵活的分解模型,其中用户不受服务器级别的CPU与机器智能计算的固定比率的限制。相反,Graphcore客户可以选择通过以太网交换机连接的CPU和IPU的首选组合。您可以根据工作负载的变化,轻松地调整这一比率。例如,自然语言处理(NLP)对CPU主机处理的要求相对较低,而图像分类可能需要更高比例的服务器以支持更多的数据预处理。IPU-M2000允许更改这些比例,并在出现新应用程序时提供支持。
Graphcore的Virtual IPU(虚拟IPU)技术使用户可以动态地提供他们想要与特定主机关联的IPU,并分配工作负载,甚至可以具体到某个单独的IPU级别。
Virtual-IPU还支持IPU-POD上的多租户,允许在私有和公共云的环境中分配资源,然后将其再分配给不同的个人、团队或任务。
例如,Graphcore技术可能在消费者图像识别服务上运行推理,并由成千上万的用户同时访问。之后,相同的IPU-POD硬件或许还会被用来通宵运行大型训练任务,以完善用户的模型。我们的Virtual-IPU软件与诸如Slurm之类的工作负载管理系统连接,并将支持诸如Kubernetes之类的编排系统。
IPU-M2000还支持内置了OpenBMC硬件管理的融合基础设施部署。每个IPU-M2000提供专用的带外管理网络端口或带内管理选项。可以通过Redfish DTMF将管理数据传递到管理系统,例如Grafana。当然,我们的Poplar软件和IPU支持Docker的容器化。
IPU-M2000和IPU-POD64系统即日起开启预订,并于2020年第四季度开始量产出货。从今天起,抢先体验的客户能够与我们的云合作伙伴Cirrascale一起在云中评估IPU-POD系统。
更多关于我们的OEM和渠道合作伙伴的详细信息将在未来几个月内宣布。
Graphcore的IPU产品已经在许多行业和研究领域中使用。与基于GPU的技术相比,用户已经看到了显着的性能改进,带来了商业优势,并有助于推进研究。
J.P. Morgan
摩根大通正在评估Graphcore的技术,以了解我们的解决方案是否可以加速其在AI方面的进步,特别是在自然语言处理和语音识别领域。
Oxford Nanopore
“我们测试Graphcore IPU已有一段时间了,这项技术的潜力给我们留下了深刻的印象。借助IPU,我们在某些关键研究领域中看到了惊人的吞吐量。能够测试Mk2架构,并继续探索这种创新芯片架构的优势,我们深感兴奋。”
Oxford Nanopore高级平台开发部总监
Chris Seymour
EspresoMedia
“我们与Graphcore IPU进行合作已经有一段时间了,在包括视频和图像超分辨率提升在内的许多机器学习工作负载中看到了显着的性能提升。我们很高兴成为其Mk2 IPU平台的主要客户。Mk2 IPU非常强大和灵活,而IPU-M2000为我们提供了一个真正的突破性平台,使我们的客户能够在机器智能方面取得新的突破。”
EspresoMedia公司CEO
KS Lee
劳伦斯伯克利国家实验室
“通过利用Azure IPU预览版,我们已经看到IPU的巨大潜力,并期待在Graphcore Mk2平台上推动新的创新。我预期IPU-M2000能够在人工智能方面取得重大突破。”
劳伦斯伯克利国家实验室资深科学家
Kristofer Bouchard博士
牛津大学
牛津大学材料系教授
Andrew Briggs
Simula研究实验室
Simula研究实验室研究总监
Are Magnus Bruaset
ATOS
Atos公司创新和研发BDS战略负责人
高级副总裁兼研究员
Arnaud Bertrand
Graphcore微信创新社区
Graphcore微博创新社区
Graphcore知乎创新社区
点击阅读原文,回看发布会以及了解更多关于第二代IPU的信息
关键词
模型
芯片
性能
创新社区
机器智能
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。