VMware携手Graphcore 将AI资源分解引入企业环境

今天，我们很高兴地宣布，VMware的Project Radium将支持Graphcore IPU以作为其硬件分解倡议的一部分。此举将赋能在虚拟化、多租户环境中通过主数据中心网络实现IPU资源的池化和共享，而不会将复杂性推向用户或管理软件。IPU-POD的网络分解横向扩展架构与Project Radium中灵活的资源管理功能相结合，将在大规模训练超大模型和在可靠的生产环境中为基于AI的服务部署模型方面开辟新的领域。

VMware是企业虚拟化软件和用于云端应用程序现代化的工具的领先提供商。通过vSphere、Tanzu和NSX等产品，VMware为客户的应用程序构建和现代化进程提供了一系列多样化的功能。Project Radium是这个令人印象深刻的产品系列中的另一巨大成就。

IPU详情

IPU是一种新型并行处理器，其设计专注于满足现代AI模型的计算需求。IPU在硬件层面具有高度的细粒度并行性；它支持单精度和半精度浮点算术，是稀疏计算的理想选择，无需对基础数据中的稀疏性有任何特定依赖。该处理器非常适合深度神经网络的训练和推理，这是当代机器学习工作负载的主力。

IPU没有采用像GPU这样的常规SIMD/SIMT架构，而是使用具有超高带宽、片上存储和低时延/高带宽互连的MIMD架构，以实现高效的芯片内和芯片间通信。这使得IPU成为以数据中心规模对机器学习模型进行并行化的理想目标。

IPU-POD和分解的力量

IPU-POD架构可以实现从一个IPU到数千个IPU的无缝扩展。IPU-POD是IPU的网络分解集群，可以根据工作负载需求弹性扩展，独立于它们通过网络连接到的CPU资源。这使得用户可以通过简单的资源绑定构造在超大规模或本地企业环境中调高或调低CPU:IPU比率。IPU-POD架构还能在虚拟化环境中实现近乎裸机的性能。

由CPU和IPU资源的这种独立可扩展性提供的灵活性可以帮助用户以成本优化的方式满足对计算资源的工作负载特定需求。例如，用于自然语言处理任务的机器学习模型通常不是CPU密集型的，而计算机视觉任务由于诸如图像预处理或增强之类的任务而有可能是CPU密集型的。这在云环境中特别有用。在云环境中，CPU资源的提速和降速很容易，使得客户可以获得规模经济的好处。

软件方面的考量

Graphcore的Poplar SDK从Graphcore诞生之日起就与处理器协同设计。它支持包括PyTorch和TensorFlow在内的标准机器学习框架，以及Docker和Kubernetes等容器、编排和部署平台技术。

除了支持核心机器学习软件框架外，与虚拟化、编排和调度软件的集成对于客户在企业环境中轻松大规模使用IPU至关重要。多租户、隔离和安全是解决方案提供商在超大规模环境中运营时需要遵循的关键原则。Graphcore软件栈里的资源管理组件有助于与各种云配置和管理栈（例如VMware提供的栈）轻松集成。因此，在公有云、混合云或本地基础设施环境中的运行变得顺畅。

关于Project Radium

Project Radium朝着针对AI优化的分解计算迈出了一大步，支持在各种不同的硬件架构（包括Graphcore IPU和IPU-POD）上进行远程处理、池化和共享资源。

设备虚拟化和远程处理功能可以在多种高性能AI加速器间实现，无需显式代码更改或用户干预。开发人员可以完全专注于他们的模型，而不是特定于硬件的编译器、驱动程序或软件优化。

通过在标准网络上动态连接到IPU-POD等硬件，用户将能够利用IPU等高性能架构来大规模加速要求更高的用例。

企业级AI易于反掌

VMware和Graphcore的携手合作使企业级AI功能触手可及。VMware Radium允许用户利用IPU-POD网络分解架构的独特优势，同时满足最苛刻的企业环境中的多租户、隔离和安全需求。无论是公有云、混合云还是本地，VMware Radium和Graphcore IPU都将为您的应用程序提供最具成本效益的企业级AI解决方案。

本篇blog作者：

Saurabh Kulkarni和Alex Tsyplikhin