作为 AI 市场中的重要组成,以 GPUFPGA 等为主的 AI 加速器市场发展也随之水涨船高。GPU 资源池化技术从初期的简单虚拟化,到资源池化,经历了四个技术演进阶段。
简单虚拟化。将物理 GPU 按照 2 N 次方,切分成多个固定大小的 vGPUVirtual GPU,虚拟 GPU),每个 vGPU 的算力和显存相等。实践证明,不同的 AI 模型对于算力、显存资源的需求是不同的。所以,这样的切分方式,并不能满足 AI 模型多样化的需求。
任意虚拟化。将物理 GPU 按照算力和显存两个维度,自定义切分,获得满足 AI 应用个性化需求的 vGPU
远程调用AI 应用与物理 GPU 服务器分离部署,允许通过高性能网络远程调用 GPU资源。这样可以实现 AI 应用与物理 GPU 资源剥离,AI 应用可以部署在私有云的任意位置,只需要网络可达,即可调用 GPU 资源。
资源池化。形成 GPU 资源池后,需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时,也需要提供北向 API,与数据中心级的资源调度平台对接,让用户在单一界面,就可以调度包括 vGPU 在内的数据中心内的各类资源。
下载链接:
《NVIDIA InfiniBand网络技术新特性(2023)》1、NVIDIA InfiniBand-NDR Q&A 2、NVIDIA Infiniband Networking Update 2023
《NVIDIA Jetson机器软件栈更新合集》1、NVIDIA Jetson自主机器软件栈更新 2、NVIDIA Jetson赋能新一代自主机器
OrionX 通过软件定义 AI 算力,颠覆了原有的 AI 应用直接调用物理 GPU 的架构,增加软件层,将 AI 应用与物理 GPU 解耦合。AI 应用调用逻辑的 vGPU,再由 OrionX vGPU需求匹配到具体的物理 GPUOrionX 架构实现了 GPU 资源池化,让用户高效、智能、灵活地使用 GPU 资源,达到了降本增效的目的。
一个典型的 OrionX GPU 资源池的逻辑架构中包含了 OrionX ControllerOC)、OrionX Server ServiceOSS)、OrionX Client RuntimeOCRT)、和 OrionX GUIOG)等功能组件。
OrionX 的各功能组件可以根据用户环境需求被部署在单服务器上,也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中,各功能组件可以通过多种类型的网络建立连接,从而把数据中心的 GPU 资源管理起来,形成一种可以被全局共享的计算资源,对 AI 应用提供可远程访问的、可灵活切分的、可聚合的弹性 GPU算力。OrionX 的逻辑架构如下图所示。
CUDA是由 Nvidia 公司定义且公开推广、维护的一GPU 编程接口。从 2007 年推出之后,经过十几年生态培育,已经成为 GPU 编程的一个事实标准。大部分流行的 AI 框架,例如 TensorFlowPyTorchMXNet PaddlePaddle都是基于 CUDA 编程接口开发。
OrionX 在管理物理 GPU 之后,通过模拟 CUDA 标准接口,为各种 AI 应用提供一个与 Nvidia CUDA SDK 接口功能一致的运行环境,从而使得 AI 应用透明无感知地运行在 OrionX GPU资源池之上。OrionX 不仅在单服务器上模拟了 CUDA 标准接口,并且通过分布式部署各功能组件,能够提供分布式的 CUDA 运行环境。
OrionX 的各个功能组件通过管理平面网络和数据平面网络进行通信,共同完成 GPU 资源池的管理以及 GPU 资源的调度等功能。
在部署 OrionX 时,使用基于 TCP/IP 网络的管理平面,来承载整个系统的管理工作。通过管理网络,分布在各个节点的功能组件都保持和 OrionX Controller 同步。管理平面逻辑结构如下图所示。
在应用运行的过程中,应用所在环境和 GPU 物理节点之间的数据传输使用的是 OrionX 数据面。该数据面支持多种后端数据传输载体,包括 TCP/IP 以太网络、RoCE RDMAInfiniband RDMAShare Memory 等。具备高带宽、低延迟。同时支持多种传输协议,根据优先级自动使用高性能的传输方式。支持虚拟机、容器和宿主机之间的 TCP/IP 网络隔离。
OrionX 的各个组件,支持直接部署在裸金属服务器上,即安装操作系统后,直接以 Binary形式部署,也支持容器化部署。OrionX 具备适配多种 Linux 操作系统和云平台的能力,因此,OrionX 具有多样化的部署形式。
OrionX 支持 CentOSUbuntuDebian Linux 发行版本,同时支持基于 KVM 的虚拟机云平台和基于 Docker 的容器云平台。尤其是支持原生容器,并实现了和 Kubernetes 的平滑对接。
下载链接:
2023电子与半导体行业白皮书
2022—2023中国人工智能算力发展评估报告
1、ARM Cortex-M3权威指南 2、ARM v8-v9架构入门指南
《2023年高性能计算研讨合集(上)》
《2023年高性能计算研讨合集(下)》
《AI基础知识深度专题详解合集》
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

继续阅读
阅读原文