OrionX AI芯片计算资源池化技术

作为 AI 市场中的重要组成，以 GPU、FPGA 等为主的 AI 加速器市场发展也随之水涨船高。GPU 资源池化技术从初期的简单虚拟化，到资源池化，经历了四个技术演进阶段。

简单虚拟化。将物理 GPU 按照 2 的 N 次方，切分成多个固定大小的 vGPU（Virtual GPU，虚拟 GPU），每个 vGPU 的算力和显存相等。实践证明，不同的 AI 模型对于算力、显存资源的需求是不同的。所以，这样的切分方式，并不能满足 AI 模型多样化的需求。

任意虚拟化。将物理 GPU 按照算力和显存两个维度，自定义切分，获得满足 AI 应用个性化需求的 vGPU。

远程调用。AI 应用与物理 GPU 服务器分离部署，允许通过高性能网络远程调用 GPU资源。这样可以实现 AI 应用与物理 GPU 资源剥离，AI 应用可以部署在私有云的任意位置，只需要网络可达，即可调用 GPU 资源。

资源池化。形成 GPU 资源池后，需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时，也需要提供北向 API，与数据中心级的资源调度平台对接，让用户在单一界面，就可以调度包括 vGPU 在内的数据中心内的各类资源。

下载链接：

OrionX GPU AI算力资源池化技术白皮书

《NVIDIA InfiniBand网络技术新特性（2023）》1、NVIDIA InfiniBand-NDR Q&A 2、NVIDIA Infiniband Networking Update 2023

《NVIDIA Jetson机器软件栈更新合集》1、NVIDIA Jetson自主机器软件栈更新 2、NVIDIA Jetson赋能新一代自主机器

新型GPU云桌面发展白皮书（2023）

GPU原理及在云桌面中的应用

兆芯CPU+GPU技术路线解读

先进制程贴近物理极限，算力需求Chiplet迎来黄金发展期（精华）

AI精华系列报告：AMD发布MI300，指引Chiplet等AI芯片新方向

2023中国半导体IP行业研究报告终版

ChatGPT：AI模型框架研究（2023）

华为AI盘古大模型研究框架（2023）

《70+篇半导体行业“研究框架”合集》

《人工智能AI大模型技术合集》

信创从“芯”开始

云计算通用可编程DPU发展白皮书（2023年）

《42份智能网卡和DPU合集》

290份重磅ChatGPT专业报告（全网最全）

OrionX 通过软件定义 AI 算力，颠覆了原有的 AI 应用直接调用物理 GPU 的架构，增加软件层，将 AI 应用与物理 GPU 解耦合。AI 应用调用逻辑的 vGPU，再由 OrionX 将 vGPU需求匹配到具体的物理 GPU。OrionX 架构实现了 GPU 资源池化，让用户高效、智能、灵活地使用 GPU 资源，达到了降本增效的目的。

一个典型的 OrionX GPU 资源池的逻辑架构中包含了 OrionX Controller（OC）、OrionX Server Service（OSS）、OrionX Client Runtime（OCRT）、和 OrionX GUI（OG）等功能组件。

OrionX 的各功能组件可以根据用户环境需求被部署在单服务器上，也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中，各功能组件可以通过多种类型的网络建立连接，从而把数据中心的 GPU 资源管理起来，形成一种可以被全局共享的计算资源，对 AI 应用提供可远程访问的、可灵活切分的、可聚合的弹性 GPU算力。OrionX 的逻辑架构如下图所示。

CUDA是由 Nvidia 公司定义且公开推广、维护的一种 GPU 编程接口。从 2007 年推出之后，经过十几年生态培育，已经成为 GPU 编程的一个事实标准。大部分流行的 AI 框架，例如 TensorFlow、PyTorch、MXNet 和 PaddlePaddle都是基于 CUDA 编程接口开发。

OrionX 在管理物理 GPU 之后，通过模拟 CUDA 标准接口，为各种 AI 应用提供一个与 Nvidia CUDA SDK 接口功能一致的运行环境，从而使得 AI 应用透明无感知地运行在 OrionX GPU资源池之上。OrionX 不仅在单服务器上模拟了 CUDA 标准接口，并且通过分布式部署各功能组件，能够提供分布式的 CUDA 运行环境。

OrionX 的各个功能组件通过管理平面网络和数据平面网络进行通信，共同完成 GPU 资源池的管理以及 GPU 资源的调度等功能。

在部署 OrionX 时，使用基于 TCP/IP 网络的管理平面，来承载整个系统的管理工作。通过管理网络，分布在各个节点的功能组件都保持和 OrionX Controller 同步。管理平面逻辑结构如下图所示。

在应用运行的过程中，应用所在环境和 GPU 物理节点之间的数据传输使用的是 OrionX 的数据面。该数据面支持多种后端数据传输载体，包括 TCP/IP 以太网络、RoCE RDMA、Infiniband RDMA、Share Memory 等。具备高带宽、低延迟。同时支持多种传输协议，根据优先级自动使用高性能的传输方式。支持虚拟机、容器和宿主机之间的 TCP/IP 网络隔离。