本文来自“专用数据处理器(DPU)性能基准评测方法与实现(2022)”。分别从网络、存储、计算、安全四个系统测试维度介绍了 DPU在对应场景中的基本架构,并给出实际测试系统模型。最后,根据不同的应用场景提出评测方案。
芯片评测通行的评价维度是PPA,即性能(Performance)、功耗(Power)、面积(Area),这三个维度可以用于比较同类芯片产品的优劣。然而,这个评价维度适用的前提是芯片要“同类”,例如,基于 X86 ARM 指令集的服务器级 CPU;或者即便不属于同一类指令集,但至少是级别相近的 CPU,并且可以运行同类操作系统。对于不同类别的芯片,PPA 的比较没有实际意义。
对于新近发展起来的 DPUData Process Units)芯片,现有不同厂商的DPU 从功能角度来看,存在较大差异。虽笼统属于 DPU 大类,但是否属于“同类”仍有待商榷。这必然导致性能评价的维度各有侧重,呈现多元化,给建立一个公平的 DPU 的评价体系带来了较大的挑战。本书针对现阶段 DPU 产品的功能定义,充分考虑 DPU 使用环境等的差异性,试图为未来 DPU 产品建立一套公平、开放、全面、客观的 DPU 评测体系(DPU Benchmark)。一方面为 DPU 用户提供参考,一方面也为未来 DPU 产品的标准化提供引导。
DPU 评测建议标准介绍
DPU 可以实现网络、存储和计算在一定程度的解耦,而解偶可以为专用化提升性能和效率创造条件。例如,将部分网络协议处理的功能卸载到 DPU 网卡,计算(服务器)不再分资源来处理这些网络数据协议,从而实现一定程度的网络与计算解耦;把存储中的缓存、加密、去冗余、压缩、纠删码和 RAID 等功能从主机端的 CPU 卸载到发起(Initiator)和目标(Target)侧的 DPU,从而实现存储与计算的解耦。
在开展性能评测的过程中,可以基于为网络、存储和计算分别构造的测试系统来测
DPU 对系统的影响。对于构造的测试系统有三个方面的建议标准,简称为“POC 则”:
第一、真实性(Practicality)原则,即测试系统能反映实际应用场景。这就需要测
试用例不仅要反映最常用的场景,还要覆盖各种典型的长尾场景(Corner Cases),并且充分利用现有的一些基本测试工具和一些成熟的基准程序,用好现有的“轮子”。
第二、针对性(Orientation)原则,即测试系统要能突出特定方面的性能表现,避免因其它不相关的性能瓶颈导致测试激励无法发挥作用。测试目标有针对性才便于设计有针对性的测试基准程序和数据集。同时,由于不同用户场景的需求不同,针对性原则更利于用户做出合理的选择。
第三、全面性(Comprehensiveness)原则,从 DPU 的功能角度出发,应该包括网络、存储、计算三个维度的测试,并且还可以构建一定的“网络 + 存储”、“网络 + 计算”等组合测试,更全面反映 DPU 的应用效果。
基于以上的“POC”原则,本技术白皮书的内容试图为 DPU 的性能评测建立一套
系统的评测参考框架,涉及测试系统的构建,测试负载的刻画,测试指标的选取,测试用例的设计等关键问题。
系统测试的四个维度
DPU 系统评测可以应用于多种场景,可归因于图所示的四个维度:
1 网络维度
网络维度指与数据包处理相关的功能,包括协议处理,存储转发,连接管理等功能
集合。网络场景是 DPU 发挥的“主战场”之一,包括传统的 TCP/IP 网络,低延迟、高带宽网络,也包括网络虚拟化等。网络卸载加速能力是 DPU 上各种业务和算力的重要基础,直接影响其它多种业务和算力性能的上限,尤其是在以高性能网络互连而成的融合异构算力的高性能分布式计算系统中。DPU 实现网络加速卸载的主要场景涉及云计算平台VPC 网络卸载(如 Open vSwitch 加速卸载,并开启或关闭 Connection Tracking INT),协议栈加速卸载(如 TCP/IP OffloadingRDMA 网络等),云原生网络加速卸载(如 OVN-Kubernetes)和其它NFV 网络网元(如 SD-WAN)等应用场景。
  • 吞吐能力,如 DPU 的转发能力PPS(Packets Per Second,包每秒)和BPS (Bits Per Second,bit 每秒),用来表达 DPU 网络数据包的转发处理能力;
  • 时延性能,如数据包经过 DPU 转发所消耗的时间,或者数据经过 DPU 处理所消耗的时间,用来表达 DPU 网络转发或处理数据包的效率;
  • 网络可观测能力,即 DPU 上基于物理端口、虚拟机实例、vNIC 和数据流级别的可观测能力,用来表达 DPU 网络的统计和遥测能力;
  • 确定性网络能力,如保证数据包传输的网络QoS 能力(即物理端口、虚拟机实例、vNIC 和数据流级别的限速、带宽保障和调度能力),低丢包率或零丢包率能力,有界低延迟能力(即有限的长尾延迟问题),网络的低抖动能力(即低数据包延迟变化),用来表达 DPU 网络的可靠数据传输能力。
2、存储维度
存储维度指与数据存储相关的功能,包括存储读写管理、持久化、去冗、纠错等功
能集合。存储 I/O 通路是指计算单元与本地或远程的数据存储器与之间的通路。传统的存储 I/O 是将持久化存储的数据调入内存参与计算,或者将数据存入存储器并持久化保存,通常通过 DMA 机制来完成。DPU 上存储加速卸载功能主要是用于连接算力与存储服务,为高性能计算中存算分离场景提供算力和存储的独立弹性伸缩能力及高性能并行I/O 功能。在“数据中心税(Datacenter tax)”中,涉及存储相关的计算量大约占数据中心服务器运行周期的 18%23%。随着非易失存储介质(NVM)访问延时数量级的降低,以及数据中心高速互联网络的部署,存储性能的瓶颈已经转移到服务器 CPU 的处理能力。由此,“拓宽”存储的通路就尤为重要。
首先,通过将主机端的网络协议栈卸载到 DPU 中,主机端不需管理复杂的网络细节,只需要发起读写命令;其次,通过实现存储资源的硬件虚拟化,主机中运行的虚拟机或者容器可旁路管理程序(Hypervisor)直接访问外设的存储资源。
DPU 上存储加速卸载的主要场景是NVMe-oF,包括 NVMe/RoCEv2 NVMe/TCP等协议,结合 NVMe-oF 的存储服务加速卸载能力,如 RAID、纠栅码、加解密和压缩解压缩等。DPU 上存储加速卸载在 NVMe-oF 场景下的主要评测维度包括:
  • NVMe-oF 存储的 I/O 读写能力,如IOPSInput/Output Operations Per SecondI/O操作每秒),用来表达 DPU 存储的读写能力;
  • NVMe-oF 存储的吞吐能力,如 MBpsMegabytes Per Second,兆字节每秒),这个能力与 DPU 主机接口和网络接口硬件规格强相关,是另一种表达 DPU 存储的数据读写能力的方式;
  • NVMe-oF 存储的时延性能,如块数据写入 NVMe-oF 远端磁盘或从远端 NVMe oF 磁盘读出块数据所需要的时间,用来表达 DPU 存储的数据读写和传输的效率;
  • NVMe-oF 存储的 QoS 能力,如卷级别和虚拟机实例级别的 IOPS MBps 的限速、带宽保障和调度能力,用来表达 DPU 存储的可靠 I/O 读写能力。
3、计算维度
计算维度指直接执行应用层算法,或者为应用提供计算平台或统一计算资源的相
关功能集合。数据中心中不仅有 CPU 集群,也有 GPU 集群(并行计算)、FPGA 集群(定制计算),AI 加速器集群(智能计算)。这些加速器集群用于加速不同类型负载,以获得比 CPU 更高的加速比。一方面,DPU 同样具备异构计算的特征,并且可以作为多种专用加速器的载体,可用于加速数据中心的一些典型应用,如数据库查询、视频图像转码等,未来也可能用于 AI 计算,类似于 Marvell Octeon10 DPU 中的 AI 功能。另一方面,DPU 也能通过卸载一些计算平台的服务来构建更高效的计算平台。例如,随着云原生微服务架构的普及,服务网格作为微服务间通信的专用基础设施层,服务网格数据面代理的边车(sidecar)功能可通过DPU 实现服务网格数据面代理,进而降低 CPU 内存的消耗以及微服务间的访问延迟。
4 安全维度
DPU 对于安全属性的增强主要体现在提供 DPU 上网络、存储和计算等业务的安全
支持,主要包括硬件信任根、加解密算法以及三元匹配和正则匹配等匹配查找算法等。
DPU 上安全加速卸载的主要应用场景涉及证书密钥交换、传输中数据加解密、静态数据加解密以及基于三元匹配和正则匹配的安全应用加速卸载等。以网络安全为例,DPI、防火墙可以做到一定的安全,但通过软件实现的安全已经占用大量的 CPU 处理时间,影响应用程序的性能以及用户体验,而 DPU 本身作为网络的基础设施,具备实现“硬件防火墙”的能力,尤其是安全中计算模式固定的加解密算法可以采用 DPU 内置的加解密引擎。DPU 上各安全加速卸载场景下的主要评测维度包括:
  • 安全策略规模,如下发到 DPU 上的安全策略条目,用来表达 DPU 上支持的安全策略规模;
  • 安全业务的吞吐能力,如加解密吞吐能力和安全应用匹配查询的吞吐能力,用来表达 DPU 上安全加解密处理和安全过滤匹配查询的能力;
  • 安全业务的时延性能,如加解密业务或安全应用匹配查询消耗的时间,用来表达 DPU 上安全加解密处理和安全过滤匹配查询的效率和效能;
  • 安全业务的并发会话规模,如加解密业务并行会话数量或安全应用并行匹配查询的会话数量,用来表达 DPU 上安全加解密处理和安全过滤匹配查询的并行处理能力。
本文来自“专用数据处理器(DPU)性能基准评测方法与实现(2022)”。分别从网络、存储、计算、安全四个系统测试维度介绍了 DPU在对应场景中的基本架构,并给出实际测试系统模型。最后,根据不同的应用场景提出评测方案。
下载链接:

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“阅读原文”即可查看182页PPT可编辑版本和PDF阅读版本详情。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

继续阅读
阅读原文