超算及常规服务器算力评估规范

数据中心算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。在服务器主板上，数据传输的顺序依次为 CPU、内存、硬盘和网卡，若针对图形则需要 GPU。所以，从广义上讲，数据中心算力是一个包含计算、存储、传输（网络）等多个内涵的综合概念，是衡量数据中心计算能力的一个综合指标。

首先，对目前发展和应用相对成熟的超算算力评估及常规服务器算力评估方法进行分析，在此基础上，对数据中心算力评估现状及其算力评估过程中存在的难点进行分析。

1、超算算力评估

超级计算机拥有海量数据处理能力和高密度计算能力，是衡量一个国家先进计算水平的代表性设施。业界普遍用浮点运算速度（FLOPS）对超算性能进行评价。

TOP 500 排行榜主要以超算系统运行 LINPACK（线性系统软件包）基准测试所能达到的最高性能 Rmax（单位：TFLOPS）对 500 个超算系统进行排名，该排行榜还提供超算地点、核数等基础信息。TOP 500每年 6 月和 11 月更新一次。

TOP 500 测试过程简单易操作，但是也有不少研究人员对 TOP 500选取的测试标准产生质疑，TOP 500 并没有对超算通信子系统运算性能及其处理数据密集型应用的运算性能进行评估。针对 TOP 500 测评指标在超算性能评估方面的缺陷，有研究人员提出了新的测试标准，如Graph 500。Graph 500 对超算每秒遍历边缘的数量进行了评估，其单位为 Gteps（每秒 10 亿遍历边缘数）。Graph 500 榜单的发布表明了超算算力测评标准的多样化发展趋势，在不同的应用场景下，超算运算性能可能会有所差别。

2007 年，Green 500 榜单发布，该榜单以用电效率（GFLOPS/W）为评估指标对 500 个超算进行排名。

Green 500 和 TOP 500 在超算系统排名上存在很大的差异性（如2020年），一些在 TOP 500 上排名靠后的超算在 Green 500 榜单上排名靠前，如位于美国的超算 NVIDIA DGX SuperPOD 和日本的超算 MN-3 在 TOP 500 上排名分别为 170 和 330，但是在 Green 500 上排名靠前，排名分别为第一和第二。我国在 TOP 500 上排名靠前的超算并没有出现在 Green 500 榜单前十位置，这说明我国超算在用电效率方面还存在很大的进步空间。

从 TOP 500 到 Green 500，超算算力评价指标逐渐从以运算速度为主转变为运算速度和用电效率兼顾，这充分说明世界各国在先进算力竞争中从一味追求运算速度到追求算力能效的理性转变。TOP 500 和Green 500 提出的浮点运算能力及浮点运算用电效率指标为其他行业算力评估工作提供了重要的参考。

2、常规服务器算力评估

SPEC CPU 是由性能评估机构 SPEC 推出的一款行业标准的 CPU 测试基准套件，该套件最新版本为SPEC CPU 2017，主要通过SPECspeed 2017 Integer、SPECspeed 2017 Floating Point、SPECrate 2017 Integer、SPECrate 2017 Floating Point 这四个套件的 43 个测试项目，对 CPU整点运算能力、浮点运算能力、整型并发速率和浮点并发速率进行测试。

SPEC CPU 套件将会根据测试结果为 CPU 整数运算及浮点运算能力进行打分，用户能够通过打分结果直观地看出不同 CPU 的性能差异，并且根据业务需要选择合适的 CPU。

SPEC 早在 2006 年成立了 SPEC power 工作组，工作组将能效基准测试工具的开发作为主要工作目标。2007 年，在美国环保总署和能源使用效率协会的赞助及 AMD、Dell、Intel 等厂商的参与下，SPECpower 委员会推出了一款里程碑式的能效基准测试套件—SPECpower_ssj2008，该基准致力于构建一个符合 IT 实际工作环境的性能/功耗评价基准，这将在很大程度上转变当前业界普遍存在的只重视系统性能而忽视系统能效的服务器性能评价观念。

由于 SPECpower_ssj2008 测试本身被限制为 JAVA 应用负载，而JAVA 在桌面以及工作站领域缺乏相关的应用。SPEC power 委员会在2013 年正式发布了 SERT（Server Efficiency Rating Tool，服务器效率评级工具）。它由数十个被称为 worklet 的负载组件组成，并在运行时分别对服务器的 CPU、内存、存储组件进行测试。SERT 对SPECpower_ssj2008 中的 SPEC PTDaemon 进行了复用。

MLPerf 起源于 2018 年，是业内首套测量机器学习软硬件性能的基准套件。该基准套件囊括了一组关键的机器学习训练和推理的工作负载，代表了重要的生产级别用例。对于训练（Training），涵盖了图像和自然语言处理，以及推荐系统和强化学习总共 7 个测试项目；对于推理（Inference），涵盖了图像、自然语言处理 2 种计算任务在 4 个应用场景下的测试项目。截止于 2020 年 4 月，MLPerf 已经发布了两轮训练（Training）测试结果以及一轮推理（Inference）测试结果。

3、电能利用效率（PUE）评估

PUE（Power Usage Effectiveness，电能利用效率）是 TGG（The Green Grid，绿色网格）发布的一项用于评价数据中心能效的指标，该指标已经得到业界的广泛认可。

PUE 在数值上等于数据中心总耗电与 IT 设备耗电的比值。在整个数据中心中，IT 设备是对外提供服务的主体设备，是产生算力的源泉。PUE 值越小则表明数据中心 IT 设备能耗占比越大，有更多电能被用于产生算力资源。

尽管数据中心能效与算力具有上述关联，但是这并不意味着提升数据中心整体能效水平就一定能够提升数据中心算力能效，数据中心算力能效除了与电能供给有关，还与 IT 设备的硬件性能、虚拟化技术的应用等因素有关，例如，对于不同性能的 CPU 芯片，消耗相同电能产生的算力可能并不相同。虚拟化技术的应用能够提升服务器资源的利用率，在相同的时间周期内，采用虚拟化技术的服务器往往能够处理更多任务，其实际算力水平自然能够提升，算力能效也会有所提升。

数据中心算力由数据处理能力、数据存储能力和数据流通能力三项指标决定。其中，数据处理能力，在应对以大数据、AI 人工智能为代表的新一代数字化技术产业趋势过程中，又可以区分为以 CPU 为代表的通用计算能力，和以 GPU 为代表的加速计算能力。前者主要用作执行一般任务，后者主要承担图形显示、大数据分析、信号处理、人工智能和物理模拟等计算密集型任务8。

综上，数据中心算力指标包含 4 大核心要素，即：通用计算能力、高性能计算能力、存储能力、网络能力。