机器之心原创
作者:太浪
IBM 的 POWER 与 Intel Xeon、AMD EPYC 是目前服务器市场上的三种主要处理器类型。
英特尔在推出至强处理器,进入服务器市场后,依靠其在桌面电脑上建立起来的生态平台和对技术的持续改进,在成本和性能上实现了对 RISC 芯片的超越,几乎垄断了数据中心 CPU 市场。
然而,到了人工智能时代,英特尔开始遭遇挑战。
单纯以 CPU 为核心的数据中心部署已经不能很好地满足并行灵活计算、多变环境的计算需求。
2013 年,IBM 与 Google、英伟达等共同创立 OpenPOWER 联盟,通过联盟及生态的模式促进 POWER IP 的使用和相关技术开发。四年来,OpenPOWER 不断发展壮大,腾讯、阿里、中移动、中石油等越来越多的中国核心企业也开始加入 OpenPOWER 联盟。
去年 12 月,IBM 发布了最新设计的 POWER9 处理器。POWER9 处理器在新技术上采用了 PCIe4.0、CAPI、NVLink、高主频、更极限的芯片设计。在系统级也采用了面向市场需求的高可用设计,40 层主板的设计,更高效率的散热技术,通过把这些先进技术进行整合,从而给高端客户和行业客户提供了更加差异化的选择。
POWER9 处理器
在纵向扩展(Scale-up)平台、关键应用事务处理云化的过程中,能够提供更高性能、更可靠、更少安全问题的虚拟机。在横向扩展(Scale-Out)领域提供的计算平台面向异构计算,有着更高内存带宽、更多互联等技术特点,使得 POWER 平台在计算层面的竞争上有一定的技术优势。
有观点认为,POWER 9 将会是目前最有机会挑战英特尔的产品。
浪潮商用成立,负责 POWER 服务器业务
去年 9 月,浪潮信息与 IBM 合资成立了浪潮商用机器有限公司(IPS),IBM 将在中国大陆的 POWER 服务器业务完全交由浪潮商用运营。2018 年 5 月初,浪潮商用机器正式运营。
9 月,浪潮商用机器宣布搭载全新 POWER9 处理器的 FP5295G2 服务器正式全面上市。该款服务器搭载 NVIDIA Tesla V100 GPU,嵌入 PCIe 4.0、NVIDIA NVLink 和 OpenCAPI,采用 POWER AI,被称为「首个真正意义上基于 POWER9 芯片专为 AI 而生的基础架构平台」。
10 月,浪潮商用机器正式推出基于 POWER9 处理器的全线新产品及解决方案。
浪潮商用机器发布 POWER9 全线新品
整个产品线涵盖了面向纵向扩展(Scale-up)的系列产品,主要是 K1 Power E980、K1 Power E950 这 2 款企业级服务器搭载全新 Power9 芯片,将以高性能、高稳定性与卓越的定制服务为企业关键应用搭建核心承载平台;以及 K1 Power S914、K1 Power S922、K1 Power S924、K1 Power L922、FP5280G2、FP5290G2、FP5295G2 等 7 款横向扩展(Scale-Out)服务器,面向企业多样的数据密集型业务需求,提供针对数据和认知的基础架构。
「作为 POWER 平台的服务器供应商,如何提供最好的算力是我们的分内职责。」浪潮商用机器有限公司 POWER 服务器产品经理张锋表示。
浪潮商用机器有限公司 POWER 服务器产品经理张锋
他介绍,POWER 服务器以及 POWER 处理器芯片在技术上一直是非常领先的,达到了「教科书级别」,POWER 9 依然保持了技术领先性:
「我们采用 14nm 的工艺生产 CPU,我们整个 CPU 里只有 70 层的芯片结构,单处理器能够最高达到 22 核,单处理器最高能到 3.8GHz,它还分大核小核,大核支持单核八线程,小核支持单核四线程,这些单核线程都远远高过 x86 的单核两线程。POWER 有更多的 L3 缓存 cache。更多的 cache 能够带来更好的指令的 miss,提高它的命中率、提高它性能的 performance。POWER 有 110M 的缓存,而 x86 平台只有 38.5M。」
「POWER 9 是最好的 AI 平台。」浪潮商用机器有限公司解决方案部总经理吴楠曾表示,「我们最为领先的微主机架构带来了四倍于差不多平台的线程数,以及高达 230G 的一个稳定的内存带宽。综合起来,POWER9 的计算能力能够达到 x86 最高端处理器的两倍以上。」
在张锋看来,一个产品要想在市场上获得成功,除了技术优势,还要有生态优势。
他说,不可否认,x86 最近几年在生态合作上取得了非常大的成功,很多的数据中心里都采用 x86 的平台。
但近几年,POWER 也在不断地迁移和变革生态环境。「甚至,面向 AI 领域、AI 时代、大数据时代转型,POWER 会比 x86 更加开放、更加积极」。
POWER 建立了 OpenPOWER 基金会,让客户(如 Google)、合作伙伴(如 NVIDIA、浪潮)统统加入,以完善整个生态系统。在开源软件上,OpenPOWER 基金会也做出了自己的努力:目前现在最热门的 Hapoop、Spark 平台都有 POWER 平台的架构;现在最流行的 Coffe、TensorFlow 计算框架也有 POWER 平台的框架。浪潮还和中国科学院成立共同的实验室,创办浪潮商用机器。
他说,这些举措都是在培养、完善 POWER 在云、在 AI 时代的生态环境。
张锋还表示,「POWER AI 的一些平台可以直接利用我们的开源软件,也就意味着,POWER 是一个非常开放的生态架构。我们希望,一个非常开放的架构能够让我们的客户、ISV、云服务商充分享受到开源生态环境以及 OpenPOWER 基金会这样一个合作生态组织给大家带来的便利性,让我们 POWER 在生态领域有更好的融合。」
人工智能时代给算力提出了新需求,浪潮商用机器如何应对?
人工智能时代给浪潮商用机器带来的,除了机遇,也有挑战。
目前,企业 AI 化的需求不断加深,需要有非常强大的计算平台来有力支撑线上推理和线下训练。这对数据中心的部署提出了更高的需求,包括兼容性完备的 AI 架构、优化的 AI 计算平台以及更加高效的计算架构。
要获得一份调教好的 AI 计算结果,涉及到数据预处理、模型训练、识别推理等阶段。数据预处理,对 I/O 接口要求较高;模型训练阶段,并行计算量很大,且通信也相对密集;推理识别阶段,则需要较高的吞吐处理能力和对单个样本低延时的响应。
在张锋看来,目前,算力还存在三个短板:第一个是 CPU 取数的速度,这是打破数据存储墙的需求;第二个是 CPU 拿到的数据怎么和 GPU 交换,GPU 处理完了以后怎么分发给其他的 GPU 进行交换;第三个是怎么在一个短短的、有限的空间里提升算力。
浪潮商用机器的应对之策是,确立了三个发展方向:第一,在单位空间内提升计算密度;第二,通过计算的可伸缩性,为不同的平台(训练/推理平台)提供算力;第三,通过体系结构的变更,让客户体会到更先进的、计算架构层面的不同。
今年 9 月,浪潮商用机器推出 FP5295 服务器,张锋称之为「面向企业人工智能最佳的一款平台」。
浪潮 POWER FP5295G2 服务器
他总结了这款服务器的三个优势:
一、架构的竞争是首要的竞争,架构的领先将会带来极大的计算力优势。这款服务器采用了 NVLink 全互联架构,能够让 CPU 和 CPU、CPU 和 GPU、GPU 和 GPU 之间实现内存地址一致性,「也就是首次把 CPU 和 GPU 放在同等的算力地位上」。整个服务器的内存空间地址为全体计算单元所共享。
「这能够让我们整个平台的算力得到非常大的提升,同时让我们的用户在编程模型上得到极大的释放。这是浪潮商用服务器的 POWER 服务器在平台架构上相较于 x86 最显著的优势。」
二、这款平台是业界最先进的 CPU 和业界最强悍的 GPU 之间的一个联合实践。FT5295G 服务器采用了 POWER9 处理器,它最大的特点是支持 NVLink 300G/秒的全互联速度,这能够让我们的 GPU 和 CPU 发挥最大的计算效率。它提供单机 4 到 6 个 V100 GPU,支持最新的 32G 缓存的 GPU,单 GPU 的浮点运算能力能达到 15.7 TFLOPS,整机能够提供 500 万的 Tensor 性能,这样能够让训练平台得到充分的计算力的保障。
三、是企业就绪特性。在 POWER 服务器平台上,利用 POWER AI 架构,企业能够轻松地面向 AI 进行转型。因为 POWER AI 的架构里集成了所有业界最先进、最热门的 AI 计算框架,包括 Coffe、TensorFlow 等。企业可以根据自身需求在一个节点上逐渐地把自己的 AI 平台框架搭建起来,并无缝地迁移到成千上百个计算节点上去。
「我们相信,这一款平台能够让企业、让我们的 HPC 用户得到更多的性能体验。」
多元化的合作模式
今年 9 月份,第四范式携手浪潮商用机器在京联合发布了 AI 软硬件一体机产品「Prophet AIO」。同时,双方正式宣布成立 AI 一体机联合实验室,以加速 AI 在用户需求及产品研发的落地进程。
针对双方的合作,第四范式联合创始人兼首席架构师胡时伟如是说:「我们发现,浪潮商用在硬件方面的追求和我们在 AI 软件平台方面的追求惊人的一致,我们都预期给客户提供最先进、并且能够最好地支撑新技术发展的解决方案。
我们在 POWER 身上发现了目前可能地球上最大的总线带宽和最先进的技术。并且,我们需要的是,在一个平台横向拓展、支持尽可能多的应用,采用统一的模式去运行,而 POWER 在虚拟化和可扩展方面也走在了所有技术的前列。所以大家可以说是一拍即合。」
张锋表示:互联网以及互联网的新兴企业的成长性是非常好的。过去十年,浪潮和互联网公司共同成长,总结出了一套 JDM 模式(Joint Design Manufacture,联合开发定制模式)。「互联网客户非常了解自己的需求,而浪潮商用机器公司能够把互联网企业的这些需求、平台构想迅速地落地,实现针对某一种应用场景的最佳的计算平台。」
在 AI 的大潮下,他们坚信,互联网以及 AI 公司有自己独特的、为客户提供价值的平台和路径。「比如第四范式的先知平台,我们可以为它去定制更好的、基于金融反诈骗的平台系统、学习训练系统或者推理系统。」
此外,他们也在和银行、电信等领域的客户做联合定制的开发。
张锋介绍,浪潮正和位于上海的一家金融机构做云平台的整合,向他们提供更好的整机柜型的服务器。也在和电信行业做一些基于 NFE 平台的定制和开发。
「浪潮商用机器有限公司会利用 JDM 模式与我们的客户强强配合,让我们的客户、终端用户体验到浪潮在平台上、POWER 的先进性,以及在平台上迅速地转化成生产力。」张锋说。
还有值得一提的点是,浪潮商业机器的服务器生产已经完全实现了本地化生产。
吴楠曾在一个会议上介绍,他们在济南开辟了一条年产 100 万台服务器的生产线,专供 POWER 服务器的生产。
「这个服务器的生产线是我们最先进的、无人的、全自动的生产线,其中有 370 多个质量检测点,生产的质量和我们以往交付给客户的产品质量是保持如一的。」
所有设备的交期从原来 40 多天缩短到不到一周,还能给客户按需定制产品,「客户的一些独特的需求都可以在我们生产线上得到实现。」
除了本地化生产的落成,也有了本地化服务。
吴楠表示,「我们服务的本地化也会带来服务质量和服务效率的提升。我们的备品备件都会实现本地化的交付,提高维修和响应的速度。」
这就是浪潮商用机器目前的优势。
继续阅读
阅读原文