4个小时
5530美元
41472个核
速石科技跑进最新全球超算TOP500!
亚洲第一,全球第二家用云算力跑进榜单,
我们觉得自己可以适当骄傲一下。
TOP500是啥?
TOP500项目是针对全球已知最强大的电脑系统做出排名与详细介绍。开始于1993年,至今已经持续26年,一年出版两次最新超级计算机排名列表,旨在提供一个可靠的基础追踪与侦测高性能计算的趋势。
TOP500是按照什么标准排名的?
按照计算速度,准确地说是High Performance Linpack (HPL)指标值。用专业语言来说,是每秒能够执行多少次浮点运算。1 Petaflops=每秒一千万亿次浮点运算。
我们的HPL值是1.1626 Petaflops。
成绩单如下:
(https://www.top500.org/system/179804)
我们的竞争对手都是谁?
看看前四名感受一下:
第一名:美国橡树岭国家实验室的Summit系统,使用Power9 CPU和NVIDIA Tesla V100 GPU。
第二名:Lawrence Livermore国家实验室的Sierra,使用的芯片与Summit相同。
第三名:“神威-太湖之光”超级计算机,由中国国家并行计算机工程与技术研究中心(NRCPC)开发,安装在无锡国家超级计算中心,由Sunway的SW26010处理器提供动力。
第四名:天河2A,由中国国防科技大学(NUDT)开发的系统,部署在中国国家超级计算机中心。由Intel Xeon CPU和Matrix-2000加速器提供动力。
国家实验室,国家超级计算中心,全球最知名的几家硬件厂商,比如英特尔,TOP500榜单基本由他们组成。
具体是怎么实现的?
操作系统: Amazon Linux 2
软件平台:fastone自研
云资源:北美区AWS EC2实例,主要是低成本的Spot实例(参考:云资源中的低成本战斗机——竞价实例,AWS、阿里云等六家云厂商《完全用户使用指南
CPU:Xeon Platinum8124M 18C 3GHz
内存:165,888 GB
核数:41,472
网络:25G以太网
运行时间:4小时
运行成本:5530美元
这个事儿到底厉害在哪?
一、用云算力比肩这些传统超级计算中心
我们是全球第二,亚洲唯一一家完全用公有云算力跻身超级计算机榜单的公司。
这个事其实AWS在2013年自己干过,那时候的HPL成绩是0.4842 Petaflops,排名64位。这六年来榜单的要求已经提高了非常多。最新排名64位的HPL成绩是3.4096 Petaflops。进入榜单的最低门槛都是1.14 Petaflops。
二、时间和花费低到惊人
我们一共只花了5530美元,跑了4个小时,远远低于TOP500榜单上其他各种组织所需的成本。
按4万个核假设:每台机器按36个核算,共1111台机器。
每台机器20万,约2.2亿元人民币。
这还只是机器,不考虑网络,安装,人力等等。
还有,6-12个月甚至更长的等待时间。
三、在云上短时间组织和配置超大规模集群的能力
1、大规模集群按需启动,即启即用
仅用数分钟就能完成部署应用,准备数据,运行集群整个过程。
2、大规模集群动态监控能力
速石平台集成了对每个节点状态的监控,包括CPU,内存和网络的状态利用率的监控。这些监控指标会被汇总,并通过统一的观察界面展示,这让我们可以迅速定位瓶颈,调整任务的参数或者改变配置来获得更好的结果。
3、大规模集群动态调优能力让整个过程资源利用率得到了优化
由于整个构建过程可定制的特点,我们可以很方便地修改参数,例如系统和MPI级别的一些参数。如果没有自动化工具的帮助,修改数千个节点将会耗费相当的时间和精力。而通过速石的自动化调度平台,1152个节点仅用几分钟就完成了新参数的修改,我们可以很快很经济地验证参数是否符合预期。
4、自动识别并采用低成本实例的能力 
这次计算全部采用Spot节点进行。平台对抢占可能性做出了预判,选择了抢占可能性比较小,但又有足够资源的区域进行。在整个过程中没有遇到被抢占导致的任务失败。
最后,我们想说:
云已经成长到能够完成这些原本是昂贵的超级计算机才能完成的事。
关于算力,我们拼的不是速度,我们关心的是怎么帮助用户获取到这些算力。
END -
关于速石科技:
速石科技专为有高算力需求的企业级用户提供一站式算力运营解决方案,帮助用户提升10-20倍业务运算效率,降低成本达到75%以上,加快市场响应速度。
目前主要应用领域包括药物研发、基因测序分析、半导体行业的EDA仿真及电路设计、汽车行业的自动驾驶开发、虚拟碰撞试验以及AI人工智能。
扫下图二维码添加小F微信(ID:imfastone)
你也许想再了解一下:
继续阅读
阅读原文