随着云计算、大数据、物联网、人工智能等新技术、新应用的快速兴起,用户在数据中心解决方案选型时面临更多挑战,面对层出不穷的新技术有时可能会纠结。其实,只要把握一个原则,即注重价值而不只是价格,就可以选择适合的基础设施,加速投资回报。这也是Mellanox解决方案最打动用户的地方。
记者在与国内一家超融合厂商的负责人沟通时,对方表示,网络成了超融合架构的一个瓶颈,对用户来说,“去TCP”其实比“去IOE”更具现实意义。那么“去TCP”之后用什么?RDMA是一个选择。
看点
01
RDMA会更快普及
10 月 18 日, 在合肥举行的一年一度的HPC Advisory Council(国际高性能计算咨询委员会)中国研讨会上,第五届大学生RDMA编程挑战赛圆满落幕,国防科技大学参赛代表队的作品获得众评委的高度评价,摘取大赛设立的特等奖。此奖项在过去两年中都是空缺,可见本届比赛水平之高、竞争之激烈。
第五届大学生RDMA编程挑战赛获奖队伍
本届大赛的竞赛题目紧跟世界超算产业的发展趋势,重点围绕人工智能、深度学习的理论框架、实践模型,以及未来发展趋势等主题展开,注重赛题与实际应用相结合。随着人工智能的迅猛发展,利用高性能计算(HPC)推动人工智能的应用已成为业界关注的焦点,也是本届大赛的热点。
RDMA并不是一项新技术,但以前主要局限在科学计算领域,给人的感觉是“阳春白雪”,缺少更多场景化的应用。人工智能也不是现在才有的技术,经过几十年的潜行,为什么现在再次“翻红”?不就是因为有像BAT这样的顶级大公司的支持和使用,有更多的行业应用场景吗?
RDMA是否会随着HPC的普及、人工智能应用的发展而迅速蹿红呢?当然有这种可能。Mellanox公司亚太及中国区市场开发高级总监刘通表示,RDMA是解决人工智能时代数据传输瓶颈的最高效网络传输协议,无论是传统的高性能计算应用,还是新兴的深度学习框架,RDMA通信方式都是其中的关键环节。
RDMA编程挑战赛为参赛大学生搭建了一个交流沟通的平台,让他们有机会接触最前沿的科技领域,并进行深层次的探讨与分享,培养创新精神和未来意识,并在实践中学以致用,这无疑有助于推动学术界与产业界的不断融合,将RDMA的应用推向深入。
中国计算机学会高性能计算专业委员会秘书长张云泉也赞同这样的观点,他认为人工智能、大数据、数据分析等都依赖RDMA技术。RDMA技术可以提升性能和效率,让用户具备搜索令人惊叹的海量数据的能力。大赛有助于推动RDMA在人工智能领域的应用和下一代应用技术的开发,促进“万物智能”时代早日来临。
Mellanox全球市场部副总裁 Gilad Shainer
结合RDMA的兴起,Mellanox全球市场部副总裁 Gilad Shainer谈到了未来网络的发展趋势:“融合是大势所趋,比如在超融合架构中,服务器、存储、网络等都集中在一个设备中,网络的压力自然增大,而TCP对CPU有消耗,影响通信的效率,使得系统可用性下降。与之相反,采用RDMA可以减少CPU的压力,提升传输效率。许多超融合厂商都用到了Mellanox的RDMA方案。另外,在AI的应用场景中,阿里巴巴、旷视科技等也都不是用TCP,而是采用RDMA。”
网络从1G转换到10G,差多不用了10年时间,以后网络的升级换代速度会更快,从25G到50G,甚至到100G、200G,可能在很短的时间内就能完成迭代。“带宽的发展会非常激进。”Gilad Shainer表示,“另外一个不能忽视的趋势就是智能网络。网络将具备更强的处理能力,网卡与CPU、FPGA相结合,让网卡更具智能,让计算更靠近数据,而不是将精力耗费在数据传输上。Mellanox将继续在带宽和智能化这两个方向上引领未来网络的发展。”
看点
02
以数据为中心,改变立现
现在的数据中心有两种架构,一种是以CPU和计算为核心的,而另一种是以数据为核心的。这两种方式的区别在于:以计算为核心,就是将各处产生的数据汇聚到CPU进行计算和处理,这无疑将消耗大量CPU的资源;而以数据为核心,则意味着数据在哪里产生,计算和处理就在哪里完成,而不是统统送到CPU,网络本身即可完成力所能及的计算任务,从而有效地降低了延迟,提升了处理效率。以数据为核心这种方式,也符合物联网时代计算无处不在的趋势。

以计算为中心与以数据为中心有何不同?
Mellanox大力倡导的In-Network Computing,就是促进以数据为中心的数据中心发展的新途径,它可以加速投资回报。众所周知,人工智能也需要更快的计算和决策。In-Network Computing完全能够满足这种需求。
在数据中心里,CPU和网络都可以用于计算,只不过适用于不同的场景,两者有机结合起来,可以最大程度地满足数据中心用户的需求。这里需要强调的是,未来网络会越来越智能。网络不是只能用于数据传输,而会因为FPGA、ARM CPU的加入,发挥更大的作用,减少CPU的负担,大幅提升效率。“Mellanox将大力推动In-Network Computing的发展,为网络赋予更强大的处理能力,数据只要经过智能网卡,很多处理工作就地即可完成。”Gilad Shainer表示。
In-Network Computing带来全新改变
以高速网络闻名的Mellanox在数据中心变革中始终强调的是,可以带来更多、更快的投资回报。Mellanox的一项数据统计显示,采用Mellanox的InfiniBand和以太网解决方案,投资回报率平均可以提升30%-250%,最高可以节省50%的成本。在今年6月发布的全球HPC TOP500排行榜中,Mellanox为其中大部分的超算系统提供加速,数量比其他专有互连产品多出近3倍。“在人工智能领域,我们的解决的方案同样可以提升投资回报率。比如,用于深度学习框架,我们基于RDMA的解决方案比TCP的性能提高2.5倍,网络带宽也有5倍的提升,并且可以实现线性扩展。”Gilad Shainer举例说。
在传统HPC领域,有些用户可能陷入了误区,比如过于看重产品的低价格和理想环境中的实验测试值,而忽视了实际应用中的测试性能值和能够带来的投资回报。用户很多时候容易被数字游戏所迷惑。
“那些将HPC当成最重要应用的客户,通常都会选择Mellanox的解决方案。”Gilad Shainer提醒说,那些特别在意价格的用户在选择网络连接方案时应该考虑更多的因素,比如技术是不是基于工业标准,能够前后代兼容;性能和可扩展性是否有充分的保障;重视价值而不是价格,方案能否带来高投资回报……
明年初,Mellanox将发布200G网络交换机,配备80个端口,用的线缆会更少,性价比更优。一些服务器和存储厂商已经在基于200G网络进行相关方案的设计。“我们在25G、40G、50G、100G网络市场的占有率都是最高的,200G是另一个待攻克的目标市场。对此,我们充满信心。”Gilad Shainer表示,“无论是新一代的云数据中心,还是人工智能,都需要更高的带宽和网络性能。200G网络并不是超前,而是由用户的实际需求推动的。”
看点
03
HPC云会不会成为新的加速器?
HPC China 2017大会上,HPC云成了一个热点,国外的AWS、微软,国内的阿里云、腾讯云等都将HPC作为一种新的云服务提供给行业客户。HPC云也成了进一步降低HPC应用门槛的新途径,可以让更多高校甚至中小企业获得HPC的能力。
Mellanox公司亚太及中国区市场开发高级总监刘通
Mellanox作为HPC高速互连方案提供商,十分乐于看到HPC云的出现,因为它可以驱动更多HPC应用场景的发展,让更多用户获得HPC的益处。“那些对安全性要求不太高,或者计算规模不太大的用户非常适合采用HPC云。Mellanox的解决方案已经被很多HPC云所使用,比如微软的HPC云。”Gilad Shainer表示,非常期待看到更多应用,比如人工智能、自动驾驶、医药开发等在HPC云中完成。
今年7月,华为基于Mellanox InfiniBand发布了公有云解决方案HPC Cloud 2.0,这也是业界首个可提供100G EDR InfiniBand业务网络能力的HPC公有云解决方案。该方案将率先应用于华为与德国电信合作的公有云平台。
众所周知,计算力是人工智能的重要驱动力。提高计算力也是Mellanox的发力点。HPC云的普及必将进一步促进HPC的深入发展。
200G网络还远吗?
在高速互连网络领域,Mellanox一直没有停下创新的脚步。对未来网络发展将起到引领和积极促进作用的Mellanox的两项产品创新,一是Innova IPsec网络适配器,另一个是BlueField。
具体来看,Mellanox的Innova IPsec适配器通过将Mellanox ConnectX高级网络适配器与IPsec卸载功能结合,可实现线速率的加密吞吐量,CPU利用率提高4倍以上,为现代数据中心提供无缝加密功能和先进的网络加速功能,从而实现卓越的性能、可扩展性、效率,同时将数据中心的成本降低60%甚至更多。
2017年第一季度,Mellanox正式发售首个基于BlueField的SoC样品。BlueField系列SoC可编程芯片能够满足用户日益增长的高端集成SoC需求,简化系统设计,同时大幅降低系统整体成本和能耗。BlueField采用基于ARMv8 64位高性能处理器作为内核,支持Mellanox ConnectX网络卸载加速技术。BlueField实现了多种新技术的高度集成,包括面向NFV(网络功能虚拟化)的数据面卸载均衡、高级网络与安全应用,以及闪存阵列的嵌入式存储控制器等。
“BlueField在NVMe闪存阵列连接、安全等领域将发挥重要作用。另外由于它是一个可编程的芯片,用户可以在其上运行一些特殊算法,以满足某些特殊应用场景的需求,同时也给用户提供了更高的自由度。”Gilad Shainer表示。
随着云计算、大数据、物联网、人工智能等新技术、新应用的快速兴起,用户在数据中心解决方案选型时面临更多挑战,面对层出不穷的新技术有时可能会纠结。其实,只要把握一个原则,即注重价值而不只是价格,就可以选择适合的基础设施,加速投资回报。这也是Mellanox解决方案最打动用户的地方。


继续阅读
阅读原文