2022年之前,并行科技90%的业务来自于CPU。从2023年上半年开始,风向悄然有了变化,AI业务快速崛起,到下半年其占比已接近30%。按并行科技董事长、总经理陈健博士的话说,这一变化好像是“一瞬间”的事,就连身经百战的他,也有些反应不过来。
大模型的爆发,带来了算力需求的激增。如今,AI正在向各行各业极速渗透。有预测,到本世纪末,70%的工作将被AI所取代。毋庸置疑,算力已成为经济增长的主要驱动力之一。德勤中国发布的《2024AI智算产业趋势展望——数据智能时代的到来》指出,智算产业将重塑ICT产业生态,而智算中心将成为提升国际竞争力的重要基础设施。从各地方、各行业企业的实践来看,新一轮智算中心的建设高潮正在到来。
打造新质生产力
智算中心,其实并不是一个新名词,几年前人们就已经在谈论。只不过在大模型出现以前,智算的需求还没有成规模,因此智算中心的建设并没有得到充分的重视。当“百模大战”已近在眼前,从国家到地方,从政府到企业,再次点燃了投身智算中心建设的热情。
《新型数据中心发展三年行动计划(2021-2023年)》提出,要加快高性能、智能计算中心部署“十四五”数字经济发展规划》提出,要推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施。据新京智库统计截至2023年8月,我国已有30+座城市建成或正在建设智算中心,这还不包括企业自主建设的智算中心
大模型正在引领应用新范式的发展,相应地,我国算力基础设施建设也在实现从“以通算为主的供给侧优化”“以智算为核心的需求驱动”的跨越。智算中心建设在经历了概念辨识不清、缺乏统一的行业标准、运营模式不成熟应用场景有限等发展阶段后,已经迈上了加速发展的新台阶,必将成为数智时代主要的计算力生产和供应中心
,为新质生产力的打造奠定基础。


训练、推理各有各的道
那么,智算中心的大规模兴起,是否意味着需要一套全新的架构与之相适应呢?智算中心与我们常见的云数据中心、超算中心,又有什么异同呢?
首先要明确的一个前提是,我们现在所谈论的智算中心,其实就是依托AI大模型形成的新一代算力基础设施。而训练(Training)和推理(Inference)是AI大模型的两大核心能力的基石,也是智算的“左膀右臂”。我们经常用到的两大技术架构——虚拟化和云,超算与并行计算,正好与之相对应。训练的底层技术架构支撑是超算,而推理的底层技术架构支撑是云。
在当前的智算市场上,50%是训练,另外50%是推理。所以,在智算中心的底层,一半是超算,而另一半是云计算。银河证券预测,未来5年,AI算力的规模将保持快速增长的态势,AIGC将不断向终端侧和行业应用渗透。再过几年,训练的比例可能只有30%,而推理的占比将达到70%。
为什么超算架构是最适合训练场景的?一个典型的例子:对于一个超算中心而言,几个大型用户,每个用户平均使用10000个核,一个项目跑上3个月是常态;对于大模型训练而言,起步就是一两千张GPU卡,一次训练就要2个月。这样看,两者简直如出一辙。
从另一个角度看,一台英伟达H800服务器的功率是10kW,而一个云机柜的功率只有3.5kW,根本容纳不下。但在超算中心里,一个机柜的功率是20kW-30kW。谁更适合?一目了然。在TOP500超算排行榜中排名靠前的很多机器,如今都已经被用于大模型训练。而云计算中心因为不能很好地满足大模型训练的需求,所以才想出了“裸金属”这个办法。
从超算到智算无缝平移
近两年,大模型训练的需求呈井喷之势,云数据中心显然没有做好充分的准备,反而是超算中心从CPU到GPU实现了迅速切换。归根结底,还是因为超算的底层架构天然就是支持训练的。
2023年,国内头部基座大模型公司智谱AI一跃成为并行科技的第一大用户。目前,并行科技TOP30的客户中,三分之一都采用了智算。
“把CPU换成GPU,原有的基础架构、管理模式、性能优化方式等,几乎都是一样的。我们原来在超算、CPU上的经验,可以完全平移到智算,甚至还升级了。”陈健举例说,“在网络上,以前采用CPU时,两台服务器间使用100G、200G的网络连接,现在换成GPU后,直接升级到400G、800G、1600GB甚至更高,这是一个正向的促进。超算就是服务器间的紧耦合、高速互联,现在大模型训练的底层同样如此。基于GPU的架构比CPU更像超算了,更能充分发挥超算的优势和价值。”
“智算对我们来说没有技术上的挑战。”陈健侃侃而谈,云数据中心的人面对智算中心需求还是一头雾水、不知从何下手时,我们在超算领域已经解决了相当多如今智算中心面临的类似问题,对于智算的需求驾轻就熟。
智算中心本质上就是一台超计算机。比如,大模型训练需要1万张卡,每台机器8张卡,节点与节点之间通过3200G网络互联,任何一个部件出错都可能导致“满盘皆输”,这与云对节点出错无感知截然不同。
智算在技术上面临的最大挑战体现在:在将所有机器连接起来并调试跑通后,如何保证系统在运行过程中的长期稳定,因为出错是不可避免的,我们能做的就是尽可能地拉长失效时间,比如从2小时坏一次,拉长至24小时甚至96小时坏一次;正所谓“大力出奇迹”,采用一万张GPU卡,为的就是高性能,如果在大规模投入的基础上,不能实现性能的线性提升,将得不偿失。“归根结底,智算就是将CPU换成GPU,把原来超算所做的事情重新再做一次。”陈健如是说。
如今在通用大模型领域,正在上演一场疯狂的
“军备竞赛”,单一集群2000~4000张卡只是起步,实际需求的卡量会更大。而在垂类大模型领域,各行各业的用户正在积极寻找和开辟更多的落地场景,文生文\文生图已经不在话下,随着SORA的问世,文生视频将成为新的焦点。银河证券预测,在经历了大模型的快速迭代之后,2024年AI行业将更多地聚焦在多模态和应用端。这些新的趋势将会对AI算力提出怎样的需求,现在谁也无法准确预测。


智算的建设门槛高,应用门槛低
从智算中心的建设历程来看,在2022年之前,各地的智算中心已经在陆续上马。客观地说,在这个阶段,一些智算中心出现了闲置的情况,资源没有得到充分释放。这之后,似乎是一夜之间,全球范围内都一“卡”难求。当前,智算中心进入了全新的快速发展阶段。
中国信息通信研究院发布的《中国综合算力指数(2023年)》显示,截至2023年6月底,我国算力总规模达到197EFLOPS,其中智能算力规模占整体算力规模的比例25.4%同比增长45%,比算力规模整体增速高15个百分点,未来智能算力将迎来更加快速的增长。工业和信息化部等六部门关于印发《算力基础设施高质量发展行动计划》的通知中明确提出,到2025年,算力规模超过300EFlops,智能算力占比达到35%,实现东西部算力平衡协调发展。
顺应行业发展大势,并行科技在上市后与家客户就智算中心项目进行了接触。2024年2月19日,国务院国资委召开“AI赋能 产业焕新”中央企业人工智能专题推进会,旨在推动中央企业在人工智能领域实现更好发展、发挥更大作用。中央企业要把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心。
智算中心建设是大势所趋,但由于资金投入太大,起步可能就是10亿-40亿元,所以相关单位和组织对此比较谨慎。投资者希望在看清需求在哪里,需求量大小、未来的趋势是什么,以及什么样的产品才能满足智算需求等问题后,再进行投资建设。
智算中心的建设门槛虽然比超算高,但智算的应用门槛却比超算低”陈健进一步解释说,“智算中心的建设门槛高,主要还是因为投资太大。而从应用的角度看,超算的高门槛主要表现在,使用者大概率要掌握算法,而对于智算应用来说使用者不需要了解算法,只要懂得使用方式并掌握数据就可以。现在,各种各样的大模型层出不穷,带来了工作效率的显著增长同时使用门槛大大降低。
作为国内算力服务“第一股”并行科技长期专注于超算业务,并为此成立了智算云、新能源汽车等多个子事业部。其中智算云事业部成立于2020年,说明并行科技在智算方面拥有远见卓识。“我们从来都是先有用户,再产品。”陈健回忆说,“大约在2017年、2018年前后,一些高校老师便提出需要GPU2020年,我们认为将GPU作为一个单独业务的时机已经成熟,所以才成立了智算云事业部。
早期,并行科技主要以服务高校和科研客户为主。之后,随着业务不断深入和细分,非计算专业的一些高校客户主要采用超算,而计算机专业的和一些创业企业则主要采用智算。有一点让陈健印象深刻,那就是在ChatGPT火了以后,国内很多开发或使用大模型的用户,主要是一些年轻人,他们当中很多人在学校时就是并行科技的用户,对并行科技的技术体系、产品服务非常熟悉,毕业后进入职场,从事的又是与大模型相关的工作,所以顺理成章采用了并行科技提供的智算服务,可谓无缝过渡。并行科技也顺势而为,2022开始加大智算业务投入,大刀阔斧地开辟智算新赛道。
目前市场上,公共智算服务与企业自建智算中心都有自己的发展路径。但由于智算确实太烧钱,而且GPU卡始终供不应求,所以很多用户最初的选择就是公共智算服务,这与超算领域10%公共服务90%自建有天壤之别。政府倡导和鼓励,国企、央企先后入场,未来公共智算服务的比例可能还会走高。
再考虑到东数西算”工程、超算互联网的建设,以及诸如中国算力网算力实验场等项目的推进,这些对于智算的发展是有力的促进。回想当初东数西算”工程、超算互联网建设刚提出时,由于需求没有放量,有人曾经质疑,新建的算力基础设施会不会空置,不能物尽其用。但是看到现在由大模型激发出的算力需求,人们又会感慨,东数西算”工程、超算互联网,以及“适度超前建设新型基础设施”这些政策和布局确实高瞻远瞩。陈健表示,之前,超算互联网主要关注的是超算CPU,现在也更多地论如何支持
GPU和智算。


投早但不要投错
最高200个智算的订单蜂拥而至,虽然我们对智算市场的发展有过预判,但遇到实际情况时,还是让我们有些措手不及。陈健如是说。
任何新的理念、技术出现后,最终起到决定作用的还是客户和产品。不可否认,交易型的计算需求、科学计算的需求,仍在持续增长,所以云计算、超算仍是不可或缺的。赛迪顾问预测,到2024年年底,我国5%~8%的企业大模型参数将从千亿级跃升至万亿级,算力需求增速将达到320%。由此可见,智算的需求是爆发式的,尤其是在一些新兴领域。需要强调的是,我们应该为智算提供适配的架构——用云计算架构满足推理的需求,用超算架构满足训练的需求
智算市场的火爆必然吸引更多主体入局,难免会出现决策失误或者资源错配等情况。适度超前投入,可能会导致在短时期内出现智算中心空置的情况,但需求上量后,这些空总会被慢慢满。超算中心就是一个很好的超前投入的例子“天河二号”2013年成为全球最快超级计算机,到2018年就已经全部用满。济南超算最初在部署完3000A100卡后确实有过一段“空窗期”但是在2023年就已“一而空”。投早可以,但不要投错,这对于算力服务提供商和智算用户来说,都值得警惕。
作为智算服务的先行者,并行科技与其合作伙伴已经在大模型落地的场景方面有了成功的探索,比如在金融领域客服、舆情等已经是明确而规模化的需求。虽然目前在很多场景下,对于大模型、智算带来的投资回报还只能是作定性的分析,还没有精确的定量的投资回报数据,但是不可否认,智算是确定的方向。对于算力服务提供商和用户来说,勇往直前,见招拆招才是明智之举。
4月25日,并行科技发布2024年一季度业绩报告显示,其营业总收入1.31亿元,同比增长32.90%净利润249.98万元,同比扭亏为盈。在并行科技未来的规划中,更多的新卡无需多言从超算到智算,并行科技砥砺


往/期/回/顾
从科技赋能到价值引领,东莞证券可进化的信创云建设启示录“智算”雄起 | 智算操作系统要“顶天立地”
继续阅读
阅读原文