今年全国两会的《政府工作报告》首次提出“人工智能+”行动。打造以人工智能为引擎的新质生产力,已经成为当前最紧迫的任务。

为人工智能落地应用提供支撑的智算中心正在全国范围内快速兴起。智算中心与云计算中心有何区别?智算中心如何建设,又如何运营和运维?智算中心如何助力新质生产力的打造?为解答这些问题,我们邀请了业界知名厂商、专家,在“智算雄起”的大潮下,各抒己见、观点碰撞,希望为推动智算中心的建设和发展提供有益的借鉴和参考。
人类计算从早期的算盘到计算器、电脑,再到通用算力的数据中心、超算,最终到智算,其中通用的算力中心主要是以CPU为主,超算是以超大规模CPU为主、GPU辅助,而智算中心则是以GPU来体现其计算能力。
智算中心首先是一个计算中心,计算由GPU来实现。为什么要用GPU来实现?因为它体现的是“智”,为“智”服务。所以,智算中心的核心业务定位是人工智能相关的所有模型的计算。简单来说,智算中心就是一个模型的工厂,不管是训练、推理、调优都在批量制造和使用模型。
总而言之,智算中心的核心特点是以
GPU体现的算力所构建的计算中心,其业务定位是提供人工智能所需要的各种模型的训练、推理和调优。这两个是最核心的定位,也是业界的共识。


一切为了模型
当前,在芯片层即硬件层主要依赖于GPU,GPU通过高速的网络连接在一起,最终实现模型所需要的各种加工和计算。模型的加工和计算是通过软件来使用芯片而体现的,所以必然有软件层。
智算操作系统是一种非常贴切而形象的说法来定义这一软件层。智算操作系统与通常的云管平台和管理平台核心的区别在于,在普通的CPU为主的云计算中,CPU之上的工作载荷是比较多样化和分散的。比如,在云的这一层有很多虚拟化的技术,会变成虚拟机交付使用。有的人在其上运行一个游戏,有的人跑一个APP的后台,还有的人可能运行一个网站,其工作载荷是多样化的。在智算中心里,在GPU之上运作的工作载荷是高度聚焦的,而不是分散的,主要就是大模型的训练和推理。
云中使用的都是CPU。CPU虽然也有x86、Arm等各种不同的指令集,但相对来说比较成熟。而GPU在高速的发展过程中,除了英伟达以外,特别是在国内,则是高度异构的环境。在这样的硬件环境之上运行应用又要保证高度一致,所以软件层所需要的抽象和隔离的能力会更强一些。
智算中心的主要工作都是与模型相关的,而云更多地是从硬件出发,通过虚拟化切分等,被上层的应用所共享。由下往上推动资源共享,依靠的是云数据中心的云管或操作系统层。但是对于从上往下的AI,用到的都是模型,结果也都是模型从模型的训练、推理去反推,需要的是对下层的硬件进行调度和管理。这就要依靠一个新的智算操作系统。
智算中心的操作系统要顶天立地,不仅要能兼容、调度多个异构的GPU,更关键的是在AI平台上要对模型训练的算法、参数进行调优,并可自动建模,还要在建模过程中能够对各种算法进行组合,以达到最好的训练效果。
统一纳管 生态共建
九章云极DataCanvas的智算操作系统面向智算中心、智算中心算力运行与业务运营,可以支持大中型企业内部智算集群的运行。其核心能力是智算资源的纳管、统一调度,智算业务的业务运营支撑,以及AI模型的构建、训练和推理。
九章云极DataCanvas的智算操作系统的特点包括:异构算力纳管、丰富的算力服务产品形态的支持、多策略统一调度、AI大模型+小模型低门槛的训练和推理、AI模型训练全过程监控与容错能力等。
九章云极DataCanvas的智算操作系统能有效提升智算中心资产的附加价值,将运营方的运维能力从裸算力设备运维提升到AI大模型运维能力;同时也方便最终不同类型的终端用户快速上手使用智算算力开发和运行AI应用;此外,它也是智算中心开放生态环境的基础支持设施。
九章云极DataCanvas的一个核心策略就是广交朋友GPU厂商、大模型厂商、智能体厂商、生态厂商都有相应的结合,处在一个核心的连接位。从下往上看,下面是芯片,上面是模型;从左往右看,有云厂商、安全厂商、运维厂商,都围绕着智算中心提供各种各样的业务。
目前,九章云极DataCanvas已经适配了天数智芯、中科海光、昇腾、翰博半导体等国内主流的GPU,开展了形式多样的合作;同时还与大模型厂商进行了适配,支持国内很多开源的模型,以及九章云极DataCanvas已经开源的Alaya大模型;另外,九章云极DataCanvas一直与各类央企云、各种各样的云厂商、安全厂商保持着紧密的合作关系,在建设和运营智算中心的过程中,起着链接的作用。
九章云极DataCanvas的一个创新之处在于,在其软件设计运行中有一个核心理念——“一度算力”,类似一度电力,即将所有的硬件投入、数据中心的运营管理、运维管理和运维投入变成可度量、可量化的算力对外进行输出,让算力的使用者和广大企业受益。基于“一度算力”的概念,九章云极DataCanvas与软件厂商以及上中下游的企业有着多种多样的合作。
千方百计降低应用门槛
智算操作系统的落地,关键是要找到合适的场景。从九章云极DataCanvas当前的实践来看,智算操作系统还处于创新尝试的阶段,不过很多用户已经表现出浓厚的兴趣。
不过,智算操作系统的应用还是有门槛的,不仅仅是技术门槛,还有成本门槛,因为大模型相对来说算力成本是比较高的。让我们感到欣喜的是,国家也在通过一些策略和措施推动智算算力加速落地,比如算力补贴、算力券,以及引入更多公司共建生态,旨在降低使用门槛。
九章云极DataCanvas之所以打造智算操作系统,一方面是想通过软件的方式,让用户能够无缝、无感地将智算算力用起来,另一方面也能更有效地提升硬件的使用效率,最终目标是降低使用的成本。
适度超前更要有耐心
未来3到5年,或者5到10年,人工智能一定会落地,并且将通过各种各样的智能体深刻地改变社会。三年是一个基建期,当前的关键就是要建设算力。因为没有算力,就像是无本之木、无源之水,发展和创新也就无从谈起。
为智能化打造新的算力基础设施,一定要先算大账再算小账。国家从顶层设计的角度,也是先算好了这笔大账,以“新基建”筑起算力领先的壁垒,不能让算力拖了人工智能的后腿。在“适度超前布局国家算力基础设施”的政策指引下,最近这三年我们可以更加高效地建成领先世界的算力基础设施。这也是业内共同的期盼。
不过,在适度超前构建算力基础设施、推动智算操作系统发展和落地方面,我们还是要有一点耐心,让整个产业乃至全社会都能清楚地认识到其重要性、必要性,真抓实干,只有这样才能水到渠成、瓜熟蒂落。
下期文章预告:
青云科技:智算中心建设、运营两不误
往/期/回/顾
从科技赋能到价值引领,东莞证券可进化的信创云建设启示录
继续阅读
阅读原文