国产GPU重大利好！“中国英伟达”千卡集群已就位

金磊发自凹非寺

量子位 | 公众号 QbitAI

算力基础设施建设，北京市有了最新的大动作——

《北京市算力基础设施建设实施方案（2024-2027年）》。

其中，《方案》在“保障措施”中提出了对企业利好的办法：

对采购自主可控GPU芯片开展智能算力服务的企业，按照投资额的一定比例给予支持，加速实现智算资源供给自主可控。
对主动进行绿色节能改造的存量数据中心，按照投资额的一定比例给予支持。

对企业扩大资金的举措，意在提升人工智能算力券政策效能，鼓励企业用好智能算力资源，加快推动大模型赋能行业应用。

除此之外，在《方案》的规划目标中，也释放出了一个重要的信号——智算资源供给集群化：

改变智算建设“小、散”局面，集中建设一批智算单一大集群。
到2025年，本市智算供给规模达到45EFLOPS，2025-2027年根据人工智能大模型发展需要和国家相关部署进一步优化算力布局。

为何会如此？这就要结合当下算力市场的需求和供给展开来看了。

一方面，自从ChatGPT问世引爆AIGC以来，大模型的数量可谓是极速增长，单是北京这一座城市，就已经拥有122家大模型创新团队，约占全国的一半，大模型数量更是居全国首位。对于算力市场的需求之大可见一斑。

不仅如此，随着Sora、Suno等应用的问世，大模型的发展已然加速驶入多模态阶段，AI算力的需求在Scaling Law为主旋律的当下还会持续上涨。

△图源：由DALL·E 3生成

另一方面，AIGC诚然带火了“N卡”，但目前着眼于全球已然是一卡难求的态势，并且因稀缺导致其价格日益水涨船高。

而且单从GPU的性能角度来看，即便是英伟达也只能接受加速计算到达了临界点的事实，算力供给方需要另一种方式来进行计算——

通过芯片与芯片间的连接技术，一步步构建出大型AI大规模算力集群。

聚焦到国内，其实这种“集群”模式也已经紧锣密鼓地在展开，国内已有不少厂商在不断探索和实践，例如云计算巨头华为云、AI芯片公司摩尔线程等等。

以摩尔线程为例，就在前不久他们发布了名为夸娥（KUAE）的智算集群解决方案，旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题，可以大幅降低传统算力建设、应用开发和运维运营平台搭建的时间成本。

从这一点来看，国内市场算力的发展是与《方案》所提出的“智算资源供给集群化”是相契合的，也从侧面印证着国产GPU智算集群已经到了势在必行的阶段。

然而，路线虽已清晰，但在实践过程当中，尤其是GPU数量达到千卡甚至万卡时，集群落地并非是件易事。

那么难点都有什么？国产GPU又是如何应对的？我们继续往下看。

千卡GPU集群落地痛点

首先我们需要了解GPU集群在实际落地过程中的规模会达到什么量级。

以Llama 3为例，在它问世之际，Meta就公布了其基础设施详情：

我们在两个定制的24K GPU集群上做训练。

与之类似的，马斯克的Grok 2据悉训练已经用了20000张H100，Grok 3更是传出需要惊人的100000张；即使是参数量仅为30亿的Sora，GPU的数量也估算在4200至10500张之间。

而事实上，当下要满足一些基础模型的算力需求，千卡集群已然是标配一样的存在；这不仅仅是因为千卡是大集群的基本单元，更是因为百卡或更小规模的GPU数量往往满足不了大模型训练需求，只能是实验性的。

但智算集群中GPU的数量也还只是一方面，之于GPU本身，在诸如训练大模型等落地过程中的难点也是不少。

因为建设集群本身还是一个非常复杂的系统性工程，它不仅是堆GPU这么简单，从一个GPU到一个服务器，再到把它们组成群，期间包含了硬件的网络、存储、软件、再到大模型调度等各种细节因素，均会影响到集群的最终性能。

例如同样是Llama 3，Meta在介绍基础设施的时候还提到了一个关键信息：

当在16K GPU上同时训练时，我们有效地实现了每个GPU超过400 TFLOPS的计算利用率。

若是每张卡的利率用不够高，很显然就会降低最终智算集群的效率。

再如分布式训练过程中，一张卡坏掉就会影响整体的训练，对于千卡甚至更大规模的集群来说，这种情况出现的概率就会更高；因此对于千卡集群的稳定性和可靠性也提出了极高的要求。

聚焦到国产智算集群，还需得具备可以兼容主流GPU软件的能力（例如CUDA），由此才能应对更多且日新月异的主流大模型任务。

……

一言蔽之，构建千卡智算集群难，构建国产千卡智算集群难上加难。

如何破局？

虽说困境重重，但也正如上文所言，摩尔线程已经在探索与实践，并且他们在构建千卡智算集群这件事上也已交出了“高分作业”。

我们不妨以摩尔线程的夸娥（KUAE）智算中心解决方案为例，来看下构建国产GPU智算集群的破局之道。

整体来看，夸娥（KUAE）智算中心解决方案是一个以全功能GPU为底座，软硬件一体化的全栈的解决方案。

之所以叫做全栈，是因为夸娥的能力是触及到了构建GPU智算集群中的方方面面，包括最底层的基础设施建设、中间层的智算集群管理，以及上层的大模型服务。

首先来看基础设施。

从内容上来看主要包含夸娥（KUAE）计算集群、RDMA网络与分布式存储三大方面。据了解，其建设周期只需30天，可支持千亿参数模型的预训练、微调和推理，可实现高达91%的千卡集群性能扩展系数。

并且基于大规模智算加速卡MTT S4000和双路8卡GPU服务器MCCX D800的能力，夸娥集群还支持从单机多卡到多机多卡，从单卡到千卡集群的无缝扩展。

据悉未来将推出更大规模的集群，以满足更大规模的大模型训练需求。

其次是集群管理平台。

这一软硬件一体化平台主要是用于AI大模型训练、分布式图形渲染、流媒体处理和科学计算等工作，深度集成全功能GPU计算、网络和存储，提供高可靠、高算力服务。

通过这个平台，用户可灵活管理多数据中心、多集群算力资源，集成多维度运维监控、告警和日志系统，帮助智算中心实现运维自动化。

最后是模型服务。

覆盖了大模型预训练、微调和推理全流程，支持所有主流开源大模型。通过摩尔线程MUSIFY开发工具，可以轻松复用CUDA应用生态，内置的容器化解决方案，则可实现API一键部署。

这个平台意在提供大模型生命周期管理，通过简洁、易操作的交互界面，用户可按需组织工作流，大幅降低大模型的使用门槛。

那么实际效果如何？

据了解，摩尔线程目前已经支持了包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等在内的各类主流大模型的训练和微调：

以200B训练数据量为例，智源研究院70B参数Aquila2可在33天完成训练
1300亿参数规模的模型可在56天完成训练

至于刚才提到的千卡GPU集群落地难的种种细节，摩尔线程也有自己的应对策略。

例如在提高集群算力利用率这件事上，摩尔线程采用软硬件协同设计和端到端的并行策略，通过对集群通信库的算法、网络拓扑和硬件的规格进行精心设计与配置，实现了高度的集群兼容性。

具体到技术，则是综合利用了MTLink和PCIe，使得通讯性能提升一倍，综合调优下MFU提升幅度超过50%。

在稳定性方面，摩尔线程在根儿上先保证GPU的质量，从卡出厂开始便进行多项严格的检测。

其后，摩尔线程还开发了集群系统监控和诊断工具，有助于筛选和快速定位到有问题的卡和服务器，可以自动恢复和硬件替换。

并且结合异步检查点（Checkpoint）加速，写的时间从10分钟降到秒级，读的速度从40分钟降到2分钟；即使是遇到训练异常，系统也可以自动重新拉起。

在可扩展性方面，夸娥目前已经支持了包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架。

除此之外，还融合了多种并行算法策略，包括数据并行、张量并行、流水线并行和ZeRO，且针对高效通信计算并行和Flash Attention做了额外优化。

最后，在兼容性方面，摩尔线程代码移植Musify工具，可快速将现有的主流迁移至MUSA，零成本完成CUDA代码自动移植。

借助摩尔线程元计算统一系统架构MUSA，用户还可以复用PyTorch开源社区的大量模型算子，降低开发成本。

整体而言，摩尔线程的夸娥智算集群全栈方案的优势可以归结为八点，即：覆盖主流大模型、兼容CUDA等主流生态、断点续训、大语言模型分布式训练、加速推理、高性能通信、高性能存储，以及高可靠性。

它就像把所有复杂的方案打包成了一把钥匙，交付到用户手上开箱即用。

而且摩尔线程的夸娥（KUAE）智算集群解决方案不只是说说那么简单，是已经做到了上岗。

据了解，夸娥目前已经完成了三个千卡智算集群的落地，分别位于北京亦庄、北京密云和南京。

不仅如此，摩尔线程仍在持续谱写着“打造国产GPU集群”的篇章。

就在前不久，摩尔线程与清华系创业公司无问芯穹达成合作，成为第一家接入无问芯穹并成功完成千卡级别大模型训练的国产GPU公司。双方联合推进基于夸娥（KUAE）千卡智算集群的“MT-infini-3B”合作大模型实训，目前性能已在同规模模型中跻身前列。

并且无问芯穹CEO公开肯定了夸娥（KUAE）的实力：

经验证，摩尔线程夸娥千卡智算集群在性能、稳定性、易用性和算力利用率上均有优异表现，可以为千亿参数级别大模型训练提供持续高效的高性能算力支持。

由此可见，摩尔线程的夸娥千卡智算集群是得到了实践验证的那种，那么最后一个问题便是：为什么是摩尔线程能率先落地？

其实早在2022年的时候，团队便已经设定了建集群的大方向与策略，这是因为当时A100算力也是处于紧缺的状态，国内市场急需能够替代它的产品。

从GPU功能情况来看，摩尔线程是在唯一可以对标英伟达的国产GPU企业，虽然单芯片性能还有差距，但若是集成起来便可解决单一性的不足。

而随着2023年大模型的火爆，这种GPU集群式的方向就显得更加正确，毕竟黄仁勋在发布B200之际就表示“我们需要更大的GPU，如果不能更大，就把更多GPU组合在一起，变成更大的虚拟GPU”。

因此，现在回头再看摩尔线程当时的策略和决定，确实是具备前瞻性的。

总而言之，有实力，有技术，有战略，也有成绩，摩尔线程还将在国产GPU的发展道路上带来怎样的惊喜，是值得期待了。

参考链接：

[1]

https://www.mthreads.com/product/KUAE
[2]https://jxj.beijing.gov.cn/zwgk/zcjd/202404/t20240425_3637629.html
[3]https://ai.meta.com/blog/meta-llama-3/

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

继续阅读

阅读原文

国产GPU重大利好！“中国英伟达”千卡集群已就位

金磊 发自 凹非寺量子位 | 公众号 QbitAI

△图源：由DALL·E 3生成

千卡GPU集群落地痛点

如何破局？

金磊发自凹非寺

量子位 | 公众号 QbitAI