GPU为驱动AI技术发展以及应用落地的关键引擎,大模型训练、微调、推理催生大量AI算力需求,英伟达A100与H100供不应求,在此背景下,AI算力租赁需求爆发。由于下游大模型无论是技术侧还是应用侧均呈百花齐放发展趋势,而上游AI算力资源作为重要支撑,稀缺性凸显,算力租赁市场需求将持续旺盛,未来成长空间广
下载链接:
1、AI算力租赁行业研究框架:时势造英雄,宜谋定而后动 2、算力租赁订单与合同的持续落地与收入体系 3、算力租赁盈利的简单测算 4、在拓AI算力客户,算力租赁商业模式逐渐清晰 5、2023年度中国租赁行业调查报告
1)根据英伟达与微软联合发布的论文,理论情况下用1个月训练出1750亿参数大模型需要1024张A100,而训练万亿参数GPT-4所需的A100卡可能达到万张量级;
2)ChatGPT迎重大更新,微软Copilot即将全面开放,大模型应用进一步走向实处。我们测算,大模型推理侧GPU需求具备更大的增长空间,未来每家龙头大模型厂商推理侧A100需求有望达到十万张量级。
大模型训练中的故障与中断问题对GPU集群的质与量提出了更高要求,云厂商的核心竞争力体现在资金、软硬件、下游客户等多个层面。根据Meta团队训练实践,虽然英伟达GPU具有优异的计算性能,但软、硬件等故障时常发生,各类任务频繁重启,训练经常中断,持续时间较短,理论上1个月能完成的训练实际用了3个月。
所以云厂商不仅需要打造大规模算力集群以满足客户需求,还需具备强算力运维能力以帮助客户最大化利用已有的算力资源。我们认为现阶段云厂商的核心竞争力在于AI算力规模,而在未来,云服务能力将成为各大厂商抢占市场与客户的关键。
AI时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和卷积运算,具有强并行运算与浮点计算能力的GPU逐渐成为计算主力军。
2022年,英伟达、斯坦福联合微软研究院共同训练出了万亿级参数的GPT,比1746亿参数的GPT-3还高出了一个量级;
论文中的测试基于DGX A100-80GB集群完成。对于最大的 1T 规模的模型,一共使用了384台8卡DGX-A100服务器,服务器内部各GPU间使用超高速NVLink和NVSwitch互联,每台机器装有 8个200Gbps的 InfiniBand网卡;
GPU利用率 = 单张GPU训练时吞吐量/单张GPU峰值吞吐量,论文使用了数据并行、流水线模型并行、张量模型并行、服务器通信优化等加速技术提高GPU利用率。
下载链接:
1、HotChips 2023:开场闭幕总结
2、HotChips 2023:FPGAs技术专题
3、HotChips 2023:芯片互联技术专题
4、HotChips 2023:ML训练/推理技术专题
5、HotChips 2023:ML技术专题
6、HotChips 2023:CPU技术专题(1)
7、HotChips 2023:CPU技术专题(2)
8、HotChips 2023:UCIe技术专题
9、HotChips 2023:关键技术总结合集
10、HotChips历年技术合集
广西鲲鹏计算产业发展白皮书(2023年)
2023 OCP峰会—Server:Open Chiplet Economy
2023 OCP峰会:服务器DC-MHS合集
2023 OCP峰会:服务器技术合集
2023 OCP 峰会服务器专题技术合集
2023年服务器技术白皮书合集
高性能计算并行算法设计合集
《AI PC产业技术分析合集》
1、AI PC:深入变革PC产业(2023) 
2、专题报告:展望AI PC的未来
2023年个人电脑PC 行业词条报告
端侧AI深度报告:2024·AI“下凡
2023年AI现状报告
国内可穿戴市场:机遇与挑战并存
并行计算硬件结构基础合集
存储器:让数字世界拥有记忆(2023)
1、AI算力研究框架(2023) 
2、AI兴起,智能算力浪潮来袭 
3、深度拆解AI算力模型
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。
继续阅读
阅读原文