作者 | SemiAnalysis
译者 | 王强
策划 | Tina
在人工智能热潮的大背景下,行业对 AI 计算集群的需求激增,对数据中心容量的需求也水涨船高,进而给电网、发电能力和环境带来了极大压力。数据中心容量严重制约着 AI 行业的发展,特别是在模型训练方面更是如此,因为用于训练的大量 GPU 一般需要放在一处才能实现速度飞快的芯片间网络连接。AI 推理能力则受到各个地区数据中心的容量的制约,新一代模型也进一步加重了推理层面的瓶颈。
要解决这些瓶颈,涉及的主题会有很多。新增的电力需求有多大?这些 GPU 都部署在哪里?北美、日本、中国、新加坡、马来西亚、韩国、印度尼西亚等地区的数据中心建设进展如何?AI 加速器增长到什么程度会遭遇物理基础设施的瓶颈?这些瓶颈是变压器、发电机、电网容量还是其他什么类别?解决瓶颈需要多少资本支出?哪些超大规模企业和大公司正在争相采购更多的容量,哪些会因为缺少足够的数据中心容量而措手不及?未来几年,千兆瓦级乃至更大规模的训练集群将建设在何处?天然气、太阳能和风能等发电类型现状如何?AI 产业属于可持续发展行业吗,会破坏环境吗?
SemiAnalysis 最近发表了一篇报告,围绕这个话题做了深度探讨。
首先,很多人对数据中心的建设速度过于乐观了,比如马斯克就认为 AI 行业总算力每半年会翻十倍,所以数据中心需要的电网变压器很快就会短缺,接下来则会是电力供应。但实际上行业计算能力增长速度没这么快——Semi 跟踪了所有主要的超大规模和商业芯片公司的 CoWoS、HBM 和服务器供应链,发现自 2023 年第 1 季度以来,行业总 AI 计算能力(以理论峰值 FP8 FLOPS 计)一直以季度环比 50-60% 的速度快速增长,但六个月内增长远未达到 10 倍。CoWoS 和 HBM 的增长速度没那么快。
生成式人工智能的繁荣确实意味着行业需要大量变压器、发电机和其他无数电气和冷却部件。IEA 最近的《电力 2024》报告预测,到 2026 年,人工智能数据中心的电力需求将达到 90 太瓦时(TWh),相当于数据中心关键 IT 电力容量达到约 10 吉瓦(GW)功率,或相当于 730 万个 H100 的电力需求。从 2021 年到 2024 年底,预估仅英伟达就将交付功率需求相当于 500 万颗以上 H100 的加速卡,预计到 2025 年初,AI 数据中心容量需求将超过 10 GW。
之前的一些报告给出的悲观数据非常惊人,比如说预测 2030 年数据中心要用到全球电力产能的 24% 之多,但这些数字其实只是简单拟合出来的,没多大讨论价值。
Semi 通过对北美现有的 1,100 多个托管和超大规模数据中心的分析来预测 AI 数据中心的需求和供应,再结合 Semi 数据库中的 AI 加速器电力需求数据,就能估算出 AI 和非 AI 数据中心的关键 IT 电力需求和供应。将这一分析与 Structure Research 整理的北美以外的区域总体估计相结合,就可以提供数据中心趋势的全球整体视图。
一个很明显的结论是,从中期来看,人工智能领域的一些最大的参与者将在可部署的人工智能计算算力方面落后于其他参与者。
人工智能的繁荣确实会大大推动数据中心能耗的增长,但短期内全球数据中心的用电量仍将远低于上面最悲观的预测。Semi 相信,到 2030 年,人工智能将推动数据中心使用全球能源发电量的 4.5%。
真正的 AI 瓶颈
未来几年,数据中心电力容量将从 12-15% 的复合年增长率加速至 25%。全球数据中心关键 IT 电力需求将从 2023 年的 49 吉瓦激增至 2026 年的 96 吉瓦,其中人工智能将消耗约 40 吉瓦。事实上,扩建并不是那么顺利,真正的电力短缺局面即将到来。
对丰富、廉价电力的需求,以及在满足超大规模企业碳排放承诺的同时快速增加电网容量的需求,再加上芯片出口限制,意味着不会有很多国家能够满足快速增长的 AI 数据中心建设需求。
美国等一些国家和地区将能够以较低的电网碳强度、供应稳定的低成本燃料来源灵活应对这一局面,而欧洲等其他国家和地区将受到地缘政治现实和电力结构性监管限制的束缚。其他国家和地区只会简单地增加容量,而不关心环境影响。
训练和推理的关键需求
人工智能训练负载有独特的要求,与现有数据中心部署的典型硬件的要求非常不同。
首先,模型需要训练数周或数月,传入训练数据时才对网络连接有需求。训练过程对网络延迟不敏感,并且不需要靠近任何主要的人口中心。人工智能训练集群基本上可以部署在世界上任何具有经济意义的地方,但须遵守数据驻留和合规性法规。
其次,人工智能训练负载非常耗电,并且与传统的超大规模或企业级负载相比,运行 AI 程序的硬件的功率水平往往更接近其热设计功耗。CPU 和存储服务器的典型功耗约为 1kW,但每台 AI 服务器的功耗现在已超过 10kW。再加上对延迟不敏感以及不需要靠近人口中心,这意味着相比传统集群而言,提供大量廉价电力(还有将来获取电网的持续支持)对于人工智能训练负载来说要重要得多。
另一方面,推理的最终负载比训练更大,但它也可以相当分散。推理芯片不需要集中在一起,但这些芯片的数量会非常惊人。
数据中心的数学
AI 加速器有着较高的利用率。每台 DGX H100 服务器正常运行时的预期平均功率约为 10,200 W,每台服务器 8 个 GPU,每个 GPU 的功率为 1,275 W,其中包括 H100 本身的 700W 热设计功耗,以及双 Intel Xeon Platinum 8480C 处理器的约 575W,再加上 2TB DDR5 内存、NVSwitches、NVLink、NIC、重定时器、网络收发器等,还有整个 SuperPOD 的存储和管理服务器以及各种网络交换机的电力需求,最后算下来每台 DGX 服务器 11,112W,或每颗 H100 GPU 1,389W。
关键 IT 电力容量的定义是数据中心楼层可为服务器机架内的计算、服务器和网络设备提供的电力容量。它不包括数据中心运行冷却、电力输送和其他设施相关系统所需的电力。
为了获得 IT 设备预计消耗的总功率(消耗的关键 IT 功率),我们需要计算相对所需的关键 IT 功率的可能利用率,因为 IT 设备通常不会持续满载运行。在本例中,该比例设置为 80%。
除了关键 IT 电力容量之外,运营商还必须提供冷却电力,以供给配电损耗、照明和其他非 IT 设施设备。业界通过电力使用效率(PUE)来衡量数据中心的能源效率,计算方法是将进入数据中心的总电量除以运行数据中心内 IT 设备所用的电量。这当然是一个非常有缺陷的指标,因为服务器内的冷却功率被视为“IT 设备”需求。PUE 较低表示数据中心能效更高,PUE 为 1.0 表示数据中心非常高效,没有冷却或任何非 IT 设备的功耗。典型的企业托管 PUE 约为 1.5-1.6,而大多数超大规模数据中心的 PUE 低于 1.4,一些专用构建设施声称可实现低于 1.10 的 PUE。大多数 AI 数据中心的目标是低于 1.3 PUE。过去 10 年,全行业平均 PUE 从 2010 年的 2.20 下降到 2022 年的约 1.55,是能源效率提升的主要来源。
例如,在利用率为 80% 且 PUE 为 1.25 的情况下,拥有 20,480 个 GPU 集群的数据中心平均将从电网获取 28-29MW 功率,每年总计 249,185 兆瓦时,这将花费 2070 万美元电费(基于美国每千瓦时 0.083 美元的平均电价)。
数据中心布局和限制
虽然 DGX H100 服务器需要 10.2 千瓦的关键 IT 电力容量,但大多数托管数据中心仍然只能支持每个机架约 12 千瓦的容量。因此,服务器部署能力将根据可用的电源和冷却能力而有所不同,在电源 / 冷却能力受限的地方仅部署 2-3 台 DGX H100 服务器,空出整排机架空间,以将电力密度从 12 kW 翻倍至 24 kW。
英伟达 DGX SuperPOD 数据中心设计
随着数据中心的设计越来越偏重人工智能负载,机架将能够使用专用设备增加气流来实现 30-40kW+ 的功率密度。未来,直接作用于芯片的液体冷却技术为更高的功率密度打开了大门,并减掉了风扇的功率,可以将每个机架的功耗降低 10%,而不再使用空气冷却还可以将 PUE 降低 0.2-0.3,这将是最后一波有意义的 PUE 增益。
许多运营商提出的另一个重要考虑因素是,各个 GPU 服务器节点最好彼此靠近,以实现可接受的成本和延迟。根据经验,同一集群中的机架距离网络核心最多应为 30 米。与昂贵的单模光收发器相比,短距离下可使用更低成本的多模光收发器。英伟达通常使用专用多模光收发器将 GPU 连接到交换机,其距离可达 50m。使用更长的光缆和更长有效距离的收发器来连接相距更远的 GPU 机架会增加成本,因为这需要更昂贵的收发器。未来,利用其他扩展网络技术的 GPU 集群也将需要非常短的电缆才能正常工作。例如,英伟达 H100 集群的 NVLink 扩展网络支持跨 32 个节点的多达 256 个 GPU 的集群,并且可以提供 57.6 TB/s 的全对全带宽,而交换机之间的电缆长度最大为 20 米。
每个机架的功率密度更多是由网络、计算效率和每次计算成本这些因素决定的——就数据中心规划而言,占地面积和数据大厅空间效率通常是事后才考虑的。托管数据中心的大约 90% 成本来自电力,10% 来自物理空间。
安装 IT 设备的数据大厅通常只占数据中心总建筑面积的 30-40% 左右,因此设计一个大 30% 的数据大厅只需要整个数据中心的总建筑面积增加 10%。考虑到 80% 的 GPU 拥有成本是资本成本,20% 与托管相关,因此更大的物理空间带来的成本只占到数据中心总成本的 2-3%。
大多数现有的托管数据中心尚未准备好支持每机架 20kW 以上的功率密度。芯片生产瓶颈将在 2024 年大大缓解,但某些超大规模企业和托管中心会陷入数据中心容量瓶颈,因为它们准备不够充分——传统托管数据中心中的 15kW 功率密度将成为实现 AI 超级集群理想物理密度的障碍。
新建的数据中心可以添加芯片液冷方案和更多散热设备以解决功率密度问题。然而,从头开始设计一个包含这些解决方案的新设施比改造现有设施要容易得多——意识到这一点,Meta 已停止开发原计划的数据中心项目,将其重新调整为专门针对人工智能负载的数据中心。
人工智能需求与当前数据中心容量
Semi 使用基于 AI 加速器的芯片出货量预测以及芯片规格和辅助设备功率需求的估算数据,计算了未来几年的 AI 数据中心关键 IT 功率总需求。
如上所述,数据中心关键 IT 电力总需求将从 2023 年的约 49 GW 翻倍至 2026 年的 96 GW,其中 90% 的增长来自人工智能相关需求。
在美国,这种趋势是最显著的,卫星数据显示有大量人工智能集群正在部署和建设中,这意味着美国数据中心关键 IT 电力容量从 2023 年到 2027 年将需要增加两倍。
人工智能云端服务的头部厂商在加速器芯片方面的积极计划佐证了这一点。OpenAI 计划在其最大的多站点训练集群中部署数十万个 GPU,这需要数百兆瓦的关键 IT 电力供应。通过跟踪物理基础设施、发电机和蒸发塔的建设进度,我们可以非常准确地跟踪它们的集群规模。预计到今年年底,Meta 的 H100 安装量会达到 650,000 颗。GPU 云提供商 CoreWeave 制定了在德克萨斯州普莱诺工厂投资 16 亿美元的宏伟计划,这意味着他们计划斥资建设高达 50MW 的关键 IT 电力供应,并仅在该工厂就安装 30,000-40,000 个 GPU,而全公司会建设 250MW 的数据中心(相当于 18 万个 H100),并且他们有一些计划是在单个站点中建设数百兆瓦的数据中心。
微软拥有 AI 时代之前最大的数据中心建设规模(请参阅下面 2023 年 1 月的数据),数据显示此后其数据中心建设面积猛增。他们一直在吞噬一切可以利用的托管空间,并积极扩建数据中心的规模。像亚马逊这样的人工智能落后者已经发布了总装机容量为 1,000MW 的核能源数据中心的建设新闻稿,但需要明确的是,他们在实际的建设方面严重落后,因为他们是最后一个意识到人工智能潜力的超大规模企业。谷歌和微软 /OpenAI 都计划开发超过千兆瓦级的训练集群。
从供应角度来看,卖方一致估计英伟达在 2024 年出货的 300 万个以上 GPU 将对应超过 4,200 MW 的数据中心需求,接近当前全球数据中心容量的 10%,而这只是一年的 GPU 出货量。当然,对英伟达出货量的普遍估计也是非常错误的。不管怎样,人工智能行业只会在接下来的几年中持续增长,而英伟达的 GPU 预计会变得更加耗电,他们的路线图上有 1,000W、1,200W 和 1,500W 规格的 GPU。英伟达并不是唯一一家生产加速器的公司,谷歌也在迅速提高他们定制加速器的产量。展望未来,Meta 和亚马逊还将加大其内部加速器的研发生产力度。
全球顶级超大规模企业并没有忽视这一现实——他们正在迅速加大数据中心建设和主机托管租赁力度。AWS 以 6.5 亿美元购买了一个 1000MW 核能源数据中心园区。尽管只有一座容量为 48MW 的建筑可能会在短期内上线,但这为 AWS 提供了宝贵的数据中心容量,让他们无需等待发电或电网传输容量跟上来。我们认为,如此庞大的园区需要很多年才能完全达到承诺的 1,000 兆瓦关键 IT 电力供应能力。
人工智能训练和推理的碳和电力成本
研究流行模型的训练功率要求可以帮助我们衡量总功率需求,并估算人工智能行业产生的碳排放。为了估算 BLOOM(一个 175B 参数的语言模型)的碳足迹,一项研究检查了在法国 CNRS 旗下 IDRIS 的 Jean Zay 计算机集群上训练 BLOOM 模型的功耗。该论文提供了人工智能芯片 TDP 与集群总用电量(包括存储、网络和其他 IT 设备),一直到电网的实际用电量之间关系的实证观察。
另一篇论文《碳排放和大型神经网络训练》报告了其他一些模型的训练时间、配置和训练功耗。训练的功耗需求可能会有所不同,具体取决于模型和训练算法的效率(优化模型 FLOP 利用率 - MFU)以及整体网络和服务器电源效率和使用情况,但下面的结果是一个不错的衡量标准。
这些论文将总功耗(千瓦时)乘以数据中心运行的电网的碳强度来估计训练这些模型的碳排放量。目光敏锐的读者会注意到,法国训练 BLOOM 模型的碳强度非常低,为 0.057 千克二氧化碳当量 / 千瓦时,因为该国 60% 的电力来自核电,远低于美国 0.387 千克二氧化碳当量 / 千瓦时的平均水平。
排放难题中要考虑的最后一个部分是隐含排放,定义为制造和运输给定设备(在本例中为加速器芯片和相关 IT 设备)所涉及的总碳排放量。关于 AI 加速器芯片的具体排放量的可靠数据很少,但一些人粗略估计该数字为每个 A100 GPU 排放 150 千克二氧化碳当量,托管 8 个 GPU 的服务器排放 2,500 千克二氧化碳当量。经过计算,隐含排放量约为训练运行总排放量的 8-10%。
一次 GPT-3 训练产生 588.9 吨二氧化碳当量,相当于 128 辆乘用车的年排放量。抱怨 GPT-3 训练的排放量就像人们努力回收塑料瓶然后每隔几个月乘坐一次航班一样,其实没什么意义。
2022 年,不考虑可再生能源项目的抵消,谷歌旗下包括数据中心在内的设施总共排放了 8,045,800 吨二氧化碳当量。这意味着 GPT-3 并没有影响世界的碳排放,但是 GPT-4 的 FLOPS 增加了多个数量级,而当前的 OpenAI 训练比这个数量级还高出一个数量级以上,训练的碳排放量在几年后将开始变得非常显著。
推理方面,配备 8 个 GPU 的典型 H100 服务器每月会排放约 2,450 千克二氧化碳当量,需要 10,200 瓦 IT 电源 — 假设每千瓦时 0.087 美元,每月成本为 648 美元。
大规模建设人工智能基础设施——如何打造 AI 强权?
人工智能数据中心行业将需要以下支持:
  • 由于持续消耗大量电力,因此行业需要低廉的电力成本,尤其是推理需求只会随着时间的推移而增加。
  • 能源供应链的稳定性和稳健性,可抵御地缘政治和天气干扰,以降低能源价格波动的可能性,并能够快速提高燃料产量,从而快速大规模提供发电能力。
  • 总体上采用低碳强度的电力结构来发电,并且能够以合理的经济性生产大量的可再生能源。能够挺身而出完成这些任务的国家是真正的人工智能超级大国的竞争者。
电价、电力结构和碳强度
对比全球电价,美国电价全球最低,平均为 0.083 美元 / 千瓦时。美国天然气产量丰富,自  2000 年代初页岩气革命以来产量激增,使美国成为世界上最大的天然气生产国。美国近 40% 的发电量以天然气为燃料,发电价格较低主要是由于页岩地层中富含干燥天然气。由于石油的水力压裂和来自油井的天然气比例不断增加,美国的天然气价格将继续低迷。
美国在天然气方面实现了能源独立,这一事实增加了价格的地缘政治稳定性,而美国各地广泛分布的天然气田增加了供应链的稳健性。足够消费 20 年的现有探明储量则增加了能源供应的寿命,而且这些储量的预估数字多年来不断增加,自 2015 年以来翻了一番,仅 2021 年就增加了 32%。
此外,美国的能源结构比其他大多数竞争者更加绿色,其煤炭发电占比从 2012 年的 37% 减少到 2022 年的 20%,预计到 2030 年煤炭占比将下降到 8%,其空白被可再生能源和天然气填补。相比之下,印度的煤炭发电占比为 75%,中国的煤炭发电占比为 61%,甚至日本到 2022 年仍为 34%。这种差异影响很大,因为燃煤电厂的碳强度为 1.025 千克 / 千瓦时,是天然气发电厂的两倍多(为 0.443 kg CO2e/kWh)。因此,与许多国家相比,在美国建造的数据中心将依赖更清洁的燃料组合来提供必要的基本负载和夜间发电能力。
美国的能源供应状况与东亚和西欧形成鲜明对比,东亚和西欧分别拥有全球数据中心容量的约 15% 和 18%。虽然美国的天然气自给自足,但日本、新加坡和韩国等国家和地区 90% 以上的天然气和煤炭需求均依赖进口。
日本的电力结构偏向进口燃料类型,其中 35% 是天然气、34% 是煤炭、7% 是水力发电、5% 是核电,其 2022 年平均工业电价为 0.152 美元 / 千瓦时,比美国高出 82%。在东盟,新加坡是另一个数据中心的集中地,其发电结构的 90% 严重依赖进口天然气,导致 2022 年电价高达 0.23 美元 / 千瓦时。新加坡拥有 900 兆瓦的关键 IT 电力能力,其发电量占新加坡全国发电量的 10% 以上。因此,新加坡对新数据中心建设规划实施了为期四年的暂停,直到 2023 年 7 月批准了仅 80 兆瓦的新容量后才解除。这一限制催生了位于新加坡以北几英里的马来西亚新山的巨大开发项目,容量高达 1,000 兆瓦,其中大部分是由试图“国际化”的中国公司推动的。印度尼西亚也有一条重要的建设管道。
中国的工业电价为 0.092 美元 / 千瓦时,处于电价范围的低端,但与许多其他新兴市场一样,中国的发电结构中 61% 来自煤炭。从排放角度来看这是一大劣势,尽管中国在可再生能源发电装机方面明显领先于世界。鉴于煤炭的碳强度为 1.025 千克 / 千瓦时二氧化碳当量,而天然气的碳强度为 0.443 千克 / 千瓦时二氧化碳当量,任何做出净零排放承诺的超大规模或人工智能公司都将在实现这一目标方面进行一场艰苦的战斗。
中国在发电用煤炭方面基本自给自足,但中国的其他能源需求主要依赖进口,70% 以上的石油和液化天然气出口通过马六甲海峡运输,这意味着出于战略原因,中国无法转向天然气发电结构,必须依靠增加煤炭和核电来满足需求。中国在增加可再生能源发电量方面处于世界领先地位,但现有庞大的化石燃料发电厂基数意味着到 2022 年,可再生能源发电量仅占中国总发电量的 13.5%。
在西欧,发电量一直在缓慢下降,过去五年累计下降了 5%。下降的原因之一是核电发电量大幅下降,例如德国 2007 年至 2021 年核电发电量下降了 75%。由于环保原因,煤炭等能源供应也急剧下降。可再生能源在欧洲的电力结构中不断增加,但速度还不够快,这使得许多欧洲国家争先恐后地转向天然气,目前天然气占西欧主要国家发电结构的 35-45%。
鉴于欧洲的能源状况,2022 年欧盟平均工业电价达到 0.18 美元 / 千瓦时,英国为 0.235 美元 / 千瓦时,数据中心大国爱尔兰为 0.211 美元 / 千瓦时,几乎是美国电费的三倍。与亚洲一样,欧洲 90% 以上的天然气以液化天然气的形式进口,主要来自中东,因此他们的整个工业基础,而不仅仅是数据中心,都受到地缘政治的影响风险。考虑到政治和地缘政治现实,增加大量发电能力来推动欧洲人工智能数据中心的繁荣局面是希望不大的。
此外,欧洲对建筑过敏,针对数据中心和制造业的许多法规和限制已经证明了这一点。虽然一些小型数据中心正在建设中,特别是法国至少已经在一定程度上意识到了地缘政治的必要性,但没有人计划在欧洲建造千兆瓦级集群。据估计,欧洲的 AI 加速器部署算力只占全球的不到 4%。
正如之前所讨论的,考虑到未来将要部署的人工智能集群的规模,电价将变得相当重要。根据计算集群的部署位置,电价差异将达到数亿美元之高。与在美国建设数据中心相比,在欧洲或亚洲设立人工智能数据中心很容易使电力成本增加一倍或三倍。
中东是另一个正在竞相启动数据中心建设的地区,它们在某些指标上得分非常高,其电价是全球最低的,并且使用太阳能的可行性非常高。事实上,中东拥有非常大的野心,阿联酋预计将数据中心关键 IT 电力供应增加一倍,从 2022 年的 115MW 增加到 2026 年的 330MW。
迄今为止,沙特阿拉伯已为其研究机构采购了 3,000 颗 H100,并计划开发自己的大模型。继 2022 年的卡塔尔数据中心之后,微软还宣布计划在沙特阿拉伯建立一个数据中心。沙特阿拉伯目前的关键 IT 电力供应能力为 67 兆瓦,并计划超越阿联酋,在未来几年达到 530 兆瓦。
与此同时,人工智能初创公司 Omniva 据称在科威特王室成员的大力支持下,正在中东建立低成本的人工智能数据中心设施。该公司的关键人员中有前 AWS、Meta 和微软员工。他们是唯一一家在当地建设运动中真正具有影响力的组织。
SemiAnalysis 将在后续的报告中研究注入电价区别、发电能力、UPS 和发电机等组件的需求、安全性等更多细节,感兴趣的读者可以进一步了解。
原文链接:
https://www.semianalysis.com/p/ai-datacenter-energy-dilemma-race
声明:本文为 InfoQ 翻译,未经许可禁止转载。
今日好文推荐
继续阅读
阅读原文