AI 正在“吸干”全球电力？算力与电力的抉择

能耗几何？

数据和算力是驱动本轮AI技术飞速发展的主要引擎，只要关注AI产业，都能明确感受到海量数据和大算力芯片对“百模大战”的影响力。而AI在给人类生产过程带来巨大变革的同时，也给全球电力系统带来了巨大挑战。

AI到底有多耗电？2020年，OpenAI预训练GPT-3这样的大语言模型参数达到1750亿，需要将近1300兆瓦时的电力，相当于130万度电，足够130个美国家庭的用一年；前面还只是训练大模型的用电量，ChatGPT现在每天还要消耗50万千瓦时的电力来回应用户超2亿个需求，已经是美国家庭平均每天用电量（27千瓦时）的1.7万多倍。

而GPT预训练所需的参数已经从1750亿，提高至GPT-4的1.8万亿，再到GPT-5即将突破的10万亿，意味着只要生成式AI应用的范围越来越广，耗电量只会节节攀升。

部分大模型训练参数数据

民生已经共此凉热。4月初美国劳工部公布的数据显示，美国电力价格今年3月已经同比上涨了5%，涨幅超过汽油，而导致电价上涨的主要因素正是AI新增的电力需求。

标准普尔全球副主席耶金（Dan Yergin）认为，近两年美国电力需求激增，AI和各类数据中心的电力需求增长最为迅猛，但美国目前的发电能力远不及需求，鉴于电力项目审批许可时间较长，短期内美国电力供给短缺的情况很难改善。

深入业界发展前沿的头部企业更是对此感知明显，今年2月，特斯拉创始人埃隆·马斯克在博世集团举办的“博世物联网大会”上表示，AI的束缚是可以预测的，“一年前我预测会缺硅，也就是芯片短缺，下一个就是电力。可能到明年我们就没有足够的电力来运行所有芯片了”。

此前，OpenAI的CEO山姆·奥特曼也看好核聚变和核裂变发电厂的建设，他指出AI将消耗比人类想象中还要多的电力，未来必须实现能源突破，才能支持AI的迭代。

如果光是罗列数据，可能还是有些抽象，到底为什么处理参数信息、AI聊天机器人会和能源扯上关系？这就要从处理信息产生的热量说起。

永恒的热量消耗

“处理信息有能量成本”的最佳证明，就是电脑工作时产生的热量。计算机在运行时会发热这已经是众所周知的现象，而这正是由计算机的工作原理所决定的。

1961年，IBM公司的物理学家罗尔夫·兰道尔（Rolf Landauer）曾经在论文中计算过一台“完美计算机”的理论效率，这台计算机理论上在对抗阻力方面没有损耗能量。但是即便有这么一台计算机，也一定会浪费一些能量，因为计算机也是一种机器——只不过是以字节的形式储存和处理信息——只要是机器，就必然会遵循热力学第二定律，即在任何封闭系统中，无序状态（一种被称为熵的量）总在增加。

兰道尔原理认为，即使是最简单的计算过程，也必然会产生热力学消耗

现有的经典计算机几乎都是不可逆计算机，信息处理的操作逻辑上不可逆的，也就意味着信息不断消失也会导致物理世界中熵的增加，从而消耗能量。兰道尔认为，熵的减少只能用能量来交换。

根据他的计算，即使是最简单的计算过程，比如删除一个字节，也必然会产生一个微小的热力学消耗。换句话说，当计算机中存储的信息发生不可逆的变化时，会向周围环境散发微量热量。

当然，它散发的热量也和计算机当时所处的温度有关：温度越高，散发的热量越多，这也是为什么现在数据中心的服务器都会配备相应的冷却系统，让热量通过水冷系统释放出来。

现在的电子计算机在执行计算任务时，实际消耗的能量其实是兰道尔所计算的理论值的数亿倍，科研人员也一直在寻找更高效的计算方法来降低这个能耗成本，比如对室温超导材料的不懈追求。

超导材料具有零电阻导电的特性，电流在其中可以无能量损耗地流动，这意味着在超导材料中构建的电路不会产生热量，从而也就把处理信息所需的能量成本全部消解了；“室温”超导则意味着它也无需极低温度的制冷设施，而这些制冷设备通常也会消耗大量能量。

放到AI大模型中，我们可以从兰道尔原理中推导出一个很简单的推论：模型的参数量越大、需要处理的数据越多，所需的计算量、所消耗的能量也就越大，释放的热量也就越多。在大模型预训练阶段，首先需要“喂”给计算机大量处理标记过的文本数据；然后在精心调校的模型架构中，处理输入的数据，尝试生成输出；根据输出成果与预想中的效果的差异，再反复调整模型参数。

不同AI应用方向每一千次查询需要消耗的电量

在大模型接入具体应用面向C端开放时，它的推理电费账单要远高于训练，根据施耐德电气测算，数据中心的AI负载有80%来自推理阶段，只有20%来自训练。推理阶段会先载入已经训练好的模型参数，预处理需要推理的文本数据，再让模型根据学习到的语言规律生成输出。总的来说，无论哪个阶段，对于计算机来说都是一连串信息重组的过程。

但这种由于信息增加带来的热量消耗在AI能耗中还只是九牛一毛，更大的消耗还在集成电路中。

芯片之果

集成电路也就是芯片，在信息处理过程中，电流因在芯片中受到阻碍会产生电力消耗，并会以热量的形式表现出来。

在以纳米为单位的芯片上，往往有数亿个晶体管协同工作，这些晶体管可以看做是由电压控制的极微小的开关，把它们全部串联或并联在一起就可以实现逻辑运算，“开”“关”两种状态即代表“0”“1”，也就是计算机二进制的基础。

欧姆定律告诉我们，通过控制电压变化，我们可以改变电子的流入和流出，也就构成了电流，同时也总会有电阻的产生；焦耳定律又证明，产生的热量与电流的平方成正比，也与导体电阻和通电时间成正比。尽管单个晶体管十分微小，能产生的热量不高，但光是英伟达A100 GPU上就拥有540亿个晶体管，再微弱的热量放置于这个规模背景下都相当庞大。

“如果在美国一个州放置超过10万片英伟达H100 GPU，那那个州的电网会立刻崩溃。”这是微软一名工程师前段时间对媒体透露的信息，他的工作恰好是在微软和OpenAI共同建立的数据中心训练新的GPT-6大模型。

英伟达H100 GPU的性能要比ChatGPT最初所用的A100强大得多：H100是专为AI计算设计，集成了800亿个晶体管，针对GPT等大模型的基本架构Transformer搭载了优化引擎，让大模型训练速度提高6倍，能耗方面也不遑多让。

市场调研机构Factorial Funds的报告显示，OpenAI的文生视频模型Sora在流量峰值期间需要至少72万块H100，每块H100功耗大约700瓦，可以提供高达60 TFLOPs的理论峰值性能，也就是每秒钟可以进行60万亿次单精度浮点数的运算，每次运算又涉及到许多个晶体管的开关。

为什么我们需要越来越多计算能力强大的GPU来训练AI？这就又回到了开头，因为大模型的规模实在太大，参数能达到万亿级别。所需的数据集也需要反复迭代，每次都需要计算和调整里面数百上千亿个参数的值，晶体管不断开关，能耗不也就来了？

解决这个问题的方法之一是改变硬件的物理特性，突破摩尔定律的限制。这个我们之前的文章中也提过，那就是把现代计算机的基础“硅芯片”，替换为某些新材料，比如石墨烯、碳纳米管等“碳基”芯片。要么，就向外寻求能源的突破。“人造太阳”还太远，不如先押注风光电和储能技术的升级。

>End

>>>

本文转载自“壹零社”，原标题《AI 正在“吸干”全球电力？算力与电力的抉择》。

为分享前沿资讯及有价值的观点，太空与网络微信公众号转载此文，并经过编辑。

未按照规范转载及引用者，我们保留追究相应责任的权利

部分图片难以找到原始出处，故文中未加以标注，如若侵犯了您的权益，请第一时间联系我们。

HISTORY/往期推荐

坚持道路自信直面未来挑战——“对标SpaceX”的思考

混合所有制模式：新型举国体制在商业航天发展中的逻辑演进和实践路径（之一）

混合所有制模式：商业航天领域推进新型举国体制的重要途径

迪斯尼传播快乐，美丽星球点亮梦想

>>>

充满激情的新时代，

充满挑战的新疆域，

与踔厉奋发的引领者，

卓尔不群的企业家，

一起开拓，

一起体验，

一起感悟，

共同打造更真品质，

共同实现更高价值，

共同见证商业航天更大的跨越！

——《太空与网络》，观察，记录，传播，引领。

>>>

·《卫星与网络》编辑委员会

高级顾问：王国玉、刘程、童旭东、相振华、王志义、杨烈

· 《卫星与网络》创始人：刘雨菲

·《卫星与网络》副社长：王俊峰

· 微信公众号（ID：satnetdy）团队

编辑：艳玲、哈玫，周泳、邱莉、黄榕

主笔记者：李刚、魏兴、张雪松、霍剑、乐瑜、刀子、赵栋

策划部：杨艳、若㼆、李真子

视觉总监：董泞

专业摄影：冯小京、宋伟

设计部：顾锰、潘希峎、杨小明

行政部：姜河、林紫

业务部：王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜，请加微信：15910858067

商务合作；展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广；企业口碑传播及整体营销传播等，请加微信：13811260603

杂志订阅，请加微信：

wangxiaoyu9960

· 卫星与网络各分部：

成都分部负责人：沈淮

长沙分部负责人：宾鸿浦

西安分部负责人：郭朝晖

青岛分部负责人：江伟

· 卫星与网络总部负责人：农燕

· 会议活动部负责人：乔颢益、许克新、董今福

· 投融资及战略层面合作：刘雨菲

· 本平台签约设计公司：一画开天（北京）文化创意设计有限公司

· 航天加（深圳）股权投资基金管理负责人：杨艳

继续阅读

阅读原文