赫拉利在《未来简史》中写到,在石器时代,人们平均每天消耗4000卡路里的热量。今天,人们使用冰箱、电视、汽车等等,生活水平显著提高的同时,热量消耗也成倍增长。近日火爆的ChatGPT等大规模生成式AI,又将为热量消耗带来哪些影响?
有估算称,ChatGPT的制造设备、模型训练、运行三者相加的总碳排放超过814.61吨。这相当于上百辆万级公里数的汽车一年的碳排放。然而,ChatGPT还只是刚刚开始。AI算法模型的参数规模每3个月提高一倍,未来可能将会有万亿、十万亿、百万亿,甚至更多的参数。这样的增长下,其能源消耗是不是可持续的?
  //  
“密集计算是不可持续的,如何从高效能的角度来考虑产品。这是我们当时在架构IPU的时候主要考虑的点。”3月29日,Graphcore拟未总裁、大中华区总经理卢涛受邀参加2023国际集成电路展览会暨研讨会,并在第二届“碳中和”暨绿色能源电子产业可持续发展高峰论坛中发表演讲时这样指出。演讲中,卢涛分析了芯片行业中每瓦性能的缓慢提升速度,并分享了IPU采用的高效内存方式和能够充分利用能效的芯片架构。他指出,新时代的高效能半导体产品是能够充分利用可用能耗的产品。
芯片发展中的能耗:
缓慢的每瓦性能提升
模型规模的增加意味着更多的AI算力需求。摩尔定律指出,集成电路上可以容纳的晶体管数目大约每经过18个月到24个月便会增加一倍。换言之,处理器的性能大约每两年翻一倍。
如今,摩尔定律放缓,处理器性能的提升不再那么规律。但是,比摩尔定律更加缓慢的是芯片每瓦性能的提升。从65纳米到14纳米,每个芯片每年有30%的晶体管数量的提升,但是每瓦的性能提升却只有15%。
不同浮点精度下能耗不一样。在50W/1GHz/cm^2的情况下,FP16.32每时钟周期消耗为2pJ,FP32每时钟周期消耗8pJ,FP64每时钟周期就要消耗32pJ。这样推算,在200W的8平方厘米裸片上,它有近70%的面积是暗硅。这样处理器在运行时发挥的效能是非常有限的。
不同内存的能耗:
如何高效能打破内存墙?
在做计算的时候,不管是AI计算还是通用计算,是在电脑CPU里还是在手机CPU里,将数据从内存搬运到计算核心的这个过程都是能量消耗“大户”。
不同内存介质之间的能量消耗不同,譬如说DDR4内存条,将1B数据从DDR搬运到计算核心大概需要320pJ,而HBM则大概需要64pJ到10pJ。如果是片内SRAM,它搬运1B数据需要的能耗可以降低到1pJ。
这意味着在同样的能耗预算下,使用片内SRAM所能获得的内存访问的访存带宽要远高于使用DDR所能获得的,实现更高的每瓦性能。
AI计算中,我们经常提到“内存墙”。做AI计算,就要考虑如何以更高的效能撞击这堵墙。IPU的片内SRAM存储达到900M、速率高达65TB/s,彻底打破了内存墙的瓶颈。
充分利用可用能耗:
新时代高效能计算平台
在新时代,什么才是高效能的计算平台?如果4400瓦的机柜在部署后不到4400瓦,那它就存在浪费的情况。如果设计能达到100T的算力,而大部分运行的时候只有75T,那就存在设计算力指标与实际运行指标不符的情况。
了解芯片上不同负载的能耗特点,将有利于充分发挥能效。被用于运算和存储两种不同的用途时,同样晶体管的能耗不同。如果分配10%的面积给RAM,RAM所消耗的能耗将少于总能耗的10%。
一个典型的GPU大概有10%的面积分配给RAM,35%给类似机器学习的一些算术单元,剩余55%的暗硅用来做一些图形或HPC的计算单元。
IPU更加专注于AI工作负载,并根据存算功耗特点,将暗硅用于存储,采取了“75%做存储、25%做运算”的架构设计,从而支持高效AI的实现。
更高每瓦性能:
IPU助力AI高效能
IPU采用MIMD设计,适合精细化、高性能的计算。它采用了大型的片上分布式SRAM,可以让模型和数据紧密耦合,适合人工智能及图计算。
此前,拟未发布了世界首款3D WoW处理器Bow IPU,有1472个独立的运算核心,8832个并行线程,可以处理近9千个不同的任务。以Bow IPU为核心,拟未打造了Bow-2000基础构建块,通过IPU Gateway把4颗Bow IPU连接在一起,可以非常方便地扩展至Bow Pod系统,进行大规模训练。
在Wafer-on-Wafer MK2 IPU的基础上,拟未还推出了C600推训一体加速卡,主打推理,兼做训练,增加了用于低精度和混合精度AI的FP8,可提供FP8浮点运算560 TFLOPS以及FP16浮点运算280 TFLOPS的AI计算能力,功耗185瓦。如今市场上的许多旗舰GPU产品是310T FP16,功耗达300瓦。因此,C600在功耗方面表现出色。
除了硬件,IPU也具有完备的软件,目前针对主流应用框架和模型,可以通过工具化的方式,一键把AI模型转化部署到IPU上,对80%的模型可以实现一键转换,零代码迁移,并且模型性能也非常好。
提高能效是节能减碳中的一项重要方向。在当前的模型运算中,IPU的架构充分利用了存算能耗特点,充分发挥芯片可用能效,并采用符合AI工作负载的存储方式,以高能效打破“内存墙”,为当前的模型运算提供更好的性能和更优的每瓦性能。
新摩尔定律指出,宇宙智能数量每18个月翻一番。在超大规模模型时代,IPU的优势会进一步放大,支持超大模型实现更低的运行能耗,从“芯”开始,可持续发展。
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
继续阅读
阅读原文