超大模型时代，IPU助力碳中和的可持续未来

赫拉利在《未来简史》中写到，在石器时代，人们平均每天消耗4000卡路里的热量。今天，人们使用冰箱、电视、汽车等等，生活水平显著提高的同时，热量消耗也成倍增长。近日火爆的ChatGPT等大规模生成式AI，又将为热量消耗带来哪些影响？

有估算称，ChatGPT的制造设备、模型训练、运行三者相加的总碳排放超过814.61吨。这相当于上百辆万级公里数的汽车一年的碳排放。然而，ChatGPT还只是刚刚开始。AI算法模型的参数规模每3个月提高一倍，未来可能将会有万亿、十万亿、百万亿，甚至更多的参数。这样的增长下，其能源消耗是不是可持续的？

“密集计算是不可持续的，如何从高效能的角度来考虑产品。这是我们当时在架构IPU的时候主要考虑的点。”3月29日，Graphcore拟未总裁、大中华区总经理卢涛受邀参加2023国际集成电路展览会暨研讨会，并在第二届“碳中和”暨绿色能源电子产业可持续发展高峰论坛中发表演讲时这样指出。演讲中，卢涛分析了芯片行业中每瓦性能的缓慢提升速度，并分享了IPU采用的高效内存方式和能够充分利用能效的芯片架构。他指出，新时代的高效能半导体产品是能够充分利用可用能耗的产品。

芯片发展中的能耗：

缓慢的每瓦性能提升

模型规模的增加意味着更多的AI算力需求。摩尔定律指出，集成电路上可以容纳的晶体管数目大约每经过18个月到24个月便会增加一倍。换言之，处理器的性能大约每两年翻一倍。

如今，摩尔定律放缓，处理器性能的提升不再那么规律。但是，比摩尔定律更加缓慢的是芯片每瓦性能的提升。从65纳米到14纳米，每个芯片每年有30%的晶体管数量的提升，但是每瓦的性能提升却只有15%。

不同浮点精度下能耗不一样。在50W/1GHz/cm^2的情况下，FP16.32每时钟周期消耗为2pJ，FP32每时钟周期消耗8pJ，FP64每时钟周期就要消耗32pJ。这样推算，在200W的8平方厘米裸片上，它有近70%的面积是暗硅。这样处理器在运行时发挥的效能是非常有限的。

不同内存的能耗：

如何高效能打破内存墙？

在做计算的时候，不管是AI计算还是通用计算，是在电脑CPU里还是在手机CPU里，将数据从内存搬运到计算核心的这个过程都是能量消耗“大户”。

不同内存介质之间的能量消耗不同，譬如说DDR4内存条，将1B数据从DDR搬运到计算核心大概需要320pJ，而HBM则大概需要64pJ到10pJ。如果是片内SRAM，它搬运1B数据需要的能耗可以降低到1pJ。

这意味着在同样的能耗预算下，使用片内SRAM所能获得的内存访问的访存带宽要远高于使用DDR所能获得的，实现更高的每瓦性能。

AI计算中，我们经常提到“内存墙”。做AI计算，就要考虑如何以更高的效能撞击这堵墙。IPU的片内SRAM存储达到900M、速率高达65TB/s，彻底打破了内存墙的瓶颈。

充分利用可用能耗：

新时代高效能计算平台

在新时代，什么才是高效能的计算平台？如果4400瓦的机柜在部署后不到4400瓦，那它就存在浪费的情况。如果设计能达到100T的算力，而大部分运行的时候只有75T，那就存在设计算力指标与实际运行指标不符的情况。

了解芯片上不同负载的能耗特点，将有利于充分发挥能效。被用于运算和存储两种不同的用途时，同样晶体管的能耗不同。如果分配10%的面积给RAM，RAM所消耗的能耗将少于总能耗的10%。

一个典型的GPU大概有10%的面积分配给RAM，35%给类似机器学习的一些算术单元，剩余55%的暗硅用来做一些图形或HPC的计算单元。

IPU更加专注于AI工作负载，并根据存算功耗特点，将暗硅用于存储，采取了“75%做存储、25%做运算”的架构设计，从而支持高效AI的实现。

更高每瓦性能：

IPU助力AI高效能

IPU采用MIMD设计，适合精细化、高性能的计算。它采用了大型的片上分布式SRAM，可以让模型和数据紧密耦合，适合人工智能及图计算。

此前，拟未发布了世界首款3D WoW处理器Bow IPU，有1472个独立的运算核心，8832个并行线程，可以处理近9千个不同的任务。以Bow IPU为核心，拟未打造了Bow-2000基础构建块，通过IPU Gateway把4颗Bow IPU连接在一起，可以非常方便地扩展至Bow Pod系统，进行大规模训练。

在Wafer-on-Wafer MK2 IPU的基础上，拟未还推出了C600推训一体加速卡，主打推理，兼做训练，增加了用于低精度和混合精度AI的FP8，可提供FP8浮点运算560 TFLOPS以及FP16浮点运算280 TFLOPS的AI计算能力，功耗185瓦。如今市场上的许多旗舰GPU产品是310T FP16，功耗达300瓦。因此，C600在功耗方面表现出色。

除了硬件，IPU也具有完备的软件，目前针对主流应用框架和模型，可以通过工具化的方式，一键把AI模型转化部署到IPU上，对80%的模型可以实现一键转换，零代码迁移，并且模型性能也非常好。

提高能效是节能减碳中的一项重要方向。在当前的模型运算中，IPU的架构充分利用了存算能耗特点，充分发挥芯片可用能效，并采用符合AI工作负载的存储方式，以高能效打破“内存墙”，为当前的模型运算提供更好的性能和更优的每瓦性能。

新摩尔定律指出，宇宙智能数量每18个月翻一番。在超大规模模型时代，IPU的优势会进一步放大，支持超大模型实现更低的运行能耗，从“芯”开始，可持续发展。

获取更多Graphcore资讯，阅读深度技术文章，并与其他创新者们一起交流，请至中国官网graphcore.cn，以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

继续阅读

阅读原文

超大模型时代，IPU助力碳中和的可持续未来 | Graphcore @IIC