英伟达最强 AI 芯片背后，AGI 还面临哪些算力挑战？

点击上方卡片关注👆

发布最强 AI 芯片 B200，人行机器人新平台 Project GR00T 以及 Omniverse Cloud API，近期英伟达把自家发布会开成了 AI 界的「伍德斯托克」。

科技狂欢的背后是算力市场的持续升温，还有哪些值得关注的角度？一起看看答主们的分享。

英伟达近日发布最强 AI 芯片 B200，对 AI 算力的提升意味着什么？

|答主：陈巍

B200 的主要进步，包括

1）使用先进封装，把两块 GPGPU 整合。这方案在 Apple的芯片上采用很多年了。

2）使用 FP4，提升算力密度。这个方法难度不高，但目前全世界使用 FP4 的还很少。

AI 尽头是光伏和储能，面对「耗电巨兽」我们有哪些办法？

|答主：罗小罗同学

第一眼看到这个问题，我就被吸引到了，因为我本科期间牵头做的大创项目就是光伏相关的，硕士阶段的研究方向是 AI 相关的。说实话，这么久了，我还真没把 AI 和光伏放在一起思考过，我反思哈哈。不过，这也是我觉得这个题目有意思的地方。

首先分析「AI 尽头是光伏和储能」，这句话背后的意思其实是想提到能耗问题。反正目前这个阶段 AI 的进步还是需要算力的发展来推进。算力怎么发展?可能大家最快想到的就是 GPU 了。

其他型号的显卡我没接触过，我们课题组的是英伟达 A100，所以就拿 A100 来简单分析一下。

可以看到，功耗确实不低，像我有些同学宿舍限电，一个 A100 就可以给他们干跳闸。光看 400w 可能没啥概念，那么可以再拿空调做一个对比。

所以网上也有段子，说显卡会很耗电吗？然后有网友回复说，你把空调关了就行。

对于我个人来说，我肯定是不抵触 AI 耗电这一行为的，说的通俗点，舍不得孩子套不着狼。AI 是可以反哺电力行业的，现在 AI 和电网的结合也不少。我们肯定不能因噎废食，不能觉得 AI 耗电高，就限制它的发展。我们要做的是，同时促进两个行业的发展，让 AI 反哺电力行业的发展。

第一个反哺角度——电池相关

借助 AI 优化光伏电池的设计，提高其转换效率，比如光伏阵列的安装角度，安装位置，安装方式等等，都可以借助 AI 进行辅助设计。

第二个反哺角度——算法结合

借助 AI 预测太阳辐射和天气条件，研究过光伏的同学对于 MPPT 算法应该是非常熟悉的，通过 AI 的辅助，就可以更好地跟踪最大功率点，尽可能地多转化能量。

提到算法，那现在这个领域可是 AI 的舒适区了，算法的设计和优化都离不开它的帮助。所以，AI 消耗的那些电量，从这些方面也可以找补一些回来。

第三个反哺角度——智慧电网

AI的发展可以推动电网的智能化升级，使得电网能够更有效地整合包括光伏在内的可再生能源。

将算法与硬件结合起来，系统就能够实时监控能源供需，优化能源分配，提高整体能源利用效率。

第四个反哺角度——可持续发展

虽然AI算力的发展带来了电力消耗的增加，但随着光伏等可再生能源的普及和电网智能化水平的提升，长远来看，这种增长是可持续的，毕竟化石能源的存储量是有限的。

AI 技术的进步有助于我们更有效地利用清洁能源，减少对化石燃料的依赖，推动全球能源结构的转型，更好的贯彻国家的双碳政策(手动狗头)

为减少数据中心的能源消耗和环境影响，有哪些创新技术正被开发或者已经被应用？

|答主：亚东

这个挺有未来感的问题，其实是我们马上要面对的现实。

数据中心的能源消耗在可见的未来就变成了几样任务的能源消耗:

人工智能计算的能源消耗
存储的消耗

先谈存储

随着 AI 的发展，我们在可以想见的未来，所有的信息都会要求存储，这个存储是多大呢?我们按人眼所见完全用 1920x1080 的视频方式记录。1080p 画质的高清录像，一般码流设置为 4M，每小时需硬盘为 1800M，每天大概约为 1800X24=43G。假设人活的是 100 年，这个总数据量是多大呢?

43G x 365 x 100 = 1.5PB

而按最近爆出来的发明:中国科学院上海光学精密机械研究所的「超级光盘」，单盘等效容量达 Pb 量级。安全起见，大概每个人的一生最少是一张光盘，大概多一些有十来张也是足够了。

人工智能计算

这可能是能源的消耗大户了。

OpenAl 的 Q* 的目标 125T 参数(125 万亿)，模拟人脑大概 100 万亿的连接数。而能运行起这个模型的设备，现在有了: NVIDIA 的 GH200 是 144TB 共享内存，差不多能跑起这个 125trilion 的东西。

它里边是 256 个 GPU，800 万美元一台。要想达到基本的服务水平，可以参考一下谷歌的 DAU 数值：10 亿的访问量/天。想达到 10 亿次/天的服务水准，这个成本是多少呢？GPT4 现在是 20 秒一次响应(350 字)。

我们假设 GPT4 的参数是 1 万亿，那 Q* 的参数是 125 万亿，至少要是它的 100 倍（估算到 1 分钟一次响应，一台服务器一天能响应 60*24 次)。

所以，我们可以认为需要的服务器数是：

1000000000/60/24=694444 台。70 万台。

现在这样的 GH200 差不多是 800 万美元一台，它的能耗没有查到明确的数据资料，可以这样估算，300W/卡x256 卡=76.8kw。70 万台一天的耗电量是多少呢?

53760000 kw=5376万 kw/时，这是个什么概念?一年是 4710 亿千瓦时(如果我没算错的话)

2022 年三峡电站全年发电量为 787.90 亿千瓦时。

看到了吧，大概需要7个三峡左右才能供得上，现在谷歌服务的人数，一天 10 亿次的全年用电量。

可是你真的要一天只用 10 亿次吗? 全球现在有 70 亿人口，每人一天用一次是多少?这个数量再乘个 7，需要 50 个三峡。(4710*7=32970 亿千瓦时)

2023 年全社会用电量 92241 亿千瓦时，这是中国全年的用电量。

大概估算一下，全球每人每天用一次 AI 下来，全年就是中国的 1/3 的用电量。三次了就是全中国的用电量。

新技术

很明显，现阶段的数字芯片是不可能满足未来 AGI 的数据中心的要求，那怎么办呢?更优秀的芯片架构，更优秀的芯片技术方案是必然的。

如果现阶段，最成熟的可以开始考虑规模应用的方案是 CIM (存内计算)，与传统方案的能效比，能达到现在的芯片的 1/10~1/100 左右。这在可见的未来，真的是必然的方向了!

题图来源：答主 @Triborg

本文内容来自「知乎」

点击上方卡片关注

转载请联系原作者

👇点击「阅读原文」，解锁活动

继续阅读

阅读原文