全球首个！7nm世界最大芯片打造AI集群，解锁120万亿「大脑级」AI模型

新智元报道

来源：wired

编辑：yaxin su Catherine

【新智元导读】突触是神经网络的「桥梁」。今日，Cerebras 宣布世界首个「大脑级」AI 集群，能够训练120万亿参数模型，击败人脑百万亿个突触！

突触，是神经网络的「桥梁」。

人类大脑有大约 100 万亿个突触，860 亿个神经元。

因为有了突触，才可以把神经元的电信号传递到下一神经元。

而现在，Cerebras 宣布了「第一个大脑级 AI 解决方案」！

一个可以支持 120 万亿参数 AI 模型的单一系统，击败了人脑万亿个突触。

相比之下，最大的AI硬件集群大约占人类大脑规模的 1%，约 1 万亿个突触（参数）。

Cerebras 可以通过单个CS-2系统（85万个内核）实现首创！

世界第一！192个AI集群，解锁万亿参数模型

参数越多，人工智能模型就越复杂。

谷歌在短短2年内将模型参数的数量提高了大约1000倍。

参数的数量，所需的算力，都呈指数级增长。

Cerebras 的创始人兼首席执行官Andrew Feldman表示，最新的处理器如此强大的原因就是，在晶片上打造而不是单个芯片上。

192个 CS-2 集中在一起，将使最大的人工智能神经网络的规模扩大100倍。

Cerebras系统由其第二代晶圆WSE-2提供动力。

WSE-2 有2.6万亿个晶体管和85万个AI优化内核，再次刷新记录。

相比之下，最大的图形处理器只有540亿个晶体管，比 WSE-2少2.55万亿个晶体管。

与英伟达相比，WSE-2还拥有内核数是A100的123倍；缓存是其1000倍；可提供的内存带宽，则达到了A100的13万倍。

「大脑级」 AI 解决方案

首个大脑级 AI 解决方案如何诞生呢？

除了用到最大芯片，Cerebras还揭露了4项新技术。

这种技术组合可以轻松组建大脑规模的神经网络，并将工作分配到人工智能优化的核心集群上。

一、Cerebras Weight Streaming：分解计算和内存

这是一种新的软件执行模式，可以将计算和参数存储分解，使规模和速度得以独立且灵活地扩展，同时解决了小型处理器集群存在的延迟和内存带宽问题。

具体来说，这项技术首次实现了在芯片外存储模型参数，同时提供与在芯片上相同的训练和推理性能。

建立在WSE庞大规模的基础上，一个小型参数存储可以连接包含数千万个内核的许多晶圆，或者说，120 万亿个参数模型需要的 2.4 PB 存储可以分配给单个 CS-2。

模型权重保存在中央芯片外，它们被传输到晶片上，用于神经网络每一层的计算。

在神经网络的增量训练中，梯度从晶圆流到中央存储，然后被用于更新权重。

最终，用户可以将 CS-2 的使用数量从1个扩展到192个，同时无需更改软件。

二、Cerebras MemoryX：启用百万亿参数模型

这是一种一内存扩展技术，它使模型参数能够存储在芯片外，并有效地流式传输到 CS-2，实现同在芯片上那样的性能。

这一架构灵活性极强，支持4TB 到 2.4PB 的存储配置，2000 亿到 120 万亿的参数大小。

也就是说，最终，WSE 2可以提供高达 2.4 PB 的高性能内存，CS-2 可以支持具有多达 120 万亿个参数的模型。

三、Cerebras SwarmX：提供更大、更高效的集群

这是一种人工智能优化的高性能通信结构，可将 Cerebras的芯片内结构扩展到芯片外，从而扩展AI集群，而且使其性能实现线性扩展。

也就是说，10 个 CS-2 有望实现比单个 CS-2 快 10 倍的相同解决方案。

最终，SwarmX 可以将CS-2 系统从2个扩展到192 个，鉴于每个 CS-2 提供85万个 AI 优化内核，Cerebras 便可连接 1.63 亿个 AI 优化内核集群。

连接SwarmX的 CS-2 计算机接收神经网络的权重流、分割后的训练数据，同时计算传送到 MemoryX 的反向传播梯度。

四、Selectable Sparsity：缩短时间

Cerebras WSE 基于细粒度数据流架构，其 85万个 AI 优化计算内核可以单独忽略零。

Cerebras 架构独有的数据流调度和巨大的内存带宽，使这种类型的细粒度处理能够加速所有形式的稀疏性。

Cerebras

简言之，用户可以在他们的模型中选择权重稀疏程度，直接减少 FLOPs 和解决时间。

比iPad还大，「巨无霸」芯片迭代史

「巨芯」一代问世，大有可为

科技行业日新月异，变化发展飞快。芯片行业更是如此，之前再先进的工艺，两年后就有可能面临淘汰。这是信息时代不可逆转的趋势。

作为全球芯片龙头，NVIDIA依然占据着庞大的市场份额。

位于美国硅谷的AI创企Cerebras虽然没有NVIDIA那么全面，但其技术解决方案显然已经吸引到了许多客户。

早在2019年，Cerebras曾发布了第一代WSE（Wafer Scale Engine）芯片。

这款芯片是有史以来最大的AI芯片，有40万个内核和1.2万亿个晶体管，使用台积电16nm工艺制程。

与多数芯片不同，一代「巨芯」不是在12英寸硅晶圆上制作的，而是在单个晶圆上通过互联实现的单芯片。互联设计可保持高速运行，使万亿个晶体管同时工作。

与传统芯片相比，WSE还包含3000倍的高速片上存储器，并具有10000倍的存储器带宽。WSE的总带宽为每秒100 petabits，不需要诸如TCP/IP和MPI之类的通信协议支持。

由于大芯片可以更快处理信息，减少训练时间，研究人员能够测试更多想法。WSE的问世在当时消除了整个行业进步的主要瓶颈。

「巨芯」二代另辟蹊径，良率更高

2021年，Cerebras推出了最新的Wafer Scale Engine 2（WSE-2）芯片，该芯片为超级计算任务而构建，具有破纪录的2.6万亿个晶体管和85万颗AI优化内核，采用台积电的7nm工艺制造。

与第一代WSE芯片相比，二代芯片更加先进。

WSE-2的晶体管数、内核数、内存、内存带宽和结构带宽等性能特征增加了一倍以上。

在先进工艺的支持下，Cerebras 可以在同样的8*8英寸，面积约46225mm2的芯片中塞进更多的晶体管。

而且，正是采用了台积电的7nm工艺，电路之间的宽度仅有七十亿分之一米。

当有内核发生故障时，单独的故障内核并不影响芯片的使用。况且在台积电这样的晶圆代工厂中，很少会出现连续的内核缺陷。

由此可见，二代「巨芯」的良率较高。

参考资料：

https://www.wired.com/story/cerebras-chip-cluster-neural-networks-ai/

https://www.tomshardware.com/news/worlds-largest-chip-unlocks-brain-sized-ai-models-with-163-million-core-cluster

继续阅读

阅读原文

关键词

性能

架构

台积电

晶体管

工艺