挑战英伟达，GPU芯片新锐Groq有戏么？

点击上方蓝字关注“尹哥聊基因”

最近微信改版，容易找不到尹哥的文章，大家记得把尹哥设为星标⭐️ 哦~

美国时间2月22日，英伟达财报一出，股价单日增长2770亿美元，创下华尔街历史上最大单日市值涨幅。但请不要忘记，就在数天前的2月20日，一路高歌猛进的英伟达股价盘中跌幅接近7%，引发过一轮不小的地震。这背后到底发生了什么，让我们一探究竟。

△ 最近1个月，英伟达股价走势（来源：雪球）

2月20日，美国芯片初创公司Groq推出了面向云端大模型及自研的推理芯片LPU，在此之前业界通用的AI芯片几乎被英伟达GPU垄断。在LPU上跑大模型和在英伟达GPU上跑大模型有什么不同？答案就一个字：快。Groq LPU上每秒生成token的速度比以往GPU上的快了十多倍，原来的GPT在聊天时是“一个字一个字往外蹦”，但Groq基本可以做到实时秒出答案。

人们期待，能将霸主英伟达挑于马下的骑士终于来了吗？我们跟着Groq的公开资料，来看一下它究竟是如何变快的。

查看Groq团队成员，发现竟是大名鼎鼎的前谷歌TPU芯片研发团队，那可是最早的神经网络专用芯片，实力肯定是毋庸置疑的。Groq加速卡产品定义是LPU（Language Processing Unit™），是一款针对大语言模型计算特点设计的专用芯片。用一段专业的话来描述就是：

采用RISC核心，利用SIMD的方式数据并行计算，内置VXM+MXM硬件模块加速AI计算，使用TSP来控制计算和数据流，从芯片设计来看更加接近CPU+NPU的设计，和TPU有异曲同工之妙，但采用了SRAM作为内存以获取超高的读取带宽。〔参考自Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads (groq.com)〕。

看不懂没关系，我们先记住这款LPU是AI专用芯片就行了。英伟达的GPU其实是相对通用的芯片，除了做AI推理，还能做AI预训练，甚至游戏、图像处理加速，我们叫GPGPU（General-purpose computing on graphics processing units）。这意味着LPU和GPU其实不是一个维度的对手，一个是短跑运动员，另一个是十项全能选手，两人去比赛百米跑结果是注定的，但彼此并不构成直接的替代关系。关键要看AI推理这一专用场景规模是否足够大。

△ 加速卡GroqCard™参数

从官网查找了这款芯片的资料，我们再和当前地表最强AI芯片H100做个对比，整理出几个重要参数：

算力其实受很多指标的影响，最能代表算力的是FLOPS（floating-point operations per second），每秒可进行的浮点运算次数，俗话说就是一秒钟能算多少次加法，算得越多计算能力越强。按16位数字计算LPU的算力是188T Flops，就是1秒188万亿次运算。

第二个指标是内存，用来存储计算时所用的数字。内存也有两个核心指标来衡量：容量和读写速度。

LPU里采用了一种叫SRAM的内存介质，它的特点就是读写速度飞快，大概是GPU显卡DRAM的100倍，这也许是为什么LPU计算快的原因。但任何事情都是有代价的，SRAM的成本也非常高，体积也大，所以LPU上的SRAM内存只有230M，但GPU有80G，两者相差了有320倍。所以它是牺牲了容量来提升读写速度。

牺牲的容量是否会影响计算？我们来做一个测算：

以部署著名的开源大模型LLama2-70B（FP16）为例，一共需要约150G内存，因此需要大约700张LPU卡共同协作才能完成加载。一台4U服务器可以装8张LPU卡，所以总共需要约90台服务器。作为对比英伟达A100/H100的主流显存是80G，一台4U服务器就可以部署LLama。这么看，虽然速度是提起来了，但是代价还是有点大。

另一个指标是功耗：不管内存还是计算单元都是要耗电的，两张卡想要去比较还是要拉到同一个水平线来，就像举重比赛要给运动员设置公斤级一样，不能单看举起的重量。目前看，LPU的功耗是H100的一半，和英伟达上一代显卡A100更为接近。

这里其实还涉及到了一个算力密度的概念，即同等大小的服务器可以提供的算力。你不能拿十台服务器去和一台服务器去比算力，他们占的空间不一样。它和制程工艺、芯片设计、机房管理都息息相关，这里就不展开赘述了。

应用场景：AI大模型的生成需要通过“训练”和“推理”两大步骤，训练是造机器人，推理是用机器人对话。其中预训练所消耗的资源远远大于推理，有报道称大模型训练一次需消耗近万张GPU跑几个星期，训练一次的成本百万美金。好在预训练只要做一次就够了。Groq的LPU更像是为推理设计的。但即使这样，每张卡仅有230M内存确实还是太小了，目前看应用场景只能是云端推理。

价格：目前已知的单卡标价并不便宜，约2万美金，所以它的卖点就只能是快，相对来说成本会很高。

目前我们还没有足够时间去验证LPU设计这样的算力内存配比是专为LLM推理计算特点而定，还是受到了SRAM的工艺成本限制。当然，还一种声音表示Groq有可能只是用230M SRAM做高速缓存加速，仍会使用DRAM用于存放模型参数。并找到了类似的例子是另一家公司D-Matrix的AI处理器，它卡内同样内置了256MB的SRAM，但同时支持高达32GB的DRAM内存。

Groq能替代英伟达吗？

Groq声称要三年内赶超英伟达，对此网上有很多质疑的声音，从前面的分析也能看出，这款LPU其实是专用芯片，替代英伟达至少今天不可能。但不可否认，Groq已经给出了挑战英伟达的思路：以专用芯片打通用芯片。巧合的是，查看芯片的发展历史不难发现，当年GPU从CPU市场中分出一杯羹的方式也是以专用打通用。当时的市场需求是，CPU是万能的，但对于游戏这个专用领域的玩家来说不够快，GPU作为能高速处理图像的芯片可以让游戏不卡顿、更清晰，GPU也一度被称为游戏显卡。今天的情况很类似，当GPU已经发展成异构计算中的王者时，对于大模型这个专用领域的用户来说，也需要一种更为专业、高效的芯片。

从技术层面讲，对于特定细分应用来说，专用芯片一定是最高效的。但一项技术能不能成为落地产品，还需要谨慎的商业考量，是否有足够的市场前景在更大程度上影响着商业决策。中国有句古话，“天下大势，分久必合，合久必分”。这一现象或规律在计算芯片领域或许将同样适用。过去，由于没有足够的细分市场预期，各个市场玩家的技术路线多聚焦于CPU和GPGPU这类通用产品。但对于具体细分应用来说，实际上通用芯片的算力和功耗资源都存在着不同程度的浪费，买得越多用得越多浪费得也就越多，最终带来的是高昂的获取成本和应用成本。但随着以GPT为代表的真正的人工智能时代的到来，细分市场的前景和规模越来越明晰，利用专用芯片来提升细分应用运行效率和降低使用成本，或将成为一种普遍趋势。同时，通过精心的芯片硬件和软件设计，专用芯片可以在不那么高端的制造工艺下就可以在细分领域实现与通用芯片的性能对标，这一点Groq已经给出很好的示范案例。在中国大陆芯片制造产业链现实条件和未来可能的美国对中国高技术长期封锁的大背景下，大力发展专用芯片不失为一种破局的有效策略。

除了效仿Groq，是否还有其他的思路？

我们很欣喜地看到，国内IT界除了跟随英伟达走GPGPU路线之外，也不乏一些有识之士通过差异化的创新路线开展破局尝试。我们一起来看看几个代表性团队。

以英伟达为代表的GPGPU路线，从根儿上看，其完全依赖于先进芯片制程，即通过最小的光刻工艺来堆叠最多的晶体管实现最大的算力来支撑大模型。从某种意义上讲，这亦是一种暴力美学。而深圳墨芯公司反其道而行之，其没有一味追求先进制程来暴力堆积硬件算力规模，而是通过软件优化来剔除模型中的无效运算以降低模型的实际算力消耗，称之为“稀疏化”技术，利用其全球首款高稀疏倍率AI芯片，支持高达32倍稀疏。2023年在MLPerf Inference 3.1中的GPT-J大模型上，与4nm制程、700W的H100纯硬件加速方案相比，12nm制程、250W的墨芯S30计算卡通过“原创的双稀疏算法+硬件协同”方式，取得了高达1.8倍的优势，在单卡、4卡、8卡的算力均获得第一。可以预期，如果利用与GPU同样制程制造稀疏芯片，稀疏化技术，在性能、功耗和成本等方面的优势将更加凸显，值得关注。

△ 来源：https://www.moffettai.com/mobile/news/500.shtml

计算技术创新的另一个典型案例是上海曦智科技推出光计算芯片技术，严格讲应该是光电混合计算技术。其在光子芯片输入端利用输入向量作用于光调制器产生光矢量并输入到光子矩阵进行矩阵运算，而后在光子芯片的输出端再转换为电子信号输出计算结果。该技术有两大核心优势，一是光子计算几乎无能耗（除了持续的光源输入和调制）、二是光子的传输极快延时极低。其在2021年12月推出的第二代光子计算芯片PACE具有64*64矩阵、10000个光子器件，可实现150ps的计算延时，并在运行特定循环神经网络时，运行速度可以超过主流GPU的数百倍。同时，不同于GPU依赖7nm甚至更小芯片制程，45~65nm制程即可满足光子芯片的制造需求。

尽管目前光计算尚未看到任何商业应用落地，但作为后摩尔时代极具突破性的革命性技术之一，光子计算作为下一代算力提升的关键技术已逐渐成为全球半导体的行业共识。我们相信，借助光子计算在高性能和超低能耗等方面的巨大潜力，未来有望推动人工智能真正惠及到全球人人处处。