要说有什么芯片产品最引数码达人关注,那必然是GPU。

GPU是个热闹异常的市场。围绕GPU/显卡玩梗也成为数码爱好者茶余饭后的一项乐趣:“超低功耗,极致色彩,曲面细分””矿卡论斤卖““一卡一栋楼,两卡毁地球,三卡银河系,四卡创世纪”。它曾一度挑战甚至超越同时期的CPU,它曾让无数游戏玩家为之疯狂,它曾向更深、更广领域延伸触角。[1]
因为国外厂商长期垄断,国内对自主GPU的期盼越来越强烈。
本文是“国产替代”系列的第十五篇,关注GPU国产替代。在本文中,你将了解到:GPU和显卡有什么关系,GPU的国内外市场情况和国产化布局,GPU及背后的思考。
付斌丨作者
李拓丨编辑
果壳硬科技丨策划
01 
那些容易被混淆的概念
GPU(Graphics Processing Unit,图形处理器)又被称作显示核心、视觉处理器、显示芯片,是一种专为并行处理而设计的微型处理器,非常擅长处理大量简单任务,包括图形和视频渲染。GPU能应用在台式机、笔记本电脑、工作站、游戏机、嵌入式设备、数据中心等各种需要渲染图形或高性能计算的场景。
在生活中,我们普遍把GPU叫成显卡。不过事实上,GPU和显卡在术语上有细微差别,GPU指的是负责处理各种任务的那颗芯片,显卡指的是把GPU芯片、显存、接口等集合在一起的那张板卡。
GPU根据接入系统的方式分为集成型GPU(Integrated GPU,iGPU)和离散型GPU(Discrete GPU ,dGPU)两种,前者就是我们日常所说的集成显卡/核芯显卡,后者就是我们日常所说的独立显卡,两种类型GPU均有各自的特点和使用场景。
GPU的两种分类,制表丨果壳硬科技
集成型GPU中,GPU被嵌在CPU旁边,且无单独的内存组用于图形/视频,会与CPU共享系统内存。由于集成型GPU内置于处理器中,通常功耗更低,产生的热量更少,从而延长了电池续航时间。
离散型GPU则完全以独立板卡出现,通常被连接在PCI高速插槽内,就像主板包含CPU一样。离散型GPU除包含GPU芯片以外,还包括允许GPU运行并连接到系统其余部分所需的大量组件。离散型GPU有自己的专用内存,同时也拥有自己的内存源和电源,因此其性能比集成型GPU更高。但由于与处理器芯片分离,因此会消耗更多功率并产生大量热量。[2][3][4]
02 
从专用到通用再到融合
现代的GPU拥有两大功能,一是充当强大的图形引擎,二是用作高度并行的可编程处理器,处理各种神经网络或机器学习任务。
图形计算是GPU的拿手绝活。当我们拖动鼠标时,GPU将需要显示的图形内容计算后呈现在屏幕上;当我们打开播放器观看电影时,GPU将压缩后的视频信息解码为原始数据;当我们玩游戏时,GPU将游戏画面计算并生成出来。轻点鼠标的背后,是复杂的处理过程,包括顶点读入、顶点渲染、图元装配、光栅化、像素渲染等。[5]
图形GPU广泛应用于游戏、图像处理和加密货币等场景,关注图像学的帧数、渲染逼真度、真实场景映射度等参数指标。[6]
对图形API定义的流水线实现硬件加速的不同阶段,制表丨果壳硬科技
参考资料丨《计算机体系结构基础》[5]
通用计算是GPU并行计算优势的最佳体现。科学家和工程师发现,只要数据以图形形式存在,并将GPU基础上增加部分通用计算能力,GPU就能胜任各种高性能模计算任务,也就是行业所说的通用GPU(GPGPU,General-Purpose Graphics Processing Unit)。本质上,通用GPU还是一种GPU,不过它会针对高性能计算、AI开发及许多其他惊人的突破上定制和靠拢,因此所使用的训练集更大、训练时间更短、分类/预测/推理功率更低、占用基础设施更少。[7]
通用GPU主要应用在大规模人工智能计算、数据中心及超算等场景,以支持更大的数据量和并发吞吐量。[6]
两大功能的背后,是一部漫长的发展史。
1962年, Ivan Sutherland(伊凡·苏泽兰)的论文《SketchPad:图形化人机交流》和他录制的Sketchpad操作视频成为定义现代计算机图形学的基础[8]。之后的20年内,受精度和运行强度等限制,彼时的显卡仅仅是将CPU计算生成的图形翻译成显示信号,所以只能称作图形适配器(VGA Card)[9]。直到IBM在1984年推出了MDA和CGA两款2D显卡,才意味着行业产生雏形,虽然放到现在两款产品只能算作是丑小鸭,但却标志着GPU开始走向与CPU分庭抗礼之路。
上世纪90年代,3D图形加速兴起。历史上第一块真正意义的3D图形加速卡Voodoo问世后,S3又推出第一款同时拥有2D和3D图形处理能力的显卡S3 Virge[10],此后行业便开始多点开花,逐渐诞生出NVIDIA的NV1、Matrox的Mlennium、Mystique、PowerVR的PCX1等优秀产品,一度显现出百家争鸣的盛况。繁华过后,便是残酷的大鱼吞小鱼式并购和行业整合,形成英伟达、AMD两家独大的格局。自此之后,GPU也开启了跨越式的迭代之路。
独立显卡发展历史,制表丨果壳硬科技
参考资料丨IEEE Computer SOCIETY[11],英伟达官网[12],公开资料
GPU的通用性,是在迭代中逐渐表露出来的。20世纪90年代到21世纪初,为应对更为复杂和大量的图形计算问题,GPU模式不再为固定图形流水线模式,处于图形流水线中的顶点处理器、几何处理器、像素与子素处理器的可编程性得到增强,表现出通用计算能力。随后,为解决GPU片内负载均衡问题,统一渲染处理器(Shader Processor)取代了各种可编程部件,同时流处理器(一种流计算模型上充分考虑并发和通信的计算体系)的应用奠定GPU通用计算的基础。[13]
GPU在可编程性和计算能力上的快速增长,引得大批研究团体关注,争相将大量需要计算的复杂问题映射到GPU上,并将GPU定位为未来高性能计算机系统中传统微处理器的的替代方案[14]。英伟达所研发的Tesla架构正式标志着GPU朝向通用GPU发展,为后续在深度学习领域广泛应用奠定了基础。[15]
GPU从图形显示到通用计算之路[16]
时间回到现在,GPU在图形计算上的专用性和面向人工智能的通用性上,引发科学界的争论,是否要将GPU的AI和3D功能拆分成两种DSA。GPU专用于图形计算效率高,但只支持几种特定的算法和模型,走通用计算兼容性好,但效率差,功耗也大。[17]
目前行业一致的观点是GPU在图形计算和通用计算表现出的“双重人格”会逐步融合,未来将不再拥有功能界限,GPU也将拥有原生可微和张量加速能力。[18]
那么,再往后呢?从近几年的大会来看,GPU将向大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AI GPU)、更加逼真的图形展现(Ray Tracing GPU,光线追踪GPU)三大方向发展[16]。其中AI是关键,GPU硬件/软件界面将使GPU成为“AI世界的CPU”,基于AI的渲染会让张量加速成为GPU中的主流。[18]
GPU的两大功能和应用[16]
03 
GPU与CPU的抢婚者
GPU虽然好用,但它也脱离不开CPU。一方面,GPU无法单独工作,需要依赖CPU控制调用;另一方面,二者的架构极为不同,构建目的也各有不同。
CPU会包含4个、8个、16个甚至32个以上的强劲内核, 同时一个内核之中便封装了算术逻辑单元(ALU)、浮点处理单元(FPU)、 地址生成单元(AGU)、内存管理单元(MMU)等几乎所有功能。一般来说,CPU中计算单元ALU约为25%,逻辑控制为25%,缓存Cache为50%。反观GPU中计算单元ALU通常达到95%,缓存Cache则为5%。[19]
最初,GPU是为了帮助CPU加速图形处理而设计的专用硬件。图形渲染具备极强的并行性,需要非常密集的计算与巨大的数据传输带宽,所以GPU被设计成包含成千上万个较小内核的形式。每个GPU的内核都可以并行执行一些简单的计算,内核本身算不上十分智能,但与“一核有难八核围观”的CPU不同,GPU能同时动用全部内核执行卷积、ReLU和池化等深度学习计算。除此之外,GPU采用了灵活的存储层次设计以及两级编程编译模型。[20][21]
GPU和CPU的不同点[22]
不同的结构设计使得GPU有了自己的专长。GPU的频率只有CPU的三分之一,但在每个clock周期中,它能够并行执行多于CPU将近100倍的计算,在大量并行度任务中,GPU比CPU快得多,对那些并行度很低的任务,显现的速度就会慢得多。另外,相比CPU,GPU通常拥有5~10倍的内存带宽,但在访问数据时会有更长的延迟,这就造成GPU在可预测的计算上做得更好,但在不可预测的计算上做得更差。[23]
由此可见,CPU和GPU是互补且不冲突的,前者专注串行运算,后者专注并行运算。打个比方来说,可以将CPU理解为博士,不仅知识渊博,诸多问题也钻研得很深,没有他许多难题都没有办法解决。而GPU就是上万个初高中生,只会简单的算术,但无论博士有多强大,也不可能在一瞬间计算出上万道简单的算术运算。[24]
CPU和GPU间的不同[22]
翻开计算简史,诞生了丰富多样的数字芯片,每种数字芯片都有一段沉淀良久的发展史。计算机背后就是计算问题,无外乎标量、矢量、矩阵、空间几种数据类型,GPU与其他数字芯片难免会产生交集和重合。现在,CPU依然还是那个CPU,GPU却可以不是GPU了。
长久以来,GPU与FPGA、ASIC的争议不断,它们可分别构成“CPU+GPU”“CPU+FPGA”“CPU+ASIC”的异构计算系统,同时FPGA和ASIC厂商时常将自家产品与GPU算力平行对比,如NVIDIA Tesla A100时常成为“战力计量单位”,CPU的抢婚者们都在诉说着自己的优势。
理性而言,GPU、FPGA、ASIC都是配合CPU计算的好能手,对厂商还是下游使用者而言,三者的特性截然不同,虽然可能会在部分应用场景下表现出更强的算力或更好的功耗,但部署过程难免要综合考虑TCO(总拥有成本)、构建难度、系统兼容度等,很难评判孰强孰弱。
不同计算器件的对比,制表丨果壳硬科技
不过,GPU相对产品成熟,峰值计算能力优异,同时在图形显示的地位无可撼动,顺理成章地搭上半导体热潮,成为市场追捧的宠儿。
数据显示,AI训练阶段,GPU约占64%市场份额,而FPGA和ASIC分别占比22%和14%;推理阶段,GPU约占42%市场,而FPGA和ASIC则分别占比34%和24%。[25]
不同应用场景AI芯片性能需求和具体指标[25]
被国外垄断的格局
GPU不仅在当下是一门空间广阔的生意,未来更是潜力无限。
根据Verified Market Research数据显示,从2021年到2030年,GPU将以33.3%的年复合成长率,从330亿美元成长至4773亿美元。[26]
GPU会按照平台对功耗负载要求不同,制作成各种规格,如手机中GPU典型功耗为5W,笔记本电脑中典型功耗为150w,台机能够到达400W,数据中心全力追求性能。根据功耗大小,市场主要划分为桌面级和移动级两种应用。
两个市场均呈现三足鼎立的态势:桌面级GPU市场被英伟达、AMD和英特尔所垄断,移动级GPU市场被Arm、Imagination和高通所垄断。在软件层面,上述国外公司也对如CUDA和OpenCL等一系列异构计算标准提供了支持。[27]
桌面级产品方面,面向PC或游戏的图形卡占大多数市场,拥有50%以上的份额,数据中心。
Jon Peddie Research(JPR)数据显示,2022年Q2,PC使用的GPU出货量(包括集成和独立显卡)为8400万块,其中英特尔GPU市场份额高达68%,主要归功于英特尔在台式机/笔记本电脑CPU集成大量核显;AMD以17%份额居于第二,这家公司既有核显也有独显,但核显明显占大头,独显只占整体PC市场约3%;英伟达则主攻独显市场,所以虽然看似只有15%市场份额,但基本称霸独显市场。[28]
2022年Q2 PC市场GPU供应情况[28]
英伟达是全球独立GPU的绝对领导者。初期,英伟达的重心是PC图形处理业务,此后乘着GPU通用的热潮,拓展至智能终端、自动驾驶、AI算法等领域。从2022年Q2财报来看,英伟达的主营业务包括游戏GPU、数据中心GPU、专业视觉设计GPU、智能驾驶GPU以及OEM和其他业务,占比依次为30.5%、56.8%、7.4%、3.3%、2%。[29]
为了更好地应对竞争,英伟达每一代显卡的架构设计变化都非常大。经过统计英伟达每一代架构情况来看,性能提升的核心两要素流处理器(Streaming Multiprocessor,SM)和缓存(Cache)都有较大设计改动,这是为了在芯片有限的面积、功耗下,不断调整各种组件配置比例,通过制程工艺迭代,寻求最优解法。[30]
英伟达架构变化[30]
英伟达是GPU概念的提出者,几乎每一款产品都会引起游戏爱好者、设计者大规模讨论。尤其在40系使用了全新Ada Lovelace架构,采用TSMC 4N定制工艺,着色器能力高达83TFlops,有效光线追踪计算能力达到191TFlops,是上一代产品2.8倍。另有第四代Tensor Cores,FP8张量处理性能高达1.32PFlops,是上一代的5倍。[31]
英伟达30系和40系显卡汇总,制表丨果壳硬科技
与此同时,英伟达还是数据中心GPU的倡导者。不仅在业界最先推出通用GPU产品,还在2006年发布并行编程模型CUDA。通用GPU与CUDA组成的软硬件底座,构成了英伟达引领AI计算的根基。[6]
不过,英伟达的这几个月也不好过。受半导体产业需求持续下滑影响,一度出现财报雪崩、股价大跌的情况。而新发布的40系显卡也争议满满,导致黄仁勋取消RTX 4080 12GB版本。[32]
AMD的GPU以性价比为主要竞争力。在独立GPU上,同类产品价格普遍低于英伟达30%左右,在集成GPU上,其包含核显的APU产品比包含核显的英特尔CPU更便宜。[33]
核显方面,据Tom's Hardware测试数据显示,AMD锐龙系列的核显在诸多游戏中表现优异。[34]
核心显卡部分性能对比[34]
独显方面,AMD一直是英伟达的追赶者,仅从浮点算力来看,与英伟达有一定差距;从性能实际表现来看,与英伟达平分秋色。要说N卡(英伟达)和A卡(AMD)孰强孰弱,暂且没有任何人能给出定论。[35]
独立显卡部分性能对比[35]
在大家的认知中,英特尔跟GPU似乎完全搭不上边,但实际上它在GPU出货量上却是实实在在的老大,得益于其CPU在全球PC市场占据将近七成(包括移动笔记本、台式机、服务器),其核显也被顺带进入千行百业。
2009年Q2~2022年Q1全球PC图形处理单元(GPU)出货份额(按供应商划分)[36]
但强如英特尔,也在独立GPU上屡次折戟。
英特尔在GPU绝对不是新手或是业余选手。这家公司拥有业内最优秀的GPU工程师、最好的晶圆厂、别人只能幻想的银行账户和响彻全球的品牌,甚至已经坐拥全球最大的GPU销售商的称号,出货量比竞争对手的总和还要多。也许,对其他公司来说,有这样的成就就已经很满足了,但英特尔20年来,在独立GPU上的屡屡失意让这家公司意难平。[12]
1998年,英特尔就曾发布过一款产品Intel i740,这款产品的3D性能表现还不错,但在ATI、英伟达、S3 Graphics等一众产品中,只能算合格,无奈也只得暂时放弃独显之路。
之后在2009年,英特尔并没有放弃独显的梦,计划打造Larrabee图形处理器。要知道,当时的GPU就是将简单的小计算核心组合起来,而英特尔也刚好手握当年的奔腾一代处理器核心P54C。将这款在当时已有20多年历史的核心集成起来做成显卡听起来容易,但显然Larrabee研究项目还是给英特尔带来诸多烦恼,无数次的跳票和研究经费不足的新闻之后,最终计划宣告失败。不过,英特尔在Larrabee研究基础上,发展出了众核架构(MIC)的Xeon Phi协处理器,并被天河2号所选用,因此英特尔这次也不算白忙活。[37]
2020年,英特尔浴火重生,把独立显卡的一切都押注在了新推出的Xe架构上。2022年,英特尔Arc(锐炫)系列显卡横空出世,移动、桌面、工作站、数据中心全覆盖。这次英特尔能不能成功,还是要看后续的市场反馈。
移动级产品方面的故事就不像桌面级GPU那样丰富多彩了,尤其是在手机、平板、可穿戴设备上,GPU与架构高度绑定,Arm、Imagination、高通Adreno等IP架构各有拥趸,格局恐难巨变。[38]
从产品上来看,联发科、三星的手机SoC所用GPU IP大部分来自于Arm;苹果和高通的GPU IP则为自研(苹果的GPU较大程度沿袭自Imagination);紫光展锐的手机SoC则使用了Imagination的GPU IP。[39]
智能手机和平板GPU基准测试排名[40]
04 
国产GPU有什么机会?
“英伟达的数据中心GPU的价格,贵得惊人,国产还替代不了。”经济观察网此前援引从业者的话表示,英伟达A100 GPU售价要三千美金左右,还没有什么替代,并且在今年6月,英伟达通知对A100 80G GPU芯片涨价20%。
行业早已苦垄断久矣,近两年,国内掀起GPU融资潮,项目一个接一个地融资。
从2020年开始,GPU行业融资总额已超过200亿元。仅2020年~2021年,通用GPU领域就有近20起融资事件发生,这些公司所追求则主要是桌面级的独立显卡市场。据Verified Market Research数据显示,2020年中国大陆的独立GPU市场规模为47.39亿美元,预计2027年将超过345.57亿美元。[41]
为什么国内新创企业独爱独立显卡?一方面,集成型GPU与CPU高度绑定,基本都是CPU厂商进行设计生产,如英特尔和AMD两家公司的核显,再如国产CPU厂商龙芯7A2000内部集成的自研GPU[42];另一方面,独立显卡属高性能器件赛道,不仅技术领先于集成显卡,而且应用面更宽,反观集成显卡大多是作为亮机卡或低负荷的日常卡使用。
目前来看,获融的初创公司如芯瞳半导体、芯动科技、摩尔线程、天数智芯、壁仞科技均已陆续推出产品,甚至已进入一些整机,龙芯中科、海光信息、寒武纪、芯原股份几家上市公司也持续耕耘GPU业务(包括集显和独显)。
但总体来看,国产GPU产品仍处在起步阶段,缺乏应用场景,产品性能与英伟达、AMD产品有一定差距,软件和生态较难竞争。虽然优势并不明显,但在国际间不可抗力因素驱使下,国内不得不考虑国产平替问题。
国内GPU融资上市情况,制表丨果壳硬科技
参考资料丨《科创板日报》[43]、首创股份[44]
为什么GPU会如此吸金?因为GPU真的很难设计和制造,它与CPU并称两大最难芯片。行业人士一致认为,造GPU比造CPU还难,对运算性能、安全性、稳定性要求极高,要复杂完整的系统设计,才可能完成。[45]
国产GPU还有哪些困境和机遇?果壳硬科技团队认为:
  • 先确定做什么
实际上,GPU在不同应用场景,也有不同的要求,选好切入点至关重要。目前来说,主要包括AI人工智能、FP双精度浮点运算和图形渲染三类产品,其中图形渲染最难。[46]
另外,还要考虑算力成本。在如今动不动几纳米的制程工艺下,半导体生产必然存在良率问题,很难做到分毫不差。考虑到纳米制程越小代工难度越大,全部都追求最好最稳定并不现实,同时最终成本也会反应在消费端,想立足市场就要考虑算力成本,为不同需求的客户提供多种可选项。[47]
英伟达以刀法精准著称。其GPU会在生产初始阶段,扫描流处理器坏区并将这些电路关闭,根据坏区多少分为三六九等,质量高且稳定的核心便是价格更高的数据中心处理器,质量不错但相对次之的便分别出货给4090、4080[30]。这样的好处是既能做到数据中心、工作站、个人计算机的低中高端全覆盖,又能给不同需求的提供不同的成本选项。
英特尔、AMD、英伟达官网显示,三家的产品不仅价格档位分类清晰,也覆盖诸多场景。反观国内GPU厂商,也主要分为数据中心GPU和消费级GPU两个档位,但起步阶段尚不能覆盖全部场景。
  • 比CPU更难
为什么国产难以攻破GPU?
首先,GPU专利壁垒极高,专利全球布局重心在美国,国际巨头可以通过规模效应分摊研发成本,不断在专利上埋雷,限制竞争对手发展。
其次,由于GPU没有控制器,需要依赖CPU控制调用,无法单独工作,因此国产GPU必须与国产CPU同频共振。
从技术实现难度来看,GPU是一种比CPU还要难开发的芯片,国内缺乏领军人物和工程师,一个经验丰富的工程师至少要在大厂锻炼10年以上。从目前国产企业情况来看,创始团队基本均有英伟达、AMD的工作经验。[25]
除此之外,软件生态也是GPU的另一个门槛,软件决定了GPU生态的能力上限,也是充分释放硬件能力的必要条件[47]。英特尔也有类似的观点,他们表示基于GPU构建的软件生态,将为不同负载开发芯片提供解决之道,考虑到高性能计算、人工智能和游戏等诸多领域需求,软件生态需要以高度协同的方式不断演进。[47]
  • 芯片可编程性不是决定性因素
《中国科学》一篇论文中指出
[48]
,有人将芯片可编程性当作芯片普及的重要指标,并表示不容易编程的芯片就不会在市场上取得成功。判断逻辑就是简单的“编程性不好=不好用=用的人少=市场小=失败”。

实际上,DSP也好、NPU也好、还是以CUDA为代表的GPU等处理器芯片,在编程上都是有具有门槛的,但这并不妨碍它们拥有每年数千万颗的出货量和数百亿美金的市场容量。
编程本来就是专业人士才要考虑的问题,对GPU来说,编程的难易程度不会直接影响市场需求的规模,性能、功耗、性价比才是拿下市场的关键。
  • 消费电子需求下行影响
半导体行业在近期已进入第十七次下行阶段,市场对GPU需求走弱,英伟达、AMD独立GPU均受到较大波及。
除此之外,GPU在此前之所以出现价格疯涨和缺货漩涡,一方面,是线上办公模式的兴起,另一方面,是它不务正业的应用,挖矿。反观现在发展态势,线上办公红利期早已结束,加之加密货币乱象已终止,AMD也在财报中坦言其独立GPU业务受挖矿影响较大。
按照这种逻辑来看,国产GPU大多数量产时间均处于下行周期内,且缺乏大规模应用契机,将会迎接不小的市场考验。
何解?
一种解法是剑走偏锋,逆向投资。果壳硬科技曾在历史文章《半导体跑步进入大过剩时代》中提到,半导体行业存在逆向投资的策略。如三星半导体三次在全球半导体市场走弱的情况下逆向投资,扩大产能,击败美国、日本、欧洲玩家,在DRAM芯片市场拿下超40%份额,稳坐头把交椅。
另一种解法是抓住现有空间,撑到市场反涨。现如今,算力成为重要生产力,每12个月便会增长一倍,同时每投入1元在算力上,就能带动3~4元的GDP经济增长,因此才会有东数西算这种重要策略。国产需要抓住现有机遇,期待下一个半导体上行周期。[49]
  • 国产GPU需要更多时间沉淀
与此同时,国内GPU也存在一些有趣的现象。
科工力量曾指出,为了在宣传中超越英伟达,国产GPU存在田忌赛马式比拼,如某款标榜超越国际旗舰级算力的GPU,却不支持双精度浮点运算,只能用于人工智能方向。[50]
问芯Voice指出,号称国产GPU有名不副实的情况,一种是内建AI加速器来跑个别性能指标的分数,并以此宣传超过英伟达,但实际上AI应用覆盖的是千行百业,不可能只为了跑一两个性能指标,一颗好芯片的关键是通用性[51];另一种是使用第三方的GPU IP授权,并宣称是自研自主可控。[52]
事实上,半导体行业从来都不是浮躁心态的短线交易,而是一个需要长期技术沉淀与大鱼吞小鱼式洗牌的过程。对于难度极高的GPU,国产更需平心静气,超越英伟达并非一两日的易事。
-END-

往期推荐:点击图片即可跳转阅读
蓝桥杯,进决赛了
搞嵌入式,不懂DMA?笑死人。
在华为五个月,我的所见所得!
继续阅读
阅读原文