AIGC快速发展带来对算力的需求极速增长,叠加美国对中国AI芯片的出口管制,导致中国的算力受到严重制约。通过创新的硬件架构、高效的软件算法、硬软件系统协同优化,以及对算力产业的整体战略部署,中国未来有望突破算力瓶颈。
本文字数7015,阅读时长约23分钟
文|汪玉 汝鹏 谢其军
编辑 | 郭丽琴
今年以来,以ChatGPT为代表的AI大模型的出现标志着一个崭新时代的开启。大模型技术的快速迭代催生出一批如Midjourney、Character.AI等类型的AIGC(Artificial Intelligence Generated Content)应用,为办公、电商、教育、医疗和法律等领域带来了革命性的改变。
复杂的AI算法需要大量的计算资源来实现,算力是支撑AI算法运行的基础。AI芯片是专门用于处理AI计算相关任务的协处理器,为AI算法提供了高效的算力,可以显著提升深度学习等AI算法模型的训练和推理效率。
AIGC产业的发展,对算力的需求不断提升,但中国在算力领域面临诸多挑战。
2023年10月17日,美国商务部工业安全局(BIS)公布最新半导体管制规则(下称“1017新规”),升级了BIS于2022年10月7日发布的《对向中国出口的先进计算和半导体制造物项实施新的出口管制》(下称“107规则”)。1017新规分为三个部分:一是调整先进计算芯片出口管制规则,二是调整半导体制造设备出口管制规则;三是公布了新增的实体清单企业名单。包括A100、H100、A800、H800等在内的GPU芯片对华出口都将受到影响。A100、H100是英伟达的高性能GPU,广泛应用于AI、数据分析等工作场景。A800和H800是A100、H100的替代产品,也即在去年美国107规则下,英伟达特供给中国大陆市场的,降低传输速率以符合规定的替代产品,但在今年1017新规后被禁售。上述产品均是目前最适合AI算法研发和部署的高算力芯片。
中国在AI领域对算力有着强大的需求,依赖高性能AI芯片来支持其应用和研究。1017新规取消了“互联带宽”参数限制,同时新增“性能密度”的参数限制。该新规旨在进一步收窄高端计算芯片的出口范围;在大模型AI时代,限制中国计算能力,将会限制AIGC在中国的发展和创新。
本文将逐一解读中国算力面临的主要挑战,包括芯片架构的性能提升到达瓶颈、现有芯片的算力利用率不足、美国出口管制带来的供应链风险。进而分析破局之策,在软件方面优化模型和算法,降低算力需求;在硬件方面开发新架构,提高AI芯片能效比;在系统方面协同整合软硬件,提升系统效率,减少能源消耗;在产业方面加强生态链建设与多方协作,推动共同投入。
01
AIGC迭代加快
当前中国大模型技术仍处于研发和迭代的早期阶段,但产业潜力巨大。中国的高校、互联网科技企业、初创科技公司等都纷纷加入AI大模型的浪潮,已诞生超过100个各种类型的大模型。
根据艾瑞咨询的预测,2023年中国的AIGC产业规模将达到143亿元,未来几年增长迅速。预计到2028年,中国AIGC产业规模将达到7202亿元,在重点领域和关键场景完成技术落地。
AIGC技术在NLP(自然语言处理)和CV(计算机视觉)领域经历了显著的演进。AIGC技术和能力的提升,会为各行业带来更多的创新和应用机会,主要表现在:
从单一任务到多任务。初始AIGC技术主要关注单一任务,如自然语言生成、图像生成和翻译。但未来趋势是训练模型同时处理多种任务,并提高模型的泛化能力。
从单模态到多模态。单模态生成式模型通常专注于一种数据类型,如文本或图像。多模态生成式模型能够同时处理多种数据类型,如文本和图像的联合生成,为增强现实、智能对话系统和自动文档生成等多领域的应用带来新机会。
从通用模型到垂域模型。通用生成式模型在各领域表现出色,但未来趋势是朝着更专业化和垂域化的方向前进。
02
算力供应不足
随着AIGC的发展,模型越来越复杂,参数量越来越大,导致算力需求的增长速度已远超芯片的性能增长速度。在AIGC算法模型部署早期,算力消耗主要集中于大模型训练,但随着大模型用户量增长,推理成本将成为主要算力开支。
AIGC对算力的具体需求,以三个典型应用场景加以说明:
若Google采用GPT等大模型用于推荐搜索:Google每天接受搜索请求35亿次,按照GPT-4 API 0.14元/次的价格,Google每年需要支付1788亿元人民币的API费用。若采用自建算力集群的方案,需要提供每秒约10万次的峰值访问能力,一轮GPT-4对话涉及200多万亿次浮点运算,在计算资源利用率约60%的情况下,需要约10万块A100集群。
若每个MicrosoftOffice用户都采用大模型用于办公:微软使用基于大模型的Copilot赋能办公软件、操作系统与代码编辑场景,有潜力重构未来办公场景。未来的软件开发、文案写作、艺术创作将在与AI的频繁互动对话中完成。根据信息技术研究公司的报告《中国数据分析与AI技术成熟度曲线》,中国的学生与白领人群达到2.8亿人,按每人每天10次的访问需求计算,每年具有1.02万亿次访问需求,需要8万块A100的算力支持。
若人人都有一个定制化的AI个人助理(大模型原生应用),AI个人助理向中国12亿网民提供定制化的教育、医疗、政务、财务管理等服务。在每人10次的日访问条件下,需要34万块A100算力支持。
根据AMD全球CEO(首席执行官)苏姿丰在2023年的主题演讲,从单一算力中心的角度看,过去十年,超级计算机发展迅速,芯片架构创新与制造工艺的进步使得计算机性能每1.2年翻一番。而计算机的能量效率(即单位能量下的计算次数)增长速度仅为每2.2年翻一番。在保持这个趋势的情况下,到2035年,一个高性能的超级计算机功率将达到500MW,约为半个核电站的发电功率。
AIGC严重依赖于高算力,但目前中国在算力方面却遇到了极大挑战。
1)推动芯片性能提升的摩尔定律难以继续维系。
半导体器件的尺寸已逼近物理极限,而制程进步带来的性能提升幅度在收窄。芯片能效比增速明显放缓,更高的晶体管密度也带来更大的散热挑战与更低的生产良率。目前AIGC对算力的需求远远超过AI芯片的发展速度,现有的芯片硬件性能的提升速度难以满足算法模型急剧增长的算力需求,需要新的硬件架构突破。
2)GPU利用率低。
大模型在处理大量数据时,由于算力调度、系统架构、算法优化等诸多问题,很多大模型企业的GPU算力利用率不足50%,造成了巨大的浪费。
3)软件生态不成熟。
目前主流的AI算法都是基于英伟达CUDA进行适配,英伟达的CUDA软件自2006年问世以来,经过十多年的积累,形成了包括驱动、编译、框架、库、编程模型等在内的成熟生态。目前主流AIGC算法训练,大多基于CUDA生态进行开发,壁垒极强。AIGC公司若要更换英伟达GPU,面临极高的迁移成本和稳定性的风险。因此国产GPGPU产品想要大规模部署,软件生态是一个极大挑战。
4)高性能AI芯片供应量不足。
大算力芯片是大模型研发的基础设施,英伟达高性能GPU芯片具有两个核心优势:一是更大的显存配置与通信带宽。高带宽的芯片之间互联对提升大模型训练效率至关重要。二是更高的大模型训练耐用性。消费显卡面向个人应用,故障率和稳定性远差于服务器版本。千亿参数大模型训练需要数千GPU长周期同步运算,任何单一显卡的故障均需要中断训练、检修硬件。相比于消费级显卡或其他芯片,高性能GPU可以减短60%-90%大模型训练周期。
然而,英伟达GPU产能不足,且美国逐渐加码对中国高性能芯片禁售力度。去年10月,美国对出口中国的AI芯片实施带宽速率限制,其中,涉及英伟达A100和H100芯片。此后,英伟达向中国企业提供替代版本A800和H800。根据1017新规,英伟达包括A800和H800在内的芯片对华出口都将受到影响,国内的高性能AI芯片供给出现严重短缺。
目前大模型训练主要依赖于英伟达高性能GPU,禁售对于国内大模型研发进度,带来极大影响。例如,使用符合1017新规的V100 GPU替代A100,算力和带宽的下降将使得大模型训练时间增加3到6倍,显存的下降也将使能训练模型的最大参数量下降2.5倍。
5)自研AI芯片难以量产。
美国将先进芯片的出口许可证要求增加到22个国家。继先前限制EUV光刻机出口到中国之后,也开始限制更低一代的DUV光刻机。此外,美商务部将中国本土领先的GPU芯片企业加入到实体清单中,这将会导致国内自研芯片难以使用最新的工艺制程进行流片量产。
6)高能源消耗带来的电力系统压力。
算力中心的计算、制冷与通信设施均为高能耗硬件。中国电子节能技术协会数据显示,目前中国数据中心的耗电量平均增长率超过12%,2022年全国数据中心耗电量达2700亿千瓦时,占全社会用电量的3%。在大模型时代,中国数据中心耗电量会加大增长幅度,并在2025年预计达到4200亿千瓦时耗电量,约占社会总用电量的5%。数据中心的电力供应以及系统散热,都将给现有的电力系统带来很大的压力。
03
技术如何破局?
面对不利局面,中国的算力瓶颈需要以系统观念统筹谋划,逐步突破,主要包含技术和产业两个层面,方式主要是“开源”和“节流”。
技术层面,我们的建议如下:
1)发展高效大模型。
通过精简模型参数的方式降低对算力的需求。压缩即智能,大模型旨在对数据进行无损压缩。今年2月28日OpenAI核心研发人员Jack Rae表示,通用AI(AGI)的目标是实现对有效信息最大限度的无损压缩。随着大模型发展,在AI复杂性提升的同时,相同参数规模下,算法模型能力也会持续提升。未来或出现具有更高信息压缩效率的大模型,以百亿级参数规模获取媲美万亿级参数规模GPT-4的算法能力。
此外,大模型可以面向特定业务场景做领域适配和能力取舍,减少算力开支。例如在政务问答场景中,模型可以谢绝回答非业务请求。原本依靠千亿参数通用模型才可以解决的任务,有望使用百亿参数量模型即可完成。
2)基于现有模型的软件优化。
如果将GPT-3前后的AI发展划分成1.0与2.0时代,那么AI 1.0时代的软件优化核心任务是使深度学习模型可以在边缘、端侧的低功耗设备上运行,实现自动化与智能化,以在AIoT、智能安防与智能汽车等领域大面积应用。而AI 2.0时代的模型压缩则是规模化、集中化算力需求的整体优化,应用场景需要从“中心”侧开始,然后向边、端侧辐射。
模型压缩是最直接降低算法算力需求的方法,这一AI1.0时代的技术在AI2.0时代也将得到继承与发展。
剪枝利用了深度学习模型参数冗余的特点,将对准确率影响小的权重裁剪,保留网络主干并降低整体计算开支。在AI2.0时代中,Transformer算法模型在长序列输入的情况下,计算延时的瓶颈在注意力机制算子,通过对注意力机制算子的激活值进行裁剪,目前可达到2倍的端到端的加速比,未来有望进一步加速。
参数量化利用了GPU处理定点数的等效算力显著高于浮点数计算算力的优势,利用16比特、8比特、4比特定点数替代32比特浮点数,有望同步降低推理算力需求。
算子融合(Operator Fusion)将多个算子融合成一个算子,提高中间张量数据的访问局部性,以减少内存访问,解决内存访问瓶颈问题。算子循环空间的设计与寻优则通过将计算图中的算子节点进行并行编排,提升整体计算并行度。
总之,通过对现有大模型进行压缩和量化,可以显著减少模型参数量、降低模型计算复杂度,节约存储空间,目前可提升2倍-3倍的计算效率。在降低大模型响应用户的延迟的同时,模型优化技术更可以将大模型高效部署在汽车、个人电脑、手机、AIoT等边、端侧设备中,支持具有高实时、隐私保护、安全性等特点的本地大模型应用。
3)高能效、高算力密度的新架构芯片。
传统计算芯片的能效到达瓶颈,需要通过对芯片架构、互联、封装的改进,从而实现更高的能效。目前主要的方式是数据流架构、存算一体、Chiplet技术等。
数据流架构:通过数据流流动次序来控制计算顺序,消除指令操作导致的额外时间开销。数据流架构能够实现高效流水线运算,同时可并行执行数据访问和数据计算,进一步减少计算单元的空闲时间,充分利用芯片的计算资源。与指令集架构不同的数据流架构,使用专用数据通道连接不同类型的高度优化的计算模块。利用分布式的本地存储,数据读写与计算同时进行,节省了数据传输时间和计算时间。
存算一体:存算一体芯片的核心是将存储与计算完全融合,利用新兴存储器件与存储器阵列电路结构设计,将存储和计算功能集成在同一个存储芯片上,消除了矩阵数据在存储和计算单元中的数据搬运,从而高效支持智能算法中的矩阵计算,在同等工艺上大幅提升计算芯片的“性能密度”。
Chiplet技术:传统集成电路将大量晶体管集成制造在一个硅衬底的二维平面上,从而形成芯片。集成芯片是指先将晶体管等元器件集成制造为特定功能的芯粒(Chiplet),再按照应用需求将芯粒通过半导体技术集成制造为芯片。Chiplet技术可以实现更大的芯片面积,提升总算力;通过chiplet/IP等的复用和组合,提升芯片的设计效率;把大芯片拆成多个小尺寸chiplet,提升良率,降低成本;不同芯粒可以通过不同工艺完成制备,通过异构实现更高性能。
全新的计算架构,可以打破现有芯片的存储墙和互联墙,将更多算力单元高密度、高效率、低功耗地连接在一起,极大提高异构核之间的传输速率,降低数据访问功耗和成本,从而为大模型提供高算力保障。
4)软硬件协同优化,提高计算系统的利用率。
在大模型系统中,软硬件协同对于实现高性能和高能效至关重要。通过稀疏+混合精度+多样算子的高效架构设计、算法优化、系统资源管理、软件框架与硬件平台的协同以及系统监控与调优等技术,可以更好发挥整个算力系统的优势。
在大模型训练方面,由于训练所需的算力与存储开销巨大,多卡互联的高性能集群计算系统是大模型训练的必然途径。英伟达高性能GPU的供应链在中国受到制约,国产化芯片单卡性能受工艺限制,如何使用万卡规模的国产化芯片进行可靠、稳定的大模型训练将是一个必须解决的关键问题。除了提高计算系统规模外,还需开展软硬件协同的高效微调方案研究,降低大模型训练与微调的硬件资源开销。
在大模型系统中,有效的系统资源管理对于确保高性能和高效率至关重要。这包括合理分配计算资源(如CPU、GPU等),优化内存管理和数据传输策略,以降低延迟和提高吞吐量。
为了实现软硬件协同,深度学习软件框架需要与硬件平台紧密配合。这包括针对特定硬件平台进行优化,以充分利用其计算能力和存储资源,以及提供易用的API和工具,以简化模型训练和部署过程。
5)构建异构算力平台。
由于AI算法模型参数量与计算复杂度急剧提升,大模型训练需要大规模跨节点的多卡集群,其硬件挑战来自计算、存储、通信。构建一个千卡规模的大模型数据中心,成本高达上亿元,很多初创公司难以承受。为解决上述难题,降低数据中心建设成本,亟待构建集中算力中心,整合不同架构的异构芯片,实现满足各类应用场景需求的大算力平台。统一的大模型中间层,向上可以适配不同垂直领域大模型,向下可以兼容不同国产AI芯片,从而提升异构算力平台的使用效率,降低用户在不同模型、不同芯片之间的迁移成本,是解决大模型时代算力挑战的关键方向之一。
6)布局先进工艺。
“性能密度”这一核心指标,是由制造工艺、芯片设计水平、先进封装等多个层面协同之后的作用。在当前国内对3nm/5nm等先进制造工艺获取受限的背景下,需要持续攻关先进制造工艺环节中的重要设备和材料,如DUV/EUV光刻机、光刻胶等。
7)能源的优化利用
在碳中和背景下,应对算力中心极高的能耗需求,“数据中心+清洁电力+储能”将是必要发展的路径。数据中心将成为负荷可变、可调的复合体,以便于响应发电、电网侧需求,并通过参与电力交易实现智能化“削峰填谷”套利,降低运营成本。
根据《数据中心能源十大趋势白皮书》,高能耗算力中心无法依靠风冷实现有效散热,液冷将成为标配,供水效率也成为算力中心的关键。传统数据中心散热的水资源消耗极大,对缺水地区的生态环境造成影响。水资源利用效率(WUE)成为国际关注的重要参考指标,无水或少水的制冷技术是未来的发展趋势。
04
产业如何应对?
产业层面,我们则有以下建议:
1)加强顶层设计,谋划算力产业的战略部署;日前,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,加强对算力产业的顶层设计,但仍需要进一步加强整体性谋划。建议在现有相关领导小组中设置算力发展委员会(或联席会),秉持适时适度干预立场,加强算力发展的顶层设计,健全信息交换机制,形成统一协调的决策机制。
2)优化空间布局,整体性推进算力基础设施建设;在贯彻落实“十四五”相关规划的基层上,加强一体化算力网络国家枢纽节点建设,针对京津冀、长三角、粤港澳大湾区等关键算力节点,有序按需推进算力基础设施建设,着力推动已建及新建算力设施利用率。
3)布局引领项目,提升行业共性关键技术储备。发挥国家科技计划的标志性引领性作用,可考虑在国家自然科学基金启动一批项目,开展计算架构、计算方式和算法创新等基础研究;同时,在国家重点研发计划中设立一批项目,开展算力关键技术的应用示范研究,加强算力与相关产业融合应用。
4)探索多元投入,助推算力产业高质量发展。充分发挥产业引导基金的撬动作用,鼓励地方政府通过引导基金加大对算力产业的投入,培育更多好企业、好项目。探索新型科技金融模式,加大对算力重点项目的金融支持。创新算力基础设施项目的社会融资模式,支持社会资本向算力产业流动。
5)营造开放生态,共同构筑新业态新模式。算力的高投入、高风险、高垄断性决定了算力的竞争是少数大国的少数企业才能参与的游戏。政府要大力推动产学研深度融合,引导龙头企业在算力相关的关键技术上下功夫,提升研发能力,搭建开放平台,吸引上下游企业有效衔接,共享算力创新成果。鼓励国内企业、高校等组织与境外有关组织拓展合作。
总结而言,破局算力瓶颈,需要硬件、软件、系统的耦合,基金、生态、产业的协作,具备多层次、多学科大体系的特点。需要把产业应用、科学研究、人才培养、基础平台等结合起来,推动相应的研究及最终商业化落地。
(作者汪玉为清华大学电子工程系长聘教授、系主任,清华大学信息科学技术学院副院长;汝鹏为清华大学智库中心副主任、清华大学公共管理学院副教授;谢其军为清华大学科教政策研究中心主任助理、清华大学公共管理学院助理教授)

 近期话题,点击阅读
继续阅读
阅读原文