大模型亟需高效低碳的算力,绿色AI技术或成新机遇。
雪小顽
编辑苏建勋
来源36碳(ID:carbon_36kr)
封面来源Pexels
AI大模型浪潮席卷全球,目前还只有巨头做得起。
训练一次大模型,要消耗多少算力成本?以ChatGPT为例,公开数据显示,ChatGPT一次模型训练需要的总算力消耗是3640PF-days(即每秒计算一千万亿次,需要计算3640天),耗资千万美元级别。
切换到应用场景,按照国盛证券报告,以今年1月ChatGPT独立访客平均数1300万来计算,对应芯片需求是3万多片英伟达A100 GPU,约合算力成本8亿美元。
贵只是一方面。事实上,A100在国内早已有价无市,不少企业只能选用性能较低的芯片代替。算力的不足,可能导致大模型研发速度的降低。
《中国算力发展指数白皮书(2021)》显示,我国智能算力(为人工智能计算提供算力)占比已由2016年的3%,提升至2020年的41%。可以想见,在AI大模型时代,智能算力的需求增速仍会加快。
算力需求规模增长本身不是坏事,真正的问题在于,一边是加速上涨的需求和成本,另一边却是极大比例的算力浪费。以中国为例,我国大部分数据中心的算力利用率仅有8%-12%左右,也就是说,多数的算力消耗是被浪费掉的。这是企业创新的高门槛,也是社会的高昂成本。
过去,科技业界在碳中和这个目标上,主要关注点在算力的生产环节,也就是电力如何尽量大地转换为算力,为此进行了种种对数据中心、计算芯片的改造和升级,把PUE从1.6、1.5降低到1.1甚至接近1.0。而AI大模型时代的到来,让业界必须把关注点转移到小数点前那个“1”,聚焦在计算效率的提升,绿色AI技术或将成为大模型竞逐潮中的新机遇。
4月下旬,蚂蚁集团发布了2022年度碳中和数据,全年68665.35吨的减碳量,有62127吨都来自其自研的绿色计算软件技术体系;在2021年,基于该技术的减碳数字是29591吨,一年内翻倍有余,技术进步明显。报道中提到,蚂蚁在2022年新增了对绿色AI技术的研发应用,提高了AI大模型全生命周期及数据构建的算力利用效率。
来源:蚂蚁集团官方
为此,36碳专访了蚂蚁绿色AI负责人张科,他分享了绿色AI技术在蚂蚁的实践经验,和对AI大模型领域未来算力效率问题的一些思考。

蚂蚁“绿色AI”的5个抓手

公开报道显示,蚂蚁从2019年起大规模探索一系列的绿色计算技术,到目前建立了计算、存储和算法一体化的绿色计算技术体系,绿色AI是其中一部分。张科介绍,其实在大模型如火如荼前,蚂蚁已经将绿色计算技术拓展到提高大模型算力利用率上,目的是减少从0到1重复学习和资源浪费。
从绿色计算技术体系的整体来讲,蚂蚁绿色AI的实践有5个关键词:智能分布式训练;AI数据视图;新模型研发范式;算力归一;软硬结合。
来源:蚂蚁集团官方
智能分布式训练服务,针对的是AI模型的训练难度。通常来说,算法研发在进行模型训练时,需要了解模型训练的分布式节点算力和内存分配等一系列细节,以及分布式策略的选取和调优。这对于算法工程师的要求很高,投入进去的人力与机器资源也是个很大的数字。为了提高这部分工作的效率,蚂蚁开发了一套智能分布式训练服务,让研发者可以在做模型训练时只提供简单的单机模型,至于分布式策略选取和调优、硬件细节参数的设置和动态调整等,都可以交给分布式训练服务去做。通过智能选取数据并行、模型并行、流水线并行以及混合并行策略,目前蚂蚁大模型训练性能较开源界最佳实践提升40%以上。
另一个提高算力效率的途径是标准化,即“算力归一”。简单来说就是把不同硬件架构的CPU/GPU归一化到逻辑算力,对上层软件栈屏蔽掉不同的硬件差异,对调度和业务展现出统一的逻辑计算能力,降低算力调度使用的复杂度。
张科告诉36碳,云计算本身带来的最核心的技术就是虚拟化,蚂蚁在运用好云原生技术带来的红利同时,也绕不开如何将AI的硬件进行虚拟化。特别是当下一家独大的AI芯片市场正在被打破,异构硬件的繁荣也带来了整个应用系统的研发适配的工作量。蚂蚁分别从2019年和2021年开始探索实践CPU和GPU的算力归一化技术,并全面应用到公司集群的混合部署和调度中,配合高效安全的腾挪和隔离技术,集群利用率提升非常显著。
屏蔽硬件差异还不够。和算力一样,再高性能的硬件,发挥不好也是浪费。国内大厂在大模型训练时所需要的CPU/GPU等,在很大程度上依赖外部供应,过去这些年软件和硬件“各自为政”,没有充分协同适配。如今在硬件受到一定制约时,从软件突破入手,以“软硬结合”的方式提高算力利用效率,将是不可避免的行业趋势。
根据蚂蚁与国内硬件厂商的合作经验,软硬结合可以做到更灵活地调配资源。软件层根据应用场景实际情况,通过感知硬件层更多算力、存储等细节,基于硬件层API,自定义灵活实现更细化的算力、存储单位切分,将单个硬件应用到更极致。 
AI统一数据视图的提出,针对的是大模型训练所需要的海量数据。目前业界的普遍情况是,数据散落在公司的角落,即便每一次处理都提高采集、存储、加工的效率,也没办法解决一定会出现的重复处理,和最终重复存储的巨大浪费。因此面向AI的未来,需要采取AI统一数据视图去组织数据,优化数据整合,这样更可以釜底抽薪,这也是蚂蚁绿色AI今年的重点方向。

绿色模型即服务

AI大模型的开发在鲸吞算力,但这也只是开始。张科介绍,更吃算力的一定是后续垂直领域的应用。有没有办法可以降低这些需求百花齐放的模型的开发成本?基于对下一代AI基建的思考,蚂蚁提出了“绿色共享的模型即服务”(Model-as-a-Service,简称MaaS),即“新模型研发范式”。
比如蚂蚁有一个名为“大山雀”的项目,主要面向传统金融服务难以覆盖的农户。蚂蚁的解法是研发AI遥感大模型,通过卫星遥感技术对稻谷、小麦、玉米等农作物进行识别,判断作物的长势和收割状态,进而做出针对这类农户的服务决策。这个模型虽然跟业界通用的大模型比参数量没那么大,但在遥感这个领域已经是业界比较大的模型,有10亿参数。
这其中是如何体现“绿色”的?事实上,AI遥感大模型是一个基座,该模型覆盖了主粮作物识别、经济作物识别、农作物健康状况、收割进度识别等十多种场景,原来开发者在每个场景下都需要单独从0到1开始提取数据、进行模型训练,有了预训练模型基座,通过高效的场景知识迁移,能够降低50%的数据标注量,提升了数据利用率;加上统一算法框架,极大提升了整体的算力效率。
再以支付宝为例,此前要在首页上线一个在线学习推荐模型,从收集数据开始到部署上线,一套传统流程下来可能需要几周时间,其中的难点在于人工从海量日志中提取所需数据和数据口径对齐。有了预训练模型后,这套工作基本上6小时左右即可完成,大量人力可以解放出来投入其他任务。
过去一年,依托预训练模型,蚂蚁的整体资源利用效率提升了20%-30%。此外还带来了30%-40%的人效提升——一项工作的周期可以从原来的月级别提升到周级别,甚至在几小时内便可完成。

“重新定义”大模型:开放共享

36碳了解到,蚂蚁在去年加入了低碳专利承诺组织,无偿向外部开放了7项相关专利。张科表示,从行业角度来看,“共享”是“绿色”的应有之义,蚂蚁后续将继续推进技术开源,并且以产品化形式对外提供服务。
在张科看来,未来AI领域想要实现更大层面的绿色,必须走向大模型的共享互通。这是一个相对遥远的设想,一方面需要大模型本身有足够的公信力,另一方面,需要安全技术的跟进,保障模型共享中原有训练数据和新增数据均不会泄露,才能让各方都有足够的信任参与其中。
当我们考虑到共享的未来时,观察热火朝天的大模型潮就会有一个新的视角:我们需要什么样的基础模型?各家模型的差异点体现在哪里?哪一种模型最可能兼具安全、绿色和高性能?
“AI大模型正在引领一场技术革命,但我认为技术革命的成功,最终的标志一定是社会的进步,是带动整个技术生态的进步。所以绿色共享的要求不会是创新的阻碍,反而会是一种新的思路和机遇。”张科对36碳表示。
未来的大模型,不应该是算力和电力能源的“吞金兽”。算力门槛的有效下降,将加速大模型生态拐点的来临。谷歌、英特尔、蚂蚁、阿里等国内外各家企业都在加快探索绿色AI以及更大范围的绿色计算技术,从当前的“遍地开花”到真正迎来属于大模型的“iPhone时代”,构建起绿色共享的行业生态将会是关键。
36氪旗下官方账号
真诚推荐你来关注👇
继续阅读
阅读原文