竞逐大模型，「绿色密码」浮现

大模型亟需高效低碳的算力，绿色AI技术或成新机遇。

文｜雪小顽

编辑｜苏建勋

来源｜36碳（ID：carbon_36kr）

封面来源｜Pexels

AI大模型浪潮席卷全球，目前还只有巨头做得起。

训练一次大模型，要消耗多少算力成本？以ChatGPT为例，公开数据显示，ChatGPT一次模型训练需要的总算力消耗是3640PF-days（即每秒计算一千万亿次，需要计算3640天），耗资千万美元级别。

切换到应用场景，按照国盛证券报告，以今年1月ChatGPT独立访客平均数1300万来计算，对应芯片需求是3万多片英伟达A100 GPU，约合算力成本8亿美元。

贵只是一方面。事实上，A100在国内早已有价无市，不少企业只能选用性能较低的芯片代替。算力的不足，可能导致大模型研发速度的降低。

《中国算力发展指数白皮书（2021）》显示，我国智能算力（为人工智能计算提供算力）占比已由2016年的3%，提升至2020年的41%。可以想见，在AI大模型时代，智能算力的需求增速仍会加快。

算力需求规模增长本身不是坏事，真正的问题在于，一边是加速上涨的需求和成本，另一边却是极大比例的算力浪费。以中国为例，我国大部分数据中心的算力利用率仅有8%-12%左右，也就是说，多数的算力消耗是被浪费掉的。这是企业创新的高门槛，也是社会的高昂成本。

过去，科技业界在碳中和这个目标上，主要关注点在算力的生产环节，也就是电力如何尽量大地转换为算力，为此进行了种种对数据中心、计算芯片的改造和升级，把PUE从1.6、1.5降低到1.1甚至接近1.0。而AI大模型时代的到来，让业界必须把关注点转移到小数点前那个“1”，聚焦在计算效率的提升，绿色AI技术或将成为大模型竞逐潮中的新机遇。

4月下旬，蚂蚁集团发布了2022年度碳中和数据，全年68665.35吨的减碳量，有62127吨都来自其自研的绿色计算软件技术体系；在2021年，基于该技术的减碳数字是29591吨，一年内翻倍有余，技术进步明显。报道中提到，蚂蚁在2022年新增了对绿色AI技术的研发应用，提高了AI大模型全生命周期及数据构建的算力利用效率。

来源：蚂蚁集团官方

为此，36碳专访了蚂蚁绿色AI负责人张科，他分享了绿色AI技术在蚂蚁的实践经验，和对AI大模型领域未来算力效率问题的一些思考。

蚂蚁“绿色AI”的5个抓手

公开报道显示，蚂蚁从2019年起大规模探索一系列的绿色计算技术，到目前建立了计算、存储和算法一体化的绿色计算技术体系，绿色AI是其中一部分。张科介绍，其实在大模型如火如荼前，蚂蚁已经将绿色计算技术拓展到提高大模型算力利用率上，目的是减少从0到1重复学习和资源浪费。

从绿色计算技术体系的整体来讲，蚂蚁绿色AI的实践有5个关键词：智能分布式训练；AI数据视图；新模型研发范式；算力归一；软硬结合。

来源：蚂蚁集团官方

智能分布式训练服务，针对的是AI模型的训练难度。通常来说，算法研发在进行模型训练时，需要了解模型训练的分布式节点算力和内存分配等一系列细节，以及分布式策略的选取和调优。这对于算法工程师的要求很高，投入进去的人力与机器资源也是个很大的数字。为了提高这部分工作的效率，蚂蚁开发了一套智能分布式训练服务，让研发者可以在做模型训练时只提供简单的单机模型，至于分布式策略选取和调优、硬件细节参数的设置和动态调整等，都可以交给分布式训练服务去做。通过智能选取数据并行、模型并行、流水线并行以及混合并行策略，目前蚂蚁大模型训练性能较开源界最佳实践提升40%以上。

另一个提高算力效率的途径是标准化，即“算力归一”。简单来说就是把不同硬件架构的CPU/GPU归一化到逻辑算力，对上层软件栈屏蔽掉不同的硬件差异，对调度和业务展现出统一的逻辑计算能力，降低算力调度使用的复杂度。

张科告诉36碳，云计算本身带来的最核心的技术就是虚拟化，蚂蚁在运用好云原生技术带来的红利同时，也绕不开如何将AI的硬件进行虚拟化。特别是当下一家独大的AI芯片市场正在被打破，异构硬件的繁荣也带来了整个应用系统的研发适配的工作量。蚂蚁分别从2019年和2021年开始探索实践CPU和GPU的算力归一化技术，并全面应用到公司集群的混合部署和调度中，配合高效安全的腾挪和隔离技术，集群利用率提升非常显著。

屏蔽硬件差异还不够。和算力一样，再高性能的硬件，发挥不好也是浪费。国内大厂在大模型训练时所需要的CPU/GPU等，在很大程度上依赖外部供应，过去这些年软件和硬件“各自为政”，没有充分协同适配。如今在硬件受到一定制约时，从软件突破入手，以“软硬结合”的方式提高算力利用效率，将是不可避免的行业趋势。

根据蚂蚁与国内硬件厂商的合作经验，软硬结合可以做到更灵活地调配资源。软件层根据应用场景实际情况，通过感知硬件层更多算力、存储等细节，基于硬件层API，自定义灵活实现更细化的算力、存储单位切分，将单个硬件应用到更极致。

AI统一数据视图的提出，针对的是大模型训练所需要的海量数据。目前业界的普遍情况是，数据散落在公司的角落，即便每一次处理都提高采集、存储、加工的效率，也没办法解决一定会出现的重复处理，和最终重复存储的巨大浪费。因此面向AI的未来，需要采取AI统一数据视图去组织数据，优化数据整合，这样更可以釜底抽薪，这也是蚂蚁绿色AI今年的重点方向。

绿色模型即服务

AI大模型的开发在鲸吞算力，但这也只是开始。张科介绍，更吃算力的一定是后续垂直领域的应用。有没有办法可以降低这些需求百花齐放的模型的开发成本？基于对下一代AI基建的思考，蚂蚁提出了“绿色共享的模型即服务”（Model-as-a-Service，简称MaaS），即“新模型研发范式”。

比如蚂蚁有一个名为“大山雀”的项目，主要面向传统金融服务难以覆盖的农户。蚂蚁的解法是研发AI遥感大模型，通过卫星遥感技术对稻谷、小麦、玉米等农作物进行识别，判断作物的长势和收割状态，进而做出针对这类农户的服务决策。这个模型虽然跟业界通用的大模型比参数量没那么大，但在遥感这个领域已经是业界比较大的模型，有10亿参数。

这其中是如何体现“绿色”的？事实上，AI遥感大模型是一个基座，该模型覆盖了主粮作物识别、经济作物识别、农作物健康状况、收割进度识别等十多种场景，原来开发者在每个场景下都需要单独从0到1开始提取数据、进行模型训练，有了预训练模型基座，通过高效的场景知识迁移，能够降低50%的数据标注量，提升了数据利用率；加上统一算法框架，极大提升了整体的算力效率。

再以支付宝为例，此前要在首页上线一个在线学习推荐模型，从收集数据开始到部署上线，一套传统流程下来可能需要几周时间，其中的难点在于人工从海量日志中提取所需数据和数据口径对齐。有了预训练模型后，这套工作基本上6小时左右即可完成，大量人力可以解放出来投入其他任务。

过去一年，依托预训练模型，蚂蚁的整体资源利用效率提升了20%-30%。此外还带来了30%-40%的人效提升——一项工作的周期可以从原来的月级别提升到周级别，甚至在几小时内便可完成。

“重新定义”大模型：开放共享

36碳了解到，蚂蚁在去年加入了低碳专利承诺组织，无偿向外部开放了7项相关专利。张科表示，从行业角度来看，“共享”是“绿色”的应有之义，蚂蚁后续将继续推进技术开源，并且以产品化形式对外提供服务。

在张科看来，未来AI领域想要实现更大层面的绿色，必须走向大模型的共享互通。这是一个相对遥远的设想，一方面需要大模型本身有足够的公信力，另一方面，需要安全技术的跟进，保障模型共享中原有训练数据和新增数据均不会泄露，才能让各方都有足够的信任参与其中。

当我们考虑到共享的未来时，观察热火朝天的大模型潮就会有一个新的视角：我们需要什么样的基础模型？各家模型的差异点体现在哪里？哪一种模型最可能兼具安全、绿色和高性能？

“AI大模型正在引领一场技术革命，但我认为技术革命的成功，最终的标志一定是社会的进步，是带动整个技术生态的进步。所以绿色共享的要求不会是创新的阻碍，反而会是一种新的思路和机遇。”张科对36碳表示。

未来的大模型，不应该是算力和电力能源的“吞金兽”。算力门槛的有效下降，将加速大模型生态拐点的来临。谷歌、英特尔、蚂蚁、阿里等国内外各家企业都在加快探索绿色AI以及更大范围的绿色计算技术，从当前的“遍地开花”到真正迎来属于大模型的“iPhone时代”，构建起绿色共享的行业生态将会是关键。

36氪旗下官方账号

真诚推荐你来关注👇

继续阅读

阅读原文

关键词

技术

场景

算力

硬件

智能

竞逐大模型，「绿色密码」浮现｜36碳焦点

蚂蚁“绿色AI”的5个抓手

绿色模型即服务

“重新定义”大模型：开放共享