新智元报道  

编辑:yaxin 好困
【新智元导读】人工智能技术大爆发,算力成为当下的最大需求。各地争建智算中心,但暗礁重重。站在人类历史这样更大的时空维度上,我想这一切刚刚开始。
未来十年,是AI算力的「超摩尔时代」。
要说2021年科技界最火的概念是什么?那便是「元宇宙」。
《黑客帝国》、《头号玩家》里的世界真的会来临吗?未来不是没有可能!
要想实现元宇宙,最基础,最重要的「能源」便是来自算力。
因为算力支撑着元宇宙虚拟内容的创作与体验,更加真实的建模与交互需要更强的算力作为前提。
再倒回去看2020年,GPT-3模型可谓是当红流量明星。
能写小说、能与人聊天、还能下象棋...... 曾被冠以最「全能」语言模型的称号。
1750亿参数,GPT-3能取得惊人的成就,靠的不仅是算法的提升,还有「算力的加成」
微软还为其建了一个5亿美元的超算中心,装载了1万张英伟达GPU,仅训练就消耗了它355个GPU年的算力!
而距离GPT-3问世不到一年,更大更复杂的语言模型,即超过一万亿参数的语言模型Switch Transformer已问世。
众所周知,AI的三大支柱分别是数据、算法、算力。
在人工智能发展的三要素中,无论是数据还是算法,都离不开算力的支撑
目前,人工智能所需算力每2个月即翻一倍,承载AI新型算力基础设施的供给水平,将直接影响AI创新迭代及产业AI应用落地。
要说这个夏天AI领域有什么热点,那一定少不了全国各地争建的人工智能计算中心。
在政策扶持、需求牵引下,智算中心「落地潮」在上海、大连、西安等多地被快速掀起。
但问题与挑战也随之而来...
问题不简单
9月11日,国家工业信息安全发展研究中心最新发布了《新一代人工智能算力基础设施发展研究报告》
报告指出,国内新一代人工智能算力基础设施的建设依然面临着顶层制度建设和标准体系不统一的问题。
其中最为突出的表现:
一是市场对算力的概念混淆,导致建设方向和建设需求错位;
二是行业定价标准混乱,针对人工智能算力基础设施建设的价格标准并未统一,各地同等规模项目的价格相差巨大。
再者,在建设思路上,我国大多数计算中心采取了算力性能发展优先,再拉动应用发展的策略,忽视上层应用迁移及兼容程度,导致算力系统的初期应用效率偏低,无法完全支撑全面的智能化应用场景需求;
此外,软硬件核心技术受制国外、重复建设、高能耗等问题,也亟待突围。
总之,重点在以下两方面该如何解决:如何让建设价格更普惠些?如何让智算中心更开放兼容?
贵得离谱?算力需普惠
买不起,用不起,算力成为这个时代最昂贵的「奢侈品」
还谈什么元宇宙,AGI。
一份公开资料显示,2020年城市A的智能计算中心,每100P Flops (每秒10亿亿次浮点运算)16位精度的算力建设成本为7500万元
而2021年城市B同等精度下的100P FLops算力建设成本却达到了4.6亿元,这简直是天壤之别。
再比如,今年8月份某城市智算中心一期项目的招标公告引起业界广泛关注。
内容显示,该项目预算约为10.89亿元,其中项目首期方案设计提供半精度浮点运算峰值总算力不低于300P的人工智能计算能力,折合每100PFLOPS FP16算力价格为3.6亿
国家工信安全中心副总工程师黄鹏表示,「现在的价格差距很大,各个地方政府建智算中心的投入差距也很大,之前有一个数据,最高的两个智算中心规模差不多的情况下价格差了6倍多。」
「比如说东西部本身就有差异,价格和能耗、成本不是很一样,人员成本也不是很一样,但是差了六倍就有点夸张了。」
综合来看,智算中心建设的成本包括:一是基础设施的厂房建设;二是服务器、芯片等建立智算中心相关的设备和产品;三是后期的运维成本、电费等等。
黄鹏表示,「通过初步计算,满足基本智算中心的建设也得一两个亿起步的投入规模。」
从过往经验来看,商品过于昂贵会导致很难普惠于民,像早期的电脑、手机等。
同样,智算中心建设价格过高让学术界,产业界无法真正用的起,反之会影响之后的应用和落地。
如果无法做到价格普惠,没有广泛的应用做支撑,那么这种AI算力中心很难在商业上形成正循环,大量算力会处于闲置状态。
随着IT技术日新月异被淘汰,逐步成为破铜烂铁。
因此,AI计算中心建设亟需一剂「普惠算力」良方。
目前,可以从「降低门槛」和「规范价格」两条路径来打破价格乱象。
要推动平台服务和技术的开源,通过降低应用门槛,让学术界、产业界,甚至普通民众都用上人工智能。
比如,报告指出,美国国家科学基金会投入2000万美元,联合三大超算中心及九所高校,构建面向全国的下一代人工智能网络基础设,推动平台服务和技术的开源。
市场加强监管,出台相关标准体系。推动算力定价标准建设,合理控制智算中心建设成本,为区域智算产业发展提供重要参考依据。
《新一代人工智能算力基础设施发展研究报告》同样指出,应当推动算力定价标准建设,为区域智算产业发展提供重要依据。
报告显示,中科院人工智能产学研创新联盟为新一代智算平台给出了算力价格标准方案:在同时具备5P双精度算力(64位)、25P单精度算力(32位)和100P半精度算力(16位)的情况下,智能计算中心的基础设施价格约为1亿-1.5亿。
照此一来,智算中心才能实现真正的普惠。
开放兼容释放「算力狂魔」
高精度算力是一种「通用算力」,可以承担人工智能训练、推理、模拟等各种计算任务,功耗和成本较高;而低精度算力是一种「专用算力」,通常仅能用于推理或部分训练,功耗和成本也相对较低。
由于不同应用场景对算力的精度需求各不相同,因此新一代智算中心应该具有多元的算力
比如科学和工程计算对算力精度的要求最高,需要使用64位双精度。
而对AI模型的训练主要使用32位单精度和16位半精度,推理阶段则是16位半精度。
当实现了从高精度到低精度算力的全覆盖,才能真正释放算力的价值。
此外,在开源技术快速发展的当下,新一代智算中心也需要去兼容主流的开源软件和架构。
在算法方面,商汤在上海的智算中心应用了OpenMMLab人工智能算法开源体系,并开源了超过130种算法和1000种预训练模型。
在模型架构方面,中科院的新一代智算中心可以适配TensorFlow、PyTorch、百度飞桨、旷视天元等20多个国内外主流的机器学习和深度学习框架,以及Hadoop、Spark等近20个数据处理架构。
《报告》显示,在多元的算力和架构的共同加持下,预计智算中心在未来可以支持 80%以上的人工智能应用软件,从而满足智慧城市、自动驾驶等不同的应用场景。
此外,现实中,公共人工智能计算中心的适用范围可能出现「偏科」问题
智能计算中心的发展主要涉及到语言、图像处理类,决策类和自然语言处理三大类,不同的应用场景适配不同的算力中心是发展的关键一步。
如果构建的人工智能计算中心过于「专」,仅支持部分应用场景,这将使其发挥的作用大打折扣
因此,新一代人工智能算力基础设施建设应当融合不同算力,打造一个综合型智能计算平台,从高精度到低精度实现全覆盖
只有这样才能真正释放「算力狂魔」。
在AI时代,只有把聚合起来的算力,高效流通和分配出去,才能促进千行百业的生产。
这便是新一代人工智能计算中心亟待解决的问题。
继续阅读
阅读原文