译者:沈翀
排版:Peter Parker
出品:SOlab
深度好文,1222字=10分钟阅读
文末有芯片交流群,欢迎扫码加入!
近日,英特尔、Arm和英伟达共同发布了用于人工智能通用交换格式的规范草案,目的是使人工智能系统开发更快、更高效。
 arm公司图源:google
所提出“8位浮点(FP8)”标准有可能通过优化硬件内存使用和人工智能训练(即工程人工智能系统)和推理(运行系统)来加速人工智能开发。
在开发人工智能系统时,数据科学家面临着关键的工程选择,而不仅仅是收集数据来训练系统。
一种是选择一种表示系统权重的格式-权重是从训练数据中学习到的影响系统预测的因素。
语言模型AI推理 图源:EEWORLD
权重使GPT-3这样的系统能够从一个句子长度的提示中生成完整的段落,或者使DALL-E2能够根据一个图片标题创建逼真的肖像。
常见的格式包括半精度浮点或FP16,它使用16位来表示系统的权重,以及单精度(FP32),它使用32位。
半精度或更低精度降低了训练和运行人工智能系统所需的内存空间,同时加快了计算速度,甚至减少了带宽和功耗。但他们牺牲了一些准确性来实现这些收益;毕竟,16位比32位要少。
语言模型AI训练 图源:NVIDIA
然而,包括英特尔、Arm和英伟达在内的许多业内人士都将FP8(8位)作为最佳选择
在一篇博客文章中,英伟达产品营销总监Shar Narasimhan指出,FP8格式在包括计算机视觉和图像生成系统在内的所有用例中显示出与16位相当的精度,同时具有“显著”的加速。
英伟达公司 图源:google
英伟达、Arm和英特尔表示,他们将以开放格式免费提供FP8格式许可。三家公司在一份白皮书中对此进行了更详细的描述。
Narasimhan表示,这些规范将提交给IEEE,一家在多个技术领域维护标准的专业组织,供日后考虑。
Narasimhan说:“我们相信,拥有一个通用的交换格式将带来硬件和软件平台的快速发展并提升互操作性,从而促进人工智能计算“。
人工智能AI芯片概念图 图源:google
当然三家公司此举并非完全出于公心。
英伟达的GH100 Hopper架构本身已经支持FP8,英特尔的Gaudi2人工智能训练芯片组亦是如此。
但通用的FP8格式也将有利于AMD、Groq、IBM、SambaNova、Graphcore和Cerebras等竞争对手,所有这些公司都曾尝试或采用某种形式的FP8进行系统开发。
Graphcore 的 Colossus MK2 IPU 图源:google
在今年7月的一篇博客文章中,Graphcore联合创始人兼首席技术官西蒙·诺尔斯(Simon Knowles)写道,“8位浮点的出现为人工智能计算提供了巨大的性能和效率优势”,并断言这也是该行业“一个机会”,以达成“单一、开放的标准”,而不是采用多种相互竞争的格式。
-----END-----
(芯光社出品,未经允许严禁转载)
芯光社ChipHub
👆 欢迎【关注】我们 👆
用心说,芯人芯事
专栏精选讲述前沿光刻技术、芯片百科知识、分享行业报告。
芯人芯事独特视角剖析时事新闻,讲述芯片人的职场故事。
此外,我们还提供资源对接、FA和企业品牌服务。
点击菜单栏“联系我们”,链接新的行业机会👍🏻

想与我们合作或提供爆料,均可联系
[email protected]

想与更多行业大咖互动交流 ?快扫码来加入
芯光社交流群~  
👇👇👇
< 微信添加请注明 “姓名-公司-职务” >
一定还想看这些~
别走!给小编点个
【在看】 👇
继续阅读
阅读原文