生成式AI的热潮让人工智能再次成为了现象级的话题。生成式AI展现出了惊人的性能,但在业界积极探索其赋能千行百业的巨大潜能时,人们也认识到,如果需要将生成式AI更为广泛,更为深入地应用到现实世界中,我们仍然面临着新的挑战。
9月14日至15日,2023全球AI芯片峰会(GACS 2023)在深圳举办。Graphcore中国区产品负责人朱江受邀参会,并于大会上发表题为《IPU独特架构加速生成式AI爆发式创新》的演讲,介绍了如今生成式AI面临的时延和成本问题,并给出了IPU的独特解法。
错过峰会?还不快下拉查看演讲回顾!
时延和成本
生成式AI两道坎
时延是如今生成式AI面临挑战中的关键一项。生成式AI被用在各种各样的场景中,对话是常见的场景之一。对话场景中的时延是对话时间,不同的对话时间带给用户不同的感受。会上,朱江展示了不同的生成速度带给用户的不同感受。从每秒100个字到每秒3个字,当生成速度过慢时客户体验就会受到影响。如何在模型越来越大的情况下满足时延要求,得到业务场景用户认可,是如今生成式AI面临的一大挑战。
另外一大挑战是性能和成本之间的平衡。生成式AI有着广阔的应用场景,但在将其应用到各个场景中时,我们又需要付出哪些成本?拆解来看,成本可以分成购买成本和运营成本。购买成本方面,AI在系统里占的比例越来越大,其成本越来越高。运营成本方面,在模型越做越大的同时,其功耗也越来越高,背后的电力花费也越来越高。从环境方面来讲,高功耗也和低碳绿色环保的理念有所冲突。
扫清障碍
IPU独特架构赋能生成式AI
Graphcore从多个方面来帮助企业应对这样的挑战。首先,时延的关键来源之一是内存墙的存在。在计算时,计算核心和数据存储中的数据需要进行读写或交互,由此造成内存墙的存在以及大量的时延。随着模型的扩大,这方面时延的占比也会越来越高。如果不打破内存墙的瓶颈,即使算力再高,时延问题也很难得到解决。
IPU采用了大规模并行的多指令多数据架构,并极大地扩展了片上SRAM的大小,使其以分布式的形态存在。这样大规模的片上存储和分布式设计,可以极大地提高访存带宽和内存访问效率,有力地帮助客户打破内存墙的瓶颈。
除了访存带宽,IPU的独特设计还使其实现了高效的访存能耗。同样是搬运一个byte的数据,CPU大概需要消耗320pJ,GPU大概需要64pJ,而IPU大概需要1pJ。整个计算过程中,在这部分消耗的能源被有效地降低。
此外,Graphcore推出的Bow IPU还采用了WoW的先进封装,在原先计算Die不变的情况下叠加了一个供电Die,极大地提高了其供电效果,在计算Die没有变化的情况下,实现了40%的性能提升和16%的电源效率提升。
Graphcore还在支持数据类型上进行了投入。数据类型方面,AI一直在向着低精度发展。在推理上采用FP8后,算力可以直接比FP16翻一倍。但简单地将高精度值转换为FP8值往往会导致性能降低。Graphcore研发了Unit Scaling的模型设计新方法,让低精度数字格式更加易用,并发布了一个PyTorch库来帮助用户采用Unit Scaling。
未来,Graphcore将在保持稳定架构的同时,持续对IPU进行均衡性方面的改进。随着生成式AI的不断发展,对于更均衡的硬件能力和更好的落地成本的需求也日益增加。Graphcore将在已有制程工艺上挖掘潜力,不断实现更好的成本效益,为技术的推广应用创造更有利的条件。
生态成熟稳定
不断贴近终端用户
IPU是生态中的一环,为了真正能让用户把它利用起来,打造生态是非常关键的。Graphcore构建了一套完整的软件体系,并为开发者提供了丰富的入门资料、相关工具和部署支持,从而提高开发效率并加速部署。
在谈到与CUDA兼容的问题时,朱江表示,CUDA与硬件的结合非常紧密,作为一个架构上和GPU完全不同的AI芯片,IPU无需一定与CUDA兼容,关键还是要找到客户的真正需求。他指出,客户在使用软件的时候,第一考虑的是易用性,第二是业务工作中的迁移。因此,Graphcore也在这两方面开展了工作,从框架和上层生态层面为客户提供广泛的兼容和支持,使得客户所需的操作非常简单。
生态构建中的另一个重要方面是工具化。合适的开发工具可以加速用户的开发进程,促进硬件的采用。Graphcore开发了PopRT工具,使其能够在推理过程中将在不同平台训练好的模型以自动化的方式转化为能够在IPU上运行的形式。相对训练来说,推理更加工程化。它更加关注优化,而非像训练一样更多地关注精度和模型结构,即使是如今更为主流的平台也要做大量的优化工作。Graphcore的自动化工具也包含了性能方面的考量,充分利用IPU的独特架构,以非常低的代价帮助客户获得接近部署要求的结果。这在实践过程中非常重要。
赋能生成式AI
不止生成式AI
如今,在独特架构和成熟生态的支持下,Graphcore为许多生成式AI模型提供了支持,而这些模型也在IPU上展现出了出色的性能,如GPT-2、ChatGLM-6B、Llama 2、Dolly 2.0、GPT-J、Flan-T5、Stable Diffusion等等。用户可以在Graphcore官网上的模型花园中查看这些模型的详细信息,也可以通过Paperspace Gradient Notebook,利用云端IPU体验这些模型在IPU独特架构上的运行效果。
此外,IPU具备的通用性特点使其在更广泛的人工智能领域展现出了重要意义。它的通用性使得它能够在各种AI任务中表现出色,为各类应用提供高效支持。除了生成式AI,IPU还能为图神经网络(GNN)提供良好的支持。GNN是一种潜力巨大的神经网络,Meta人工智能主管Yann LeCun将之描述为人工智能的“一个重大概念进步”。它将输入的数据看做更加灵活、更加一般化的结构。此前行业中“拿着锤子找钉子”情况的出现,就是泛化性还不是很理想的一种体现,业界也对此展开了许多探索。为了应对现实世界中各种各样特点的数据和问题,GNN这样的网络在未来会更加广泛。
IPU目前已经成功支持了GNN在药物研发和知识图谱补全、预测分子结构、社交网络和推荐系统、行程时间预测和物流等方面的应用。这些GNN模型在IPU上展现出了高效的性能。
值得注意的是,不论是现在流行的模型类型(生成式AI),还是未来颇具潜力的模型类型(GNN)都在IPU上展现出了出色的性能,而IPU的基本计算架构这几年来是没有变化的,这证明了Graphcore在硬件方面的长期性。不论现在还是未来,IPU都将是一个具有重要意义的架构。
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
继续阅读
阅读原文