在人工智能蓬勃发展的今天,人们对算力的需求达到了前所未有的高度,这为芯片行业带来了空前的挑战和机遇。同时,人们也不禁思考,芯片行业未来的发展方向究竟是怎样的?
9月15日,在2023世界计算大会上,Graphcore总裁兼大中华区总经理卢涛受邀出席,并发表演讲,分享了其对于芯片行业工艺的洞察以及对未来行业发展的宝贵洞见。
行业困境:
堆砌晶体管提升性能非长远之计
除了我们众所周知的与芯片上晶体管数量相关的摩尔定律,业内还有一个著名的衡量芯片尺寸与功率的关系的登纳德定律——当一个工艺发生跳变时,晶体管数量虽然可以达到两倍,但如需保持同样的功耗,就无法全部激活使用晶体管的数量,因为这意味着用料和功耗的增加。
所以实际上根据摩尔定律来看,如果晶体管数量一年可以提升30%,但因为有登纳德定律的限制,性能的提升只有15%。
产品困境:
受限于结构,算力、功耗难两全

关于现阶段芯片产品现状,我有两点思考:
第一点思考是芯片产业的特点。放眼今天 AI计算和高性能计算,处理器在做不同的算术运算时,所消耗的能量是大不相同的。在50瓦的功耗下,FP16.32和FP64各自边际算力的对比为2pJ与32pJ。结合登纳德的定律,如果要设计一枚功耗200瓦的800平方毫米芯片,其中真正活跃运行的晶体管大概只有33%,剩下的67%称之为“暗硅”,即非活跃的跳变。
另外,芯片的性能和功耗也受内存影响。同一个字节,将其从外部DDR搬到处理器的核心,其功耗大概是320pJ,但从芯片内部的SRAM搬运到处理器核心中,则仅需10-64pJ。如果把片内每个SRAM分布式地“扣”在处理器核心的旁边,这时传输一个字节大概仅需要1pJ。所以在设计一款处理器的时候,需要在架构方面做一些权衡。
例如GPU,其面积的35%用于AI计算,55%为“暗硅”,还有10%作为SRAM。“暗硅”通常用于高精度计算或图形图像运算等业务。所以在 AI计算时,实际有效的业务点是其中的35%加10%。而从能耗的角度,GPU将90%分布在算术计算上,10%分布在片内的SRAM。而 IPU则采用25%的面积用于计算,75%面积用于RAM的规划方式,并实现了计算和存储各一半的功耗表现。
第二点思考,以机器智能为代表的全新计算业务的显著特点是大规模并行、稀疏化以及低精度计算。众所周知,FP16.32是目前用于训练的主流精度,但如今厂商们都在寻求如FP8之类的低精度计算。
结合芯片产业的特点和AI计算任务的需求特点,Graphcore打造了IPU处理器。不同于标量处理器CPU和向量处理器GPU。IPU是针对人工智能、高性能计算而构建的处理器,具有大规模并行和超高速内存访问的特点。
基于IPU,Graphcore推出了Bow-2000和C600。Bow-2000以训练见长,采用了便捷的模块化设计,可以像搭积木一样进行堆叠,根据模型和数据规模的大小,非常便利地进行横向和纵向扩展。C600以推理见长,是一款能效比非常好的产品,在185瓦的功耗情况之下,我们做到了(FP16的运算中的)280T的算力,比当前主流的GPU在应用上表现更佳。值得一提的是,C600是行业中率先支持FP8浮点运算的数据格式的产品之一。
软件生态:
以开放态度,打造习惯友好型的开发模式

对于人工智能的开发者和使用者来说,软件生态也是十分重要的,Graphcore不仅有底层的软件,向上更支持主流的机器学习的平台,像TensorFlow、PyTorch,还有国内百度的Paddle Paddle、阿里云的Halo等。这些都是构建一个处理器所必需的软件工具。我们对大量的机器学习的平台软件做了集成。
Graphcore希望 IPU能在计算架构方面充满创新性,为开发者提供对他们过往开发习惯尽量友好的开发模式,以便他们在IPU上进行开发。因此,Graphcore构建了一套名为PopRT的开发工具,帮助开发者实现零代码推理部署已经训练好的模型,同时带来低延时和高吞吐量,极大地缩短AI业务商业变现的时间窗口。如今,开发者的应用基本上是基于GPU开发的,而通过PopRT进行编译、转换,最后可以直接在IPU上运行。可以说如今主流的模型都可以通过PopRT进行零代码转换,最终在IPU上运行起来。
近期Graphcore加入了PyTorch基金会,以更好地开展开源PyTorch框架和生态系统方面的合作。我认为,作为一家科技企业,在当今世界的格局之下,企业发展的下限自然是合规,而上限是开放,只有保持足够开放的态度,才能不停地探索自己的天花板。这也是我们积极加入PyTorch基金会的初衷——希望IPU拥有原生的PyTorch使用体验。
Graphcore现已支持Byte MLPerf (推理), IPU是最早支持该基准套件的硬件平台之一。Graphcore支持Byte MLPerf模型库中的大部分模型,涵盖自然语言处理、语音、计算机视觉、推荐、多模态等多个领域,可以用于搜索、语音识别、推荐、内容检测、人工智能生成等多个场景。在未来,Graphcore还将继续扩展IPU支持的Byte MLPerf模型类别。
AIGC应用:
IPU崭露头角,助力下一代模型突破
AI大模型已经展现出非常广泛的应用前景,同时也展现了在未来的无限应用可能。IPU为多个AI大模型提供良好的支持,包括语言大模型Llama 2、Dolly 2.0、GPT-J、ChatGLM-6B等。
在 ChatGLM-6B上,IPU带来了“刷屏式”的体验,可以做到每个token 3.5毫秒的效率,实现了瞬间生成整个屏幕的内容。在日常聊天、文本摘要、辅助写作、代码编写等方面,都能生成相当符合人类偏好的回答。目前ChatGLM-6B可以无损、快速地部署在IPU上,而不会因为性能优化而牺牲模型的精度和参数量。ChatGLM-6B这一轻量化的模型可以在本地AI计算硬件上以较低成本部署,大大降低了用户部署的门槛。
此外,IPU还对图像生成式AI模型提供很好的支持,如Stable Diffusion。Graphcore携手Paperspace在IPU上引入了Stable Diffusion模型,以配合推出的高级版notebook。未来,面向Graphcore IPU的Stable Diffusion 2.0也将很快与Paperspace Gradient Notebook一起面世。过去半年Graphcore微信公众号的一些配图也是在IPU上通过Stable Diffusion生成的。
未来之路:
IPU助力多维度网络模型发展

虽然人们普遍认为AIGC已是足够先进的技术了,但在全世界范围内已经有一些前沿的 AI科学家们开始探索 GNN(图神经网络)在AI for Science的更多可能。GNN是一种更高维度的模型,相比之下Transformer只能算GNN的简化版,那么GNN能够运用在哪些领域?
在互联网上,GNN可用作社交图谱;在医疗领域,GNN可用作新药研发中的分子模拟等;在科学计算领域,一些比较前沿的研究院也在运用 GNN;另外在交通规划中,GNN也可有效模拟不同参数的推演结果。GNN作为一个多维度的网络,IPU在这些模型上相对GPU有特别大的优势,例如在互联网的社交图谱这一部分甚至达到了10倍左右的优势。
随着人工智能的蓬勃发展,芯片行业的未来究竟何去何从?当Wired杂志的记者询问图灵奖得主、神经网络之父Geoff Hinton“我们该如何构建功能更强大的机器学习系统?”时,他不紧不慢地从钱包里掏出一枚IPU芯片。我想,对于行业的未来,他心里已经有答案了。
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
继续阅读
阅读原文