AI芯片大比拼或许在2024下半年。
编辑 |  GACS
9月14日~15日,2023全球AI芯片峰会(GACS 2023)在深圳南山圆满举行。在首日开幕式上,燧原科技创始人兼COO张亚林分享了题为《生成式人工智能的革命》的主题演讲。
张亚林谈道,AIGC将持续带动算力需求增长。参数量高达数千亿的大模型,依赖分布式计算、更大的内存容量和带宽、更高算力、更实惠的成本或性价比,对AI芯片生态提出更高要求。
他打了一个形象的比喻:Transformer正通过统一的大模型,浓缩出一个“大树型”的AIGC平台生态,算力是“树根”,大模型是“树干”,行业模型库是“树枝”,应用是“树叶”。相比原来碎片化的CV、NLP中小模型,大模型的“大树型”生态的算力需求更加明确和聚焦。对此,他倡导联合生态伙伴,通过统一的大模型技术生态栈解决算力瓶颈问题。
如何针对统一的大模型技术生态栈进行加速?张亚林认为,支持大模型需求,AI芯片厂商需要“芯片硬件+软件”双管齐下。“不能仅定位于AI芯片本身,而是从硬件、软件、系统、方案整体赋能一个数据中心或客户。这一高抽象的四大层次需要有紧密的生态伙伴一起加持,达到一个统一生态栈来解决算力瓶颈问题。”
为此,燧原科技推出的智算2.0,从基础大模型和垂类大模型两个方面进行探索。在基础大模型训练方面,其强调更高的性能,以及算力集群化催生创新前瞻性;面向垂类大模型,则以算力性价比推进产业规模化。目前,其已为大型科技机构打造千卡规模AI训练算力集群,并与大型互联网公司合作打磨技术。在方案方面,燧原科技还推出了大模型应用平台——燧原曜图,希望通过系统化产品的更具象方式以触达更多客户。
从AI芯片商业化来说,所有产品发布都要拟合时间点和节奏。
张亚林预测,2023年将是大模型预训练元年,2024年可能是大模型部署元年,2025年则是大模型真正成熟的元年。很多人认为今年中国这一波大模型训练已经结束,而实际上当2024年数据飞轮转起来,势必要重构大模型训练,谁能在明年下半年提供更有价值的预训练产品,变得十分关键。
以下为张亚林的演讲实录:
各位朋友,大家好!很荣幸站在这里跟大家分享我们燧原对生成式人工智能革命的一些理解。今天我的分享分为基本介绍、市场分析、生态和计算范式的变革、系统战略四部分。
01.
面向AIGC万亿级市场,
百模大战带动算力需求爆发
这是我们看到的AIGC未来预测,生成式的模型横跨了文本生成、音频生成、图像生成、视频生成、跨模态生成、策略生成、Game AI、虚拟人生成等。
下面这张图是2020年到2030年十年间以及更远,我们大概可以看到的文本生成、代码生成、图片生成、视频3D生成、游戏AI的发展路径。
据我们看到的情况,现在真正能够实现商业化或者已经有了商业价值的,还是在图像生成部分。我们看到的很多媒体公司、广告公司、电商以及游戏公司,已经利用了文本生成图像的方式,实现了一些商业价值的变现、用户体验的增长。
紧接着我们看到的就是代码生成和文本生成,很多大语言训练模型都在各地开花,代码生成也成为了大语言模型的一部分。所以我们预计,到今年底或明年,会有一波大语言模型,以文字生成文字或者文字生成代码的方式落地。
再进一步,可能到了明年,我们会看到一些文字生成视频和3D的文生视频的雏形。现在已经有大概一分钟的(文字生成)短视频出现,明年预计会有更高质量、更长时间的视频生成出现。
游戏AI会变得更加智能化,决策、智能化会随着AI的方式变得更加丰富。所以在很多的游戏公司也在尝试用生成式AI,调整AI的智慧大脑。
这是一个简单的AIGC市场规模预测,我们截取了一个智库的说法:在2023年整个AIGC市场规模将达170亿人民币,预测到十年之后或者2030年底将达到万亿级别。这个预测是非常疯狂的,基本七到八年要实现大几十倍,甚至一百倍的增长。
整个增长分成三个部分:2023到2025年是起势阶段,这两年生成式AI还在进行算法、部署、商业模式一系列的探索;到2025年到2028年是生态的成熟期,开始进入各行各业,产生一些真正更大规模的商业价值;2028到2030年是井喷,生态爆发,进入所有人的生活。
大模型的训练依赖于分布式计算、内存容量和带宽不停地增加、更好的算力,同时更多算力精度的表达,还有非常可观的成本和性价比,直接决定了大模型的应用和部署。
02.
大模型引发计算范式变革,
带来“大树型”生态格局
这张图是树状图,描述了基于Transformer的统一大模型新的生态格局。原来我们在各行各业面对的模型是比较碎片化的,我们原来看到的模型是非常碎片化的模型。Transformer目前被认为是第一个统一大模型,以它的模型底座构建的生态会成为树状的结构。
这个树状的结构从底下的树根算力支持,就是刚才提到的底下的集群、互联,各种各样的底层软件栈和软件系统,到上层对于统一大树干和多模态的支持,再到上面各行业垂类的模型,基于大模型生长出来能够触达千行百业的垂类模型,再到基于垂类模型生长出的枝叶,就是所谓的应用。
这样一种大树的结构,是使得我们现在面临的问题不再是跟树林的小树苗做生态的连接,更多是整个算力全栈,如何更好地支撑大模型为基础的树状发展,以及在上面如何开枝散叶,变成更多的行业应用。
这是我们现在看到的五层的MaaS结构——Model as a Service是一种在云体系里面的新提法,跟传统的IaaS、SaaS、PaaS有区别,它主要是基于模型即服务的概念。也就是说,它的生态栈基本上是五层的构建栈,从底下的算力提供商、算力系统,以及更大的算力集群,通常成为算力底座的提供商,到上面的云服务商,以腾讯云、阿里云、百度云等一系列为代表的云服务商,对上提供抽象的云服务组件,然后在上面增长出通用基础大模型。
这些大模型有开源的也有闭源的,但它是通用基础类的,然后在上面生长出行业的模型库,基于这种通用大模型进行微调精调,和一些行业数据的加入,生长出来行业模型库,再到上面根据行业模型库,所有的应用厂商和客户端来进行调用,并且进行开发自己的应用。
在这五层模型里面,很多的公司都有自己的定位:云服务公司既提供云服务,也提供MaaS,去支撑自己汇聚的大模型通用库,来服务更多的垂类模型和用户;有一些做通用模型的公司,他们既做基础类的大模型,也尝试做垂类大模型,甚至还有一些模型公司也有自己的应用,所以他们也跨在不同的层次上。
但不管怎么说,这五层是从底下的算力系统能够触达到整个大面积的应用客户之间的五层体系结构,它本身把整个用户的方式变得更加高层。也就是今天我作为一个用户开发者,在顶层根本不太需要知道底层的算力系统,只要知道行业模型库的调用、付费、效用是否能达到我的需求。
所以,这样一个高抽象的结构,让整个AIGC能走入更多的用户,整个界面也变得更加单纯和抽象。
03.
MaaS服务模式下,
底层芯片差别在用户端被屏蔽
这是我们在中国的数据中心或者新的数据中心看到的“L”型生态。我们一直在讲中国在做大规模的计算中心建设,这个计算中心的建设就是一个数据中心的技术栈和数据中心的产业链。
这个“L”型的结构的Y轴,是五层的技术栈结构,它包括了底下的算力系统:芯片、板卡、软件栈、服务器集群,上面是云服务大模型、行业模型和应用。这个L型的软件栈的Y轴,决定的是算力的部署和算力的利用,到底有没有消纳方,有没有生态的伙伴来消纳这个东西。“L”型生态的X轴,决定了作为算力系统提供商能不能跟基建、集成、部署、运维这些生态方在一起,能经过三五年的运营,进入正常的阶段。
所以在这样的图里面,如果我们真正落一个计算中心,或者说一个东数西算工程中的新基建,必须具备“L”型的拼盘,而不是简单地只是做算力的提供方,没有算力的消纳方,或者没有算力的运维方。
这样完整的拼盘把整个中国计算中心的业态扩大了,它需要一个更开源开放式的生态联盟,来做这样一件事情,最终把在中国的计算中心的生态拼盘真正落实。不然的话,缺少任何一个轴,里面的数据中心都会用不起来,或者运维不起来,或者出现没有需求方这样的问题。
这是我们看到的一些趋势,随着算力集群和AI芯片在整个芯片系统作为底座,很多软件框架包括加速库、AI的框架等,我们在上面又加了分布式的框架,这个分布式的框架以更抽象的方式,能够让更多大模型的编程者可以更好地使用各种模型变形、数据变形等变形策略,能更好地调用底下更大规模的算力。
这种分布式的框架已经成为了一个更高抽象的代表,在它上面构建出所有的大模型、行业模型、大规模应用,也就是MaaS栈。在这样的情况下,底下的算力越来越海量,但上面的编程越来越海量,当我作为一个大模型的编程者,我要使用的算力本身,已经不再像以前这么具象了,不只是面对一张卡一个芯片这样的方式,以什么样的抽象方式更好地真正地使能编程。
所以它从底下来看,从芯片到集群,本身就是一个大的系统抽象。因为很多的编程者根本不太关心芯片的实际指标,只关心作为一个集群的呈现,能提供什么样的价值。所以从系统化来看,本身就是在往上抽象的。
另外,Transformer的出现,让更好的部署和微调变得更加专注。以前可能要面对千行百业不同种类的模型,现在开始变得更加聚焦、汇聚,如何针对统一大模型以及统一大模型上面的垂直模型进行专门的加速,能够让它变得更加高性价比。整个编程在往上移动,平台在往上抽象,所以一切的一切都在从底下的芯片往更高层次用户触达。
同时基础大模型的更新并不像以前的中小模型一样更新迭代非常快。大家看到ChatGPT至少有半年甚至更长时间更新一次,所以这种更新迭代的过程中,迁移的东西怎么样能够更好地匹配它的开发周期,在更大的开发尺度上,怎么样让它变得更有效,而不是像原来的中小模型一样,两三周甚至一个月迭代一次,这也变成非常大的挑战。
所以我们想表达的是,系统的高抽象、更高编程的层次和框架,以及更大规模用户的触达,以及系统性上更高的复杂度,让大模型真正能够被产生和训练,这在更大程度上增加了在AIGC技术上的壁垒和生态的难度。再讲到L型生态,整个AIGC其实是给整个业内生态布局和更大规模的开源开放,创造了一个大的可能。
04.
芯片硬件+软件双管齐下,
燧原试水文生图AIGC平台
对于我们燧原科技来说,在2.0里面把生态分成了两个部分:一个是以预训练为代表的大集群、大模型,高互联、大带宽这样一种方式,我们叫Pre-train,它是大模型的产生。但在右边我们会看到,当统一大模型变成垂类大模型进入千行百业,甚至赋能更多用户应用的时候,它其实是通过微调Fine-tune或者Prompt-tune以及推理的部署来做到的,所以在右边我们更强调极致性价比,在左边强调的是更高性能、更好的前瞻性。
目前为止我们看了很多的商业模式,大语言模型在真正实现商业化的路径上还有很多的挑战。OpenAI都还没有赚钱,那谁愿意为它付费?怎么让大语言模型真正能够实现商业的正向价值?这个其实跟右边的部署系统和生态极其相关,而所有的用户看重的就是能不能把你的部署性价比拉到极限。而极限每在性价比上增加一步,在整个大规模的部署上省的钱就更加可观,这是我们看到业内非常明显的点。
我们现在在中国已经推出了这样的集群系统来赋能,当然这个生态需要一定的建立,所以选择一些国家的实验室、国央企,来作为更好的推动力和训练上更好的试水,是整个生态成长的必要阶段。
同时,跟大的互联网战略客户进行完全匹配部署,是我们在推理和部署上非常关键的抓手。因为大的互联网公司战略客户,它会在所有真正的内容理解、智能交互、智能会议、推荐搜索、大模型的应用,包括游戏等场景。他们会极致关注性价比,要求你做到跟竞争对手更好的性价比,他才会进行试用。所以跟大的互联网客户进行极致打磨,把性价比做上去,这也是符合大模型未来部署市场里面非常关键的点。
同样在中国的计算中心里面,我们如何能够在中国计算中心里面有这样的落地抓手,能够保证我们刚才讲的“L”型生态,包括数据中心的业态能更好地建立,这也需要我们的最佳实践,保证这个业态在生态上很好的抓手。
所以一个以前定位AI芯片的公司,在AIGC的风潮里面,肯定不能只定位在AI芯片的本身,这离我们刚才讲的用户更大的生态、更高的抽象离得太远。这样一个金字塔的结构,必须得是从底下的软件、硬件,各种各样的裸金属底座,到整个软件;我们刚才讲了所有分布式的大模型支撑、各种内存、计算的优化,还有各种大模型的部署;然后再在系统层面对业务,端到端进行部署,最后才是整合整体的方案,整体赋能,一个大的数据中心或者一个大的客户。
所以从硬件、软件、系统、方案这么高的四个层次,需要有一些非常紧密的生态伙伴一起加持这个事情,然后达到真正通过统一栈,帮助中国解决算力瓶颈的问题。
这是我们在今年两个月前发布的曜图,这是一个文生图的平台,我们紧接着会有一个文生文的平台发布,做这个平台的目的就是为了让燧原的系统化和方案的能力直接通过这个产品的展示,直接触达高层用户。
因为如果你定位是一个芯片公司或者是一个硬件提供商,你很难通过一种具像的方式去跟应用方、模型方聊,而这样的一种系统化产品的搭建,让你轻易地以产品原型的方式去触达更多的客户,这种方式本身就是拟合了文生图,能够在燧原所有的全栈软硬件里面直接体现它的价值。
当然它最终落地在商业化的时候,一定要跟行业或者跟生态伙伴进行结合,但它的方式可以让我们很快地触达到更多抽象的客户,能够让客户用比较简单输入的语言来理解你的产品,来实现你的产品价值。
05.
AI芯片大比拼或在2024下半年
最后这张是我们的产品节奏。所有产品的发布和生态的建立,都必须得拟合时间点和节奏。在对的时间点出来一个错误的产品,那是完全不符合市场需求的。所以我们从2022年把模型分成了LLM和多模态,这两条线看上去现在情况差不多。
我们在2022年是刚刚启动的阶段,包括年底的ChatGPT。2023年在中国我们称之为大模型训练的元年,所谓的百模大战、千模大战都会用非常高端的训练卡,用最快的时间,把整个大语言模型和多模态模型训练出来,抢时间,然后更好地建立自己的护城河。但是到了现在,基本上所有的看法都认为,中国的第一波大训练已经结束了,如果现在才进入这个局面已经没有机会了。
现在不管是从大的互联网公司还是从比较大型的初创公司,还是从媒体类公司,都进入了一个新的阶段,就是怎么样把我训练的模型进行商业变现,花了这么多钱,怎么体现商业价值,让企业获益,这是所有人面临的终极问题。这也是为什么文生文还在这个阶段中,怎么样商业变现,但文生图已经实现了商业价值,已经有很多上市公司因为它而赚到了第一桶金。
所以今年年底,谁能真正帮助大模型去部署,去推理,同时打造极致性价比,这样的事情会在明年真正使能大模型更大规模的部署,所以明年我们认为是大模型的部署元年。明年也会有更多更有趣的大模型商业模式出现,包括刚才讲的订阅式方式收费,这也是大模型以前的时代没有经历过的。
所以在明年大模型的部署元年开始之后,我们可以再想象一下,当数据的飞轮重新转起来,所有的大模型以及应用开始收到用户大量数据,势必在明年下半年要开始重构他的训练,所以我们叫它再训练。
这样的数据飞轮转起来之后,谁能在明年的下半年提供真正更有性价比,或者更高性能,或者帮助用户的预训练产品,能把大模型2.0时代真正推动起来,把数据的迭代转起来,又变得更加关键。
2023年,我们认为是大模型的预训练元年;2024年,我们认为是大模型的商业部署元年;2025年,我们认为是大模型2.0真正成熟的元年。
所以如果各位的产品也好,整个市场的需求也好,是放在这里的。以极致部署的性价比,更好的算力和系统的弹性化,能够使能大模型的2.0,这被认为是未来发展的关键。
我的演讲就到这里,我最后想说的是:我认为这是开天辟地的时代,这是第四次工业革命的核心,让我们进一步地向AIGC靠近,也希望跟各位业内专家伙伴一起打造AIGC的生态,不负这个时代,一起帮助中国把这个算力支撑起来。谢谢大家!
以上是张亚林演讲内容的完整整理。
继续阅读
阅读原文