在大模型竞争的关键期,中国市场却因缺乏高性能AI芯片的供给导致算力受到严重制约。腾讯和燧原的战略合作案例,让我们看到了突破的希望。
本文字数6082,阅读时长约17分钟
文|财经E法 樊朔
编辑 |郭丽琴
AI大模型赛道的火爆,点燃了全球对生成式AI产业的想象。但这一想象,需要依靠足够数量的高性能AI芯片来支撑。
复杂的AI算法需要大量计算资源来实现,AI芯片是专门用于处理AI计算相关任务的协处理器,为AI算法提供了高效的算力。随着A100和H100等多款芯片成为AI大模型训练的算力基础,高性能AI芯片市场也被全球人工智能计算巨头英伟达所垄断。
在大模型竞争的关键期,中国企业陷入了高性能AI芯片“缺货潮”。 如何通过国产替代来解决算力瓶颈,已成为各方关切的重要议题。
今年10月,工业和信息化部等六部门联合印发《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出了到2025年发展量化指标。计划提出,到2025年,计算力方面,算力规模超过300EFLOPS(EFLOPS是指每秒百亿亿次浮点运算次数),智能算力占比达到35%,东西部算力平衡协调发展。这一过程中,一些平台企业选择投资国产AI芯片创业公司,一方面将国产AI芯片应用于自己的产品线,另一方面支持芯片企业发展。在国家发改委今年发布的“平台企业在支持科技创新、传统产业转型方面形成的一批典型案例”中,腾讯与上海燧原科技有限公司的案例成为平台企业支持芯片企业发展的代表之一。
国家发改委指出,腾讯持续投资支持上海燧原科技有限公司,加强人工智能领域云端算力平台产品和服务等核心业务发展,促进国产高性能AI芯片研发和商业化落地,产品已经应用于云数据中心、泛互联网及智慧城市等人工智能应用场景,为行业提供了更多自主可控的产品和服务选择。
透过对该案例的深入剖析,财经E法试图记录一条适合当下中国企业的发展之道。
01
掌握芯片的“产品定义”
公开资料显示,主流AI芯片包括GPU、FPGA、ASIC以及DSA芯片。其中GPU芯片的需求量最大。根据国际数据公司(IDC)的数据,预计到2025年GPU仍将占据AI芯片市场80%的份额。根据在网络中的位置,AI 芯片可以分为云端 AI 芯片 、边缘和终端 AI 芯片; 根据其在实践中的目标,可分为训练(training)芯片和推理(inference)芯片。云端主要部署高算力的 AI 训练芯片和推理芯片,承担训练和推理任务。
中邮证券数据显示,2021 年我国 AI 芯片市场规模达到 427 亿元,同比增长124%。预计到 2023 年,市场规模将进一步扩大至 1206 亿元。
不断增长的市场出现了越来越多的AI芯片厂商。当下国产AI芯片厂商包括几类:第一类是上市公司;第二类是仍处于融资阶段的创业公司;第三类是科技公司及平台企业旗下的全资芯片公司。
那么,在众多玩家中,燧原与腾讯是如何相互选择、双向赋能的?
近期,在燧原科技的上海办公室,燧原科技创始人、董事长兼CEO赵立东谈起了创办燧原的初心、与腾讯合作的始末以及建设国产AI芯片生态的愿景。
在上海张江金秋路的一栋写字楼里,燧原的研发人员在办公区内行色匆匆。赵立东在五年前与搭档张亚林创立了这家年轻的AI芯片公司。
赵立东办公室一公里之外就是有着张江集电港之称的张江集成电路产业区,他用手指了指窗外:“从这里走过去只需要十几分钟。经过二十几年的发展,知名的半导体芯片公司几乎都在上海设立了研发中心。”
赵立东在半导体芯片发展的大潮中来到上海。2007年,在硅谷工作多年的赵立东被派驻回上海参与创立AMD上海研发中心。团队用短短五年的时间从180人迅速发展到2000人,并且形成了完整的研发团队。”团队所做的工作从IP验证、芯片验证慢慢发展到IP设计、芯片的设计、板卡设计、软件设计,一直到AMD在苏州建立封装测试厂,提供量产支持。与此同时,AMD在中国的销售额占到了全球销售额的三分之一。”赵立东说。
尽管AMD上海研发中心已经实现了研发团队和销售额的突破,赵立东始终觉得国内缺失芯片产业链中“产品定义”的环节:“我们未来要做一个什么样的产品?这个产品竞争力何在、生命周期多长,能带来多少收入,毛利是多少?我们需要花多少钱研发?这些其实有一整套的方法论,但这一整套方法不在中国。”
2017年底,赵立东看到了人工智能芯片的巨大前景。基于此前多年在AMD的人才和经验积累,他想做一颗大芯片,而这颗大芯片要有两个特征:一是由自己做定义,二是技术门槛要高。
赵立东找到了以前在AMD的同事张亚林。张亚林在AMD历任资深芯片经理、技术总监,曾经作为全球芯片研发主要负责人之一,在AMD上海研发中心成功领导开发并量产了多颗世界级芯片。
组建创业团队意味着要先形成“骨架”。张江遍布半导体芯片企业,其中不乏头部厂商。很快,AMD、英伟达、英特尔、ARM等公司的前员工陆续加入。赵立东回忆,这最初的几十人似乎抱着一个同样的想法:“我们一起做出自己的大芯片”。
2019 年,燧原推出了第一代云端人工智能训练产品“云燧 T10”;2020年,推出第一代推理产品“云燧 i10”;2021年,推出了“云燧i20”和“云燧 T20”,仅用三年时间就完成对训练及推理芯片的二次迭代。在计算架构上,第二代产品采用了新一代全自研的GCU-CARA全域计算架构,针对人工智能计算的特性进行了深度优化。
02
牵手腾讯,彼此赋能
平台企业投资AI芯片公司的故事,是一场集齐了天时、地利与人和的战略合作。
创业之初,燧原团队就备受资本青睐。
2018年3月,燧原科技正式成立,仅仅3个月后即获得种子轮融资,投资方为亦和资本、真格基金、达泰资本、云和资本和上海科创投。同年的8月7日,燧原科技获得3.4亿人民币的Pre-A轮投资,本轮投资由腾讯领投,种子轮投资方跟投。
真格基金董事总经理姚方舟回忆,与燧原科技的两位创始人赵立东、张亚林的结识,源于真格的另一家被投企业隔空智能创始人的介绍。真格团队迅速约了两位创始人见面,并以最快的速度决定投资。
赵立东回忆,他先在上海见了真格基金的投资人,紧接着又到北京见了真格基金联合创始人王强、创始合伙人兼CEO方爱之。分别聊了半小时后,真格很快就做了决定,并给了一个赵立东当时觉得是“业界最友好的TS(投资意向书)”。
姚方舟告诉财经E法,最开始见到燧原创始团队的时候,“大家一致地被创始人的丰富经验以及愿景征服”。方爱之在见完燧原团队后在投资群里发了消息:“燧原:优秀的创始人、顶尖的背景、有前景的行业、真诚可信、具有广阔的市场需求、完美的创始团队。”
很快,燧原获得了更大范围的认可,这之后的融资开始持续出现腾讯的身影。
姚方舟认为,燧原的优势主要体现在三个方面:第一,燧原非常注重产品的性价比设计,使得AI计算力更经济高效,这符合中国市场的实际需求,也构成了燧原的核心竞争力;第二,燧原垂直整合了从芯片到软件的全栈技术实力,能提供完整的AI算力解决方案,为用户带来了极大的使用便利性;第三,燧原已经实现了规模级的商业化落地,拥有大量知名客户,这证明了他们产品和服务的质量。
而腾讯在燧原融资过程中连投六轮。天眼查信息显示,目前,腾讯科技是燧原的控股股东,持股比例为21.371%。腾讯投资董事总经理姚磊文占据一个董事席位。
赵立东告诉财经E法,腾讯与燧原的合作最初只是财务投资,随着燧原的产品流片成功、实现量产,燧原开始与腾讯的业务部门进行合作,并逐渐深入。
腾讯与燧原合作的走向也满足了赵立东的期待。他对投资人的希望是能够为燧原带来战略资源,包括业务、产业的合作、生态的建设,上下游融合等各方面。
2020年初,腾讯公司总裁刘炽平在腾讯投资IF(Insight & Forecast)大会上表示,一方面,腾讯让被投企业和腾讯内部业务线产生更多有机的商业合作,可能是上下游协同,可能是横向合作,也有可能是开放腾讯的平台能力,譬如在发展云业务上;另一方面,腾讯希望进行更多的科技赋能。而在组织能力建设、管理能力打造和管理咨询方面,腾讯也组建了专业团队为被投企业赋能。
此前,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生曾向媒体表示,腾讯会根据自身场景给芯片厂商提需求,只要出货量达到一定规模,芯片厂商也愿意投入资源去支持腾讯。
腾讯投资董事总经理姚磊文曾表示,腾讯自2018年领投Pre-A轮以来,已连续多次支持燧原。在燧原成功流片后,目前已与腾讯基于业务真实场景开展了深入合作,证明了其执行力和落地能力,以及与腾讯的强协同效应。
一个广为流传的案例是腾讯与燧原科技在国内首次采用“存算分离”架构的芯片仿真混合云平台项目。根据腾讯云官方公众号的描述,2022年3月,燧原的新一代AI芯片研发即将进入芯片仿真验证任务的关键支撑阶段,需要大量计算资源。若算力波峰达到几万核,常规上要在一周甚至一天内加设百台级的服务器。但芯片设计在不同阶段对算力的需求不同,波动明显且难以预测。为了突发的需求部署大量的冗余资源,从成本角度很不划算。而且,芯片研发需要的是高性能的先进计算资源,如果要一直更新机型,负担很重。
腾讯因此向燧原提出可以提供芯片上云的服务。尽管芯片上云可以保障算力使用的灵活性,但燧原方面则认为,核心知识代码和流程工艺等数据的安全是芯片企业的重中之重,上云后可能会导致核心数据流失。因此,腾讯云提出了“存算分离”的解决方案,云上仅包含计算,所有数据存储在本地,通过专线远程访问。相比起云上的存算分离,这种架构对网络时延、带宽吞吐率和效率的要求都会更加严苛。
最终,这次合作取得了理想的效果。腾讯云数据显示,总体任务并发量通过云端弹性同步提高,缩短仿真周期30%-50%,节省了大额的IT投入。
芯谋研究人工智能芯片分析师商君曼告诉财经E法,平台企业就自身下游应用的需求去投资,是为了自身需求和未来考虑。当然这对AI芯片企业而言也是一种典型的赋能,使其可以通过平台企业的需求明确产品要做哪些方向。
赵立东告诉财经E法,燧原的芯片在出货后就已应用于腾讯不同的业务部门、产品线上。
华泰证券研究所科技行业首席分析师黄乐平认为,目前国内AI芯片最缺的是应用场景,腾讯投资燧原除了资金以外,可以为燧原带来实际的应用场景。在游戏、社交等领域,腾讯的技术和客户规模都处于全球领先地位,芯片只有通过实际业务场景的考验,才会有竞争力。
那么,站在腾讯角度,又为何要投资燧原?
商君曼认为,平台企业投资AI芯片公司,本质上是为自己的算力基础做好硬件储备,提升供应链上下游的安全。这类投资对改善算力困境有积极意义。因为目前平台企业都在参与大语言模型和云服务赛道的竞争,而这一赛道的硬件基础就是AI芯片。
黄乐平也认同此观点。他表示,目前制约大模型发展的重要因素就是算力不够。一方面,英伟达的高性能芯片持续缺货;另一方面,美国新规之前,即使能够买到替代品,中国互联网企业能使用的A800显卡可能只有美国互联网公司采用的最新H100显卡的20%左右的性能。也就是同样的算力,所需成本要高出5倍左右。美国新规之后,就连这样的替代品都难以买到。黄乐平认为,腾讯投资芯片企业,双方不仅能在技术上深度打磨,腾讯也会把最新的客户需求告诉芯片厂商,在算力受到制约的情况下,进一步提高芯片的性能。
黄乐平表示,对腾讯等平台企业来说,有自己的芯片能力非常重要。从全球来看,谷歌、亚马逊、微软也在布局自研芯片。这一策略有两个积极意义:
第一,可以提供差异化服务。芯片实际上是固化的算法,如果全部依赖英伟达等大厂,相当于把最新的算法也告诉英伟达,英伟达很有可能把同一个产品卖给平台企业的竞争对手。为了保持竞争优势,美国的平台企业一般会在最新的服务上部分采用自己的芯片,通用服务上采用英伟达或者AMD的芯片。
第二,降低成本,增强和芯片供应商之间的谈判筹码。但黄乐平坦言,与美国平台企业相比,国内平台企业在芯片上的投资还处于试水阶段。根据公开信息,腾讯、字节、美团主要是通过投资的形式在布局芯片,国内部分平台企业有一些自研的团队,但和华为以及美国互联网公司相比,在规模上小很多。此外,芯片投资周期长,和社交、游戏等互联网业务比回报低,平台企业是否愿意持续投入仍是未知数。
03
构建自主创新的软件生态
除了寻找外部战略合作,燧原的另一重要战略是构建自主创新的软件生态。
民生证券研报显示,除 GPU 硬件之外,与之配套的软件开发体系亦是高性能AI芯片生态的重要组成部分。GPU的生态包括底层硬件、指令集架构、编译器、API、基础库、顶层算法框架和模型等,而英伟达于2006年发布的CUDA平台(软件)是当今全球应用最为广泛的AI开发生态系统。
商君曼表示,英伟达的CUDA平台下载量持续提升,已成为多领域占主导地位的重要技术平台,实际上与英伟达GPU形成了互相促进、互相协同的作用。随着英伟达获客量的提升和获得反馈的增加,CUDA平台会加快升级和完善,对英伟达提升市场占有率更有利。
赵立东告诉财经E法,本土AI芯片公司一般会分为两个路线:一条是用GPGPU架构(通用计算图形处理器,是GPU的拓展、演进)去兼容英伟达的CUDA;一条是构建自主创新的软件生态。
在赵立东看来,英伟达的硬件开发与其软件开发是相匹配的,兼容CUDA意味着AI芯片厂商的硬件架构要与英伟达的硬件架构类似。此外,CUDA并非开源系统,它的运行机制类似于一个“黑盒子”,从技术角度来看,AI芯片厂商无法做到硬件和CUDA系统完全兼容。
黄乐平也认为,虽然国产AI芯片厂商短期选择CUDA兼容商业发展会更快,但CUDA会带来不开源壁垒,且CUDA也在不断演进,要长期要跟住更难,还有专利保护风险。但是,自主软件系统这条路,需要投入巨资去培育自己的生态。从全球来看,在GPU服务器领域排名第二的AMD到目前也没走通,未来得看微软等大客户是否会投入资源帮助AMD制约英伟达。
燧原选择了第二条路:通过软硬件协同架构设计,更好释放邃思芯片的性能。“兼容这条路走不通,我们更应该掌握生态建设的主动权。”赵立东认为,兼容只会壮大CUDA的生态,继续增加企业对这一生态的依赖性。
黄乐平告诉财经E法,国产的自主软件系统是否能成功,一方面取决于中国互联网大厂这类AI芯片使用的大客户是否愿意扶植芯片企业;另一方面,需要出台政策支持国产软件。“自建生态系统对单个企业要求非常高,需要考虑技术、人力、财力、产业生态多重因素的配合,如果能走通,未来肯定收益更大。”黄乐平说。
对燧原而言,开源合作是一条非常实际的商业路径。赵立东认为,在技术门槛高、高度垄断的芯片行业中,凭借一己之力参与竞争并不现实,与上下游合作伙伴一起做才是更理想的选择。此外,对于初创企业,开源合作有着很强的杠杆作用,能够撬动资源,实现良性发展。例如,燧原科技与之江实验室、上海交大、西安交大等建立了联合研究中心和联合实验室。2021年3月,燧原与之江实验室成立了“之江-燧原联合创新研究中心”,联合研发异构智能计算集群。这一集群不仅促进了之江内部自研的生成式AI大模型发展,同时也为之江的科学计算AI for Science赋能,如蛋白质结构预测模型。目前,之江实验室已经完成了数十款科学应用场景大模型的训练。这也为燧原在大模型预训练方面带来了大量的经验积累,同时能够反哺燧原后续的预训练产品。
与此同时,燧原还积极参与AI标准的制定,与中国信通院、中国电子技术标准化研究院等机构建立了合作,其目标正是建立中国的AI芯片生态。赵立东认为,制定标准是建生态的重中之重。“当大家都慢慢遵从标准时,生态就建成了。”赵立东说。
面向未来,赵立东表示,燧原将会在产品持续迭代的基础上,继续与产学研合作伙伴深化合作,共同建设本土AI芯片生态。

 近期话题,点击阅读
继续阅读
阅读原文