生成式AI发展尚处早期,技术路线还未收敛,目前的一个重大分歧是:大模型到底要生态开放,还是要垂直整合
文|吴俊宇 
编辑|谢丽容
生成式AI已狂奔1年,这场军备竞赛中的核心参与者是云计算厂商。近一年来,全球云厂商在围绕生成式AI重新布局三层技术架构:基础设施、模型平台、应用生态。这三层技术架构的逻辑关系是——基础设施围绕AI芯片提供大模型训练、推理所需的算力;模型平台集成自研、三方或开源大模型,提高应用开发效率;生成式AI应用要选择模型进行开发,直接面向业务。
布局三层技术架构,云厂商的策略不尽相同。一个重大分歧是:大模型到底要生态开放,还是要垂直整合?
生态开放路线的典型案例是亚马逊云科技。它的大模型托管平台Amazon Bedrock集成了全球7家头部模型公司的20多种优选大模型。简单理解,Bedrock就像模型的超市。亚马逊认为,没有一个模型能适用所有场景。多模型,既能满足客户需求,也会给亚马逊云科技带来更多算力消耗的机会,并鼓励伙伴做大生态。这可以带动产业飞轮,形成良性循环。
4月23日,亚马逊云科技更新了Bedrock平台。更新逻辑是,让企业用户在Bedrock上低门槛、高效率、低风险地使用大模型。其中有三个重要发布:其一,上架Meta旗下新开源模型Llama 3、亚马逊云科技自研Titan系列模型、Cohere公司旗下新模型;其二,简化了用户导入、定制、微调、评估模型的功能;其三,提供控制模型行为的工具,避免有害、错误、风险内容。
垂直整合路线的典型案例是微软Azure。微软虽然也集成了部分第三方模型,但主打模型是OpenAI旗下GPT-4。垂直整合的好处是,微软在算力、平台、模型、软件四层通吃,短期内收入增长明显。微软智能云在2023年下半年已靠生成式AI收入增速反弹。
中间路线的典型案例是谷歌云。它在全球云市场份额第三,在亚马逊云科技、微软Azure之后。谷歌云有三款自研大模型,是自研模型最多的,还有一款开源大模型。它甚至还集成了部分三方模型。谷歌的策略是多头押注。自研、开源、开放三者并行。
生成式AI发展尚处早期,技术路线还未收敛,仍需要不断试错。各家生态路线处于探索尝试阶段,并非泾渭分明,也不存在绝对的界限和对错。结合后续市场发展态势,各方都不排除将进一步矫正甚至改变路线。
目前,中国云厂商的生成式AI布局版图也已初见雏形。类似亚马逊云科技生态开放路线的是阿里云。类似微软Azure垂直整合路线的是百度智能云。其他云厂商根据特长找打法,华为云利用国产化的昇腾AI芯片跑马圈地,腾讯云在销售生成式AI改造后的SaaS应用。电信运营商云仍在大规模囤积AI算力。
国际云厂商拼图对比
生成式AI正在成为云厂商的增长引擎。
2021年-2022年,美国云市场增长相对低迷。亚马逊云科技、微软Azure、谷歌云增速均在下滑。2023年下半年,美国云市场复苏。微软受益于生成式AI,因此营收增速反弹明显。不过,云是生态的游戏。生态培育周期往往长达3年-5年。伙伴数量,生态的公平性、开放度,这些因素通常决定了增长后劲。
国际市场调研机构Gartner 2023年7月数据显示,全球公有云市场前五强分别是:亚马逊云科技(40.0%)、微软Azure(21.5%)、阿里云(7.7%)、谷歌云(7.5%)、华为云(4.4%)。
图片说明:亚马逊云科技的生成式AI技术架构
亚马逊云科技是全球市场份额最大的云厂商。生态开放一直是它擅长的策略。这延续到了生成式AI业务中。亚马逊云科技围绕基础设施、模型平台、应用生态,形成了完整开放的生成式AI战略布局。
基础设施的关键是,为模型训练/推理提供强大、稳定、低廉的算力。亚马逊云科技同时部署了英伟达AI芯片和两款自研AI芯片(训练芯片Trainium、推理芯片Inferentia)。生成式AI在基础设施层的关键能力是,管理万卡规模的算力集群。其难度在于,万卡训练中,显卡、网络、系统随时可能故障。一旦中断,不仅会花费大量时间,还会浪费昂贵的算力。目前,亚马逊云科技有能力支持超过10万个Trainium 2芯片并行训练。这可以有效节省模型训练时间,提高算力利用效率。
模型平台的关键是开放生态,扩大模型选择空间,降低模型使用门槛。为此,亚马逊云科技的Bedrock模型平台集成了全球7家头部模型公司的20多种优选大模型。合作范围超过其他云厂商。因为,开发生成式AI应用要选合适的模型,还要综合考虑参数规模、准确性、性能、价格等因素。一位中国SaaS软件企业人士今年3月表示,他所在企业在不同业务中用了11款国内外模型。因为每个模型擅长的业务领域不同,没有一个模型能适用所有场景,要让它们各司其职。
为进一步降低模型使用门槛,Bedrock提供了用户导入、定制、微调、评估模型等功能。企业可以定制模型集成至Bedrock,这能减少运营成本,加速应用开发。企业使用生成式AI的风险之一是,模型幻觉(AI胡言乱语的行为)。为此,Bedrock还提供了工具,让企业去除隐私、敏感、有害信息。
另外,应用生态的关键是要繁荣。目前,企业普遍部署了大量SaaS应用。生成式AI应用长在SaaS软件上,它比SaaS应用更轻量级、碎片化、原子化。它是SaaS应用的功能组件,可以打通数据接口,在聊天、对话、搜索中被调用。这就像微信、支付宝等超级APP上还有小程序。它们功能丰富、便捷高效。
为此,亚马逊云科技提供了两种产品服务。一是,AI助手Amazon Q,它拥有QuickSight(数据报表)、Connect (智能客服)、Supply Chain(供应链管理)、CodeWhisperer(代码生成)等基础功能,企业可以用它定制自己的AI助手。二是,开放兼容主流SaaS应用,Amazon Q有40多个兼容流行数据源的连接器,覆盖Google Drive、Microsoft 365、Salesforce、ServiceNow等知名SaaS应用。企业内使用Amazon Q时,可以打通这些SaaS应用的数据,连接企业内网、知识库、流程说明书等。
亚马逊云科技生成式AI布局的核心原则是做大蛋糕——做好算力、模型平台,提供基础应用,打通数据接口,定好平台规则。它和SaaS企业、AI模型企业等伙伴保持边界清晰。
生态公平、开放是这家公司的历史传统。亚马逊云科技自2006年诞生后,Salesforce、ServiceNow等一批知名SaaS企业自然围绕在周边形成了生态合作。亚马逊云科技与合作伙伴的默契是,亚马逊云科技提供基本云服务和核心应用,上层行业应用由伙伴共同建设。伙伴各司其职,它们成长的同时会消耗底层算力,亚马逊云科技收入也会增长。这是个良性循环的产业飞轮。因此,亚马逊云科技和合作伙伴之间利益冲突也相对较少。
和亚马逊云科技不同,微软走的是垂直整合路线。这在模型平台、应用生态两层尤为明显。
在模型平台层,微软把资源重点倾斜给了OpenAI的GPT-4——它是微软Azure模型平台的默认选项。微软Azure模型平台中,主要支持四类模型:OpenAI的GPT-4、微软自研模型,战略合作方Mistral Al旗下模型,以及部分开源模型。对微软来说,它可以同时获取算力、模型收入。
在应用生态层,微软主打应用是Copilot助手,它直接面向企业客户。Copilot还和微软自有软件(比如Office办公套件、Teams协同平台、Github代码平台、Dynamics 365开发平台、Power BI报表工具)深度融合。企业获取AI功能,要为之付费。借助Copilot助手,微软提升了这些软件的付费空间。
微软在算力、平台、模型、软件四层通吃。它用这一策略收入、利润增长明显。2023年微软智能云营收增速比当年最低点反弹了5.4个百分点;营业利润率比当年最低点反弹了5.5个百分点。
和亚马逊云科技不同,微软是一家典型的软件公司。微软擅长自研拳头软件产品,它的历史成功经验是靠Windows、Office等拳头产品获得高营收、高利润。微软2010年以后成功实现云转型的逻辑是,整合传统软件业务,自研、收购、投资一批软件,形成自有的云生态。
软件毛利率通常高达60%-80%,比IaaS(基础设施)算力资源高出20%左右。微软靠自己就能获得高营收、高利润,因此对合作伙伴依赖度相对更低。它的另一面是,生态亲疏有别。微软自研、投资的软件业务容易和其他SaaS/PaaS软件伙伴产生直接竞争。
谷歌云的生成式AI布局多头押注,采取了自研、开源、开放三者并行的策略。它自研了多款闭源大模型、开源大模型,还投资了多家生成式AI明星创业公司。
在模型平台层,谷歌的闭源大模型Gemini对标OpenAI的GPT-4。谷歌的开源大模型Gemma对标Meta的Llama。谷歌的模型平台也支持Anthropic的Claude 3等第三方模型。在应用生态层,谷歌自研的生成式AI应用集中在视频、语音、文本、翻译等传统优势领域。
谷歌投资生成式AI创业公司,采取了广撒网策略。它是Anthropic的股东,投资额仅低于亚马逊(亚马逊投资40亿美元,谷歌投资23亿美元)。谷歌还投资了大模型公司Character.Al、大模型公司Al21 Labs、模型开源社区Hugging Face、视频模型企业Runway。
一位中国软件行业投资人今年1月曾评价,谷歌云目前市场份额和亚马逊云科技、微软Azure有较大差距。作为追赶者,它的增长压力较大。过去几年,谷歌云依靠价格战取得了高速增长。谷歌云2023年开始调整战略,它实现了扭亏为盈,但营收增速也在逐步放缓。
他进一步解释,生成式AI是谷歌云弯道追赶、重回增长的机会。生成式AI发展尚处早期,技术路线还未收敛,仍要跑马圈地、不断试错。多头押注的好处是可以多头试错。而且,谷歌投资要求之一是,被投企业要在谷歌云上训练模型。这会带来算力消耗,进而创造营收。挑战是,要找到精妙的平衡点。因为自研模型、开源模型在商业模式上存在矛盾,自研模型、第三方模型同样存在一定的利益冲突。
中国云厂商拼图对比
中国云市场过去三年处于低迷期,市场增速不断放缓。生成式AI在中国同样被认为是拉动增长的重要引擎。
国际市场IDC数据显示,2023年上半年中国公共云服务整体市场规模(IaaS+PaaS+SaaS)为190.1亿美元,同比增长14.7%。IDC数据还显示,未来5年中国生成式AI市场的年均复合增速为55.1%。生成式AI的增速远超公共云市场增速,因此主要云厂商均在积极布AI。
阿里云的布局比较接近亚马逊云科技,它的策略是开放生态、模型开源,并采取了广撒网的投资策略。因为这可以激发阿里云底层算力消耗,进而带来收入增长。
阿里云在中国云市场份额、营收规模均排名第一。过去三年,阿里云经历不少阵痛,收入增速低迷。该公司此间核心任务是优化政企项目、提升收入质量,并经历了多轮管理层调整。目前,阿里云内部对生成式AI的增长引擎有较高预期。一种判断是,阿里云2024年营收增速将因为生成式AI逐渐回升。
在模型平台层,阿里云和亚马逊云科技思路一致,也是给企业充分选择空间。目前,阿里云自研了通义系列闭源模型,对外发布了三款通义系列开源模型,学习Hugging Face模型开源社区建立了魔搭社区。阿里还投资了中国估值前五的生成式AI独角兽,智谱AI、零一万物、百川智能、MiniMax、月之暗面。这些公司均在阿里云上训练大模型,并对外提供服务。
阿里云管理层曾公开表示,大模型现在还在技术快速演进的初级阶段。选择开源、闭源模型,选择哪种模型,都应该让开发者自己选择。如何平衡开源、闭源商业模式的矛盾?一位阿里云人士表示,开源、闭源是上下游关系。开源在技术上游,主要目标是社区参与研发迭代,扩大企业用户规模,确保技术领先同行。闭源在下游,目标是商业化。在他看来,开放生态、模型开源是为了形成“模型越强、应用越多、用户越广、算力越大”良性循环。
百度智能云采取了类似微软Azure的垂直整合路线。百度的生成式AI投入很激进。因为,百度智能云营收规模、市场份额和第一梯队存在差距,生成式AI是它缩小差距的机会。
百度的目标是,能像微软一样靠销售算力、平台、模型、应用获得收入增长。百度的确吃到了第一波生成式AI的红利。2023年四季度百度智能云营收增速和当年低点相比,反弹了11个百分点。
在模型平台层,百度主打自研的文心系列模型。今年4月,百度创始人李彦宏在公开演讲中直言反对开源大模型。一位百度智能云高管曾表示,开源软件代码是公开的,社区开发者可以参与加速软件迭代,帮企业摊薄研发成本。但开源模型是个黑箱,算法、参数、数据无人知晓。开发者参与对模型迭代帮助不大。另一个原因是,开源模型训练、推理成本很高。开发者参与无法降低研发成本,只会推高算力成本。
在应用生态层,百度在和一批软件厂商探索生成式AI应用,还建立了AI应用商店。一位百度智能云人士表示,中国SaaS软件产业一直很薄弱,软件开发长期以人力外包服务形态为主。缺点是成本高、效率低。百度为此推出了千帆AppBuilder应用开发平台,企业可以用它开发轻量级、碎片化、原子化的生成式AI应用。由于应用开发、使用门槛更低。这可以加速软件产业的转型。
华为云拥有自研的昇腾AI芯片。这是它布局生成式AI的最大底气。目前,国内AI算力短缺。包括阿里、腾讯、字节跳动、百度在内的中国科技公司都在使用华为的昇腾AI芯片。
2023年10月,美国商务部向中国断供了先进AI芯片。中国企业无法正常采购英伟达A100/A800、H100/H800芯片后,最现实的国产替代方案就是华为的昇腾。2023年华为昇腾AI芯片产能为30万-40万片,一位华为云高管直言,一些互联网云厂商在用华为云的算力训练AI大模型。
腾讯云擅长上层SaaS应用,2023年推出混元模型后,一批自研SaaS应用(腾讯会议、企业微信、电子签、AI代码助手等)都在进行AI升级。目前,上述SaaS应用也在对外销售。
电信运营商云(天翼云、移动云、联通云)目前均发布了自研大模型。它们目前在大规模储备AI算力。比如,中国移动预计2024年算力资本支出预计将增长28.0%,达到475亿元。算力投资将向AI算力和国产算力倾斜。中国移动的算力资本支出规模甚至超过了阿里、腾讯、百度等厂商。
一种常见观点是,中国云厂商的生成式AI布局有两个挑战:一是算力,它会制约模型的能力;二是应用,国内软件公司规模普遍有限,它们尚未完成云转型。
算力层面,由于高端AI芯片断供,中国云厂商目前模型训练成本相对较高。但积极信号是,目前华为等国产AI芯片正在加速落地。一位中国SaaS企业高管表示,现在中国每家大模型厂商能力都在快速提升。虽然没有一个大模型像GPT-4一样强,但可以用MOE(Mixture of Experts,一种模型设计策略,通过混合多个专业模型,获得更好的性能)把各家模型长处都用起来。这样综合能力不会和GPT-4有明显代差。
应用层面的机遇是,一批软件公司正在利用生成式AI缩小差距。目前,在软件开发项目中,AI代码平台可以大幅减少人力规模。这可以让软件产业从人力密集朝技术密集的方向转型升级。
多位云厂商人士的判断是,2023年中国企业普遍在“囤算力”、“卷模型”。由于算力成本高昂、模型竞争激烈,2024年“卷模型”略有退潮。“卷应用”会是未来的重点方向。无论是“囤算力”、“卷模型”,最终目的还是开发应用,落地到实际业务之中。
生成式AI重构云计算
多位云厂商技术人士的观点是,随着生成式AI加速落地,新一代云计算的雏形也在初步显现。
2010年左右,云计算逐步取代硬件为核心的传统IT。如今,生成式AI又在重构云计算。改变是围绕三层技术架构展开的:
在IaaS(基础设施)层,智能算力(GPU等芯片)增速远超通用算力(CPU芯片)。通用算力和智能算力一般无法通过EFlops(每秒浮点运算次数)直接进行对比。不过,中国信通院2023年数据显示,2022年全球通用算力规模440EFlops,智能算力规模451EFlops。智能算力增速超过50%,远高于通用算力。
在PaaS(平台软件)层,PaaS平台之上出现了MaaS(Modle as a Service,模型即服务)平台,基于模型调用的应用开发效率大幅提升。PaaS研发成本高、沉淀周期长,SaaS企业开发PaaS平台周期通常长达3年-5年。但MaaS比PaaS更灵活,调用模型开发应用更简单、直接,它未来会承担更多开发平台的工作。
在SaaS(应用软件)层,一批生成式AI应用长在SaaS应用上,成为功能组件。它们更轻量级、碎片化、原子化。可以通过AI助手,在聊天、对话、搜索中被调用。SaaS应用和生式AI应用,就像微信和小程序的关系。一些功能单一的SaaS应用会被淘汰。但一些引入生成式AI应用的SaaS应用付费价值会提升。
多位云计算技术人士的观点是,这一轮云计算技术的革新周期会长达5年以上。短期内一城一池的得失并不重要。因为在IT产业,革新技术架构、调整生态政策、落地产品技术周期很长。
2023年,微软出手凌厉。它利用生成式AI抢占了先机。在模型层、应用层,微软交出了一份漂亮的答卷。2024年,亚马逊云科技则利用全面、稳健的策略稳扎稳打,在基础设施、模型平台、应用生态三层全面推进。它的战略布局甚至更全面。
亚马逊云科技、微软Azure 2010年以来就是老对手,它们在云转型的时代缠斗了12年。如今AI转型开启,新的较量开始了。算力、模型、应用三个维度的综合较量,才会决定胜负。
亚马逊云科技的优势是,它在全球云市场份额超过40%,基本盘更稳固。它的生态规模也更大,和SaaS软件厂商、AI模型厂商有更广泛的合作关系。亚马逊云科技的成长后劲更足。对合作伙伴来说,亚马逊云科技是创新土壤,随着AI模型创业厂商不断长大,更多生成式AI应用在SaaS软件上开花落地。这个生态会变得更繁荣,亚马逊云科技的收入也会随之增长。
2024年以来,中国云市场也出现结构性调整,新一轮竞争正在酝酿。生成式AI是这轮竞争的焦点。
互联网云厂商和电信运营商云正在攻受易位。互联网云厂商这近三年的战略调整已到尾声。各公司营收增速、利润水平明显提升。电信运营商云战略减速,开始调低增速预期、减少亏损。阿里云期望生态开放,用生成式AI结束过去三年的低迷期;华为云期望用国产芯片进一步开疆拓土。百度希望垂直整合,用生成式AI实现弯道追赶。电信运营商希望囤积更多智能算力扩大市场份额。
无论采取哪种策略,和国际云市场一样,中国云市场的竞争都会是一场长跑。
继续阅读
阅读原文