作者
薛良Neil
邮箱

谁有英伟达GPU,谁就是云公司

关于英伟达总有新的消息让你惊讶。
最近的一则来自美国的一家云初创公司 CoreWeave 。
这家公司宣布融资23亿美金,而更让人震惊的是这笔钱的抵押物是其拥有的GPU。在大模型热潮下,GPU俨然成为一种硬通货,而CoreWeave之所以能有如此多的英伟达稀缺物品,是因为它过去的身份——北美最大的以太坊矿工。
那时它有超过五万台GPU用来挖矿,在面对挖矿的不可持续性后,CoreWeave把目光转向AI等需要并行计算的领域,并在 ChatGPT 爆红之前就采购了大量英伟达芯片——那时芯片的产能还足够充分。
由此,CoreWeave自称是世界上唯一一个可以大规模提供H100算力的公司,也摇身一变成为了一家“云厂商”。
是的,它的GPU供给超越了所有云服务巨头,包括谷歌云、亚马逊云和微软的Azure。
这听上去有些奇特,即使是不谈GPU数量瓶颈,构建数据中心还需要巨量的成本,精巧的空间、能源和散热设计以及十分复杂的软硬件协同,一般来说,能满足这些条件的只能是巨头,而不是刚进行了B轮融资(4.21亿美元)的初创公司。
CoreWeave 能做到这一点,源于一种对数据中心截然不同的理解。
传统的数据中心由CPU构成,它们侧重于通用计算的能力,主要由最开始是英特尔,后来是AMD的芯片所垄断。
但全新的用于加速计算的数据中心则更强调并行计算,这就意味着它需要有更大的内存、带宽以及把所有的加速计算单元密切连接起来的能力,英伟达创始人和CEO黄仁勋称这个过程为“数据中心现代化”,在他看来这是一个将持续10年的周期。
这个新周期的开始预示着整个数据中心的建构方式,软硬件协同乃至电源和散热结构都需要重新设计。这让所有的云服务提供商几乎重回起跑线——针对 CPU 设计的上一代的数据中心方案几乎完全无法照搬。比如英伟达连接庞大GPU集群所用到的 Infinite Band 技术需要超过500英里的电缆,这在传统的数据中心设计中根本不存在。
CoreWeave举了另一个例子,相同场地大小,GPU 集群所需要的电力是传统数据中心的 4 倍,因此新数据中心的电力系统和散热系统都需要完全重新设计,这甚至还不算软硬件协同的成本。
抢占先机的CoreWeave由此不仅能提供庞大的H100算力,并且在比其它的云服务快几十倍的同时费用还低80%,能做到这些,我们可以将其归功于它很早就精准践行了黄仁勋有关数据中心的愿景——数据中心正在向加速计算方向转化,而紧缺的算力则通过云供应。
就这样,一家虚拟币挖矿公司就变成了一家当红的云计算公司,只因为它是最忠诚的英伟达门徒。

英伟达云是个什么云

谁有英伟达的GPU谁就是最红的云厂商,那么谁有最多的英伟达GPU?显然是它自己。
于是在扶持类似的云初创企业的同时,英伟达也在建设自己的云。
英伟达亲自下场做云的优势有很多,最明显的是它不受到GPU供需关系的困扰。马斯克曾在公开场合说,获得GPU比获得毒品要难多了,而CoreWeave之所以能提供超大规模的 H100 算力,据悉也和英伟达的充分供应有关——英伟达在几个月前参与了CoreWeave的 B 轮融资。
但显然,仅仅投一些初创公司还不够,生成式 AI 对算力的巨大需求最终让英伟达自己下场。在今年3月的GTC大会上,英伟达推出了自己的云服务DGX Cloud ,它已在年中正式上线。
从名字就可以看出,DGX Cloud 直接利用了英伟达DGX超级计算机的能力,云的每个实例均配备8个H100或A100 GPU以及640GB内存。
DGX Cloud 采用了一种低延迟结构,让庞大的工作流可以在集群之间扩展,于多个计算节点上并行分配。举个例子来说,最先宣布与DGX Cloud合作的甲骨文,它在OCI Supercluster上每个集群可以部署超过3万个A100 GPU,由此大模型可以在云上进行训练。用户在任何地方都能自由访问属于自己的 AI 超级计算机(英伟达表示算力的分配是独享排他的),打交道的只有前台界面,除了开发过程本身不用再去担心任何和硬件基础设施有关的问题。
这项服务采用月租形式,金额高达近 4 万美元。当然,相比直接买一台 DGX 服务器 20 万美元的价格来说还是便宜了许多,但不少人都指出,微软的 Azure 同样 8 个 A100GPU 的收费只有不到 2 万美元,几乎是前者的一半。
为什么这么贵?因为英伟达的云服务和别家不同,它不仅包括算力,还包括一整套 AI 解决方案。
名为Base Command Platform(基础命令平台)和 AI Enterprise 的两项服务被集成到了DGX Cloud里。前者是一个管理与监控软件,不仅可以用来记录云端算力的训练负载,提供跨云端和本地算力的整合,还能让用户直接从浏览器访问 DGX Cloud。后者则是英伟达 AI 平台中的软件层,高达数千个软件包提供了各种预训练模型、AI 框架和加速库,从而简化端到端的 AI 开发和部署成本。除此之外,DGX Cloud 上还提供名为 AI Foundations 的模型铸造服务,让企业用户可以使用自己的专有数据定制属于自己的垂直大模型。
这套软硬件组合起来的完整解决方案让 DGX Cloud 训练速度相比传统的云计算提高了两到三倍,这成为了DGX Cloud与传统云服务最大的不同,它很好的综合了英伟达两方面的强项:AI 生态和算力。对于英伟达来说,“软件即服务”这句话似乎应该改成“软硬件一体即服务”,DGX Cloud 集中代表了一个硬件厂商向上垂直整合的能力天花板。

黄仁勋的野心和现实

但这并不意味着英伟达就彻底掀了传统云厂商的桌子。它的这项服务是通过传统云厂商来提供的。DGX Cloud 最开始被宣布推出在甲骨文云上,随后微软和谷歌跟进,而英伟达与这些云厂商合作的方式显得颇为有趣:英伟达先把 GPU硬件卖给这些云合作伙伴,然后再租用这些硬件以便运行DGX Cloud。
有人戏称这叫两边钱一起赚,都不耽误。
实际上,黄仁勋解释过这种模式:“我们从让客户使用我们的计算平台中受益,而客户通过将我们(的计算平台)置于他们(云厂商)的云中而受益。”
如果只听黄仁勋说,这就是个皆大欢喜的双赢结局,然而这只是他一贯的叙事而已。英伟达已经陷入与自己客户的竞争中,并且心知肚明。
DGX Cloud 进展告诉我们,黄仁勋并不打算仅仅把它布置于传统云厂商上。在八月的 SIGGRAPH 2023上,英伟达先是宣布了与 Hugging Face 的合作,接着发布了名为AI Workbench的服务。它们都可以让用户便捷创建、测试和定制预训大模型,其背后的算力支持自然都包括了 DGX Cloud。
这显然会冲击英伟达和云厂商的关系:最主要的云服务商,包括谷歌、亚马逊和微软,它们同样也是英伟达的大客户,英伟达推广自有云服务势必会抢夺它们的市场份额。特别是我们在第一部分已经谈到,作为数据中心和云服务巨头的它们在构建下一代数据中心的问题上本来就不具备多少优势,如果再考虑到英伟达芯片产能“卡脖子”的问题,英伟达的自有云服务威胁不可谓不小。
黄仁勋不会不知道这一点,因此他对DGX Cloud 的态度就显得颇值得玩味了,比如他公开表示,一个恰当的云服务组合比例应该是10%英伟达DGX加上90%的公有云。换而言之,DGX Cloud 在黄仁勋的定位里并不是传统云厂商的对手与威胁,而是合作伙伴。
在 Q1 季度财报公布后的分析师电话会上黄仁勋谈的更多的都是这种合作的好处,“一个巨大的双赢”,黄仁勋如此形容。在他的理解里,DGX Cloud 是一个纯粹的英伟达堆栈(pure Nvidia stack),把人工智能开发、大型数据库和高速低延迟网络组合在一起,成为一种便捷的AI 基础设施从而打开全新的、巨大的市场——这个市场的参与者包括了英伟达和传统云厂商,大家将共同受益于生成式 AI 的爆发。
极力避谈冲突,其实是因为,DGX Cloud 恐怕很长时间内都只能维持一个较小的体量。
第一个原因当然是算力的瓶颈。“订单多到不可思议”是黄仁勋形容数据中心业务量时的描述,英伟达的核心要务当然是开发并保证生产尽可能多的符合市场需求的先进芯片,否则云服务的规模是无法扩大的。
尽管台积电在马不停蹄的生产,但值得注意的是算力缺口不是变小而是更大了,因为一旦大模型落地和商业化(比如像ChatGPT那样),其推理成本将随着用户规模的提升指数级升高,长远来看会比训练模型的算力需求大得多(有人给出的倍率是 100)。
此外也是考虑到英伟达和传统云厂商合作关系的复杂性。DGX Cloud如果作为一种纯粹的竞品出现,或许会占领可观的市场份额,但势必进一步加速云厂商摆脱对英伟达的依赖——它们本来就已经为了少交点“英伟达税”而不约而同地自研芯片了。
从另一个角度讲,全力扩大 DGX Cloud 规模可能也不符合英伟达的最佳利益。从芯片到游戏显卡再到服务器和数据中心,英伟达绝少自己制造硬件产品,它更喜欢和OEM 厂商合作——以至于许多时候你要采购英伟达芯片都还是得经过 OEM 厂商。这让英伟达很好的控制成本,维持利润率。
今天英伟达和云厂商之间似乎维持了一种平衡,但平衡就是用来打破的,尤其当一方是英伟达的时候,毕竟眼下才是黄仁勋所谓“下一代数据中心十年”更新周期的第一年。
一场聚集人工智能产业头部公司与顶级资本的对话
点击下方图片即可报名参加活动
品玩招聘作者,资深作者及编辑,并长期开放实习生招聘。

世界不平静,我们希望在变动的技术周期和商业周期里继续我们的探索,不熄灭眼里的光。
为了和更多个优秀的你一起记录和改变这个激动人心的时代,做更多有价值的报道,品玩现开放招聘。
岗位信息:全职:4人。实习生长期招聘。工作地点:北京。
一句话总结我们在招聘的岗位的工作内容,就是:
报道最重要的商业和技术新闻,并抽丝剥茧地解释给读者它们为什么重要。
一些共同的岗位要求:
1. 尊重常识。
2.对好内容有感知,有选题发明能力。
3.掌握快速搜索梳理信息的方法,有较强的文献阅读能力,能独立拓展相关资源。
4 英文流利。有阅读英文内容的习惯,可以用英文完成沟通。
5.对真实世界有感知,心智成熟,有职业精神,沟通界面良好稳定。
在招岗位:
-新经济作者、新技术作者
新经济作者负责报道互联网商业领域最新动态;新技术作者负责报道新技术领域(AI,芯片,机器人等)最新动态;
追踪钱的流动,人的变化,商业世界的竞争与合作以及科技的变革,并把它们讲述给我们的读者;
不限工作经验,不限专业背景,我们欢迎不同背景的候选人。
-资深作者/编辑
对互联网商业领域或新技术领域有自己的研究和积累;
有自己获取信息的方法体系,有持续学习的能力;
能发明选题,撰写深度文章,同时也可以辅导初级作者。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
或者,以上的描述都不能定义你,但你认为你是我们需要的那个人,也可以发邮件给我们,介绍你自己。
以上岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
同时,我们也在招聘其他岗位:
运营部门
岗位信息:全职:3人。实习生长期招聘。工作地点:北京。
内容运营
能够敏锐的捕捉互联网热点,并将其转化为出色的内容;
富有创新意识和强烈的主观能动性,重视流量在工作中的重要性;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
视频运营
具备视频的全流程的创作能力;
对各个内容平台均有深刻理解,能抓住平台规则红利;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
社区运营
有过国内外成熟知名社区的运营经验;
能够独立承担运营策略、节奏设计,结合运营目标、节点资源等因素制定精细化的社区运营规划;
对UGC的热点、流行趋势、话语体系有充分理解,能够通过创意、热点玩法、活动策划激发UGC参与。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
运营岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
商务部门
销售总监/高级销售经理
岗位职责:
1. 负责品玩线上广告、线下活动类、品牌营销、市场公关、以及定制方案的商务拓展与销售工作,通过对目标行业客户的销售完成指定收入目标;
2. 对目标行业客户进行研究、识别、接洽、需求、分析、产品演示、方案规划、谈判与签约;
3. 管理与维护指定客户(包括新客户与现有客户),提供优秀的售前与售后服务,建立长期、稳定的合作关系,对客户产品和需求进行持续性的研究与开发;
4. 与各部门保持紧密合作,回馈客户需求与最新行业动向,协助优化产品与服务;
5. 积极参加行业商务与社交活动,拓展人脉资源,持续了解与提升行业知识和洞察力
任职要求:
1. 互联网销售经验2年以上,销售经验5年以上优先;
2. 做事严谨、细心,较强的沟通协调能力;
3. 有市场营销、品牌方或者市场公关乙方工作经历优先;
4. 自我驱动,有很强的学习行业知识及专业知识的能力;
5. 具备应变能力,团队协作能力,能适应多任务处理及工作压力;
6. 拥有intel、华为、华为云、阿里、阿里云、高通等互联网行业直客资源者优先。
更多招聘信息,可以进入官网招聘页面获取。
期待品玩有你的加入。

· 文章版权归品玩所有,未经授权不得转载。
· 发送关键词 转载合作招聘 到品玩微信公众号,获得相应信息。
· 您亦可在微博、知乎、今日头条、百家号上关注我们。
继续阅读
阅读原文