1000亿美元宇宙级豪赌！微软OpenAI打造星际之门AI超算，电力能耗惊人

新智元报道

编辑：Aeneas 好困

【新智元导读】炸裂消息！据外媒透露，微软和OpenAI正豪掷超千亿美元，欲打造一台「星际之门」超算。最快在2028年，「星际之门」就要启动了。而它对电力的需求，将达到前所未有的程度。

就在刚刚，又有大消息曝出。

据外媒The Information报道，微软和OpenAI正计划建设一个名为「星际之门」（Stargate）的特殊数据中心，为后者提供强大的计算支持。

具体来说：

微软高层计划最快在2028年启动该项目
这台超算对电力的需求将前所未有地高
OpenAI将在明年初发布下一次重大升级

这个「星际之门」超算，会配备数百万专用的服务器芯片！项目的成本，预计高达1150亿美元。

而如此庞大的资金支出，将由微软买单。

据悉，「星际之门」推出的时间预计在2028年，并且2030年之前会进一步扩建。

最终，它所需要的电力，很可能高达5千兆瓦。

就在本周三，我们刚刚报道过OpenAI把微软电网搞崩的消息。当时微软工程师曝出，为GPT-6部署10万个H100训练集群时，整个电网发生了崩溃。

如今看来，这个十万卡集群，很可能就是「星际之门」的早期雏形。

GPT-5不断延期，微软能回本吗？

与当今一些最大规模的数据中心相比，「星际之门」的成本直接高出100倍！

在微软和OpenAI未来六年计划建设的一系列超算设施中，它是最大的一个。

而敢砸这么多钱，也反应出微软和OpenAI对AI前景的巨大信心。

在十年内，这将是双方最关键、最重大的合作。

不过话说回来，毕竟是1000亿美元的巨额投资，微软确定能「回本」吗？

此前，微软已经向OpenAI投资超过130亿美元，让OpenAI能用微软的数据中心跑ChatGPT。

而作为回报，微软得到的是对OpenAI技术核心的访问权限，并且可以将该技术独家提供给摩根士丹利之类的云计算客户。另外，Office、Teams、Bing的AI Copilot中，也可以整合OpenAI的技术。

接下来，「星际大门」能否如期推进，就看GPT-5的性能究竟能有多大的提升了。

传说中的GPT-4.5、GPT-5，多次被传要来，最终却还是一场空。

这也让OpenAI对微软「如期交付新模型」的承诺，打了水漂。

部分人士表示灰心：看来AI的发展前景难以预测。

然而Sam Altman坚决否认：绝非如此！在他看来，制约GPT-5发展的主要障碍，就是缺乏足够的服务器。

电力+芯片，耗资惊人

如果「星际之门」成真，那它提供的算力，将远超现在的微软凤凰城数据中心。

微软凤凰城数据中心

而电力和芯片上的投入，也都将是一笔巨资。

经初步计算，「星际之门」要想运转，需要的是至少数千兆瓦的电力，相当于目前几个大型数据中心所需的电力。

另外，芯片的采购也是一个大成本。

开弓没有回头箭，如此耗费巨大的投入，能得到什么样的结果？

当然是AGI。

Digital Realty的首席技术官Chris Sharp指出，如果是为了实现AGI，这种投资规模的项目绝对是必要的。

虽然项目的规模令人咋舌，闻所未闻，但一旦这种超算建成，人们就会接受它的巨额成本。

AI超算第五阶段：「星际之门」

Altman与微软的员工们把AI超算的发展划分为五个阶段，而最终阶段就是星际之门。

这个名字灵感来自于一部科幻电影，其中科学家发明了一台能够实现星系间旅行的装置。

当然了，这个代号虽然是由OpenAI提出的，但它并不会被微软正式采用。

在「星际之门」之前，需要的资金相对较少，但依然远超当前数据中心的建设成本。

目前来说，微软和OpenAI还处于第三阶段。

但第四阶段的超算已经破土动工，并且预计将在2026年左右推出。

据报道，微软光扩建数据中心就要耗资10亿美元，而最终造价可能将高达100亿美元。

其中，计划采用的英伟达AI芯片，将会是开销的大头。

对此业内人士分析称，当前正在建设的以AI为重点的数据中心，其芯片成本通常要占到总投资的一半。

总体而言，想要最终完成「星际之门」计划，可能会需要消耗超过1150亿美元——这一数字是微软去年在服务器等设备上支出的3倍还多。

而基于2023年下半年公布的资本支出速度，微软2024年的支出预计将达到约500亿美元。

Altman：芯片不够用，谷歌算力都比我们多

之所以如此下本，是因为Altman对于自己手里的算力，非常不满。

他不仅公开表示现有的AI服务器芯片数量严重不足，而且还在私下里表示，作为主要竞争对手之一的谷歌，将会在短期内拥有比OpenAI更多的算力。

随着对英伟达GPU的需求急剧上升，像微软和OpenAI这样的客户，都不得不面临成本上涨的问题。

而这也是Altman为什么想要创办公司，并开发出能媲美英伟达GPU的芯片的的原因之一。

除了控制成本外，微软支持Altman开发替代芯片还有其他潜在的考虑。

GPU市场的繁荣让英伟达成为了一个关键的决策者，它不仅可以决定哪些客户能够获得更多的芯片，并且还会支持一些与微软竞争的小型云服务供应商。甚至，连英伟达自己也开始向客户卖云服务了。

而「星际之门」的提出，便是让微软和OpenAI有了除英伟达之外的选择，比如AMD的GPU，或者微软最近推出的自研AI芯片。

技术难题：芯片过热、网络电缆，还有能源

「星际之门」的设想虽然宏大，但要真的实现，还得攻克多项技术难题。

比如，其中一个设计方案，是在单个机架中安装比微软以往更多的GPU，来提升芯片的工作效率和性能。

然而，这无疑会增加GPU的密集度，因此微软就需要设计出有效的冷却方案，来避免芯片过热。

另外，如何连接数以百万计的GPU也是个难题。

这就涉及到选择合适的网络电缆，它对迅速传输大量数据至关重要。

目前，微软在超算中使用的是英伟达专有的InfiniBand。但我们都知道，OpenAI一直在努力摆脱对英伟达依赖。

因此，OpenAI希望「星际之门」能采用更通用的以太网电缆。

另外，在能源这块，据项目内部人士透露，公司们考虑过采用替代能源，比如核能，来满足其能源需求。

值得一提的是，亚马逊近期购入了一个位于宾夕法尼亚州、能够接入核能源的数据中心地块。据了解，微软也对这一地块表现出了兴趣，并曾参与过相关竞标。

Altman个人认为，要实现超级智能的开发，很可能需要在能源领域取得重大突破。

显然，在追求高级人工智能的道路上，能源创新将扮演关键角色，而核能，很可能会成为实现这一目标的重要一环。

总之，跟传统计算相比，AI计算的成本和复杂度都不是一个量级的。

这就是为什么，各大公司对AI数据中心的细节抠得无比严格。GPU如何连接和冷却，一个细节的差异就可能导致巨大的成本损耗。

老黄也早就预测说，为了应对未来对AI计算的需求，在未来四到五年内，全球需要投资1万亿美元来建设新的数据中心！

而芯片过热、网络电缆和能源的问题，在短时间内都没有解决的可能性。

此外，「星际之门」会建在一个数据中心内，还是由多个数据中心紧密相连呢？

它会具体建在什么位置？

目前这些问题也都没有答案。

不过有从业者表示，当GPU集群位于同一个数据中心时，效率会更高。

其实，OpenAI早已逼着微软突破了自己的极限。

自2019年向OpenAI投资以来，微软的数据中心在一直不停地惊人进化。

为了满足OpenAI日益增长的算力需求，微软咬牙造了第一台GPU超算，其中包含数千个英伟达GPU。

才几年时间，这台超算就让微软烧掉了12亿美元。

而在今年和明年，微软即将为OpenAI提供的新服务器，将包含数十万个GPU！

下一个里程碑：GPT-5

微软和OpenAI的雄心壮志，几乎完全取决于OpenAI是否能在「超级智能」上取得重大进展。

如果OpenAI能解决癌症、核聚变、全球变暖或火星殖民这种级别的问题，金主当然愿意源源不断地投钱。

然而，这样的成就，目前还遥不可及。

尽管ChatGPT和Sora在全球拥有了无数用户，但如何用它们带来显著收入，OpenAI目前还都没有解决。变现所需的时间，可能比预期的更长。

也正因如此，亚马逊和谷歌已经降低了对AI产品的销售预期。

部分原因就是，成本实在太高了！而且，在大型企业中部署百万级用户的应用，需要耗费大量的工作。

Altman在上个月曾表示，当研究人员投入更多的算力时，AI模型会变得「可预见地更好」。对此，OpenAI称之为对话式AI的「缩放定律」（scaling law）。

据知情人士透露，OpenAI计划在明年初之前发布其下一代LLM。

而在那之前，可能会推出一些小幅改进版本。

而拥有更多的服务器，无疑会增加OpenAI的底气，坚信AI模型会取得下一层级的突破。

例如传闻中的Q*，据说能解决之前未经训练的数学问题。而且，它是用合成数据训练的。在人类数据即将耗尽之际，这一点至关重要。

此外，传闻这些模型还能识别出现有模型，如GPT-4的缺陷，并提出技术改进，换句话说，就是自我完善的AI。

听起来，OpenAI离AGI是越来越近了。

参考资料：

https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer?rc=epv9gi

继续阅读

阅读原文