下一代AmpereOne CPU已准备就绪,性能比现有市场上任何CPU高出40%以上。
作者 |  ZeR0
编辑 |  漠影
芯东西5月17日报道,今日,美国明星云原生CPU创企Ampere Computing公布年度战略和全新CPU产品路线图更新,宣布2025年将推出下一代旗舰产品3nm AmpereOne CPU,最多支持256核和12通道DDR5内存。
3nm AmpereOne CPU将采用与现有192核AmpereOne CPU相同的风冷散热解决方案。Ampere号称其性能“比当今市面上任何CPU都高出40%以上”。
Oracle已经在Ampere CPU上部署了Llama、Mistral等大语言模型。Llama 3已在Oracle Cloud的Ampere CPU上运行。性能数据显示,在没GPU的128核Ampere Altra CPU上运行Llama 3-8B,可实现与搭配x86 CPU的NVIDIA A10 GPU相同的性能,同时仅消耗1/3的电量。
同时,Ampere宣布与高通合作,利用高通的Cloud AI 100推理加速卡与Ampere CPU开发AI推理的联合解决方案,以解决全球最大的生成式AI大语言模型推理问题。
在AI平台联盟中,Ampere成立了UCIe工作组,将利用开放接口技术增强其CPU的灵活性,使其能够将其他客户IP整合到未来的CPU中。
新的AmpereOne OEM和ODM平台将在几个月内发货。其客户群正在不断扩大。
01.
“云计算和AI计算行业能效最高的CPU”
上一代AmpereOne采用5nm工艺节点,拥有192个单线程Ampere自研核心、大型云优化私有缓存、每核2MB二级缓存。
在AI方面,AmpereOne每个核心有2个128位向量单元,支持bf16、int8、int16、fp16等精度。
Ampere号称它是“云计算和AI计算行业中能效最高、性能最高的CPU”,每瓦性能比AMD Genoa高出50%,比Bergamo高出15%。
对于希望更新和整合旧基础设施以节省空间、预算和电力的数据中心,AmpereOne可为每个机架提供高达34%的性能提升。
在提高每机架性能方面,AmpereOne比AMD Genoa提高了58%,比Bergamo提高了42%。
在交付路线图时,Ampere考虑到数据中心部署的方便性,其CPU与行业标准设计兼容,无需使用液冷或非标准外形来更改设计。
Ampere内存标签有助于防止利用缓冲区溢出的恶意代码进行安全攻击,这些攻击可覆盖内存并公开安全数据。
启用Ampere内存标签扩展后,软件内存管理运行时会将密钥标签与每个软件关联起来。程序中的指针和存储器中具有相应数据的锁标签,这样可以确保程序的正确密钥标签访问正确的物理内存地址。
当程序正在执行和访问存储器时,SoC将每个指针标签与存储器标签进行比较,如果标签不匹配,则会标记错误并停止程序执行,从而有效地防止恶意攻击。
Ampere Quality of Service Enforcement能够在满足SLA的同时,对在单个SoC上同时运行的多个应用程序、 虚拟机或容器所使用的共享缓存和内存资源进行受控分配。
在具有不同需求的多租户环境中,应用程序争夺共享内存和缓存资源,每一种可能对带宽、延迟和容量都有自己的敏感度。AmpereOne确保分配最小阈值的共享资源,从而使对延迟敏感的应用程序不会受到另一个可能占用带宽的应用程序的负面影响。
这里是一个对延迟敏感的应用程序,如视频流,以红色显示,保证了共享缓存的分配;灰色应用程序可能是邮件服务器,具有第二优先级和较小的保证分配;而黑色应用程序可能是日志实用程序 ,没有优先级。这允许跨所有应用程序提供一致的性能和可预测的服务。
除了内存标签、QoS Enforcement和网格拥塞管理等现有功能外,Ampere还推出了一项新的FlexSKU功能,允许客户使用相同的SKU来解决横向扩展和纵向扩展用例。
02.
运行80亿参数Llama 3模型,
功耗只有x86 CPU+A10 GPU的1/3
“真正的艺术在于建设一种在相同功率下可以提供30%以上性能的产品,”Ampere Computing创始人兼CEO Renee James说,“我们认为未来的数据中心基础设施必须考虑如何用升级的AI计算改造现有的风冷环境,以及建设可持续的新型数据中心,从而适应电网上的可用电力。”
她谈道,Ampere有两个使命:建设高性能、可持续计算的未来,并使广大的行业合作伙伴和用户能够使用其产品,创建一个开放的生态系统,让Ampere CPU成为许多公司发明背后的引擎。
AI等颠覆性技术的出现引起数据量指数级增长,推动对更多数据中心和电力的需求。
据最新报道,国际能源机构预测全球数据中心电力需求量将从2022年的400多TWh攀升到2026年的1000TWh,大致相当于日本全国的用电量。
因此,随着AI计算加速,构建最大化的计算效率至关重要。
比如搜索工具,集成AI后将极大增加对电力的需求,一个典型的页面搜索平均耗电量是0.3Wh,而一个典型的ChatGPT请求处理需要耗电2.9Wh,近10倍的增长。
Ampere专注于应对AI带来的能效挑战。当运行最新Llama 3 80亿参数大语言模型时,企业可能默认使用一张NVIDIA A10 GPU搭配x86 CPU,这个配置可以提供每秒30个token的性能,而仅仅CPU和GPU就要消耗420W的电力。
如果用Ampere Altra Max 128核CPU来独立运行该模型,无需GPU,在提供同样性能的情况下,功耗只有1/3。
“低功耗曾经是低性能的代名词。Ampere已经证明事实并非如此。我们开创了计算效率的前沿,并在高效的计算范围内提供了超越传统CPU的性能。”Renee James说。
03.
支持高性能AI推理,比GPU方案大幅省钱
Ampere Computing首席产品官Jeff Wittich分享了Ampere对“AI计算”的愿景,将传统的云原生功能融合到AI。
“我们的Ampere CPU可以运行一系列工作负载——从最流行的云原生应用程序到 AI。这包括与传统云原生应用程序集成的AI,例如数据处理、Web服务、媒体交付等。”他谈道。
AI训练只占15%的AI总计算周期,动辄连续运行几天、几周乃至几个月,需要使用专用的AI训练硬件。而AI推理是一系列较小的、单独任务,每秒运行百万或十亿次,合计占用AI总计算周期的85%。
Ampere平台支持在没有GPU的情况下进行AI推理。先前经训练的模型,如用了TensorFlow、PyTorch、ONNX等常见框架,开箱运行即可得高性能。
Ampere宣布与NETINT联合推出解决方案,使用该公司的Quadra T1U视频处理芯片和Ampere CPU,使用OpenAI的Whisper模型实时转码360个直播频道,为40个流媒体提供实时多语言字幕。
构建完整的AI服务器,不仅要拓展AI方案的可访问性,而且要在服务器和机架层面提供性能和功耗最优化的方案,即意味着与基于GPU的方案相比,最高5倍的每美元性能。
据介绍,英伟达正在推广的高端AI解决方案DGX是一个10.2千瓦的大机柜,价格接近50万美元,大规模部署时需要占用很大的空间和数据中心基础设施,在运行像Whisper这样的AI模型时,每秒推理性能只有Ampere CPU的20%。
当没有完全加载AI需求时,GPU无法执行其他计算任务。由于对各种工作负载的需求会随着时间推移而波动,Ampere团队认为此时一个可运行从AI到Web服务器再到数据库的解决方案才是最佳的。
04.
结语:用CPU加速AI推理,
让数据中心更高效可持续
Ampere是一家开放平台公司,支持其他芯片供应商和合作伙伴连接到Ampere的计算CPU,并为不同的市场领域构建集成产品。该公司正将其他客户IP纳入其未来的CPU中,旨在构建一个开放的横向创新平台,不断扩大IP组合,满足一系列不同的数据中心需求。
Renee James还谈到对一些公司自研CPU、实现计算完全垂直化的看法。在她看来,这在理论上听起来不错,但在实践中存在一些问题,最重要的是对于大多数公司来说在经济或技术上都不可行。她相信行业必须在AI计算方面找到一个新方向,而Ampere的方法将引领数据中心走向更高效、更可持续的未来。

继续阅读
阅读原文