详解AWS Graviton4

来源：内容由半导体行业观察（ID：icbank）编译自wikichip，谢谢。

在最近的亚马逊 AWS re:Invent 2023 上，该公司推出了第四代定制内部服务器处理器——Graviton4。该芯片由以色列 Annapurna Labs 开发，采用最新的 Arm Neoverse IP 以及主要旨在扩展和加速器连接改进的定制 IP。

Amazon Web Services 首席执行官 Adam Selipsky 在主题演讲中宣布推出该公司最新的定制服务器处理器 Graviton4。他表示：“Graviton4 是我们迄今为止制造的最强大、最节能的芯片；与 Graviton3 相比，内核多出 50%，内存带宽多出 75%。Graviton4 比 Graviton3 平均快 30%，并且对于某些工作负载性能甚至更好，例如数据库应用程序快 40%，Java 应用程序快 45%。”

除了 Graviton4 的发布之外，Selipsky 还发布了基于 Graviton4 处理器的适用于 EC2 的新 R8g 实例。R8g 实例现已可供预览，预计明年初还会有更多基于 Graviton4 的实例。

衡量产品健康状况的一种非财务相关方法是使用产品开发节奏作为代理。第一个内部Graviton 芯片在 re:Invent 2018 上推出。亚马逊很快推出了第二代 Graviton2，并于次年推出了 Arm Neoverse 系列内核。亚马逊于 2021 年 11 月推出了 Graviton3。Graviton3 对芯片架构和封装进行了大量更改——转向 Arm 的新 Neoverse V 平台并利用小芯片架构。

Graviton4 简介

在 re:Invent 2023 上，AWS 高级首席工程师 Ali Saidi 提供了有关最新芯片的一些其他详细信息。在架构方面，这款芯片与去年相比发生了很大的变化。全新Graviton4处理器集成了Arm最新的Neoverse V2。Graviton3 是第一款在实现 ARMv8.4-A ISA 的同时带来（2×256 位）SVE 支持的芯片。Graviton4 首次将核心更新为 Neoverse V2 并支持 Armv9.0 ISA。

与上一代相比，新款 Graviton4 集成了 96 个核心，比 Graviton3 多了 1.5 倍。所有核心均使用 CMN-700 网状互连进行互连。满足增加的核心数量也很重要。为此，Annapurna Labs 将内存通道数量及其数据速率增加了 50%，从 8x DDR5-4800 增加到 12x DDR5-5600。这将理论峰值带宽从 307.2 GB/s 增加到 537.6 GB/s。此更改将每核饱和度从 Graviton3 中的 4.8 GB/s 提高到 5.6 GB/s，即每核提高 17%。在连接方面，Graviton4 将 PCIe 通道数量增加了两倍。Graviton3率先推出32通道的PCIe 5.0；新芯片将 PCIe 5.0 通道增加到 96 个。

V2 L2$ 弱包含 L1，并被构造为使用四个组的 8 路集合关联。Arm 正式提供具有两种缓存配置的 V2 - 1 MiB 和 2 MiB 配置。

对于 Graviton4，亚马逊选择使用大型 2 MiB 选项，将之前的 Graviton3 的有效二级缓存翻倍。“当我们查看实际工作负载时，我们注意到它们的工作集不适合我们拥有的缓存，因此每个核心现在都有 2 MiB 的二级缓存，”Saidi 指出。芯片上有 96 个内核，您将看到 192 MiB 的二级缓存。与 Graviton3 一样，Saidi 确认 L3 缓存是分散的，并在所有核心之间共享。官方并未提及缓存容量，但数字为 96 MiB。

与 Graviton3 类似，Graviton4 采用 7 个小芯片架构，尽管 PCIe 小芯片在封装上的排列略有不同。主计算芯片的东侧和西侧是 DDR5 控制器小芯片，每个小芯片具有三个通道。计算芯片的北侧和南侧是 PCIe 小芯片。也许与 Graviton3 最显着的区别是 PCIe 控制器小芯片的布局。它们不再毗邻 SoC 芯片，这意味着两者之间不再存在昂贵的埋桥。考虑到 PCIe 接口的性质，在降低封装成本的同时，不太可能对性能造成太大影响，这可能是这一变化的动机。

凭借新的芯片，亚马逊弥补了其竞争对手 Ampere 批评的大部分缺陷。

每代芯片的关注点不同

Saidi 在 re:Invent 2023 的演讲中解释的一件事是，每一代 Graviton 都有一个他们想要解决的独特的主要焦点。当他们启动 Graviton1 时，他们的主要重点是进行概念验证。“当我们开始使用 Graviton1 时，重点是证明您可以在 EC2 中拥有另一种架构；您可以以相同的方式配置实例，并使用安全组运行各种工作负载，这些工作负载将按照您的预期工作。”

借助 Graviton2，重点转向更好的通用计算，增加适用工作负载的数量。“借助 Graviton2，我们大幅增加了这些工作负载。我们看到人们运行 Java 应用程序、键值存储、数据库和大量其他工作负载。”

有了 Graviton3，重点转向了更高的性能，特别是在 HPC 方面和机器学习应用程序。这是通过转向 Neoverse V 系列并引入 SVE 支持和更大的 SIMD 宽度来实现的。

“有了新的 Graviton4，我们现在的重点是扩大规模；再次增加适用性。有客户来找我们并告诉我们“我已将所有数据库移至 Graviton。”

我目前使用 32 个 vCPU，我想在接下来的 1-2 年内，随着业务的增长，我可能最终会使用 64 个 vCPU。但你没有更大的选择。” 因此，有了 Graviton4，我们现在有了一个选择。”

借助 Graviton4，基础支持现已增加 50%，在 AWS 24xlarge 实例中的单个插槽中支持 96 个内核，并具有 96 个 vCPU。对于必须进一步扩展的应用，新芯片引入了新的多插槽一致性。两个 Graviton4 芯片可以连接在一起形成一个系统，该系统的内核数量实际上是 Graviton3 的 3 倍，DRAM 数量是 Graviton3 的 3 倍。值得指出的是，由于 Graviton4 的数据速率也有所提高，因此总系统峰值理论带宽实际上更高，为 Graviton3 的 3.5 倍。

随着 Neoverse N2 和 V1 的推出，Arm还推出了相干网状网络 (CMN) 700 网状网络，这是 Graviton4 网状互连的基础。新网络的功能之一是多芯片一致性，它还支持 CCIX 2.0 和 CXL。下面的幻灯片似乎显示了两个插槽之间的三个 CCIX 链路，目前尚不清楚这是否纯粹用于说明目的，或者该芯片是否集成了 3x BiDi 链路。

当Graviton团队开发Graviton4时，另一个团队也在开发Nitro芯片。Saudi解释说，这使他们能够共同开发两者并进行一些额外的优化。最终开发的双路平台可以在多种不同的模式下运行。它可以作为两个非相干虚拟系统、一个相干虚拟系统、两个金属系统或一个金属系统运行。采用这些配置的原因之一是能够在不使用时关闭一致性并获得额外的节能效果。

性能表现

我们还看到出了一些性能表现。这些基准测试在同类系统中的 R7g 至 R8g 实例上对 Graviton3 和 Graviton4 进行了比较。

在 MySQL HammerDB 负载生成器测试中，与 Graviton3 相比，Graviton4 的性能提高了 40%。同样，在负载平衡测试中使用 Nginx，Graviton4 的性能比 Graviton3 提高了 30%。同样，在 Groovy/Grails Web 应用程序中，Graviton4 的性能提高了 40% 以上。在使用两个负载生成器和一个延迟测试器的流行 Redis 键值存储测试中，Saidi 报告性能提高了 25%。

在对所有一代 Graviton 进行与上述相同的 Groovy 和 MySQL 工作负载测试进行比较时，Saidi 指出，与 2018 年推出的原始 Graviton 芯片相比，他们发现性能提高了近 4 倍或更高。

由 Graviton4 驱动的 R8g 实例现已推出预览版，计划于 2024 年初全面上市。

英文原文：

https://fuse.wikichip.org/news/7633/amazon-debuts-4th-gen-graviton/

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3610期内容，欢迎关注。