英特尔发布新芯片，288核至强在路上

北京时间今日凌晨，英特尔在旧金山举行了隆重的“Intel Innovation”盛会。

会议开始的时候，英特尔CEO帕特基辛格首先表示，AI代表新时代的到来，创造了巨大的机会。如今，芯片形成了规模达5740亿美元的行业，并驱动着全球约8万亿美元的技术经济。

按照基辛格的观点，我们已经进入了“芯经济”时代！世界对计算的需求呈指数级增长，而且这种需求与芯片的面积、成本和功耗成反比。这正是“摩尔定律”的内涵。而为了满足未来的终端需求，我们需要提供更充足、更强大、更具性价比的处理能力。

于是，在本场大会上，英特尔不但带来了公司在CPU、AI芯片和封装上面的技术展示。与此同时，英特尔还分享了公司在Chiplet和UCIe方面的进展。当然，“五年四个节点”的推进也是英特尔本次盛会的又一个亮点。

下面，我们来总结一下英特尔这次创新大会的亮点。

芯片路线图的“转折点”

作为一家长期领先的半导体企业，以CPU而闻名天下的厂商，英特尔在处理器方面的进展尤其值得关注。在本次大会上，英特尔也的确带来了全面的展示，英特尔的PC芯片从此也开始全面进入AI时代。

基辛格表示：“人工智能将从根本上改变、重塑和重构 PC 体验，通过云和 PC 协同工作的力量释放个人生产力和创造力。为此，英特尔正在开创人工智能电脑的新时代。”代号为Meteor Lake的Intel Core Ultra处理器，正是英特尔实现上述目标的一个重要倚仗。

在英特尔看来，Core Ultra 代表了英特尔客户端处理器路线图的一个转折点，因为它是第一个由 Foveros 封装技术（英特尔的3D封装技术）支持的客户端Chiplet设计，还采用了 EUV 光刻技术。从设计上看，芯片内部包含了computing tile、graphics tile和SoC tile和I/O tile四个部分。其中，computing tile是基于Intel 4工艺打造，graphics tile是基于台积电的5nm打造，SoC tile则采用台积电的6nm打造，这正是Chiplet精神的体现。值得一提的是，这个芯片的Soc tile上还集成了英特尔首个NPU。

具体到芯片设计细节上。据透露，该芯片的couputing tile中有一对新的核心，一个名为 Redwood Cove 的 P 核心和一个名为 Crestmont 的新 E 核心。其中，新的 P 核心是英特尔第 12 代核心 (Raptor Lake) 处理器中之前的 Golden Cove 核心的直接继承者，通过新的 Redwood Cove 核心，英特尔在芯处理器上带来了不小的 IPC 提升。

至于E核心，据报道，通过矢量神经网络指令 (VNNI) ，该核心保持基于 CPU 的 AI 加速。而与 P-Core 一样，E-Core 也受益于增强的 Thread Director 反馈，它提供了更好的粒度控制和优化。

来到SoC tiles上，据介绍，通过在硅片上实施片上网络 (NOC)，英特尔摆脱了网状路由的旧有限制。这不仅仅是为了让数据通道更快，而是旨在实现对内存的更智能、更节能的访问。在利用 EMIB 和 2D 缩放后，数据路径会短得多，从而减少功耗，但较短的电线也有助于减少总体延迟损失。

如前面所说，在这个SoC tile上，还有一个全功能神经处理单元 (NPU)，这是英特尔面向客户端处理器的首个NPU，得益于这个模块，英特尔能够直接将 AI 功能引入到客户端芯片上，且因为其与 OpenVINO 等标准化程序接口兼容，这就使得在开发的时候能够给相关人员带来便利。据介绍，这个NPU由两个神经计算引擎组成，它们可以协作完成单个任务，也可以独立运行。而这些神经计算引擎的则主要包括了两个组件：推理pipeline和 SHAVE DSP。

据介绍，推理pipeline主要负责执行神经网络执行中的工作负载。它最大限度地减少数据移动，并专注于需要高计算能力的任务的固定功能操作。该pipeline包括一个相当大的乘法累加（MAC）单元阵列、一个激活功能块和一个数据转换块。也就是说，推理pipeline实际上是针对超密集矩阵数学优化的专用块。

SHAVE DSP则是专为人工智能应用和工作负载而设计。它能够与推理pipeline和直接内存访问（DMA）引擎一起进行管道化，从而实现 NPU 上的并行计算，从而提高整体性能。DMA 引擎旨在有效管理数据移动，从而提高系统的整体性能。

最后，在这个SoC tile上，还有Xe 媒体引擎。据介绍，该引擎内有两个多格式编解码器 (MFX)，专门设计并负责所有编码和解码任务。支持AV1（解码和编码）、HEVC、AVC 、VP9和最高支持 8K60 HDR 解码。对于编码，则支持高达 8K 分辨率、10 位颜色和 HDR。

Xe 显示引擎同样也在这个SoC tile内，实现了对 HDMI 2.1、DisplayPort 2.1、嵌入式 DisplayPort (eDP) 1.4甚至 DSC 1.2a 的支持。通过这些块，Meteor Lake 可以支持高达 8K60 HDR 的显示器，或高达 4 x 4K60 HDR 显示器，这为 Meteor Lake 提供了大量的显示和多媒体设备支持，包括当前和即将推出的显示器。

在这个PC芯片中，英特尔还在graphic tile上集成了名为 Xe-LPG的新一代GPU。如图所示，该tile包括了8个 Xe 图形核心、128 个矢量引擎（每个 Xe 核心 12 个）和 8 个采样器，比英特尔之前的 Xe LP 图形增加了 1.33 倍。还有 4 个 Pixel 后端，这比 Xe LP 上的 3 个 PB 有所改进。英特尔还将 Xe-LPG 中的几何pipeline数量增加了一倍，达到两个，并且还引入了 8 个专用光线追踪单元 (RTU)，这是英特尔集成显卡系列的新增功能。

由上可见，这不仅是一个领先的芯片。同时，从其设计上看，该芯片也为英特尔未来的芯片设计指明了一条肉眼可见的道路。

AI芯片、UCIe、晶圆代工和更多

除了上面谈到的PC芯片，英特尔在本次大会上还分享了公司在AI芯片、UCIe和晶圆代工等多个方面的进展。

首先在AI芯片方面，Gaudi 系列芯片绝对是英特尔在这个市场的一系列重要产品。英特尔方面也表示，最近的 MLPerf AI 推理性能结果进一步强化了英特尔致力于解决 AI 连续体每个阶段的承诺，包括最大、最具挑战性的生成式 AI 和大型语言模型。测试结果还表明，英特尔 Gaudi2 加速器是市场上满足 AI 计算需求的唯一可行替代方案。基辛格在大会演讲中还宣布，有一台大型 AI 超级计算机将完全基于英特尔至强处理器和 4,000 个英特尔 Gaudi 2 AI 硬件加速器构建，而Stability AI 是其主要客户。

在介绍了Gaudi 2的同时，英特尔还表示，公司下一代使用5nm工艺打造的Gaudi 3将在性能方面大幅提升。其中，BF16下的性能提升了四倍、计算能力提升了2倍、网络带宽的1.5倍以及HBM容量的提升1.5倍。展望未来，如下图所示，英特尔在Gaudi 3之后，会推出一个代号为Falcon Shores 的继任者。

关于Falcon Shores，在这次的大会上，英特尔同样没有披露太多的细节。但按照英特尔的最初规划，公司会于2024 年推出Falcon Shores 芯片、原计划为“XPU”设计，即集成 CPU 和 GPU。但在上个月的财报会上，英特尔调整了Falcon Shores的计划，并随后将其重新定位为独立 GPU，并将于 2025 年发布。

在这次大会上，英特尔还展示了全球首款基于 UCIe 连接的Chiplet的处理器。据介绍，该芯片采用在其自己的 Intel 3 工艺节点上制造的 Intel UCIe IP chiplet，与在领先的 TSMC N3E 节点上制造的 Synopsys UCIe IP 芯片配对。两个chiplet通过英特尔的 EMIB 接口进行通信。

在基辛格看来，下一波摩尔定律将随着多芯片封装到来，如果开放标准能够减少集成 IP 的摩擦，摩尔定律就会更快到来。为此，行业巨头在去年推动了UCIe 标准的成立，将允许不同供应商的chiplet协同工作，从而实现扩展多样化人工智能工作负载的新设计，该开放规范已经得超过120 家公司的支持。

与此同时，英特尔还再次重申了公司制造上的“四年五节点”计划。据基辛格所说，英特尔四年五个节点的工艺开发计划进展顺利，其中Intel 7 已经投入大批量生产，Intel 4 已做好生产准备，Intel 3 也有望在今年年底实现。

在演讲中，基辛格还展示了Intel 20A 晶圆，其中包含英特尔 Arrow Lake 处理器的首批测试芯片，该处理器将于 2024 年面向客户端计算市场。英特尔透露，Intel 20A 将是第一个包含 PowerVia（英特尔的背面供电技术）和新的工艺节点。称为 RibbonFET 的环栅晶体管设计。

Intel 18A 也利用了 PowerVia 和 RibbonFET，预计将于 2024 年下半年投入生产。值得一提的是，在这个节点，英特尔将会引入High NA EUV光刻机。作为ASML的下一代旗舰产品，这个光刻机被认为是实现2nm以下工艺节点的关键。

展望未来，如上所述，英特尔认为摩尔定律还将继续。而下面的技术则是英特尔认为会推动芯片继续前进的动力之一。英特尔总结说，除制程外，公司向前推进摩尔定律的另一路径是使用新材料和新封装技术，如玻璃基板（glass substrates）就是一个选择。根据英特尔的规划，玻璃基板将于2020年代后期推出，继续增加单个封装内的晶体管数量，助力满足AI等数据密集型高性能工作负载的需求，并在2030年后继续推进摩尔定律。

在这次会上，英特尔还透露了公司下一代 288 核至强服务器处理器——Sierra Forest。英特尔表示，与英特尔第四代至强处理器Sapphire Rapids相比，新芯片的机架密度提高了 2.5 倍，每瓦性能提高了 2.4 倍。

在今年早些时候，英特尔就展示了每块硅片有 144 个核心的Sierra Forest。但当时他们并没有透露每个封装内有两个裸片，因此在说出 Sierra Forest 有多达 288 个内核，且具有 12 个内存通道之后，英特尔这颗芯片引发了广泛关注。

如图所示，紧随Sierra Forest发布的是具备高性能的性能核（P-core）处理器Granite Rapids，与第四代至强相比，其AI性能预计将提高2到3倍。展望2025年，代号为Clearwater Forest的下一代至强能效核处理器将基于Intel 18A制程节点制造。

除了上述硬件方面的介绍，英特尔在这次的大会上还带了软件方面的更新。例如，公司宣布了英特尔发行版OpenVINO工具套件2023.1版的发布，OpenVINO是英特尔的AI推理和部署运行工具套件，在客户端和边缘平台上为开发人员提供了优质选择。该版本包括针对跨操作系统和各种不同云解决方案的集成而优化的预训练模型，包括多个生成式AI模型，例如Meta的Llama 2模型。

此外，英特尔还带来了英特尔开发者云平台，以帮助开发者利用最新的英特尔软硬件创新来进行AI开发（包括用于深度学习的英特尔Gaudi2加速器），并授权他们使用英特尔最新的硬件平台，如第五代英特尔至强可扩展处理器和英特尔数据中心GPU Max系列1100和1550。在使用英特尔开发者云平台时，开发者可以构建、测试并优化AI以及科学计算应用程序，他们还可以运行从小规模到大规模的AI训练、模型优化和推理工作负载，以实现高性能和高效率。英特尔开发者云平台建立在oneAPI这一开放的，支持多架构、多厂商硬件的编程模型基础之上，为开发者提供硬件选择，并摆脱了专有编程模型，以支持加速计算、代码重用和满足可移植性需求。

在这些软硬件的推动下，英特尔正在走进一个全新时代。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3529期内容，欢迎关注。