从广义上讲,能运行AI 算法的芯片都叫AI 芯片。CPUGPUFPGANPUASIC 都能执行AI 算法,但在执行效率层面上有巨大的差异。CPU 可以快速执行复杂的数学计算,但同时执行多项任务时,CPU 性能开始下降,目前行业内基本确认CPU 不适用于AI 计算。
下载链接
龙芯CPU技术研究报告合集
CPU+xPU 的异构方案成为大算力场景标配,GPU为应用最广泛的 AI 芯片。目前业内广泛认同的AI 芯片类型包括GPUFPGANPU 等。由于 CPU 负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计算系统中仍是不可或缺的。GPUFPGA 等芯片都是作为 CPU 的加速器而存在,因此目前主流的 AI计算系统均为 CPU+xPU 的异构并行。CPU+GPU 是目前最流行的异构计算系统,在 HPC、图形图像处理以及AI 训练/推理等场景为主流选择。IDC 数据显示,2021 年中国 AI 芯片市场中,GPU 市占率为 89%
NPU 在人工智能算法上具有较高的运行效率。为了适应某个特定领域中的常见的应用和算法而设计,通常称之为“特定域架构(Domain Specific ArchitectureDSA)”芯片,NPU(神经网络处理器)属于其中一种,常被设计用于神经网络运算的加速。以华为手机 SoC 麒麟 970 为例,NPU 对图像识别神经网络的运算起到了显著加速效果,使其图像识别速度明显优于同代竞品的表现。
目前已量产的 NPU 或搭载 NPU 模块的芯片众多,其他知名的芯片包括谷歌 TPU、华为昇腾、特斯拉 FSD特斯拉 Dojo 等。各家厂商在计算核心的设计上有其差异,例如谷歌 TPU 的脉动阵列,华为昇腾的达芬奇架构。
以谷歌 TPU 及计算核心结构脉动阵列为例,对比其相较于 CPUGPU 的区别:
CPU GPU 均具有通用性,但以频繁的内存访问导致资源消耗为代价。CPU GPU 都是通用处理器,可以支持数百万种不同的应用程序和软件。对于 ALU 中的每一次计算,CPUGPU 都需要访问寄存器或缓存来读取和存储中间计算结果。由于数据存取的速度往往大大低于数据处理的速度,频繁的内存访问,限制了总吞吐量并消耗大量能源。
谷歌 TPU 并非通用处理器,而是将其设计为专门用于神经网络工作负载的矩阵处理器。TPU 不能运行文字处理器、控制火箭引擎或执行银行交易,但它们可以处理神经网络的大量乘法和加法,速度极快,同时消耗更少的能量,占用更小的物理空间。TPU 内部设计了由乘法器和加法器构成的脉动阵列。在计算时,TPU 将内存中的参数加载到乘法器和加法器矩阵中,每次乘法执行时,结果将传递给下一个乘法器,同时进行求和。所以输出将是数据和参数之间所有乘法结果的总和。在整个海量计算和数据传递过程中,完全不需要访问内存。这就是为什么 TPU 可以在神经网络计算上以低得多的功耗和更小的占用空间实现高计算吞吐量。
脉动阵列本质上是在硬件层面多次重用输入数据,在消耗较小的内存带宽的情况下实现较高的运算吞吐率。
脉动阵列结构简单,实现成本低,但它灵活性较差,只适合特定运算。然而,AI 神经网络需要大量卷积运算,卷积运算又通过矩阵乘加实现,正是脉动阵列所适合的特定运算类型。脉动阵列理论最早在 1982 年提出,自谷歌 2017 年首次将其应用于 AI 芯片 TPU 中,这项沉寂多年的技术重回大众视野,多家公司也加入了脉动阵列行列,在自家加速硬件中集成了脉动阵列单元。
NPU 已经在 AI 运算加速领域获得了广泛应用。在数据中心获得大规模应用的 NPU 案例即 TPU,已被谷歌用于构建数据中心的超级计算机,执行特定神经网络的训练任务。在用户端,手机、汽车、智能安防摄像头等设备开始搭载 AI 计算功能,通常是利用训练好的神经网络模型执行图像处理等工作,此时 NPU 通用性差的劣势被缩小,高算力、高能耗比的优势被放大,因而得到了广泛的应用。在终端设备中,NPU 常以模块的形式包含在 SoC 内部,对 AI 运算进行加速,例如特斯拉自动驾驶芯片 FSD 均包含 NPU
模型训练需要规模化的算力芯片部署于智能服务器,CPU 不可或缺,但性能提升遭遇瓶颈,CPU+xPU 异构方案成为大算力场景标配。其中 GPU 并行计算优势明显,CPU+GPU 成为目前最流行的异构计算系统,而NPU 在特定场景下的性能、效率优势明显,推理端应用潜力巨大,随着大模型多模态发展,硬件需求有望从GPU 扩展至周边编解码硬件。AI 加速芯片市场上,英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,在训练、推理端均占据领先地位。根Liftr Insights 数据,2022 年数据中心AI 加速市场中,英伟达份额达82%
下载链接
1、海光信息:国产巨无霸,引领“中国芯” 
2、国产CPU厂商领军者,进入快速增长期 
3、国产CPU领军,加速突破高端市场 
4、国产CPU领军,受益于行业信创加速,成长空间广阔 
5、国产高端处理器龙头,CPU+DCU齐赋能 
6、国产微处理器产业的领军者"
1、达梦与海光:聚焦信创新股中的软硬龙头 
2、计算机行业深度报告:曙光很近,海光不远,国产x86算力生态崛起 
3、进击的国产CPU和GPU领航者 
4、信创硬件龙头 
5、行业信创龙头,国产 CPU 之光 
6、专注服务器与数据中心,高端处理器企业乘风国产替代
1、电信运营商液冷技术白皮书(2023) 
2、浸没式液冷数据中心运维白皮书 
3、运营商力推液冷,中兴液冷技术领先(2023)
1、浸没式液冷数据中心热回收白皮书(2023) 2、数据中心绿色设计白皮书(2023)
1、集装箱冷板式液冷数据中心技术规范 
2、浸没式液冷发展迅速,“巨芯冷却液”实现国产突破 
3、两相浸没式液冷—系统制造的理想实践 
4、AIGC加速芯片级液冷散热市场爆发
1、中国液冷数据中心发展白皮书 
2、全浸没式液冷数据中心解决方案 
3、浸没液冷数据中心规范 
4、喷淋式直接液冷数据中心设计规范 
5、单相浸没式直接液冷数据中心设计规范
1、某液冷服务器性能测试台的液冷系统设计
2、浸没液冷服务器可靠性白皮书 
3、天蝎5.0浸没式液冷整机柜技术规范
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。
继续阅读
阅读原文