高通用第二代骁龙7+，给手机芯片来了次降维打击

机器之心原创

作者：泽南

好的 AI 应用，就是要让更多的人能玩得起来。

上星期，OpenAI 发布 GPT-4 让语言大模型的发展进入了新纪元，AI 的智商显著提高，还有了识别图像的多模态能力，微软也宣布 GPT-4 进入必应搜索和 Microsoft 365。

在另一方面，人们也越来越担忧大模型对算力设施的挑战。此前人们估计，以 2 月份的用户数量计算，OpenAI 商用部署 ChatGPT 需要动用 3 万块英伟达 A100 来进行推理，这显然不是个可以接受的数字。面对大规模应用，越来越多的人正在探索减少算力需求的方法。

其实在深度优化，解决 AI 算力难题的方向上，已经有人做出了成效。2 月份在巴塞罗那举行的世界移动通信大会（MWC）上，高通展示了全球首个在安卓手机上跑 AI 画图大模型的能力。而就在前不久，高通又宣布了最新的移动平台，第二代骁龙 7+。

现在，AI 生成模型已经可以实时地在手机上运行了，而且不是个例。

AI 生成模型，100% 跑在手机上

在 ChatGPT 之前，AI 作画是科技领域热度最高的名词：通过输入文本提示，经过几十亿图像数据集训练的 AI 模型就可以根据人类指令生成栩栩如生的图像，也可以用来帮你替换、更改已有的图像。

Stable Diffusion 是流行的开源 AI 画图工具，常规版本的参数量超过 10 亿，其中编码了大量语言和视觉知识，几乎可以生成任何你能想象到的图片，因此也需要在云端运行，或者采用显存大于 6GB 的台式机 GPU 进行计算。

然而高通展示的手机跑 Stable Diffusion 绝活，直接用一台搭载骁龙 8 Gen 2 的手机就完成了，100% 本地运行，正如高通 CEO 克里斯蒂亚诺・安蒙（Cristiano Amon）所说：「你就算打开飞行模式也照样跑。」

生成 Stable Diffusion 的提示词：「Super cute fluffy cat warrior in armor, photorealistic, 4K, ultra detailed, vray rendering, unreal engine.」

Stable Diffusion 并不是个单一模型，而是由多个部分和模型一起构成的系统。在经过高通 AI 全栈优化后，人们可以在输入提示词后的 15 秒内获得 512 × 512 像素的图像，完成从文本输入到成型图像的 20 个推理步骤，这个速度可以与云端推理速度相当，用户文本输入也完全不受约束。

对于尝试过自己调扩散模型的人来说，即使在高配置笔记本电脑上以这种方式生成图像也需要几分钟时间，手机 AI 画图的能力着实有些吓人。

高通这次的工作来自于自家的人工智能研究团队高通 AI 研究院，充分利用了高通人工智能平台和软件开发工具，包括高通 AI 引擎和高通 AI 软件栈。

具体来说，在 Stable Diffusion 上，研究人员从 Hugging Face 上的 FP32 version 1-5 版开源模型入手，通过量化、编译和硬件加速进行优化，从而将其塞进了手机里。

为了将模型从 FP32 缩成 INT8，高通使用 AI 模型增效工具包 (AIMET) 的训练后量化，这是一个 AI 研究团队创建的技术开发工具。量化不仅可以提高性能，还可以通过让模型在专用的 AI 计算单元上高效运行，并减少内存带宽需求的方式来减少手机能耗。这些技术可用于 Stable Diffusion 中的所有组件模型，包括基于 transformer 的文本编码器、VAE 解码器和 UNet。

随后，研究人员使用高通 AI 引擎框架直接将神经网络转为可在目标硬件上高效运行的程序，其可以根据移动端 Hexagon 处理器的硬件架构和内存层次结构对操作进行排序实现自动优化。

高通研究人员希望通过不断改进继续降低延迟，提升准确性，他们还展望了未来能够在终端侧使用 Stable Diffusion 模型实现的更多应用：包括图像编辑、图像修复、风格转换、超分辨率等。

能本地运行的 AIGC，或许才是真正可以大规模应用的 AIGC：云端运行算法总会面临延迟、带宽和成本的挑战。高通 CEO 克里斯蒂亚诺・安蒙曾对外媒表示，在未来，大语言模型将能完全在智能手机中实现内容生成，无需连接到互联网也能正常工作。

正如对运行 Stable Diffusion 所做的一样，在移动端运行 AI 算法需要从上到下进行整体的优化。高通表示，为实现这一目标而进行的所有全栈研究都将融入自家的高通 AI 软件栈。这意味着笔记本电脑、XR 眼镜等大量设备也能从中受益。

高通 AI 软件栈，是一套完整的技术体系：

去年 6 月，高通宣布了旗下 AI 技术产品的统一，全新的高通 AI 软件栈（Qualcomm AI Stack）纵向打通了应用程序、神经网络模型、算法、软件层和硬件的优化，在横向实现了跨学科的合作。

对于开发人员来说，现在人们能使用 TensorFlow、PyTorch 等流行框架进行开发，只需使用高通 AI 软件栈，就能在不同的产品和层级之间进行模型开发和迁移，并获得加速，实现了真正的「一次开发，到处部署」，节省大量成本和资源。

随着 AI 大模型开始转向移动端，高通打造的智能网联边缘的愿景正在我们的眼前加速成为现实，几年前还被认为不可能的事情，现在正在不断发生。

实现越级体验

在高通的看家本领芯片方面，长期的努力最近也收获了新的成果。

自骁龙 820 以来，高通的骁龙移动芯片就加入了高通 AI 引擎，专门负责 AI 任务处理。而在去年 11 月推出的第二代骁龙 8 上，AI 引擎的主要组成部分 Hexagon 处理器升级了微切片推理和更大的张量加速器，并首次在手机端实现 INT4 精度格式的支持，因此在 AI 推理时性能最多可以提高 4.35 倍，能效提升 60%。

通过紧密的软硬件协同能力，高通在配备 Hexagon 处理器的芯片上实现了业界领先的端侧 AI 性能。第二代骁龙 8 上新增的微切片推理功能，能帮助 Stable Diffusion 等大型模型高效运行。此外，由于在 Stable Diffusion 中的组件模型中使用了多头注意力，高通平台为 MobileBERT 等 Transformer 模型所做的增强可以大幅加快推理速度，在手机跑生成模型的任务上发挥了关键作用。

骁龙在今年新一代平台上的升级为计算摄影带来了强大的基础，除此之外还打开了很多 AI 应用的大门，今年的很多旗舰机已实现了实时的多语言翻译和转录、视频 AI 增强，支持更复杂的语音指令。

高通正在将这样的能力拓展到旗舰芯片以外的系列，上周正式推出的第二代骁龙 7+ 移动平台，AI 性能相比前一代产品提升了两倍，能效同时也提升了 40%。

第二代骁龙 7 + 采用了与第一代骁龙 8 + 相同的架构，也是台积电 4nm 工艺，被认为是对友商同级产品的「降维打击」。

与旗舰级 8 系列平台相比，骁龙 7 系列更加面向主流消费级产品。但在最新发布的第二代骁龙 7+ 上，高通重新定义了一下「主流」的档次。第二代骁龙 7+ 带来了 CPU、GPU、AI、影像和能耗表现的全面升级。

在新一代 7 系列芯片上，多个旗舰级特性被首次下放，第二代骁龙 7 + 有了 Arm Cortex X2 超大核，整体 CPU 性能比上代提升了 50%，GPU 的性能则是上代的两倍。

在 3DMark 压力测试下，第二代骁龙 7 + 的平均分数甚至稳超第一代骁龙 8，这还只是一台工程样机的水平。（图片来源：AndroidAuthority）

在 AI 方面，和第二代骁龙 8 一样，第二代骁龙 7 + 也拥有集成的专用 AI 处理器和传感器中枢，提供了两倍于第一代骁龙 7 的性能，支持从活动识别到声学场景检测等情境的感知用例，以及游戏 AI 超级分辨率。

另一个从骁龙 8 系列下放的技术是 18 位的三 Spectra ISP，其允许新一代芯片支持三重曝光计算 HDR 视频捕捉，更强的低光摄影并大幅降低拍摄快门延迟。

通过新款芯片，我们可以体验到高通终端侧人工智能的最新科技，随手拍出 4K60 帧视频。

就在这个月，首批采用新芯片的手机就会面世，红米和 Realme 将会率先发布终端。

以前，电脑和手机的性能是通过 CPU 和 GPU 的频率和线程数来衡量的，但端侧 AI 处理能力现在已经成为芯片的第三个衡量标准。「能够在智能手机中创造如此强大的处理能力，并在不影响待机时间的情况下运行，这是只有高通才能做到的事情」安蒙表示。

你的下一个 AI 绘图工具，又何必是电脑？

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

继续阅读

阅读原文