机器之心原创
作者:泽南
好的 AI 应用,就是要让更多的人能玩得起来。
上星期,OpenAI 发布 GPT-4 让语言大模型的发展进入了新纪元,AI 的智商显著提高,还有了识别图像的多模态能力,微软也宣布 GPT-4 进入必应搜索和 Microsoft 365。
在另一方面,人们也越来越担忧大模型对算力设施的挑战。此前人们估计,以 2 月份的用户数量计算,OpenAI 商用部署 ChatGPT 需要动用 3 万块英伟达 A100 来进行推理,这显然不是个可以接受的数字。面对大规模应用,越来越多的人正在探索减少算力需求的方法。
其实在深度优化,解决 AI 算力难题的方向上,已经有人做出了成效。2 月份在巴塞罗那举行的世界移动通信大会(MWC)上,高通展示了全球首个在安卓手机上跑 AI 画图大模型的能力。而就在前不久,高通又宣布了最新的移动平台,第二代骁龙 7+。
现在,AI 生成模型已经可以实时地在手机上运行了,而且不是个例。
AI 生成模型,100% 跑在手机上
在 ChatGPT 之前,AI 作画是科技领域热度最高的名词:通过输入文本提示,经过几十亿图像数据集训练的 AI 模型就可以根据人类指令生成栩栩如生的图像,也可以用来帮你替换、更改已有的图像。
Stable Diffusion 是流行的开源 AI 画图工具,常规版本的参数量超过 10 亿,其中编码了大量语言和视觉知识,几乎可以生成任何你能想象到的图片,因此也需要在云端运行,或者采用显存大于 6GB 的台式机 GPU 进行计算。
然而高通展示的手机跑 Stable Diffusion 绝活,直接用一台搭载骁龙 8 Gen 2 的手机就完成了,100% 本地运行,正如高通 CEO 克里斯蒂亚诺・安蒙(Cristiano Amon)所说:「你就算打开飞行模式也照样跑。」
生成 Stable Diffusion 的提示词:「Super cute fluffy cat warrior in armor, photorealistic, 4K, ultra detailed, vray rendering, unreal engine.」
Stable Diffusion 并不是个单一模型,而是由多个部分和模型一起构成的系统。在经过高通 AI 全栈优化后,人们可以在输入提示词后的 15 秒内获得 512 × 512 像素的图像,完成从文本输入到成型图像的 20 个推理步骤,这个速度可以与云端推理速度相当,用户文本输入也完全不受约束。
对于尝试过自己调扩散模型的人来说,即使在高配置笔记本电脑上以这种方式生成图像也需要几分钟时间,手机 AI 画图的能力着实有些吓人。
高通这次的工作来自于自家的人工智能研究团队高通 AI 研究院,充分利用了高通人工智能平台和软件开发工具,包括高通 AI 引擎和高通 AI 软件栈。
具体来说,在 Stable Diffusion 上,研究人员从 Hugging Face 上的 FP32 version 1-5 版开源模型入手,通过量化、编译和硬件加速进行优化,从而将其塞进了手机里。
为了将模型从 FP32 缩成 INT8,高通使用 AI 模型增效工具包 (AIMET) 的训练后量化,这是一个 AI 研究团队创建的技术开发工具。量化不仅可以提高性能,还可以通过让模型在专用的 AI 计算单元上高效运行,并减少内存带宽需求的方式来减少手机能耗。这些技术可用于 Stable Diffusion 中的所有组件模型,包括基于 transformer 的文本编码器、VAE 解码器和 UNet。
随后,研究人员使用高通 AI 引擎框架直接将神经网络转为可在目标硬件上高效运行的程序,其可以根据移动端 Hexagon 处理器的硬件架构和内存层次结构对操作进行排序实现自动优化。
高通研究人员希望通过不断改进继续降低延迟,提升准确性,他们还展望了未来能够在终端侧使用 Stable Diffusion 模型实现的更多应用:包括图像编辑、图像修复、风格转换、超分辨率等。
能本地运行的 AIGC,或许才是真正可以大规模应用的 AIGC:云端运行算法总会面临延迟、带宽和成本的挑战。高通 CEO 克里斯蒂亚诺・安蒙曾对外媒表示,在未来,大语言模型将能完全在智能手机中实现内容生成,无需连接到互联网也能正常工作。
正如对运行 Stable Diffusion 所做的一样,在移动端运行 AI 算法需要从上到下进行整体的优化。高通表示,为实现这一目标而进行的所有全栈研究都将融入自家的高通 AI 软件栈。这意味着笔记本电脑、XR 眼镜等大量设备也能从中受益。
高通 AI 软件栈,是一套完整的技术体系:
去年 6 月,高通宣布了旗下 AI 技术产品的统一,全新的高通 AI 软件栈(Qualcomm AI Stack)纵向打通了应用程序、神经网络模型、算法、软件层和硬件的优化,在横向实现了跨学科的合作。
对于开发人员来说,现在人们能使用 TensorFlow、PyTorch 等流行框架进行开发,只需使用高通 AI 软件栈,就能在不同的产品和层级之间进行模型开发和迁移,并获得加速,实现了真正的「一次开发,到处部署」,节省大量成本和资源。
随着 AI 大模型开始转向移动端,高通打造的智能网联边缘的愿景正在我们的眼前加速成为现实,几年前还被认为不可能的事情,现在正在不断发生。
实现越级体验
在高通的看家本领芯片方面,长期的努力最近也收获了新的成果。
自骁龙 820 以来,高通的骁龙移动芯片就加入了高通 AI 引擎,专门负责 AI 任务处理。而在去年 11 月推出的第二代骁龙 8 上,AI 引擎的主要组成部分 Hexagon 处理器升级了微切片推理和更大的张量加速器,并首次在手机端实现 INT4 精度格式的支持,因此在 AI 推理时性能最多可以提高 4.35 倍,能效提升 60%。
通过紧密的软硬件协同能力,高通在配备 Hexagon 处理器的芯片上实现了业界领先的端侧 AI 性能。第二代骁龙 8 上新增的微切片推理功能,能帮助 Stable Diffusion 等大型模型高效运行。此外,由于在 Stable Diffusion 中的组件模型中使用了多头注意力,高通平台为 MobileBERT 等 Transformer 模型所做的增强可以大幅加快推理速度,在手机跑生成模型的任务上发挥了关键作用。
骁龙在今年新一代平台上的升级为计算摄影带来了强大的基础,除此之外还打开了很多 AI 应用的大门,今年的很多旗舰机已实现了实时的多语言翻译和转录、视频 AI 增强,支持更复杂的语音指令。
高通正在将这样的能力拓展到旗舰芯片以外的系列,上周正式推出的第二代骁龙 7+ 移动平台,AI 性能相比前一代产品提升了两倍,能效同时也提升了 40%。
第二代骁龙 7 + 采用了与第一代骁龙 8 + 相同的架构,也是台积电 4nm 工艺,被认为是对友商同级产品的「降维打击」。
与旗舰级 8 系列平台相比,骁龙 7 系列更加面向主流消费级产品。但在最新发布的第二代骁龙 7+ 上,高通重新定义了一下「主流」的档次。第二代骁龙 7+ 带来了 CPU、GPU、AI、影像和能耗表现的全面升级。
在新一代 7 系列芯片上,多个旗舰级特性被首次下放,第二代骁龙 7 + 有了 Arm Cortex X2 超大核,整体 CPU 性能比上代提升了 50%,GPU 的性能则是上代的两倍。
在 3DMark 压力测试下,第二代骁龙 7 + 的平均分数甚至稳超第一代骁龙 8,这还只是一台工程样机的水平。(图片来源:AndroidAuthority)
在 AI 方面,和第二代骁龙 8 一样,第二代骁龙 7 + 也拥有集成的专用 AI 处理器和传感器中枢,提供了两倍于第一代骁龙 7 的性能,支持从活动识别到声学场景检测等情境的感知用例,以及游戏 AI 超级分辨率。
另一个从骁龙 8 系列下放的技术是 18 位的三 Spectra ISP,其允许新一代芯片支持三重曝光计算 HDR 视频捕捉,更强的低光摄影并大幅降低拍摄快门延迟。
通过新款芯片,我们可以体验到高通终端侧人工智能的最新科技,随手拍出 4K60 帧视频。
就在这个月,首批采用新芯片的手机就会面世,红米和 Realme 将会率先发布终端。
以前,电脑和手机的性能是通过 CPU 和 GPU 的频率和线程数来衡量的,但端侧 AI 处理能力现在已经成为芯片的第三个衡量标准。「能够在智能手机中创造如此强大的处理能力,并在不影响待机时间的情况下运行,这是只有高通才能做到的事情」安蒙表示。
你的下一个 AI 绘图工具,又何必是电脑?
© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
继续阅读
阅读原文