当你和ChatGPT聊天时,你有没有想过,在那个闪烁的光标背后,正在发生什么?
ChatGPT在收到你的输入指令后,到生产出答案的过程就是推理。AI 推理是将用户输入的数据,通过训练好的模型产生有价值信息的过程。在LLM类模型应用、自动驾驶、量化交易、搜索、推荐等很多场景中,对于AI推理效率的要求非常高。为进一步帮助克服AI应用部署的时延痛点,Graphcore搭配C600推出了高性能推理SDK——PopRT,帮助开发者实现零代码推理部署已经训好的模型,同时带来低时延和高吞吐量,极大缩短AI业务商业变现时间窗口,为企业用户赢得市场先机
PopRT构成
PopRT包括转换器、编译器和运行时:
  • 转换器
    • 提供对op-fusion、constant-folding等广泛使用的优化方法内置支持
    • 提供对FP16和FP8训练后量化的内置支持,这种训练后量化可以实现更低的时延和更高的吞吐量,并且精度损失很小
    • 支持将多个模型融合为一个
  • 编译器
    • 支持模型切分和流水线
    • 为运行时导出PopEF(Poplar可执行格式)
  • 运行时
    • 支持自动批处理
    • 支持移除填充以减少对自然语言处理(NLP)模型的无用计算(或通过移除填充对自然语言处理模型进行更有效的推理)
    • 支持针对CV(计算机视觉)模型的多模型推理
部署和运行
Graphcore始终坚持降低IPU的使用门槛,广泛支持各类主流的机器学习框架,让开发者能够在自己熟悉的环境中工作,专注创新。
PopRT优化模型可与英伟达Triton和TF-Serving一起部署,并可以通过PopRT运行时API很容易地与第三方框架和服务平台集成。
PopRT编译和运行过程
优化推理性能
搭配Grapchore C600高端推训一体加速卡,PopRT使得开发者可以“一键”零代码部署已经训练好的AI应用,可以大幅加速计算机视觉、自动语音识别、自然语言处理(BERT、GPT类)、多模态和推荐系统的AI应用的部署速度,加速整个数据中心的各项工作负载,缩短研发到商用的时间。
欲了解各类模型在C600的优异性能,请联系[email protected]
在C600上使用PopRT
C600是拟未为云和数据中心打造的高端推训一体加速卡,主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上别具优势。为了使得C600在推理场景发挥更大效能,PopRT在C600的基础上进一步针对推理进行了优化,低时延和高吞吐使得用户可以高效地进行推理,一键部署已经训好的模型。
现在,15亿参数量的GPT2-XL已经在C600上成功部署(详情请见本次推送二条)。在PopRT的加持下,GPT2-XL的推理延时在C600上已经达到1 ms/token的水平。这意味着在实际应用场景中,模型可以快速响应用户的请求,极大提高用户体验。
【教程】在 C600上快速使用PopRT:https://graphcore.github.io/PopRT/1.1.0/
如欲了解PopRT的更多详情,请访问:https://github.com/graphcore/PopRT
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
继续阅读
阅读原文