强力“推背”，ChatGLM-6B在IPU上跑出3.5ms/token速度

我们很高兴地和大家分享，Graphcore（拟未） IPU已经率先实现了对中英双语模型ChatGLM-6B的支持。用户可以与IPU上的ChatGLM-6B聊天，利用ChatGLM-6B进行文本摘要、辅助写作、编写代码等等。运行在IPU上的ChatGLM-6B模型拥有令人印象深刻的超低延时，在FP16精度下，每个token平均耗时仅有3.5毫秒，即3.5秒每千token，用户发送的绝大多数请求可以在几百毫秒内得到响应，真正做到了即问即答，极大提高了用户的体验感。

目前ChatGLM-6B在IPU上以FP16精度运行，尚未进行低精度量化或模型稀疏化。这意味着该模型可以无损、快速地部署在IPU上，而不会因为性能优化而牺牲模型的精度和参数量。

中英语言模型ChatGLM-6B

在前不久的博客中，我们提到ChatGPT颠覆式地改变了AI商业模式，掀起了大模型的浪潮。但是，ChatGPT并非开源模型，它的算力支出也“令人暴风哭泣”。对于希望规模化部署大模型的企业来说，对更加易于部署的大模型的需求非常迫切。

ChatGLM-6B由智谱AI推出并开源，模型经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，具有62亿参数，相对ChatGPT来说，ChatGLM-6B这一轻量化的模型可以在本地AI计算硬件上以较低成本部署，大大降低了用户部署的门槛。

ChatGLM-6B模型现已开源，全球下载超过100万次，持续两周位列Hugging face全球模型趋势榜榜首。

使用IPU运行ChatGLM-6B

我们通过模型并行优化和算子融合，以及诸多算子的底层优化，充分发挥IPU的近存计算架构带来的算力优势。大量的片上存储空间可以很好地支持模型参数存储，降低在推理过程中和片外存储交互的需求，打破IO bound的限制，极大地释放计算单元的能力。

上述优化均已集成在Graphcore的Poplar软件栈中，包括ChatGLM-6B在内的其他大语言模型均能够在IPU上充分释放性能，不再需要艰深的代码层面优化。

对于模型部署商来说，模型性能将不再成为系统整体的瓶颈，工程师们可以专注于模型问答能力的提升和系统其他部分的优化中，充分解放了模型部署的效率。

运行在IPU上的ChatGLM-6B在日常聊天、文本摘要、辅助写作、代码编写等方面，都能生成相当符合人类偏好的回答。

一起来感受下ChatGLM-6B在IPU上 3.5ms/token的推背感：

日常陪聊

如图所示，一些日常的聊天基本做到了即问即答，为用户提供流畅舒适的多轮问答体验。

文本总结

在这个例子中，我们使用模型进行文本摘要，用以测试较长的文本输入和输出，从结果来看，每个字的生成速度几乎不受文本长度的影响。

辅助写作

在进行辅助创作的情景下，端到端的超低时延让用户的使用过程更加流畅，提高了用户的尝试意愿。

编写代码

除了中文语境中出色的表现外，ChatGLM-6B在英文聊天和英文辅助写作上也表现亮眼：

大模型已经展现出了非常广泛的应用前景，它所表现出的强大能力也使人们看到了它的无限可能。未来，Graphcore计划和智谱AI继续深化合作，共同建设和繁荣中国的大模型生态，打通大模型规模部署的“最后一公里”。

如果您想在IPU上尝试ChatGLM-6B推理，请发邮件至[email protected]与我们联系。

获取更多Graphcore资讯，阅读深度技术文章，并与其他创新者们一起交流，请至中国官网graphcore.cn，以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

继续阅读

阅读原文