打磨三年、支持万亿 MoE，腾讯混元模型团队的真实推理实力到底如何？

采访嘉宾｜刘凯，腾讯混元大模型推理方向负责人

作者 | 华卫

2023 年 9 月，腾讯终于在一片翘首以盼中推出自研的混元大模型。对于入局早晚的问题，腾讯董事会主席兼首席执行官马化腾曾这样说道，“我们在埋头研发，但并不急于早早做完，把半成品拿出来展示。”

据悉，混元大模型未来能支持 50 多个腾讯业务产品，而幻觉比主流开源大模型降低 30% 至 50%、文生图推理耗时缩短至 3-4 秒，是混元大模型目前已达到的推理性能。那么，其背后的核心团队究竟做了哪些努力？技术实力到底如何？

就此，InfoQ 对腾讯混元大模型推理方向负责人刘凯进行了专访，听他详细讲述了腾讯混元大模型在推理和压缩方面的技术能力与团队实践。在即将召开的 AICon 全球人工智能开发与应用大会暨大模型应用生态展上，InfoQ 也邀请到刘凯老师来做演讲分享，他将进一步透露大模型推理加速与压缩的技术方法以及腾讯混元大模型的落地进展。

以下为访谈实录，经编辑。

如何在推理赛道扳回“一局”？

InfoQ：、作为较晚入场大模型的国内互联网大厂，腾讯团队有什么优势？

刘凯： 对于晚入场这个说法，并不准确。早在 2020 年，腾讯出于自身业务需要已经展开预训练大模型的技术探索和积累，并率先在内部业务譬如广告上进行应用投产。腾讯对于处理前沿技术探索和输出的关系，一贯以来是比较一致的，对于正在探索的技术路线，往往会用自身业务作为试验田对方案进行反复验证和完善，之后才会对外发布和输出。

说到优势，我觉得在大模型技术的前沿探索中，腾讯在以下方面具备相当的积累和竞争力：1、在数据、算法、工程等方向，我们有一批经验丰富的专家；2、我们有一个强大的机器学习平台 Angel(曾获 2023 年中国电子学会科学技术进步一等奖)；3、腾讯内部有大量适合大模型落地的业务应用场景，能在和业务的合作中助力腾讯混元团队能力的快速成长。

InfoQ：推理能力对大模型而言十分关键，腾讯混元大模型做到了什么水平？目前是否有量化的能力指标？

刘凯： 目前腾讯混元大模型的吞吐能力达到开源框架的 2 倍以上，文生图 & 文生视频推理耗时下降 65%。规模上，模型支持万亿 MoE、上下文长度保持 256K 以上，同时支持多种压缩方法，包括量化、蒸馏、裁剪、稀疏、并行解码、步数蒸馏等，能在保证效果无损的基础上，将吞吐提升 2~8 倍。

InfoQ：不同模态的内容生成框架下，混元大模型采用的推理和压缩方法有差异吗？

刘凯： 会存在一定的差异。比如文生文 & 图生文的场景，由于模型较大一般需要采用分布式推理；而文生图 & 文生视频的扩散模型，在大部分场景下使用单卡推理即可，不过随着模型的逐步增大，我们也在支持分布式推理。

压缩方法上也存在一定的差异，文生图 & 文生视频扩散模型使用步数蒸馏收益更大，所以蒸馏的优先级会高于其他方法；而在生文场景，量化由于简单高效，优先级最高、之后逐步是蒸馏、投机采样、裁剪稀疏等方法。

InfoQ：目前有哪些可以有效提高模型推理速度和准确度的技术？主要优化思路是什么？

刘凯： 并行解码等相关技术都值得一试，其主要思路是通过使用更小的模型或者一次更多的生成 token 数来加快速度，同时使用 base 模型进行结果校验来保证生成的效果。

InfoQ：对腾讯混元大模型来说，端侧推理是一个降低推理成本的好方式吗？是否有可能实现？

刘凯： 是的，端侧推理是腾讯混元大模型逐步推进的一个方向。腾讯内部有很多业务适合端侧推理，比如会议、文档、输入法等。

将模型从大化“小”的心得

InfoQ：模型的规模参数大到一定程度后，会产生哪些负面效应？

刘凯： 模型参数的持续上升，会带来成本的上升和耗时的增加，同时也给推理优化带来了很大的挑战。首先我们知道大模型推理的瓶颈主要集中在显存和带宽上，为了放下更大的模型，我们需要进行单机多卡、多机多卡的部署。

当使用多机多卡时，带宽就涉及到显存带宽、卡间带宽、网络带宽等三个方面，其速度依次递减，耗时会逐步上升，而部署卡数的上升必然会带来卡成本及配套设备成本的上升。此外，框架 3D 并行能力并非无限制无损扩展，如果超大模型设计的不合理，会使得优化难度成倍上升。

InfoQ：如何在保持性能效果的前提下将大模型做“小”？腾讯有什么好的技术思路分享？

刘凯： 模型压缩方法主要包括蒸馏、裁剪、稀疏、量化等。在上述方法中，量化容易实现，是最稳定的，也是各大公司广泛使用的方法。以腾讯混元大模型为例，我们在 Dense 以及 MoE 模型都大规模使用了量化模型，从精度上覆盖了 INT8、FP8、INT4，并在逐步尝试 2bit、1bit 的压缩，目前在范围上已经支持了权重、激活、KV-Cache 的量化。

由于腾讯内部应用场景很多，对模型规模有多样的需求，我们也开发了裁剪 + 蒸馏的方式来快速扩展模型矩阵，保证各个业务可以使用适合自己的大模型。稀疏这块，其实服务器侧的使用会比较少，但腾讯在这块有持续打磨。除了上述通用方法之外，针对大模型也有一些新的压缩方法，比如文生文当中的 GQA/MQA，并行解码，Cache 方案等；文生图、文生视频的步数蒸馏等。

InfoQ：现实应用中，当落地场景的训练数据未知或不可获得时，如何合理进行模型压缩？

刘凯： 针对这个问题我想稍微扩展一下，首先我们知道模型压缩一般分为 Training-Base 和 Training-Free 两种方法，但大模型压缩时我们一般还是建议走 Training-Free 过程，因为大模型的训练过程长、成本高、调参复杂，一般情况不建议去触碰。并且，随着模型规模的增大，无损压缩的难度是减小的，所以使用简单便捷的 Training-Free 的方法比较好。

使用 Training-Free 也需要一些数据进行校准，如果获得不到训练的数据时，我们的建议是通过两种方法解决：1、选取通用数据集的数据进行校准；2、使用大模型生成一定的数据来进行校准。

InfoQ：在即将到来的 AICon 上，您准备向听众分享哪些方面的内容？

刘凯： 在即将到来的 AICon 上，我会给大家分享腾讯混元大模型推理框架 Angel-HCF、压缩工具 SNIP 的技术进展以及腾讯混元大模型的落地情况，并针对 GPU 底层优化、服务化能力、压缩算法的优缺点进行剖析，让大家能快速了解大模型推理相关技术。

嘉宾介绍：

刘凯，腾讯高级工程师，腾讯混元大模型推理方向负责人，负责文生文、文生图等大模型压缩优化及推理加速。10 年以上 GPU 高性能优化经验，丰富的深度学习推理框架优化经验。带领团队完成大模型压缩 & 推理框架从 0 到 1 的构建。

活动推荐

AICon 全球人工智能开发与应用大会暨大模型应用生态展将于 5 月 17 日正式开幕，本次大会主题为「智能未来，探索 AI 无限可能」。如您感兴趣，可点击「阅读原文」查看更多详情。

会议即将开幕，扫码可预约主题演讲直播，购票或咨询其他问题请联系票务同学：13269078023，或扫描上方二维码添加大会福利官，可领取福利资料包。

继续阅读

阅读原文