加速大模型落地，腾讯云更具性价比

2023年12月1日，OpenInfra Days China 2023在北京成功举办。这距离2022年11月30日OpenAI公司正式发布ChatGPT已有整整一年时间。在过去的这一年时间里，整个IT业界都在持续消化大语言模型（LLM）带来的颠覆与震撼。人工智能（AI)时代，IT基础设施将何去何从引发了更深层的思考。

对于聚焦于开源基础设施的OpenInfra基金会及社区来说，如何重塑并推动基础设施不断向前发展，以更好地满足AI算力和AI数据负载的需求成了当务之争。在OpenInfra Days China 2023上，腾讯云虚拟化产品中心总监方佳瑞带来的主题分享——《面向腾讯云异构算力的大模型高效服务化部署》引起了与会者的强烈反响。因为在技术和产品解析的背后，它揭示出一个业界各方广泛关注的核心问题，即如何降低大模型部署和应用的门槛，从而加快大模型在实际生产中的落地，让用户实实在在感受到大模型能够支撑业务降本增效。

腾讯云虚拟化产品中心总监方佳瑞

异构计算露峥嵘

“AI的理念和应用场景产生了爆炸式的数据和数据处理需求。这对IT基础设施底层的软硬件，以及底层资源的调配提出了更高的要求。”OpenInfra亚洲区总监李昊阳指出，“在基础架构层，如何更好地集成和支持一些新兴的硬件，包括GPU、DPU等，更好地满足AI需求成了未来研究的重点问题。”

从计算发展的趋势来看，由于传统的通用计算在面对大规模、高并发的计算需求时越来越力不从心，异构计算被视为AI落地的关键支撑。IDC的一项调查显示，在中国市场上，“CPU+GPU”已成为AI异构计算的主要组合形式。异构计算通过不同类型处理器（比如CPU、GPU、ASIC、FPGA、NPU等）的协同工作，在执行特定任务时，能够更高效地利用不同类型的计算资源，并且更好地优化性能与效率，从而最大程度地满足不同的计算需求。

业界主流的计算产品和服务提供商，都推出了自己的异构计算解决方案和服务。腾讯云一直在异构计算方面进行积极探索，致力于为AI应用的落地提供全面、强大的算力保障，让AI方案的设计者、AI开发人员以及各行各业的AI使用者都能够从中获益。

举例来说，腾讯云异构计算产品矩阵能够按照用户的不同需求，灵活提供不同类型的计算资源，包括高性能计算集群HCC、GPU云服务器、裸金属云服务器、AI加速套件等，并支持对异构算力进行虚拟化，以满足更加复杂的计算需求。如今，在AIGC、AI计算、视觉计算、自动驾驶、科学计算等诸多领域，都能看到腾讯云异构计算产品的身影。比如，针对万众瞩目的大模型场景，腾讯云异构计算产品可以支持大模型高效的训练及推理，已先后为美团、快手、小红书、minimax、百川智能等客户提供服务，与行业领军者、创新者一起加速时代的变革。

总之，面对从高性能计算到图像处理，再到AI基础设施等各种各样的场景，腾讯云能够提供算力强大、配置弹性且更具性价比的异构计算实例。TACO-LLM是基于腾讯云异构计算产品最新推出的一款大模型推理加速引擎，能够满足多种业务场景下推理提效的需求，是腾讯云推动大模型有效落地的又一利器。

为AI落地赋能

经过一年的发展、研究，行业用户对大模型的关注点正从大模型本身，逐步过渡到如何以更低的成本、更简化和有效的方式，将大模型应用到具体的业务场景中。

作为赋能者，腾讯云从多个维度为大模型的行业落地做好了准备。首先，腾讯自主了研发了通用大语言模型——混元。所谓知己知彼，百战不殆。通过自主研发大模型，腾讯对大模型的认知程度更上一层楼，对于大模型落地所需的各方面能力和支撑也更加了解。其次，腾讯又发布了行业大模型，并基于其TI平台提供MaaS（Model as a service）一站式服务，能够帮助行业客户更快、更经济地搭建专属大模型。再次，腾讯云充分发挥自身在技术底座，尤其是IaaS方面的全栈能力和深厚积累，以高性能的计算集群、存储和网络，以及向量数据库等基础设施，为大模型的落地奠定坚实基础。最后，腾讯云更希望深入to B端，面向多样且复杂的生产场景，与客户一起落地大模型，赋能业务，重塑生产力。

“当前，大模型已经成了AI赋能的主流选择。但是，用户在部署和应用大模型的过程中会面临许多挑战，包括基础架构层面、成本层面等。”方佳瑞介绍说，“腾讯云旨在通过技术创新、方案优化，以及专业的服务，进一步简化大模型的部署和应用，并且降低成本。”

腾讯云大语言模型推理加速引擎TACO-LLM，能够针对部署时出现的性能、时延等问题进行优化，全面兼容主流模型，兼顾高吞吐和低时延的同时，提高推理流程的效率，帮助用户加速大模型的落地应用。

兼顾高性能与低延迟

今天，从to C到to B领域，LLM的应用场景越来越多。比如时延敏感的在线对话系统就是一个典型，它通常出现在医疗咨询、教师辅导、商品导购、心理医生等场景中，因为对话的需要，会输出大量长文本，因此输出时延对终端客户的留存和转换有着极其重要的影响。再比如，在高吞吐的离线文本生成场景中，需要处理大批量的文本数据，包括文本摘要、邮件自动生成、舆情分析、内容审核分类等，因此要求高吞吐、高算力利用率。

概括而言，LLM部署所面临的挑战，在服务器维度主要表现为吞吐能力，在请求维度表现为延迟。这些指标直接影响到用户体验和服务质量。

先来看性能方面的挑战，吞吐能力是一个重要指标，它直接反映在用户使用云计算平台的成本。众所周知，模型生成输出是一个串行的计算过程，下一个输出依赖上一个输出，因此很难发挥出GPU或其他加速硬件的并行加速能力，常常无法获得很好的吞吐指标。

方佳瑞介绍说，传统的Transformer推理框架以请求为粒度，将多个请求打包成一个Batch进行处理，这就带来了潜在的性能隐患。其一，请求的输出有长有短，这种组织方式需要等一个Batch中最长输出长度的请求计算完成，才能完成整个Batch的计算。而在此之前，新的请求无法开始计算，已计算完的请求也只能进行无效计算。在这种方式下，不仅计算资源有浪费，而且随着不同请求计算过程中的显存使用，还容易造成显存碎片降低显存使用的效率，凸显了资源瓶颈。其二，大模型推理的计算方式的计算访存比非常低，硬件的计算能力无法充分发挥。其三，大模型的“大”对显存容量更是一个严峻的考验。

再来看大模型推理的服务延迟主要来自三个方面：其一，首字延迟，它代表了用户从输入请求到获得响应的时间；其二，解码延迟，意为每个用户请求生成后续输出的平均响应时间；其三，请求延迟，是指对给定用户产生完整响应的延迟。

面向生产环境的LLM推理引擎——腾讯云TACO-LLM，能够极大地提高吞吐量，并优化客户端的延迟；同时全面兼容Hugging face主流模型，包括但不限于LLaMA、GPT、Falcon、OPT等，助力大模型极致加速。

方佳瑞介绍了腾讯云TACO-LLM在技术上的诸多领先性。

第一，Continuous Batching消除了传统Static Batching方式存在的等待，以及严重浪费硬件算力等弊端，它无需等待Batch中所有请求都完成计算，而是一旦有请求完成计算，即可加入新的请求，实现迭代级别的调度，从而提高计算效率，实现较高的GPU计算利用率。

第二，Speculative Sampling通过投机采样的方式，从根本上解决了计算访存比的问题，通过引入一个“小模型”辅助解码，让真正部署的大模型实现“并行”解码，从而大幅提高解码效率。小模型做猜测 +大模型做验证，很好地解决了访存受限的问题。

第三，异步调度。TACO-LLM设计开发了异步流水线机制，使得“小模型”和目标模型并发执行，从而“隐藏”了小模型执行的开销。此外，TACO-LLM还将请求的调度和更新步骤也纳入到异步流水线中，进一步减少了请求调度和更新的开销，以提升性能。

第四，分布式推理。TACO-LLM通过优化的调度策略智能地管理和调度推理任务，再通过合理地分配任务，在推理过程中实现异步请求和高效的流水处理，从而最大程度地减少等待时间，提高整体推理效率，解决了“大模型一张GPU放不下”的问题，并且能够很好地满足部分业务对极致延迟的需求。

当然，TACO-LLM所实现的优化并不止上面提到这些。TACO-LLM大量的优化策略与措施，能够显著提升推理的性能与效率，这一点在实际客户中得到了验证。国内领先的智能客服解决方案提供商晓多科技在采用TACO-LLM后，相比原来的框架，吞吐性能提升了1.78倍。

降低AIGC应用开发门槛

12月18日，腾讯云又宣布，推出高性能应用服务(Hyper Application Inventor，HAI)，用户无需复杂配置，最快10分钟即可创建自己的AI应用。腾讯云用不断的创新，有效地降低AIGC应用开发门槛，让每个开发者都能轻松地开发自己的AI应用。

大模型为企业的业务、流程和管理带来了更多的可能性，而腾讯云为大模型的落地提供了灵活、可靠、优化、高性价比的支撑。

继续阅读

阅读原文