2023年12月1日,OpenInfra Days China 2023在北京成功举办。这距离2022年11月30日OpenAI公司正式发布ChatGPT已有整整一年时间。在过去的这一年时间里,整个IT业界都在持续消化大语言模型(LLM)带来的颠覆与震撼。人工智能(AI)时代,IT基础设施将何去何从引发了更深层的思考。

对于聚焦于开源基础设施的OpenInfra基金会及社区来说,如何重塑并推动基础设施不断向前发展,以更好地满足AI算力和AI数据负载的需求成了当务之争。在OpenInfra Days China 2023上,腾讯云虚拟化产品中心总监方佳瑞带来的主题分享——《面向腾讯云异构算力的大模型高效服务化部署》引起了与会者的强烈反响。因为在技术和产品解析的背后,它揭示出一个业界各方广泛关注的核心问题,即如何降低大模型部署和应用的门槛,从而加快大模型在实际生产中的落地,让用户实实在在感受到大模型能够支撑业务降本增效。


腾讯云虚拟化产品中心总监方佳瑞
异构计算露峥嵘
“AI的理念和应用场景产生了爆炸式的数据和数据处理需求。这对IT基础设施底层的软硬件,以及底层资源的调配提出了更高的要求。”OpenInfra亚洲区总监李昊阳指出,“在基础架构层,如何更好地集成和支持一些新兴的硬件,包括GPU、DPU等,更好地满足AI需求成了未来研究的重点问题。”

从计算发展的趋势来看,由于传统的通用计算在面对大规模、高并发的计算需求时越来越力不从心,异构计算被视为AI落地的关键支撑。IDC的一项调查显示,在中国市场上,“CPU+GPU”已成为AI异构计算的主要组合形式。异构计算通过不同类型处理器(比如CPU、GPU、ASIC、FPGA、NPU等)的协同工作,在执行特定任务时,能够更高效地利用不同类型的计算资源,并且更好地优化性能与效率,从而最大程度地满足不同的计算需求。

业界主流的计算产品和服务提供商,都推出了自己的异构计算解决方案和服务。腾讯云一直在异构计算方面进行积极探索,致力于为AI应用的落地提供全面、强大的算力保障,让AI方案的设计者、AI开发人员以及各行各业的AI使用者都能够从中获益。



举例来说,腾讯云异构计算产品矩阵能够按照用户的不同需求,灵活提供不同类型的计算资源,包括高性能计算集群HCC、GPU云服务器、裸金属云服务器、AI加速套件等,并支持对异构算力进行虚拟化,以满足更加复杂的计算需求。如今,在AIGC、AI计算、视觉计算、自动驾驶、科学计算等诸多领域,都能看到腾讯云异构计算产品的身影。比如,针对万众瞩目的大模型场景,腾讯云异构计算产品可以支持大模型高效的训练及推理,已先后为美团、快手、小红书、minimax、百川智能等客户提供服务,与行业领军者、创新者一起加速时代的变革。

总之,面对从高性能计算到图像处理,再到AI基础设施等各种各样的场景,腾讯云能够提供算力强大、配置弹性且更具性价比的异构计算实例。TACO-LLM是基于腾讯云异构计算产品最新推出的一款大模型推理加速引擎,能够满足多种业务场景下推理提效的需求,是腾讯云推动大模型有效落地的又一利器。

为AI落地赋能
经过一年的发展、研究,行业用户对大模型的关注点正从大模型本身,逐步过渡到如何以更低的成本、更简化和有效的方式,将大模型应用到具体的业务场景中。

作为赋能者,腾讯云从多个维度为大模型的行业落地做好了准备。首先,腾讯自主了研发了通用大语言模型——混元。所谓知己知彼,百战不殆。通过自主研发大模型,腾讯对大模型的认知程度更上一层楼,对于大模型落地所需的各方面能力和支撑也更加了解。其次,腾讯又发布了行业大模型,并基于其TI平台提供MaaS(Model as a service)一站式服务,能够帮助行业客户更快、更经济地搭建专属大模型。再次,腾讯云充分发挥自身在技术底座,尤其是IaaS方面的全栈能力和深厚积累,以高性能的计算集群、存储和网络,以及向量数据库等基础设施,为大模型的落地奠定坚实基础。最后,腾讯云更希望深入to B端,面向多样且复杂的生产场景,与客户一起落地大模型,赋能业务,重塑生产力。

“当前,大模型已经成了AI赋能的主流选择。但是,用户在部署和应用大模型的过程中会面临许多挑战,包括基础架构层面、成本层面等。”方佳瑞介绍说,“腾讯云旨在通过技术创新、方案优化,以及专业的服务,进一步简化大模型的部署和应用,并且降低成本。”

腾讯云大语言模型推理加速引擎TACO-LLM,能够针对部署时出现的性能、时延等问题进行优化,全面兼容主流模型,兼顾高吞吐和低时延的同时,提高推理流程的效率,帮助用户加速大模型的落地应用。

兼顾高性能与低延迟
今天,从to C到to B领域,LLM的应用场景越来越多。比如时延敏感的在线对话系统就是一个典型,它通常出现在医疗咨询、教师辅导、商品导购、心理医生等场景中,因为对话的需要,会输出大量长文本,因此输出时延对终端客户的留存和转换有着极其重要的影响。再比如,在高吞吐的离线文本生成场景中,需要处理大批量的文本数据,包括文本摘要、邮件自动生成、舆情分析、内容审核分类等,因此要求高吞吐、高算力利用率。

概括而言,LLM部署所面临的挑战,在服务器维度主要表现为吞吐能力,在请求维度表现为延迟。这些指标直接影响到用户体验和服务质量。

先来看性能方面的挑战,吞吐能力是一个重要指标,它直接反映在用户使用云计算平台的成本。众所周知,模型生成输出是一个串行的计算过程,下一个输出依赖上一个输出,因此很难发挥出GPU或其他加速硬件的并行加速能力,常常无法获得很好的吞吐指标。

方佳瑞介绍说,传统的Transformer推理框架以请求为粒度,将多个请求打包成一个Batch进行处理,这就带来了潜在的性能隐患。其一,请求的输出有长有短,这种组织方式需要等一个Batch中最长输出长度的请求计算完成,才能完成整个Batch的计算。而在此之前,新的请求无法开始计算,已计算完的请求也只能进行无效计算。在这种方式下,不仅计算资源有浪费,而且随着不同请求计算过程中的显存使用,还容易造成显存碎片降低显存使用的效率,凸显了资源瓶颈。其二,大模型推理的计算方式的计算访存比非常低,硬件的计算能力无法充分发挥。其三,大模型的“大”对显存容量更是一个严峻的考验。

再来看大模型推理的服务延迟主要来自三个方面:其一,首字延迟,它代表了用户从输入请求到获得响应的时间;其二,解码延迟,意为每个用户请求生成后续输出的平均响应时间;其三,请求延迟,是指对给定用户产生完整响应的延迟。

面向生产环境的LLM推理引擎——腾讯云TACO-LLM,能够极大地提高吞吐量,并优化客户端的延迟;同时全面兼容Hugging face主流模型,包括但不限于LLaMA、GPT、Falcon、OPT等,助力大模型极致加速。

方佳瑞介绍了腾讯云TACO-LLM在技术上的诸多领先性。

第一,Continuous Batching消除了传统Static Batching方式存在的等待,以及严重浪费硬件算力等弊端,它无需等待Batch中所有请求都完成计算,而是一旦有请求完成计算,即可加入新的请求,实现迭代级别的调度,从而提高计算效率,实现较高的GPU计算利用率。

第二,Speculative Sampling通过投机采样的方式,从根本上解决了计算访存比的问题,通过引入一个“小模型”辅助解码,让真正部署的大模型实现“并行”解码,从而大幅提高解码效率。小模型做猜测 +大模型做验证,很好地解决了访存受限的问题。

第三,异步调度。TACO-LLM设计开发了异步流水线机制,使得“小模型”和目标模型并发执行,从而“隐藏”了小模型执行的开销。此外,TACO-LLM还将请求的调度和更新步骤也纳入到异步流水线中,进一步减少了请求调度和更新的开销,以提升性能。

第四,分布式推理。TACO-LLM通过优化的调度策略智能地管理和调度推理任务,再通过合理地分配任务,在推理过程中实现异步请求和高效的流水处理,从而最大程度地减少等待时间,提高整体推理效率,解决了“大模型一张GPU放不下”的问题,并且能够很好地满足部分业务对极致延迟的需求。

当然,TACO-LLM所实现的优化并不止上面提到这些。TACO-LLM大量的优化策略与措施,能够显著提升推理的性能与效率,这一点在实际客户中得到了验证。国内领先的智能客服解决方案提供商晓多科技在采用TACO-LLM后,相比原来的框架,吞吐性能提升了1.78倍。

降低AIGC应用开发门槛
12月18日,腾讯云又宣布,推出高性能应用服务(Hyper Application Inventor,HAI),用户无需复杂配置,最快10分钟即可创建自己的AI应用。腾讯云用不断的创新,有效地降低AIGC应用开发门槛,让每个开发者都能轻松地开发自己的AI应用。



大模型为企业的业务、流程和管理带来了更多的可能性,而腾讯云为大模型的落地提供了灵活、可靠、优化、高性价比的支撑。

继续阅读
阅读原文