大模型时代,企业如何榨干每一块 GPU?
以 ChatGPT 为代表的 AIGC 浪潮正在重塑数字内容的生产方式和消费模式,相应的,各行业高算力业务场景对 AI 算力的需求也水涨船高。在有限算力的情况下,通过 GPU 算力上云,驱动云原生 + AI 实现算力资源的快速弹性和高效使用,已经成为 AI 技术落地的新基石。
当前,在异构计算场景下,云原生在资源灵活分配方面已经具备标准化能力,然而,这一能力并不能直接在 GPU 资源上复用。在保障性能和安全的前提下,如何进一步提高 GPU 的利用率,将多个容器运行在单张GPU卡上,仍是业界在持续探索的难题。
针对这一问题,目前业内已提出多种方案,例如 NVIDIA vGPU、NVIDIA MPS、rCUDA 等,都推出了不同的技术实践。但它们或多或少都存在 license 购买、故障隔离和重编译等问题。
mGPU 是火山引擎基于内核虚拟化隔离 GPU 并结合自研调度框架提供的容器共享 GPU 方案。在保证性能和故障隔离的前提下,它支持多个容器共享一张 GPU 显卡,支持算力与显存的灵活调度和严格隔离。
- 资源隔离:支持显存资源上限与算力资源时分隔离,细粒度配置算力资源比例;
本地资源池化:支持对多卡容器进行资源隔离,消除资源碎片,最大化提高 GPU 资源利用率; 细粒度任务监控:提供容器内进程级别 GPU 任务监控能力; 动态资源配置:支持运行时更新资源配置; - 生态兼容:支持 Pascal、Volta、Turing、Ampere 等主流 NVIDIA GPU 架构,适配标准开源的 Kubernetes 和 NVIDIA Docker。
火山引擎针对这一场景,在 mGPU scheduler 中引入 Kubernetes Scheduling Framework 框架扩展,实现了多种类型的调度能力。用户可通过容器服务 VKE 设置多种调度算法和策略,在不同场景下精细化调度各类资源。
mGPU 提供多种算力分配策略,创建 GPU 节点池时可设置算力分配策略,Pod 亲和调度到对应的算力策略节点,实现不同算力资源池的配置和应用的调度,满足算力资源的高效应用。
双重调度策略
在双层调度的基础上,mGPU 还支持多卡共享能力。单个容器可使用同一节点上的多张 GPU 卡共同提供算力和显存资源,打破同一个容器使用算力/显存局限于一张 GPU 卡的束缚,超过整卡资源可随心分配。
多卡共享场景下,应用只需申请显存和算力(例:L 个 GiB 的显存和 M% 的算力),并指定提供该资源的 GPU 卡数即可(例:N 张卡),系统将根据多卡共享算法,匹配符合要求的节点和 GPU 卡,每张 GPU 卡将为应用等分提供显存和算力(例:L/N 个 GiB 的显存和 M%/N 的算力)。
示例:假设 A 应用申请了 18GiB 显存和 240% 的算力,并指定了 GPU 卡数为 3,那么该节点需为该应用提供 3 张 GPU 卡,且每张 GPU 卡提供 6GiB 显存和 80% 算力。
总结
[1] 火山引擎: www.volcengine.com
[2] 火山引擎 VKE: www.volcengine.com/product/vke
Serverless 是一种基于云计算技术的新型服务模式,它通过将计算和存储资源从本地服务器转移到云端服务提供商,从而大幅降低 IT 成本,并提高服务的弹性和可伸缩性,被视为云原生下一阶段的重要趋势。
2023 年 6 月 3 日,字节跳动基础架构团队和稀土掘金开发者社区将举行一场线上/线下的 Meetup,邀请业内专家分享他们在 Serverless 技术实际应用中的经验和见解。点击“阅读原文”立即报名!
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。