作者 | Claudio Masolo
译者 | 刘雅梦
策划 | 丁晓昀
云原生计算基金会(CNCF)最近宣布,在技术监督委员会(TOC)投票后,已接受 Kubeflow,用于在 Kubernetes 上部署机器学习(ML)工作流的工具包,成为 CNCF 孵化项目。
Kubeflow 提供了一个开源的 Kubernetes 原生 MLOps 平台,用于为最流行的框架来开发和部署分布式机器学习(ML):TensorFlow、PyTorch、XGBoost、Apache MXNet 等等。
Kubeflow 由谷歌于 2017 年创建,自 2017 年以来,该社区现拥有 150 家公司、28K+ GitHub Stars、15+ 提交者以及 15 个版本。该项目分为六个半独立的小组:
  • Notebooks 工作组:负责开发界面和交互式部署环境
  • 训练 Operator 小组:开发并训练 operator,以便在 Kubernetes 上进行分布式 ML 训练
  • AutoML 小组:开发了自动化模型开发软件 Katib
  • Kubeflow Pipeline 工作组:开发了将 Python ML 脚本转换为工作流模板的软件
  • Manifest 工作组:开发安装过程
  • KServe 项目:在 Kubernetes 上开发了高度可扩展的模型推理平台
当前 Kubeflow 的架构如下图所示:
Kubeflow 架构
使用 Kubeflow 配置接口,可以指定工作流所需的 ML 工具,并且可以将其部署到各种云、本地和 on-premises 平台上,用于实验和生产。
TOC 赞助商 Ricardo Rocha 表示:
Kubernetes 环境提供了可重复性、可扩展性和快速交付,使其成为运行 AI 和 ML 计划的完美场所。Kubeflow 通过提供机器学习管道和 MLOps 来填补了这一空白,同时与其广泛的社区和其他工具及计划密切合作,以创建一个更具凝聚力的生态系统。我们很高兴看到 Kubeflow 项目在 CNCF 中的发展,并看到它在 MLOps 领域的进步。
云原生计算基金会为项目定义了三个成熟度级别:沙箱阶段、孵化阶段和毕业阶段。
项目阶段
每个被提议的项目都要经过一个后备(fallback)投票过程,该过程由 TOC 毕业标准来描述:
一个项目需要有高于三分之二的绝对多数赞成才能被接受为孵化或毕业。如果没有绝对多数的赞成选票来支持项目进入毕业阶段,那么任何毕业的选票都会被重新计算为项目进入孵化阶段的选票。如果没有绝对多数的选票来支持项目进入孵化阶段,那么任何毕业或孵化的选票都会被重新计算为项目进入沙箱阶段的赞成选票。如果没有足够的赞成选票来支持项目进入沙盒阶段,该项目将被拒绝。
云原生计算基金会(CNCF)生态系统负责人 Taylor D. 在 LinkedIn 上发表了一篇专门的帖子,以庆祝 Kubeflow 作为孵化项目加入 CNCF。
Kubeflow 的主要替代方案是亚马逊的 Sagemaker,这是由 AWS 完全管理的机器学习平台。
原文链接:
https://www.infoq.com/news/2023/08/kubeflow-cncf-project/
 活动推荐
大模型的出现从根本上改变了数字化转型的赛道,在 InfoQ《超级连麦. 数智大脑》直播中,富滇银行数字金融中心副主任李涛深入探讨了自身对于 AIGC 在金融领域创新方面的思考,分享了银行数字化发展的历程及背后的架构演进。识别下方二维码或关注「InfoQ 数字化经纬」公众号,即可阅读全文。

继续阅读
阅读原文