B站如何构建高效的数据预处理和模型训练AI平台?
Coeus是哔哩哔哩自主研发的云原生人工智能平台。目前,Coeus 支持广泛的用例,包括广告、简历、NLP、语音、电子商务等。从功能角度来看,Coeus支持模型开发、模型训练、模型存储和模型服务。
上图描述了架构和组件。Coeus是在Kubernetes上实现的,并集成了许多云原生组件,包括Volcano、VPA、Hawkeye(自研的云原生可观测系统)、Alluxio和Fluid。
Coeus 使用 Alluxio 来桥接底层存储系统(OSS 和 HDFS)和 AI 应用程序(基于 Pytorch 和 Tensorflow 的视频和图像训练作业)。
B站使用 Alluxio 作为 AI 平台计算和存储之间的中间层,克服了4大挑战:
容器崩溃 用户必须更改应用程序代码才能访问OSS和HDFS 数据太大,一台机器无法容纳 反复从远程存储拉取数据速度慢
不仅使哔哩哔哩的机器学习工作负载性能提升了3倍,还降低了基础设施成本并提高了模型训练质量。
除了B站,通过Alluxio来解决模型训练时效率低、成本高、可靠性低,可扩展性差等诸多难题的,还有支付宝、知乎等头部大厂。
欢迎大家免费下载第四期宝典《PyTorch模型训练性能调优宝典》,了解更多实践案例。本电子书是解决PyTorch训练性能和效率问题的首选宝典。
资料目录:
扫码即可免费下载
本宝典中介绍的技术适用于对PyTorch的基础设施及其使用的资源进行调优。这些调优技巧适用于所有模型算法,包括CNNs、RNNs、GANs、transformers(如GPT、BERT)等,且适用于所有领域,如计算机视觉、自然语言处理等。
核心要点:📌
✓
PyTorch的基础知识,包括张量、计算图、自动微分以及神经网络模块的工作原理;
✓
影响机器学习流程中模型训练性能的因素;
✓
优化PyTorch模型训练的分步过程;
✓
在数据加载、数据操作、GPU处理和CPU处理方面的最佳调优技巧,附有代码示例。通过这些技巧,平均训练epoch时长可缩短至原先的1/5-1/10;
✓
在真实生产环境中使用Alluxio作为数据访问层为模型训练赋能的案例研究。
面向人群:🧐
适用对象包括AI/ML平台工程师、数据平台工程师、后端软件工程师、MLOps工程师、站点可靠性工程师、架构师、机器学习工程师以及任何希望掌握PyTorch性能调优技巧的专业人士。
特别感谢!
翻译支持:Roise,熊迪,Polarish,曹明
特别感谢以上4位Alluxio社区志愿者对《PyTorch模型训练性能调优宝典》翻译工作的支持!
鸣谢
”
👇点击“阅读原文”亦可下载
阅读原文 最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。