作者
薛良Neil
邮箱

只有算力是不够的

AI 服务器是大模型战争中兵家必争之地,因为它代表了最为紧俏和稀缺的算力资源。浪潮信息则正是中国大陆最大的服务器提供商。
每两台AI服务器就有一台出自浪潮信息——将AI算力芯片经过系统化的整机设计,最终变成包括计算单元、存储单元、散热单元和供电系统等在内的完整产品交付给客户。
在大模型出现之前,算力资源可以直接用服务器的数量来表示,需要多少算力,就购买多少台服务器就可以了,彼此的换算关系几乎是透明的。正因如此,浪潮信息所做的事情一度被认为非常简单——卖尽可能多的服务器就好。
但大模型的出现改变了这一切。
尽管每个人都在谈论算力和它的紧缺,但许多人不知道的是,即便有了充分的 GPU 芯片供应,训练大模型依然是一个非常复杂和艰困的过程。
比如仅仅是把几千张卡串联起来就是一个工程学上的大问题,国内有现成经验的只有几家最大的云厂商。再比如,相比传统的分布式训练,大模型训练过程更复杂,周期也更长,这就要求服务器集群在充分运用算力资源、提升性能的同时保证整个系统的稳定性,在这个领域几乎全行业都处于摸索阶段。
一个现实的数字是,未经工程优化的情况下,许多企业的服务器效率甚至只有 20%-30%,考虑到大模型算力的高昂成本,这种浪费无疑十分惊人。
但这一关又是不得不过的。
百模大战中,许多大模型是通过 API 调用或者云的方式训练出来的,为了追求速度这本无可厚非,但要想让大模型变得真正落地、可用,则必须进行算力的本地化部署,因为商业化能力的构建是离不开本地算力资源作为后盾的。
这很像是十年前公有云计算发展的脉络,在起步阶段第一波应用过后,公有云的普适化能力开始逐步落地到场景和行业中,于是本地化就随之开始了。
然而本地化又谈何容易呢?除了上面提到的服务器部署这种直接相关的痛点外,大模型训练实际上是一个冰冷的系统性工程问题,从数据清洗到算力适配,从性能兼容适配到软硬件协同,这些实践中的一个个坑所带来的挑战丝毫不逊于算力本身,它们共同影响着大模型的性能与落地的速度。
“客户最关心的就是本地化部署应用。”一位接近浪潮信息客户侧服务的人士向品玩表示。根据公开数据的粗略统计,参与百模大战的企业中有高达 80%都是浪潮信息的客户,因而企业本地化部署的问题,几乎也成了浪潮信息的问题。
仅仅是单纯卖硬件算力已经不够了,人工智能行业的极速变化要求浪潮信息也随之变化。

OGAI:针对大模型的五层解法

在 2021 年,也就是GPT 爆发之前,浪潮信息就推出了名为“源”的大模型,这个有 2457 亿参数的中文大模型,从数据搜集到千卡集群算力支撑的模型训练和推理都是浪潮信息自己完成的,也就是说,早在大模型成为一个现象级词汇之前,浪潮信息已经有了切实的第一手关于大模型开发、训练和微调的经验。
这让浪潮信息收获颇丰,比如在数据侧,从公开数据爬取、清洗到格式转化和质量评估,浪潮信息最终拥有了一个高达 5TB 的原创中文数据集,而在最重要的计算效率方面,浪潮信息已经可以达至50%左右。
从某种意义上说,这种行业 know how 经验甚至是奢侈的,只有浪潮信息这种算力供应商才能负担得起——要知道“源”模型的参数量比 GPT3 还多了 700 亿。
这些经验最终成为了浪潮信息在 8 月 24 号发布的“元脑生智”:大模型智算软件栈 OGAI(Open GenAI Infra) 的一部分。如果用一句话解释OGAI 是什么的话,浪潮信息希望你把它理解为一个生长在浪潮信息服务器硬件上的,专门基于大模型开发的全栈全流程能软件套组。在硬件侧,它能够最大化实现对 GPU 算力的调用,软件方面则从炼大模型的一开始就帮助开发者提升效率。
OGAI一共分为五层,从 L0 到 L2主要针对的是大模型基础算力环境的效率提升。其中 L0 层是浪潮信息的智算中心OS,负责直接管理和分配算力资源,可以提供多租户的无损裸机算力环境。这有点像本地版本的云调度平台,宛如最底层的操作系统一样,面向大模型的算力需求实现对硬件的集中管理。
第二层 PODsys 是一个开源项目,它集成了系统环境部署的工具链。PODsys  有点像是长在初始化操作系统上的驱动程序,针对不同的环境和需求,实现从环境部署、系统监控和和资源调度的参数自动化配置。由于是开源项目,PODsys软件包大量集合了业界广泛使用的主流开源工具和框架,用户只需要执行非常简单的命令就能完成对整个算力集群的配置。
PODsys工具链是浪潮信息的首创,它实现的功能在过去是由人力来提供的,打个不太恰当的比方,它有点像是买组合台式电脑时工程师上门进行的驱动安装服务。随着整个数据中心行业向加速计算转型,对专家服务的需求也随之扩大,PODsys 这位“专家”的出现省去了用户在环境配置和优化上花费的成本。
L2 层是基础环境配置的最后一层,名为 AIStation ,它已经迭代到了4.0 版本,简单来说,它是浪潮信息研发的一款商业化软件,聚焦于对 AI 算力资源的精准调度。
大模型训练所花费的时间往往高达数十甚至上百天,因此对系统的算力、存储和网络的统一调度就显得十分重要。AIStation 支持单一集群数万个GPU 以及计算节点的介入和调度,有效把 L0 层已经池化的算力资源进行恰当分配以实现最大限度的调用效率,特别是它的断点自动续训能力,可以有效保证大模型训练的稳定性。
第四层名为 YLink。在基础环境构建完毕后,YLink精准对标大模型训练的 know how 问题。模型开发的两个环节,数据处理和模型训练在这一层都能找到对应的工具包,因此你可以把YLink当做浪潮信息专门为模型开发设计的能力支持层,标准化的数据处理工具、分布式训练框架和对应脚本以及微调用到的参数和指令调整都被集合在了一起,模型预训练的效率和微调的质量都将因此得到提升。
最后一层则是 MModel,它可以对各种版本和类型模型进行评估和管理,甚至还可以把它看做一个模型商店——开发者可以通过 MModel 分享自己的模型和数据集。
根据浪潮信息人工智能与高性能应用软件部 AI 架构师Owen Zhu的介绍,由五层架构组合起来的 OGAI 内部每一层的功能都是解耦的,不同的用户根据自身的场景可以按照需要独立选择每一层的功能。
潮信息人工智能与高性能应用软件部 AI 架构师Owen Zhu

当硬件厂商向上兼容

OGAI 可以被看作由硬件厂商基于硬件和自身经验所设计的一种端到端的大模型解决方案。
“OGAI 等于是把浪潮信息的模型能力平台化构建出的一种解决方案。”发布会现场的一位厂商如此向品玩表示。五层架构完整地覆盖了从最底层的算力调度到模型发布的全流程,理想情况下,开发者基于浪潮信息的硬件环境就能实现大模型开发的“开箱即用”。
在这五层架构中,PODsys 和 YLink 层都属于业界首创,尤其是 PODsys 层,在此之前没有人用一套完整工具链实现对算力基础环境配置的能力。或者你可以这样理解,只有类似浪潮信息这样的硬件提供商才有能力和动机提供这种一揽子套件,因为浪潮信息不仅足够了解硬件,同时也积累了足够丰富的商业化落地经验。
在分秒必争的大模型竞赛中,这种经验成为了浪潮信息十分独特的优势,它极大缩短了服务器集群设置所需要的时间,等于间接为模型开发提速。
我们可以看到,由硬件厂商和算力提供商,而不是软件服务集成商,主动推出大模型解决方案实际上已经成为了一种趋势。国内百度云和阿里云都各自上线了相关的模型服务和社区,国外的云厂商,从巨头如微软 Azure 到初创公司 CoreWeave 都在努力降低算力的使用门槛,用户使用浏览器就能方便地一键调用其算力用于大模型训练。
而依靠在 GPU 领域享有几乎垄断地位,进而在 AI 时代大赚特赚的英伟达实际上也在通过密集发布各种软件方案来促进大模型技术的广泛落地,比如和DGX 等英伟达服务器集成在一起的由几千个加速库和工具套件以及集群管理软件组成的英伟达 AI Enterprise ,以及 8 月刚刚由黄仁勋亲自发布的,整合了原本分散在各处的大模型开发工具与流程的英伟达 AI Workbench,这些方案的最终目的都是尽可能让开发者聚焦于高效训练模型本身。
但无论云厂商也好,英伟达也罢,它们的解决方案都有各自的弱点,云的方案在非常强调本地化的中国市场有各种水土不服的情况,尤其是在数据和隐私安全性方面。英伟达的解决方案尽管是同它的硬件能力结合的最好的,但一方面CUDA 生态本身是闭源的,而另一方面,不管是出于成本还是地缘政治现实的考虑,更多的用户实际上更需要的是跨多种硬件的,开源的解决方案。
由此,浪潮信息的 OGAI 站在了一个独特的位置上。一方面它满足了本地化部署的需求,另一方面这套解决方案并不是如行业最近热炒的“AI 一体机”一样与硬件进行了深度绑定,实际上这套方案本身都是解耦的,也就是说,尽管OGAI 是一套端到端的,囊括了产品和工具链的完整服务,但在具体使用的过程中,它完全可以依照开发者的需求进行非常自由的搭配,浪潮信息只是提供了一个解法,足够可靠,但并不唯一。
它是一个最懂大模型商业化落地场景的基础设施提供商,为这场百模大战贡献的独一无二的答案。
品玩招聘作者,资深作者及编辑,并长期开放实习生招聘。
世界不平静,我们希望在变动的技术周期和商业周期里继续我们的探索,不熄灭眼里的光。
为了和更多个优秀的你一起记录和改变这个激动人心的时代,做更多有价值的报道,品玩现开放招聘。
岗位信息:全职:4人。实习生长期招聘。工作地点:北京。
一句话总结我们在招聘的岗位的工作内容,就是:
报道最重要的商业和技术新闻,并抽丝剥茧地解释给读者它们为什么重要。
一些共同的岗位要求:
1. 尊重常识。
2.对好内容有感知,有选题发明能力。
3.掌握快速搜索梳理信息的方法,有较强的文献阅读能力,能独立拓展相关资源。
4 英文流利。有阅读英文内容的习惯,可以用英文完成沟通。
5.对真实世界有感知,心智成熟,有职业精神,沟通界面良好稳定。
在招岗位:
-新经济作者、新技术作者
新经济作者负责报道互联网商业领域最新动态;新技术作者负责报道新技术领域(AI,芯片,机器人等)最新动态;
追踪钱的流动,人的变化,商业世界的竞争与合作以及科技的变革,并把它们讲述给我们的读者;
不限工作经验,不限专业背景,我们欢迎不同背景的候选人。
-资深作者/编辑
对互联网商业领域或新技术领域有自己的研究和积累;
有自己获取信息的方法体系,有持续学习的能力;
能发明选题,撰写深度文章,同时也可以辅导初级作者。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
或者,以上的描述都不能定义你,但你认为你是我们需要的那个人,也可以发邮件给我们,介绍你自己。
以上岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
同时,我们也在招聘其他岗位:
运营部门
岗位信息:全职:3人。实习生长期招聘。工作地点:北京。
内容运营
能够敏锐的捕捉互联网热点,并将其转化为出色的内容;
富有创新意识和强烈的主观能动性,重视流量在工作中的重要性;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
视频运营
具备视频的全流程的创作能力;
对各个内容平台均有深刻理解,能抓住平台规则红利;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
社区运营
有过国内外成熟知名社区的运营经验;
能够独立承担运营策略、节奏设计,结合运营目标、节点资源等因素制定精细化的社区运营规划;
对UGC的热点、流行趋势、话语体系有充分理解,能够通过创意、热点玩法、活动策划激发UGC参与。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
运营岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
商务部门
销售总监/高级销售经理
岗位职责:
1. 负责品玩线上广告、线下活动类、品牌营销、市场公关、以及定制方案的商务拓展与销售工作,通过对目标行业客户的销售完成指定收入目标;
2. 对目标行业客户进行研究、识别、接洽、需求、分析、产品演示、方案规划、谈判与签约;
3. 管理与维护指定客户(包括新客户与现有客户),提供优秀的售前与售后服务,建立长期、稳定的合作关系,对客户产品和需求进行持续性的研究与开发;
4. 与各部门保持紧密合作,回馈客户需求与最新行业动向,协助优化产品与服务;
5. 积极参加行业商务与社交活动,拓展人脉资源,持续了解与提升行业知识和洞察力
任职要求:
1. 互联网销售经验2年以上,销售经验5年以上优先;
2. 做事严谨、细心,较强的沟通协调能力;
3. 有市场营销、品牌方或者市场公关乙方工作经历优先;
4. 自我驱动,有很强的学习行业知识及专业知识的能力;
5. 具备应变能力,团队协作能力,能适应多任务处理及工作压力;
6. 拥有intel、华为、华为云、阿里、阿里云、高通等互联网行业直客资源者优先。
更多招聘信息,可以进入官网招聘页面获取。
期待品玩有你的加入。

· 文章版权归品玩所有,未经授权不得转载。
· 发送关键词 转载合作招聘 到品玩微信公众号,获得相应信息。
· 您亦可在微博、知乎、今日头条、百家号上关注我们。
继续阅读
阅读原文