写在前面: 咪咕在这次世界杯中打造的“内容+科技”的融合创新,背后离不开中国移动“5G+算力网络”的重要支撑。其保证了多元场景的连接,海量数据的传送,为广大球迷开启了“元宇宙世界杯”,不仅有4K/8K超高清电视转播,还有AI复刻赛场、在孪生赛场上还原精彩进球的数实融合黑科技体验。这一期我们就了解一下算力网络的核心技术和应用。
全文约7000字,预计阅读18分钟

    背 景 篇    
国际背景
新一轮变革正在重塑全球经济结构,算力正在成为数字经济的核心生产力,美国和中国的实力较量中,围绕算力的生产、连接、储存、交易等必将成为主战场。美国对我国高精尖技术封锁,重点在先进芯片及芯片制造设备领域。我国确实面临着来自芯片与计算领域的巨大发展压力,一方面自主攻关实现国产化,另一方面就是对先进算力的集中化使用和集约化发展。固然“东数西算”直接指向于东西部地区的算力成本、能耗成本差异,但同时也隐含着将先进算力进行集中化建设,以节约各个企业、行业的算力投资的目标,继而降低社会对先进半导体及相关设备的依赖程度,提升整个国家的计算产业安全能力。
国内背景
近年来,全社会数据总量呈爆发式增长,算力设施的建设也将持续高速增长,而东西部算力资源差距不断拉大,全国数字经济的高速不均衡发展,因此推动“东数西算”是我国数字经济高质量发展的必然要求。国家发展改革委等四部委联合印发通知,启动建设八大国家算力枢纽节点,并规划了十个国家数据中心集群,“东数西算”工程正式全面启动。
消费互联网新业态和新模式的竞相发展催生泛在计算及算力协同需求。数字医疗、数字办公、数字娱乐、智能出行等用户规模也呈普遍增长态势,推动海量数据计算需求持续增长;智能手机、VR/AR 头显、智能网联汽车、物联网终端、智慧家庭网关、工业园区网关等智能终端的多元化分布式发展,驱动海量数据处理从集中式计算向分布式云计算发展,并逐步从云端向边侧和端侧扩散,催生数据泛在处理及云边端算力的协同调度需求。冬奥会、世界杯大型赛事直播及其衍生元宇宙、数智人产品对算力资源、网络资源的多维度需求,都推动算力资源和网络资源的融合共生。
     技 术 篇    
2021 年 11 月,中国移动发布《算力网络白皮书围绕算网基础设施层、编排管理层和运营服务层构建算力网络技术图谱,如图 1 所示。 
图1 算力网络技术体系
算力网络资源层
基于可编程承载网络,实现网络连接打通云、边、端的算力资源,存储资源。面向中心云,基于硬件虚拟化技术、OpenStack实现资源纳管;面向边缘和端侧,基于Kubernetes实现资源调度;面向网络侧,基于网络虚拟化的SDN、DCl、NFV等实现数据中心的互联。
无服务器计算无服务器计算是指用户在编写和运行应用程序时无需关注底层资源的一种计算范式,是一种用户无需在基础设施上托管应用程序的新型算力使用方式。无服务器计算融合了微服务、FaaS、BaaSs事件驱动编程等最新技术进展,是云原生技术的补充及延伸。
异构计算/多样性算力:异构计算是采用CPU、GPU、FPGAs DPU等各种不同类型指令集、不同体系架构的计算单元而组成的混合系统,用以满足通用计算和专有计算的不同需求。“CPU + GPU”、“CPU + FPGA”、 “CPU+DPU”等都是当前广泛使用的异构计算方式。异构计算在并行计算效率和低延迟计算性能上具有更大优势,集合业务需求部署异构计算方案,可满足计算、I/O、网络密集型应用的性能需求。
存算一体:存算一体是将计算和存储集成到一个芯片上的新架构,用以消除数据存取延迟和功耗。存算一体技术致力于挣脱“存储墙”瓶颈束缚,提升数据存算效率。从数据就近处理,到直接利用存储器进行数据处理实现真正意义上的存算一体,有望构建新的计算机体系架构,为算力网络一体化基础设施提供新鲜血液。
边缘计算:边缘计算本身是跨技术领域的系统工程,其包括:可规模复制的标准化轻量边缘计算基础设施、下沉的网络分流节点、边缘能力开放平台及支撑边缘业务运营运维的管理系统。目前边缘计算已经成为产业融合和竞争的热点,正在从概念普及到实施部署演进,需要进一步构建融通融智、开源开放的生态圈,融入算力网络,实现边缘计算+行业的价值最大化。
SRv6/G-SRv6:SRv6/G-SRv6是利用IPv6及源路由技术实现网络可编程的新型协议体系,全面定义了包含数据面、控制面、OAM、故障保护等在内的多类协议,具有良好的扩展性 和可编程性。G-SRv6在原生SRv6基础上提升了封装效率,并具备统一协议承载、拓扑无关的ms级保护、业务级可视、三级可编程 、 平滑演进等多方位技术优势 。G-SRv6能够为算力资源提供覆盖省网、骨干和数据中心的端到端按需调度能力,并通过灵活的业务链使能丰富的增值业务,是实现算网融合的核心技术。
确定性网络:确定性网络通过资源预留 、 流量整形、网络切片、路径规划等技术的结合,实现可预期、可规划的流量调度,将时延、抖动和丢包率控制在确定的范围内,满足高带宽、低时延、高可靠的新型业务需求。一方面,可以通过网络切片、资源隔离等技术,提升网络整体性能,保障云游戏等非严格的确定性业务需求;另一方面,可以通过精细的时间同步、队列调度等机制,实现微秒级的时延和抖动,满足工业控制等严格的确定性业务指标。同时,还需要兼顾无线资源预留,跨网络域的控制面协同和转发面互通,保障端到端的网络确定性。
应用感知:应用感知利用IPv6的可编程空间,在用户侧将应用信息和需求内嵌在业务报文中,在网络侧进行标记识别和应用质量保障,使算力网络有效且低成本地感知应用差异化需求,提供应用级网络服务。同时,应用感知还可以结合业务链技术实现灵活丰富的算力增值服务能力。
算力网络控制,算力网络控制面技术
算力网络体系之下,算力路由表的创建需要动态感知分布式的算力、存储等资源信息,对这些信息的感知和与此对应的算力路由表的创建,是算力网络控制面的关键技术。端、边、云的算力、存储和网络资源及节点信息由编排器收集和分发,按照应用需求,结合全网算力和网络资源状态,编排最优的转发和路由路径,并下发至算力网络路由和转发节点。
算力网络转发面及路由策略技术:从路由机制上讲,算力网络是在当前网络路由机制基础上增加了算力、存储等 IT 资源约束。因此,算力网络的路由策略必须基于网络和算力(含存储)双重约束进行编排,并据此进行数 据面的封装、解封装以及流量转发。在算网应用转发场景中,算力、存储等资源往往以可即时 服务的算力功能或算法为锚点,即算力应用的实际转发节点是基础算力功能或业务。
图2 基于扩展SRv6&SFC的算力网络转发面方案示意图
算力网络服务层,运营服务关键技术
算力网络通过构建包含算力交易、算力并网、算力封装、算力度量等关键技术的运营服务技术体系,实现产业生态的培育,算网服务的创新,社会算力的整合,打造全新的算网一体运营服务体系和商业模式,重塑信息服务产业价值链分配体系。
算力交易:通过搭建算力服务运营交易平台,构建供给方和消费方公平公正透明的可信算力交易环境,盘活闲置算力资源,实现算力共享解决方案。
算力并网:通过引入区块链等去中心化技术,对闲散算力资源、多方算力资源和算力服务进行统一的注册和管理,实现分布式算力统一运营。
算力封装:通过对算力网络包含的硬件资源、平台资源、软件资源、功能资源等原子化基础能力的统一封装,构建多要素的一致化API调用能力。
算力度量:对算力需求和算力资源进行统一的抽象描述,并结合网络性能指标形成算网能力模板,为算力封装、算力并网和算力计费等提供标准统一的度量规则 。
编排管理关键技术
面对高复杂度的算网环境,以及按需定制、灵活高效的场景需求特性,在编排管理层需构建融数注智的 “算网大脑”。基于算力解构、泛在调度、在离线混部等技术,智能协同调度算网各域资源。
算力解构:算力解构是将多类型、多型号、复杂的算力需求,根据业务逻辑、资源需求、性能需求、服务持续性、业务流粘性、资源供给节点算力类型、算力成本、地理位置等因素,分解成原子化、简化的算力需求,使微服务化的业务可以分布式地部署在云边端多级算力节点上,综合提升资源的利用率。
泛在调度:泛在调度在算力网络充分吸纳全社会云边端多级泛在的算力资源的基础上,综合考虑网络的实时状态、用户的移动位置、数据流动等要素,实现了对算力资源的统一管理、跨层调配和应用的敏捷部署、动态调整。用户可在不关心算力形态和位置的情况下,实现对算力资源的随取随用。
在离线混部:把集群混合起来,将在线、离线等不同类型的任务调度到相同的物理资源上,通过调度,资源隔离等控制手段, 在时间维度上复用算力资源,在保障 SLO 的基础上,提高资源利用率,极大降低成本,我们称这样的技术为在离线混部。在线离线混部对于提高集群利用率是非常有意义的,无论是在学术界,还是各大厂商实际落地,都对混部做了深入的研究。
调度算法:为了达成业务场景需求目标,根据算网资源物理属性、经济属性、逻辑属性,进行最小化资源调度的策略,构成算网大脑的思想。随着机器学习的深入发展,调度算法也从轮转、加权、遗传算法、蚁群算法逐步演进到基于神经网络的AI算法,为算网大脑发展带来无限可能。
   应 用 篇   
在国家体制推动下,运营商摆脱被管道化的努力下,云计算厂商更多融合网络的意愿驱动下,算力网络取得较大发展,以下是算力网络的主要应用。
AI行业垂类场景——鹏城云脑:“鹏城云脑”网络智能重大科技基础设施是面向国家重大战略、满足基础研究需要、推动数字经济发展的AI领域关键大科学装置。
“鹏城云脑”基于自主可控的国产AI芯片,采用高效能计算体系结构。“鹏城云脑”目前应用广泛,已与深圳政数局、交警局、气象局、卫健委、巴士集团等开展深入合作,最大程度发挥云脑赋能作用。通过“鹏城云脑”,鹏程实验室与企业联合研发了全开源开放的两千亿参数中文NLP大模型鹏程·盘古,赋能生物医药探索的大模型鹏程·神农,以及视觉与跨模态的预训练大模型鹏程·大圣。
AI行业垂类场景——智算网络:中国算力网--智算网络的上线标志着中国算力网计划的全面启动,是中国算力网络建设迈出的关键一步。
图3 智算网络(来源于OpenI启智社区)
智算网络实现全网算力统筹、统一任务编排与资源调度、数据与生态协同共享。通过智算网络的建设,以东数西存、东数西算、东数西训为牵引,接入人工智能算力网络推进联盟10家智算中心,将逐步形成绿色集约的算力布局;未来还将汇聚多种社会算力,形成更加泛在的算力协同,并通过全网的算力交易流通,弹性满足全网范围内的算力需求,从科研创新、应用孵化、产业汇聚、人才发展等方面助力人工智能产业高质量发展。
密集计算领域——中科曙光的全国一体化算力服务平台中科曙光推出了全国首个一体化算力服务平台,让全国各地算力中心的资源上云,以此形成统一资源池,利用跨域传输技术,对多元算力资源的融合调度及弹性供给。
Linux基金泛在算力调度BP:中国移动研究院、中国移动咪咕、华为、北邮等合作伙伴主导发起的“算力网络泛在算力调度”项目通过Linux Edge基金会旗下的Akraino开源社区评审流程,成功立项。此项目是中国移动在算力网络关键技术研究和产业推进方面的又一里程碑,为算力网络开源生态的构建奠定基础。中国移动咪咕公司特色业务,基于算力解构、泛算调度技术,推进业网融合,打造开源领域的算力网络标杆应用。同时在5G技术、XR技术等业务场景也进行了深入的技术合作。
“算力网络泛在算力调度”项目重点关注泛在算力调度的技术方案研究与端到端业务场景验证,旨在开源社区探讨多云、边、端等泛在算力的统一管理与调度平台的技术方案。泛在算力调度技术是在算力网络充分吸纳全社会云边端多级泛在的算力资源的基础上,综合考虑网络的实时状态、用户的移动位置、数据流动等要素,实现对算力资源的统一管理、跨层调配和应用的敏捷部署、动态调整,降低企业管理多云的成本和运维复杂度。
图4 算力网络泛在算力调度示意图
云渲染垂类——咪咕统一调度:咪咕公司持续深化自主创新能力,贴身服务在线互动内容生产业务和离线云渲染业务,通过算网大脑分析业务需求及算网资源负载状态,分时错峰进行渲染,实时监测、根据SLA动态调度资源,实现小时级业务设计、分钟级算网弹性调度;同时实时检测网络连接状况,智能开启Qos保障能力,实现用户无感的网络加速。
云计算垂类行业——在离线混部:在离线混部技术帮助google大幅提升资源利用率。阿里用在离线混部技术,灵活解决了电商节日临时需要大量资源,快速腾挪的问题。字节跳动主动定制扩缩容规则;整合碎片资源;整机租借给离线业务使用。腾讯依托k8s,在k8s节点以容器的方式部署离线任务,实现在线服务节点出借资源给离线服务。
算力原生产业实践: 当前,算力原生已成为产业界重点关注和大力攻关的热点技术领域中国移动联合产业合作伙伴,构建了“芯合” 算力原生原型平台,提供算力资源池化及细粒度配合、原生编译及跨架构部署迁移两个方面的能力。算力资源池化及细粒度配给算力原生原型系统具备将云、边算力资源分厂商、分类型池化的能力,当前已实现英伟达GPU、寒武纪MLU的池化和细粒度调度,依据业务资源负载情况进行算力弹性扩缩容,有效提升算力资源利用率。基于算力池化技术,算力原生原型系统能够对底层算力资源进行抽象,当前已实现基于深度学习的图像识别、视频流分析等智算应用在英伟达 GPU 和寒武纪 MLU 上跨架构迁移部署,使能上层应用并对底层算力资源无感使用。
算力原生开源建设:中国移动于2022年7月在开放基础设施基金会(OIF,OpenInfra Foundation)主导发起和成立了全球首个算力网络开源社区(CFN, Computing Force Network Working Group)。算力原生作为算力网络开源工作的重要攻关领域,成为了工作组首批成立的子工作组之一,并得到了包括中国移动众多产业界合作伙伴的积极响应和参与。算力原生子工作组将会在统一算力抽象模型、算力原生编译平台、标准原生系统接口和算力原生运行时四个部分进行重点突破,不久将输出全球首个跨架构算力原生开源平台代码实现,推动算力原生技术的成熟落地。
5G Qos加速:中国移动咪咕公司在2022世界杯期间,在咪咕视频APP上线QoS加速功能,如图5所示。对目标用户提供带宽、时延、抖动、误码率等网络质量差异化保障,对指定终端用户访问视频流CDN节点时进行保障加速,为用户带来更流畅的直播观看体验,打造Qos规模商业化的样板间。
图5 5G极速无解说视角
世界杯观赛新体验的基座:云原生社交互动观赛平台,融合音乐、体育、文旅、游戏与科技的未来空间站,用户以专属的虚拟分身形象,通过中国移动和咪咕的线上线下入口登陆星际广场,即可开启元宇宙星际之旅。世界杯云游戏,基于赛场复刻和游戏还原技术,球迷们不仅能实现万人同屏观看世界杯赛事、感受足球文化,还能“穿梭”于天空竞技场、激斗足球场、观赛迪厅、世界杯云上商城、世界杯足球展厅等广场,体验更沉浸、更自由、更多元的世界杯元宇宙。枝繁叶茂的上层业务,都离不开通用算力、异构算力资源以及根据业务特征进行的智能调度能力支撑。
图6 星际广场和世界杯云游戏
    展 望 篇    
全球经济面临的衰退,中美之间的国力角力,都在推动生产力、生产资料、生产关系等要素重构。代表新型生产力的算力网络,与中国数字经济的发展基础、发展规模密切相关,各级政府对基础机房、基础硬件、算网虚拟技术、算网原生、算网编排调度、算网交易等技术领域进行大规模投入。针对AI大模型、自动驾驶、知识计算这些领域对算力的迫切需求,算力网络也从理论走向了实践落地,取得了阶段性成果。
但是各大厂商的算力资源还都是一个个孤岛,如何将孤岛连成联邦,从而实现算力流动、自由交易?网络可编程服务(SIDaas)和可信算力撮合与交易是未来重要的发展方向。
网络可编程服务SIDaaS)实现网络可编程网络需求代码编译成指令列表,由链路上的网络节点去执行,在任意网络节点可重新编排任意数据包的网络路由大提高网络的灵活性,为算力智能调度和网络SLA保障提供技术支撑第一,网络可编程增加了对网络的编排控制,可以快速调用网络能力,灵活地建立满足不同需求的路提供不同等级的网络服务第二,网络可编程有效提升了算力资源利用率,基于对业务、算力和网络的协同智能感知,在网络层将业务按需调度到合适的资源节点,更好平衡运营成本
可信算力撮合与交易:算力资源市场形成需求和供给的供需关系,供给方提供多层级、多架构、多量纲算力“云、边、端”需求使用供需之间算力需要相应算力交易服务提供桥梁作用,实现算力的可信调度与传输。算力调度过程可以分为三个层分别是算力编排网络编排可信交易算力的编排调度,根据算力的交易结果选择符合要求的算力资源并制定调度策略网络编排进行网络连接的调度,根据协同面的交易结果建立所要求的网络连接,以此形成对数据面数据的编排。通过在交易过程加入区块链技术,实现将不同的算力节点引入到同一个区块链网络上,并进行数据的存储上链,实现数据不可篡改和分布式存储。通过在控制面引入区块链实现将不同网络的SDN节点引入到同一个区块链络上,实现对不同网络连接的统一调度
数智人2022世界杯中国移动咪咕公司推出大量技术数智人的世界杯元宇宙活动。制作超写实数字人需要的高精度模型、实时动态扫描、人脸拟合等技术,实现人脸、身形、毛发的动态呈现,制作写实数智人近实时建模及大量低精度数智人实时批量生产,都需要匹配算力网络的一体服务能力,要用到数智人所需不同规格算力的算力度量、异构算力和算力原生等算力网络的技术支持,以及基于泛在算力调度技术、智能调度策略核心的算网大脑的深入发展。
元宇宙让数字世界无限接近现实世界,需要高逼真、沉浸感的3D场景构建和渲染。除了虚拟立体影像,元宇宙的应用还会涉及到动力、热力、流体等多类物理仿真,这需要用到高精度的数值计算,来支撑物理仿真和科学可视化。可以说,元宇宙构建的各个环节都需要用到不同类型的算力支撑。算力网络和具体业务场景会逐渐深度融合,如视频体验升级、实时渲染等,助力视频、云游戏,XR等各类应用面向元宇宙场景的体验升级。
作者:马保宏、徐嵩、毕蕾
【参考文献】
[1].https://wiki.akraino.org/display/AK/CFN+%28Computing+Force+Network%29+Ubiquitous+Computing+Force+Scheduling
[2].《面向智算的云原生算力白皮书》.中国移动研究院.2022
[3].《新一代智算中心网络技术白皮书》.中国移动.2022

卡塔尔世界杯科技系列往期回顾:

HDR Vivid 色彩光影的极致表现

智能字幕与数智人手语
智能搜索助精彩赛事精准直达
继续阅读
阅读原文