确定性算力网络以确定性网络为根基,以算力为中心,以产业发展为牵引,为工业企业提供低成本、高性能、高安全的算网一体化服务的新型基础设施。
下载链接:
云计算中的网络基础知识
智能化宽带网络网关(iBNG)技术白皮书
1、数据中心超融合以太技术白皮书
2、数据中心可持续发展能力要求 
3、数据中心绿色设计白皮书(2023) 
4、新型数据中心高安全技术体系白皮书
《2023数据库技术及应用合集(成都)》1、行远自迩,PostgreSQL修炼之道 2、我们追赶的数据库:Oracle 3、多点生活冯光普:构建可靠MySQL服务:RPO=0实现方案分析 4、MogDB openGauss性能管理之道 5、浅析基于Golang的MySQL Proxy中间件实现原理 6、新一代PG数据库开源监控系统建设之路
全调度以太网技术架构白皮书(2023)
一、确定性算力网络介绍
确定性算力网络发展的基础是确定性网络技术落地、分布式云技术和闲散的算力资源等。利用闲散算力资源,面向工业生产企业,率先搭建以确定性网络为根基的确定性算力网络。在网络控制面实现协同与调度网络资源、计算资源、存储资源、算法资源与应用资源,在算力路由层和编排管理层突破关键技术,从根本上解决当前算网无法实现算和网统一调度的难题。
二、突破关键技术
2.1异构算力融合技术
算力的需求促进了算力架构的多样性和算力性能的不断提升,当前算力网络架构中的算力可以由不同的硬件架构组成,一般包括 CPU、GPU、FPGA 和 AISC 等类型,在不同的应用场景中,异构算力发挥不同的计算效力。
围绕以“云、边、端”为主体架构的三级算力调度需要满足不同场景下的算力需求:云端主要面向以高性能计算为主的传统集约化的性能计算,主要处理大流量、高并发的数据处理场景;
边缘侧的数据中心主要考虑用户的快速接入和内容推送,为用户提供快速处理和及时响应;而端侧的算力应用主要面向物联网、工业互联网为主要场景的嵌入式设备能够长期稳定运行,要求有低功耗和多连接等算力要求的场景。
现有的 FPGA、GPU、CPU 等计算模块通常采用了各种不同的架构,具备的能力也各不相同,通过对不同计算设备中异构的计算资源进行建模,可以对服务屏蔽底层物理资源的异构性,建模过程需要考虑现有的 CPU、GPU、FPGA、ASIC 等多维异构资源。
为了构建可运营、可开放的算力网络资源调度和编排环境,构建面向上层的算力网络编排调度平台,按照业务功能划分为:资源层、路由层、调度层、编排层、应用层和监控层共六个层次。
不同作业负载存在多样化的算力需求,如 AI 推理作业对于张量计算需求高,亲和 TPU、NPU 等计算资源、图像处理作业对于矢量计算需求高,亲和 GPU 等计算资源。通过算力亲和调度,实现多样化算力需求任务的最优资源匹配分发,可实现算力资源的最大化利用。
移动算力从算力发布和算力获取两个方面研究雾计算网络调度系统,研究雾算力发布的调度机制和算法以保证算力热度、命中率、成本最优,研究雾算力获取的调度机制和算法以保证就近服务、按需服务、智能回源。
在网计算的优势主要体现在高吞吐量、低延迟、低能耗。由于网内计算指的是网络内的处理,这意味着事务在其路径中就终止,无需到达终端主机,从而节省了终端主机引入的延迟,以及网内计算节点到终端主机之间的网络设备。如今硬件和软件创新的结合,给网内计算注入了新的生机。
在硬件方面,许多硬件供应商已经发布了可在不牺牲性能的情况下提供可编程性的产品,例如可编程芯片(Barefoot Tofino)、现代智能网卡SmartNIC(Cavium XP,Netronome Agilio)。在软件方面,除了网内遥测和第4层负载平衡等新的网络功能外,还提出了许多超越传统分组处理的新的应用级功能。
算网管理平台分为算网服务系统、算网运营系统、算力管理系统和算力适配系统。其中,算网服务系统实现算网平台用户自服务门户、运维运营门户以及大屏分析展示能力。算网运营系统实现服务合规审计、算力资源计量计费、运营分析和系统管理能力。算力管理系统实现算力资源发现注册、监控、管理、调度、编排以及额度管理能力。算力适配系统屏蔽底层不同算力资源平台的异构性,通过适配器实现对具体算力资源平台的适配和对接,完成对算力资源的调度和分配。
2.2 弹性可扩展的分布式架构和容器技术
通过分布式集群云基础资源管理与调度技术,提升云基础设施资源使用效率,提供多样化计算能力,加速云基础设施资源的交付,简化云运维配置与维护工作,实现自动化、智能化、高可用的云基础设施资源供给。
通过改进传统系统设计架构,改良传统中间件,采用新兴分布式大数据中间件等方案,让应用系统具备了支撑弹性扩展、高并发、海量数据、高可靠业务的能力,并大大缩短业务的上线和更新周期。
为了能够快速有效的、低成本的跨区跨域、甚至在异构云平台上运行集群,并按照地理位置创建一个复制机制,将多个容器云集群进行连接,当遇到某个区域连接中断或某个数据中心故障时可保持关键服务运行。
近几年来,由于GPU在浮点计算和并行计算上,拥有极其出色的性能,甚至超越了CPU的数十倍,使其被广泛使用在数据挖掘,深度学习等需要大量重复计算的工程之中。
在虚拟化环境中,可通过直通模式(pci passthrough)把物理GPU直接挂载给计算节点上的一个虚拟机使用,这种模式存在资源浪费且受限于计算节点的PCIe插槽,无法支持很多虚拟机使用。GPU虚拟化计算技术是通过GPU虚拟化,把一个物理GPU虚拟为多个vGPU,然后再把vGPU挂载给虚拟机。
Serverless是指不用创建和管理服务器、不用担心服务器的运行状态(服务器是否在工作等),只需动态申请应用需要的资源,把服务器留给专门的维护人员管理和维护,进而专注于应用开发,提升应用开发效率、节约企业IT成本。
对于单一超算任务进行切片,批量调度大数量节点并行计算,在云原生环境下,通过容器化技术实现计算任务切片,这些进程作为互不相关的多个程序独立执行,每个节点作为单独进程具有自己独立的堆栈和代码段,并通过消息传递实现并行协同。
2.3 确定性网络技术
确定性网络技术通过网络切片、边缘计算等技术实现确定性带宽,通过时钟/频率同步、资源预留、整形调度、帧抢占等技术实现确定性时延与抖动,通过包复制与消除、冗余备份等技术实现确定性可靠性。确定性网络技术不是单一技术,而是一系列协议与机制的合集。
从确定性网络技术应用场景来看,确定性网络技术体系主要包括灵活以太网(Flexible Ethernet,FlexE)技术、时间敏感网(Time-sensitive Networking,TSN)、确定性网(Deterministic Networking,DetNet)、5G确定性网络(5G Deterministic Networking,5GDN)、确定性WiFi(Deterministic WiFi,DetWiFi)。
时延确定性技术是确定性网络技术的重要内容。传统网络中由于时延长尾效应的存在而无法实现确定性时延与抖动。以单跳场景为例,单跳时延由链路传播时延、端口传输时延、节点内处理时延与节点内排队时延构成。
其中,链路传播时延主要与相邻网络设备节点之间的链路距离以及传输介质有关,端口传输时延主要与端口速率以及数据包/帧的大小有关,节点内处理时延是指节点完成包/帧头分析、数据提取、差错检验、路由选择等所需的时间,节点内排队时延是包/帧在节点内排队等待传输消耗的时间。
在一个稳定的网络拓扑中,前三项时延基本不变,而节点内排队时延则会随着网络负载的变化而改变,导致了单跳时延的不确定性。即使网络轻载,由于微突发的存在,单跳时延的不确定性仍然存在。因此,实现确定性时延需要控制节点内时延以消除长尾效应。目前,实现确定性时延的主流技术主要有CQF、DIP、CSQF。
下载链接:
1、【中国移动】广域微域融合技术白皮书2023 2、【中国移动】智能化宽带网络网关(iBNG)技术白皮书 
3、【中国移动】网络协作通感一体化技术白皮书 
4、【中国移动】算力并网白皮书2023
《ODCC-2023技术白皮书(存储)》
1、面向当下与未来的高端企业级SSD.pdf 
2、2021年中国企业级SSD行业发展洞察.pdf 
3、图解数据中心PCIe总线和NVMe SSD测试.pdf 
4、SSD与HDD混合RAID解决方案.pdf
1、中国企业有机会在3D NAND Flash领域实现弯道超.pdf
2、企业级SSD:三大替代构筑行业高增长,国产替代空间广阔.pdf
3、企业级SSD接口比较.pdf 
4、消费级闪存指南.pdf 
5、中国存储器芯片行业概览.pdf 
6、中国企业级SSD行业发展洞察.pdf
1、Oracle 1.6TB NVMe SSD用户指南
2、M2 SSD技术白皮书
3、SSD主控和全闪阵列介绍
4、SSD技术综述
1、通信存储介质(SSD)加密安全技术要求
2、固态磁盘(SSD)的前世今生
3、基于HDD和SSD混合存储系统研究综述
4、SSD固态存储磁盘常见问题解答
本号资料全部上传至知识星球,加入全栈云技术知识星球下载全部资料。
‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。
温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取100000+份技术资料。

继续阅读
阅读原文