- 收藏
- 加入书签
浅谈算力网络的“确定性”需求与实现
摘要:随着云计算、大数据、人工智能、大模型等IT技术的不断深入发展,互联网时代已经来到了产业互联新数字经济发展时代,行业应用面临着海量数据传输、存储和计算的需求,数据与算力已经分别成为了数字经济发展的核心生产资料和核心生产力,而实现数据与算力的实时连接和智能调度离不开算力网络的支撑。区别于传统的消费型互联网,算力网络同时连接着行业生产所需要的云、边、端三级计算节点,同时承载着行业生产所面临的“算力路由”、“算力调度”、“算力交易”、“数据供给与反馈”等核心功能,在网络带宽、网络延时、网络抖动、弹性调度、无损传输方面有着较高的要求。
本文通过对算力网络典型的应用场景进行分析,着重强调算力网络有着明显的“确定性”需求特征,同时对照业界成熟的“确定性”网络技术和标准说明“确定性”网络实现方式。
关键词:算力网;确定
一、算力网概述
我们通常提到的算力网不仅仅指的是算力网络,而是指由算力、算力网络、算力调度中心三部分组成的一个融合体。算力即计算能力,是算力网中的末端神经,按类型分有通用算力、智算算力、超算算力等,可以分布在云、边、端不同的位置;算力网络是连接算力的神经脉络,担负着数据传输、算力路由等重要任务,除了需具备出色的网络性能指标外,还需支持按需定制网络服务与智能分配网络资源等功能;算力调度中心是算力网的大脑中枢,能实时感知到算力与网络资源的情况,同时可以对这些资源进行智能编排与调度,实现算力之间的有效协作。我们可以发现,算力网真正实现了从“云网协作”到“云网融合”的转型与升级。
其中算力网络是产业互联网时代重要的基础设施资源,是数字经济深入发展时代的重要新基建,它将分散的计算资源、存储资源、数据资源等连接在一起,通过统一智能调度中心实现资源按需定制、按需分配、智能协作,从而支撑产业互联场景下的应用发展。
二、算力网络“确定性”需求分析
区别于传统消费型互联网络,算力网络则是生产型互联网络,实时连接着产业生产过程中所涉及的数据、算力、调度控制等核心要素。作为算力感知、算力交易、算力协作以及数据传输等方面的载体和神经动脉,算力网络有着明显的大带宽、低时延、低抖动、零丢包、无损耗、高可靠等确定性方面要求,下面我们分别列举两个算力网应用场景加以分析。
(一)智慧交通
智慧交通是一个错综复杂的综合性系统,融合了物联网、大模型、边缘计算、车联网等先进技术,交织着大量传感器、视频、地理位置、人口流动等数据,承载着路网监测、应急指挥、综合执法、辅助决策、辅助驾驶等惠民利民业务。
一个城市智慧交通系统中,往往实时运行着两三百万个摄像头,每个摄像头按照常见的1080P高清规格计算,则每小时产生2.5GB左右的数据,那么整个智慧交通系统每小时将产生7PB左右的视频数据,这些视频数据需要实时在云、边、端之间进行交换与传输,对传输网络有着大带宽确定性的要求,只有确定性大带宽的保障,视频数据才能实时供给到智慧交通大模型算力中心进行训练、推理和研判,从而才能真正意义上支撑到应急指挥、辅助决策等智慧交通应用;另外在智慧交通车联网系统中,连接着大量的传感器,每辆车每秒钟会产生数百条数据,这些数据的数据量虽然不大,但是对网络传输有着低延时、低抖动等确定性特征要求,比如“自动驾驶”要求控制指令网络时延小于1ms,抖动小于100us。
(二)智能化制造
随着工业互联网技术的不断发展,越来越多的生产型企业正逐步往智能化制造方向转型升级,为企业的发展提质、增效。而我们发现工业互联的网络协同环境已经成为企业智能化制造转型发展的关键。
我们以智能制造过程中的PLC云化控制应用场景为例,当PLC云化控制系统的控制端发出顺序指令后,执行端收到指令后需要实时按照顺序执行,控制端与执行端之间的关键指令网络时延需要确保小于对应的帧间隙,若发生严重延时或抖动,则执行端无法接受顺序指令并执行相关的物理动作,从而导致生产流程中断,直接造成废品(离散工业)或生产事故(流程工业),由此可见,智能化制造对于所需的网络协同环境有着明显的低延时、低抖动等方面的确定性要求,比如,大型钢铁制造企业的大集控骨干路由器连接PLC主站与MES往往要求网络延时小于10ms、网络抖动小于20us。
三、“确定性”算力网络技术实现
我们一般习惯于参照OSI参考模型分层对照去学习和研究网络技术,不同的网络技术对应在OSI参考模型的不同分层,确定性网络技术亦为如此,我们可以发现,不同类型的确定性网络技术分别工作在OSI参考模型的不同分层,比如TSN协议工作在据链路层、SRV6协议工作在网络层等,这些不同的确定性网络技术组合在一起就形成了一张有序的确定性网络技术图谱。下面我们以工作在物理层与数据链路层之间的FlexE协议和网络层的DIP协议为例,分析了解确定性网络技术的实现。
(一)FlexE协议
FlexE即灵活以太网的意思,它通过以太网MAC速率和PHY速率的解耦,使得接口速率不再受IEEE802.3 标准所定义的 10-25-40-50-100-200-400GE 的阶梯型速率体系限制,可以按需灵活制定接口的速率。
如上图所示,FlexE是处于物理层与数据链路层之间的一个虚拟层,即为图中的FlexE Shim层,它将物理层的每个端口切分为不同的网络时隙,然后通过端口捆绑技术,将不同端口的时隙组合在一起,从而形成了一个可动态交叉分配的网络时隙资源池,通过对这些网络时隙进行动态按需重组的方式,进而可以为前端业务灵活按需定制不同确定性大带宽的FlexE业务端口。
上图中3个100GE物理端口,每个物理端口被划分为10个时隙,每个时隙带宽相当于10G,然后通过端口捆绑技术,形成了一个总带宽为300G的网络时隙资源池,前端业务端口分别通过将11时隙、8时隙、5时隙进行独立组合,形成了各自所需的110GE、80GE、50GE的业务端口。
通过以上FlexE技术实现分析,我们不难发现FlexE所具备的确定性网络技术特征:
①大带宽 通过端口捆绑和时隙交叉技术,将多个时隙带宽组合在一起,形成确定性大带宽业务端口;
②业务隔离 不同业务端口的网络时隙组是独立的,相互之间是隔离的;
③扩展灵活 根据业务增长需求,可以基于现有端口的时隙组增加新的时隙,形成更大的时隙组,从而实现业务端口带宽扩展;
④可按需定制 Shim所包含的网络时隙资源池相当于可动态分配的网络资源切片,根据不同业务的承载需求和对应的SLA要求,可以动态灵活地定制不同带宽的业务接口。
(二)DIP协议
DIP即Deterministic IP,确定性网络协议的意思,旨在为数据流提供确定性低时延及低抖动的IP层转发。DIP基于SRv6网络部署,通过边缘整形、门控调度和周期映射等技术配合实现网络时延、网络抖动等方面的确定性。
流量整形
如上图所示,所有设备设置相同的周期T,例如T=10us,因此接口在一个T周期发送的字节数为:带宽 * T周期,例如10G带宽一个T周期字节数为:10Gbps*10us=12.5KByte,单个报文包长和任意周期内发包包长均小于带宽Bi*T,突发小于N*Bi*T,从而满足流量模型约束。
每一条流,基于业务的SLA要求,通过边缘整形,把流量整形到固定DIP T周期,同时实现对流量的监管和整形,从而限定业务流量在规定的带宽以及控制流量的突发。
1)如果流的报文长度超过了一个周期分配的资源,则无法入周期,会被丢弃。
2)如果一个周期给该业务流分配了一个包,该业务流一次突发了多个数据包时,超过的数据包会整形到下一个T周期。
门度调控
门控队列引入能够基于时间来打开和关闭的机制,只有当Gate打开时Queue才能被调度。门控队列分为两种,DIP门控队列和普通报文门控队列。DIP门控队列基于时间控制开关,流量不区分优先级,没有Qos调度;普通的门控队列不进行时间控制,常开状态,可以有Qos调度。
DIP门控队列和普通门控队列间采用SP调度,DIP门控队列未使用的时间片,可以给普通门控队列复用,提升带宽利用率。
周期映射
DIP通过周期性调度机制,防止报文跨周期碰撞,实现节点处理时延确定性。
如上图所示,接口划分等长的周期,报文在每跳都被放入确定的周期,避免了跨周期的突发累积;报文在首跳进入一个周期后,邻居节点间通过集中式或者分布式自动学习,建立周期固定映射关系,后续各跳的周期就确定了,因此端到端时延和抖动也就确定了(报文在首尾节点各有1T抖动)。DIP每端口仅需维护几个聚合周期队列,无逐流状态,可扩展性好,周期中未使用的时间可以复用给BE流量,支持统计复用、高链路利用率。
结束语
随着人工智能、大模型等热门技术与应用的深入发展,算力网络已经成为数字经济高速发展时代下不可缺少的重要基础设施,算力网络的完善与发展将直接影响着行业数字化转型与升级成效,影响着国家算力提升、设施布局、供需优化、绿色节能等重大战略的实施,而确定性网络技术则是算力网络发展的重要基础,已成为支撑“网络强国”、“碳达峰”、“数字经济”等国家战略的关键。在通信领域,国家首个大科学装置CENI就是确定性网络技术的一个成功实践,而基于CENI赋能国家东数西算工程则是算力网络赋能产业互联应用的一个重大实践。相信,在日趋完善的确定性网络技术的支撑下,算力网络也将随之日趋成熟和强大,为产业生产实现数字化转型与升级、为我们国家数字化经济深入发展作出重要的贡献!
参考文献
[1]网络通信与安全紫 金山实验室 :《未来网络白皮书:确定性网络技术体系》,未来网络发展大会,2021版.
[2]刘韵洁:《基于IPv6的下一代互联网络》,电子工业出版社,2004年版.








京公网安备 11011302003690号