一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习的TSN流调度方法与流程

2022-03-16 13:08:40 来源:中国专利 TAG:

一种基于深度强化学习的tsn流调度方法
技术领域
1.本发明涉及tsn网络调度的研究技术领域,尤其涉及一种基于深度强化学习的tsn流调度方法。


背景技术:

2.在工业控制网络、车载网络、5g网络等实时应用对网络的传输要求更加严苛,对时延要求更加敏感。这些实时应用通常要求网络进行确定性传输数据,有有界低时延,零抖动等要求。因此,ieee 802.1标准引入了基于以太网的时间敏感网络(tsn,time sensitive-networks)来处理通用以太网的时延不确定性,tsn能够提供确定性时延、带宽保证等能力,同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。
3.时间感知整形(tas,time-aware shaper)机制是对交换机出端口的流量调度进行整形的机制,采用门控列表(gate control list)的方式保证时间敏感流在传输中的确定性时延保证。门控列表部署在输出端口的每个优先级后面控制相应队列里的流是否可以进行传输,当队列的门是打开状态,相应队列的流可以进行传输,当队列的门是关闭状态,则不能传输相应队列的流。在输出端口同一队列里的流,采用fifo先入先出模式进行传输,在队列前面的流先于其后的流传输。gcl是由流量调度算法进行计算的,在预定义的超周期内进行重复。流量调度是保证时间敏感流确定性传输的一个主要因素也是当前的研究热点。
4.a3c算法可以在单个机器的多核cpu同时运行多个agents,每个cpu核运行一个agent,同时包含一个环境的副本。换句话来讲,a3c将actor-critic放在了多个线程中进行同步训练,训练的时候,同时为多个线程分配任务,完成任务的线程将自己学习到的参数更新到全局网络上,下一次学习的时候同步全局参数到各个线程,然后继续学习。一个a3c agent包含两个部分:一个策略函数,即actor,一个行为价值函数,即critic。actor定义参数化策略并根据观察到的状态生成行动与环境交互,而critic网络通过处理从环境中获得的奖励来评估当前的策略。
5.现有主流的时间敏感网络流调度方法:
6.将无等待包调度问题(nw-psp,no-wait packet scheduling problem)引入tsn流调度中,并映射为无等待车间调度问题(no-wait job-shop scheduling problem),使用整数线性规划或启发式算法解决nw-psp问题,假设所有流有相同的周期来避免帧抖动,因此这个问题被局限于每流一帧。由于时间敏感流的调度是np难问题,因此对于大规模场景不能找到精确的解,为了提高可扩展性,使用启发式算法解决这个问题。
7.nw-psp分为时间表问题和排序问题。时间表问题处理属于一个整体有序流集合的所有流的开始时间的计算。另一方面,排序问题处理的是对要调度的一组流进行完全排序,以使给定的时间调度算法产生的调度具有最小的流完成时间,其中流完成时间是指从第一个流在源端开始传输到最后一个流在其接收端处理完成的时间。
8.目前的无等待tsn调度方案在很大程度上依赖于人工过程,需要精心设计启发式
算法,具有较差的可扩展性和鲁棒性。


技术实现要素:

9.本发明提出一种基于深度强化学习的tsn流调度方法用以解决上述背景中提到的问题,同时减少保护带的数量,并且将时间敏感流的传输都压缩在调度表的开始,因此有更多的带宽资源可以用于尽力而为流的传输。
10.一种基于深度强化学习的tsn流调度方法,包括消除在tsn交换机处的排队时延来用以完成时延敏感流的无等待传输,其中以对单播时间敏感流进行无等待调度的情况进行处理:
11.s表示时间敏感流的集合,si∈s流的特征用元组si=(sri,dti,dli,sii,ti,pi)表示,分别表示流的源地址,目的地址,端到端最大时延,数据大小,周期和路径。
12.进一步地,所述时间敏感流的调度能够被描述为一个三元组《a
t
,s
t
,r》,s
t
是状态空间,a
t
是动作空间,r为立即回报,之后智能体根据当前状态s
t
和当前策略πi(a
t
|s
t
)执行一个动作a
t
,然后底层网络环境产生一个立即回报r,状态s
t
转移到下一个状态s
t 1
;智能体的目标是学习到一个使其期望折扣回报为ji(πi)=∑r(s,a1,a2,...,an)最大化的策略,其中,在此场景中包括对状态空间、动作空间以及回报函数。
13.进一步地,所述状态空间由被调度的流的状态信息和网络链路的状态组成的,即:s=sf×snet

14.所述动作空间由被调度的时间敏感流的数量决定的,因为我们的每一个动作就是选择调度一个时间敏感流,因此表示为a={a
t
},在每一轮,根据策略π从动作空间中选择一个ai动作,即意味着选择流si进行调度,执行完此动作后,则将其从动作空间中剔除,下一轮开始前恢复为初始动作空间;
15.所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间,因此回报函数描述为:
[0016][0017]
其中是流sj相对于流si在其发送端的发送时间偏移量,flowspan是是所有流都被调度的完成的时间间隔,schedule_size是调度表的长度,delay是每个时间敏感流的总时延。
[0018]
本发明提供的方法在引入了基于以太网的时间敏感网络(tsn,time sensitive-networks)来处理通用以太网的时延不确定性,tsn能够提供确定性时延、带宽保证等能力,同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。同时减少保护带的数量,并且将时间敏感流的传输都压缩在调度表的开始,因此有更多的带宽资源可以用于尽力而为流的传输。
附图说明
[0019]
下面结合附图对本发明的具体实施方式作进一步详细的说明。
[0020]
图1为本发明涉及的技术流程示意图;
[0021]
图2为本发明中涉及的拓扑在调度30流运行效果图;
[0022]
图3为本发明中涉及的拓扑在调度60流运行效果图;
[0023]
图4为本发明中涉及的拓扑在调度100流运行时间情况示意图;
[0024]
图5为本发明中涉及的收敛性效果图。
具体实施方式
[0025]
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0026]
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
[0027]
请参阅图1所示,本发明涉及一种基于深度强化学习的tsn流调度方法,包括消除在tsn交换机处的排队时延来用以完成时延敏感流的无等待传输,其中以对单播时间敏感流进行无等待调度的情况进行处理:
[0028]
s表示时间敏感流的集合,si∈s流的特征用元组si=(sri,dti,dli,sii,ti,pi)表示,分别表示流的源地址,目的地址,端到端最大时延,数据大小,周期和路径。
[0029]
进一步地,所述时间敏感流的调度能够被描述为一个三元组《a
t
,s
t
,r》,s
t
是状态空间,a
t
是动作空间,r为立即回报,之后智能体根据当前状态s
t
和当前策略πi(a
t
|s
t
)执行一个动作a
t
,然后底层网络环境产生一个立即回报r,状态s
t
转移到下一个状态s
t 1
;智能体的目标是学习到一个使其期望折扣回报为ji(πi)=∑r(s,a1,a2,...,an)最大化的策略,其中,在此场景中包括对状态空间、动作空间以及回报函数。
[0030]
进一步地,所述状态空间由被调度的流的状态信息和网络链路的状态组成的,即:s=sf×snet

[0031]
所述动作空间由被调度的时间敏感流的数量决定的,因为我们的每一个动作就是选择调度一个时间敏感流,因此表示为a={a
t
},在每一轮,根据策略π从动作空间中选择一个ai动作,即意味着选择流si进行调度,执行完此动作后,则将其从动作空间中剔除,下一轮开始前恢复为初始动作空间;
[0032]
所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间,因此回报函数描述为:
[0033][0034]
其中是流sj相对于流si在其发送端的发送时间偏移量,flowspan是是所有流都被调度的完成的时间间隔,schedule_size是调度表的长度,delay是每个时间敏感流的总时延。
[0035]
请参阅图2-4,调度方法的运行时间与网络的拓扑规模和调度的流的数量有密切的关系,我们在三种不同的复杂度的网络拓扑中训练5000步,简单拓扑(3个交换机,4个终端主机)、中等复杂度拓扑(6个交换机,6个终端主机)、复杂拓扑(9个交换机,10个终端主
机)对比了在调度30、60、100个流的运行时间。
[0036]
请参阅图5所示,证明了我们的调度算法是收敛的,三种不同的网络拓扑调度100个tsn流的收敛性,可以看到在大概训练2000步左右,我们的调度算法就能达到收敛。网络的复杂度越高我们的调度算法收敛速度越快,不过运行时间就相对比较长。
[0037]
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献