确定性网络路由与队列调度方法及装置

2022-12-19 22:38:25 来源：中国专利 TAG：

1.本公开涉及通信技术领域，尤其涉及一种确定性网络路由与队列调度方法及装置。

背景技术：

2.在满足确定性网络低延迟要求方面，现有的大部分工作均采用在时间敏感型网络(time sensitive network，tsn)第二层网络中优化输出端口的门控列表(ieee 802.1qbv)来进行流量调度的方案。在第三层的确定性网络方面也有一些从各个角度来优化调度方案以实现确定性网络服务的工作。但这些工作中提出的基于优化模型的解决方案不具备可拓展性、启发式算法可能导致局部最优从而不能实现高效的优化。在使用深度强化学习模型的解决方案中，采取在每一跳选下一跳的方式来提高确定性服务质量，但仍采用传统队列管理方案，优化效果有限；基于优化模型的求解方案，存在求解速度慢、启发式算法可能无法达到更好的网络性能等问题。除此之外，采取传统的基于优化模型的方案时，新流量需求的产生将导致网络中已被部署的所有流的配置方案被取消，此时需对重组的流量矩阵计算新的配置方案，如果涉及到更多的节点，由此导致的交互会使延迟增大。

技术实现要素：

3.有鉴于此，本公开的目的在于提出一种确定性网络路由与队列调度方法及装置。
4.基于上述目的，本公开提供了一种确定性网络路由与队列调度方法，包括：
5.创建一个计算转发路径的智能体ar和一个计算沿路径各节点处的转发周期的智能体ac；智能体ar和智能体ac共享奖励在多智能近端策略优化 mappo模型中智能体ar和智能体ac对应一个actor网络，智能体ar和智能体ac共享一个critic网络；
6.以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，以最大化期望奖励为优化目标，不断更新网络，选择最优的路由和最优的转发队列来指定确定性流的转发路径和沿途各节点处的周期偏移信息。
7.可选地，以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，以最大化期望奖励为优化目标，不断更新网络，包括：
8.初始化网络环境；
9.分别将网络状态输入到智能体ar和智能体ac对应actor网络，获得联合策略action；
10.执行策略，获得下一时刻运行状态和全局奖励，并将前后运行状态、策略和奖励存储到缓冲器内；
11.在达到训练周期的情况下，从缓冲器内获取经验，分别更新critic网络和actor网络。
12.可选地，所述方法还包括：
13.在未达到训练周期的情况下，再次将网络状态输入到智能体ar和智能体 ac对应
actor网络，获得联合策略action。
14.可选地，所述方法还包括：
15.判断迭代次数是否达到最大值；
16.在迭代次数未达到最大值的情况下，再次初始化网络环境。
17.可选地，所述方法还包括：
18.判断迭代次数是否达到最大值；
19.在迭代次数达到最大值的情况下，若模型收敛，则输出最优的路由和最优的转发队列。
20.可选地，所述方法还包括：
21.确定训练轮数和更新周期，并初始化迭代变量。
22.可选地，所述奖励为资源利用率方差和转发时延的综合指数。
23.本公开还提供了一种确定性网络路由与队列调度装置，包括：
24.模型构建模块，用于创建一个计算转发路径的智能体ar和一个计算沿路径各节点处的转发周期的智能体ac；智能体ar和智能体ac共享奖励在多智能近端策略优化mappo模型中智能体ar和智能体ac对应一个actor网络，智能体ar和智能体ac共享一个critic网络；
25.调度模块，用于以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，以最大化期望奖励为优化目标，不断更新网络，选择最优的路由和最优的转发队列来指定确定性流的转发路径和沿途各节点处的周期偏移信息。
26.本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述确定性网络路由与队列调度方法。
27.本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行上述确定性网络路由与队列调度方法。
28.从上面所述可以看出，本公开提供的确定性网络路由与队列调度方法及装置，能够适应环境的动态性，不需要人为建立复杂的静态模型，能够实时调整调度策略以适应新的环境。
附图说明
29.为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
30.图1为本公开实施例的确定性网络路由与队列调度方法的示意图；
31.图2为本公开实施例的系统架构示意图；
32.图3为本公开实施例的基于mappo的确定性网络流路由和队列调度算法结构示意图；
33.图4为本公开实施例的基于mappo的确定性网络流路由和队列调度算法流程示意
图；
34.图5为本公开实施例的确定性网络路由与队列调度装置的示意图；
35.图6为本公开实施例的电子设备的示意图。
具体实施方式
36.为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。
37.需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。
38.本发明涉及网络通信与机器学习技术领域，具体为一种基于深度强化学习的确定性网络路由与队列调度方法。本发明针对确定性网络业务场景，基于实时网络状态和确定性需求进行路由和队列决策，采用多智能体深度强化学习算法，对确定性网络流通过最优路径和最优队列调度方案下发至数据层面指导转发，进而实现保证确定性服务的同时最大化网络资源的利用率。
39.确定性网络对网络性能提出了更为严格的要求，如有界的时延和抖动等，传统的基于统计概率优化平均性能的方式在此场景下将造成较大的损失。本发明提出了一种基于深度强化学习的确定性网络路由和队列联合调度方法，使用周期队列转发功能在第三层动态地利用第二层的排队和调度功能，并结合深度强化学习技术的决策能力，使用多智能体对路由和调度统筹考虑，以解决三层确定性网络的确定性传输问题，保证最大限度地提高网络对确定性网络流的可承载数量。涉及网络通信与机器学习技术领域，包括设计基于 sdn的路由和队列的联合调度算法；构建确定性网络背景下的深度强化模型，包括网络状态、动作空间和奖励的设计；设计决策模型的训练方案。
40.软件定义网络(software defined network,sdn)是一种新型的网络架构。它的基本思想是将传统分布式网络的控制平面和数据平面彻底解耦，并使用一个逻辑集中的控制器来控制整个分布式的数据平面，从而实现集中式的网络管理和配置，提高了网络管理的效率并降低了网络配置的复杂度。当控制器接收到用户的确定性服务请求时，分析此确定性流的特征信息并根据网络拓扑和状态信息以及确定性网络能力来计算显式路径和资源预留信息，若能成功分配，则响应该服务请求。结合sdn技术，确定性网络在保障确定性服务方面会变得更加灵活敏捷。
41.随着互联网和通信网络的发展，在许多新兴业务领域都出现了一些对网络服务具有确定性需求的应用，如工业控制、车联网和智能电网等。满足这类确定性的服务需求已经成为网络技术发展的关键驱动力。然而传统的互联网协议(internet protocol,ip)网络只提供尽力而为的服务，即便是存在一些服务质量策略，如差异化服务(diffserv)和拥塞控制等，但由于网络中存在微突发流，这些机制只能提供基于概率统计上的平均性能的优化，并不能满足确定性服务的要求，如零丢包率、有界的延迟和抖动等。
42.为满足这类应用的确定性服务需求，国际互联网工程任务组(internet
engineering task force,ietf)成立确定性网络(deterministic detwork，detnet) 工作组分别对以太网的链路层和网络层进行优化，提升其对时间敏感流传输的支撑能力。主要是在动态网络配置、资源编排、路径规划、路由转发和多径转发等方面对以太网l3层进行优化。
43.为实现在网络三层中的确定性转发服务，ietf确定性网络小组提出了周期指定队列和转发(cycle specified queuing and forwarding,csqf)机制的草案标准。它是循环队列转发(cycle queuing and forwarding,cqf)的演变，与cqf相比，csqf增加了使用更多的队列来实现节点之间的松散同步和高级调度的可能性。csqf在第三层运行，它允许使用分段路由(sr)对数据包进行灵活的路由和调度。通过使用sr标签栈来明确说明每个中间节点在接收和处理数据包后应该在哪个端口(路由)和哪个队列(调度)进行传输。
44.深度强化学习(deep reinforcement learning,drl)是机器学习中的一个子领域，结合了强化学习(reinforcement learning,rl)和深度神经网络(deepneural network,dnn)。强化学习通过智能体不断与环境进行交互，能够自动学习不同状态下应该采取的最优动作(即策略)，以最大化所获奖励。深度强化学习将深度神经网络纳入解决方案，dnn强大的表示能力可以充分拟合最优策略，能很好的适应复杂环境。
45.多智能体深度强化学习(multi-agent deep reinforcement learning, madrl)将深度强化学习的思想和算法用于多智能体系统的学习和控制中。多智能体系统中每个智能体的策略不只取决于自身的策略和环境的反馈,同时还受到其他智能体的行为和合作关系的影响。
46.在满足确定性网络低延迟要求方面，现有的大部分工作均采用在时间敏感型网络(time sensitive network,tsn)第二层网络中优化输出端口的门控列表(ieee 802.1qbv)来进行流量调度的方案。在第三层的确定性网络方面也有一些从各个角度来优化调度方案以实现确定性网络服务的工作。但这些工作都没有考虑除队列的调度之外，路由的选择也对优化网络性能的提升具有很大的影响，并忽略了大规模确定性网络具有动态流量的特性。这些工作中提出的基于优化模型的解决方案不具备可拓展性、启发式算法可能导致局部最优从而不能实现高效的优化。在使用深度强化学习模型的解决方案中，采取在每一跳选下一跳的方式来提高确定性服务质量，但仍采用传统队列管理方案，优化效果有限；基于优化模型的求解方案，存在求解速度慢、启发式算法可能无法达到更好的网络性能等问题。除此之外，采取传统的基于优化模型的方案时，新流量需求的产生将导致网络中已被部署的所有流的配置方案被取消，此时需对重组的流量矩阵计算新的配置方案，如果涉及到更多的节点，由此导致的交互会使延迟增大。
47.本发明所要解决的技术问题在于，发明一种基于深度强化学习的确定性网络路由和队列的联合调度方法，实现在三层ip网络中确定性的数据传输，即有界的抖动和端到端延迟。现有的解决方法中采用的单一路由或者队列调度的优化方案将限制网络优化的性能边界，即便是将路由和队列结合的方案也是基于特定的优化模型建模，难以适应动态的网络环境，而其信息收集和集中计算的开销较大，会导致额外的延迟，进而无法及时应对动态流量，采用的启发式算法又容易陷入局部最优，难以保证全局最优。
48.基于以上信息，本方法采用的基于深度强化学习的决策方案更能适应动态的网络环境，可以及时应对动态流量，将路由和队列联合调度的机制扩展了探索最优方案的边
界，基于sdn的网络架构中控制器可收集网络全局视图与确定性网络流的需求信息输入到深度强化学习智能体，智能体根据状态信息计算得到路由和队列调度方案，由控制器以sid标签栈的形式下发至转发平面，可控制数据包在何处(路由)何时(队列调度)被转发，从而达到确定性服务目标。
49.图1为本公开实施例的确定性网络路由与队列调度方法的示意图，如图 1所示，本公开实施例提供一种确定性网络路由与队列调度方法，其执行主体可以为电子设备，例如，计算机等，该方法包括：
50.步骤101、创建一个计算转发路径的智能体ar和一个计算沿路径各节点处的转发周期的智能体ac；智能体ar和智能体ac共享奖励在多智能近端策略优化mappo模型中智能体ar和智能体ac对应一个actor网络，智能体 ar和智能体ac共享一个critic网络；
51.步骤102、以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，以最大化期望奖励为优化目标，不断更新网络，选择最优的路由和最优的转发队列来指定确定性流的转发路径和沿途各节点处的周期偏移信息。
52.具体地，图2为本公开实施例的系统架构示意图，如图2所示，本发明面向确定性网络场景，使用周期转发队列功能划分队列调度周期，并采用深度强化学习模型，以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，算法以最大化期望奖励为优化目标，不断更新网络。为了利用多智能体深度强化学习对确定性服务进行路由和队列的联合调度，通过选择最优的路由和最优的转发队列来指定确定性流的转发路径和沿途各节点处的周期偏移信息。算法创建两个智能体，一个智能体计算转发路径，一个智能体计算转发周期，按照已完成的多智能体深度强化学习框架，智能体共享奖励，将奖励值设置为资源利用率方差和转发时延的综合指数。当调度一个确定性网络流时，若智能体计算所得方案中的每条链路和选定的周期内都有足够的容量且满足时延要求，则此需求可以成功分配，由控制器的策略下发模块生成sid标签栈下发至数据层面指导转发。
53.本发明将确定性流的特征以《src，dst，period，delay，bw》五元组表示，分别描述了确定性流的信息：源和目的端口、周期、时延上限以及带宽。在支持csqf 的设备内部，让每个端口保留n
nd
(n
nd
＝3)个队列给确定性流，在全网所有节点处划分以10μs为基础周期的调度周期c，即在每一个节点的每个队列的资源划分为c个周期，此时，端到端的最大抖动为20μs，符合标准超低延迟要求。在不丧失一般性的情况下，假设整个网络的周期在同一时间开始，并且每个端口/链接的超周期长度c是相同的。
54.本发明将网络抽象为一个无向图其中，与ε为该网络的点集与边集，εc为链路资源的集合，εc中每条链路的信息包括链路的剩余带宽， csqf队列占用情况，ε为设备间的通信链路的集合。以表示确定性网络流的集合，每个服务由《src，dst，period，delay，bw》五元组表示，分别描述了确定性流的信息：源和目的端口、周期、时延上限以及带宽。以pf和rf表示本算法最终为数据流f∈f所选择的转发路径和转发周期偏移。
55.图3为本公开实施例的基于mappo的确定性网络流路由和队列调度算法结构示意图，如图3所示，智能体ar和智能体ac共享奖励在多智能近端策略优化mappo模型中智能体ar和智能体ac对应一个actor网络，智能体ar和智能体ac共享一个critic网络。
56.对于算法中的智能体来说，在某一环境状态下，发出某一动作，将得到环境的反馈即奖励，环境的状态也随之改变，在新的状态下，智能体继续发出动作、获得反馈，持续
与环境交互。以a表示智能体的集合，以ar表示代理计算路由的智能体，以ac表示代理计算转发周期的智能体。
57.对于智能体ar，状态的公式描述如下：
[0058][0059]
其中，表示网络链路状态，lu表示边的链路利用率，d表示边的端到端时延。
[0060]
动作集的公式描述如下：
[0061][0062]
动作的公式描述如下：
[0063]ar
＝pf，pf∈pf[0064]
对于智能体ac，状态的公式描述如下：
[0065][0066]
动作集的公式描述如下：
[0067][0068]
动作的公式描述如下：
[0069]ac
＝rf，rf∈rf[0070]
智能体共享奖励为资源利用率方差和转发时延的综合指数，公式描述如下：
[0071][0072]
其中，std(lu)表示链路利用率标准差，f
bw
为确定性网络流f所需带宽，即分配给该服务的带宽，df为智能体为确定性服务流f所选择的转发路径pf和转发周期偏移rf后的传输时延，该时延包括两部分，(i)节点间链路的传播延迟之和(ii)中间节点的周期偏移的总和 r
f，e
表示确定性网络流f在边e上的周期偏移量。f
delay
为确定性网络流f要求的端到端时延上限，只有在保证满足该条件的情况下，才能传输数据，否则将拒绝该服务请求，α，β，γ为权重参数。
[0073]
可选地，以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，以最大化期望奖励为优化目标，不断更新网络，包括：
[0074]
初始化网络环境；
[0075]
分别将网络状态输入到智能体ar和智能体ac对应actor网络，获得联合策略action；
[0076]
执行策略，获得下一时刻运行状态和全局奖励，并将前后运行状态、策略和奖励存储到缓冲器内；
[0077]
在达到训练周期的情况下，从缓冲器内获取经验，分别更新critic网络和actor网络。
[0078]
可选地，所述方法还包括：
[0079]
在未达到训练周期的情况下，再次将网络状态输入到智能体ar和智能体 ac对应actor网络，获得联合策略action。
[0080]
可选地，所述方法还包括：
[0081]
判断迭代次数是否达到最大值；
[0082]
在迭代次数未达到最大值的情况下，再次初始化网络环境。
[0083]
可选地，所述方法还包括：
[0084]
判断迭代次数是否达到最大值；
[0085]
在迭代次数达到最大值的情况下，若模型收敛，则输出最优的路由和最优的转发队列。
[0086]
可选地，所述方法还包括：
[0087]
确定训练轮数和更新周期，并初始化迭代变量
[0088]
图4为本公开实施例的基于mappo的确定性网络流路由和队列调度算法流程示意图，如图4所示，基于mappo的确定性网络流路由和队列调度算法具体包括如下步骤：
[0089]
1、首先创建网络的拓扑模型及计算节点信息，拓扑中存在m个点，例如，m≥30，其中包括计算节点n个，例如，n≥8，让每个端口保留n
nd
(n
nd
＝ 3)个队列给确定性流，在全网所有节点处划分以10μs为基础周期的调度周期c，即在每一个节点的每个队列的资源划分为c个周期，全网所有节点同时开始周期。拓扑中链路带宽设置为统一值x mb/s，x≥40。
[0090]
2、初始化变量，设初始迭代次数i＝0，最大迭代次数为i_max，例如， i_max≥1000000，i_max基于实际需求进行设定。设置经验回放池，长度为n，例如，n＞＝5000。
[0091]
3、创建2个智能体对象实例，一个智能体ar代表计算路由路径，一个智能体ac代表计算转发周期，在mappo模型中每个智能体对应着一个actor 网络，2个智能体共享一个critic网络，均采用三层全连接的神经网络，随机初始化网络参数。
[0092]
4、随机产生确定性网络流，每一个确定性网络流f的信息由五元组《 src，dst，period，delay，bw》五元组，分别描述了确定性流的特征：源目的端口、周期、时延上限以及带宽。通过从顶点集合中均等概率地选择2个值来创建源节点和目的节点，数据包长度为100～1500b。通常流发送周期从集合 {1，2，4，8}ms中随机抽取，时延上界服从最小值20ms最大值50ms的正态分布；流的带宽服从最小值5mb/s最大值20mb/s的正态分布。
[0093]
5、初始state设为网络拓扑、确定性网络流需求、链路资源及网络链路状态的组合
[0094]
6、开始迭代，使i的值增加1。各智能体生成动作。代理计算路由的智能体ar通过actor网络从动作集pf中选取q值最大的生成动作数组ar＝ [p
f，k1
，p
f，k2
，...，p
f，|k|
]，p
f，ki
表示网络流f被分配到的路径链路编号1～m，数组大小为路径长度。代理计算转发周期的智能体ac的actor网络动作集rf中选取q值最大的生成动作数组ar＝[r
f，k1
，r
f，k2
，...，r
f，|k|
]，r
f，k
表示网络流f被分配到的路径链路编号处的转发周期偏移，数组大小为路径长度。
[0095]
7、将智能体ar计算出的转发路径、智能体ac给出的转发周期重组成联合动作action＝(ar，ac)，可以确定为确定性网络流在何处pf何时rf转发，作为路径和队列调度规划方案应用于网络。
[0096]
8、在网络中生成相应的确定性网络流，获取网络中的链路利用率、传输时延和各节点处的停留时延，从而计算出计算链路利用率方差和总时延df，根据指定的这二者的权重指数得出即奖励(reward)。
[0097]
9、将状态state
′
设为网络拓扑、确定性网络流需求、链路资源及网络链路状态的
组合将state，action＝(ar，ac)，reward，state
′
存入经验回放池中供模型迭代学习参考。
[0098]
10、重复第4步到第9步，直到经验回放池满。
[0099]
11、各智能体根据经验回放池更新策略，更新过程如下：
[0100]
12、将第11步得到的最新state
′
输入到critic网络，得到状态的v
′
值，计算折扣奖励r[t]＝r[t] δ1*r[t 1]
…
δ
t-t
*r[t_]，得到r＝ [r[0]，r[1]，...，r[t]，...r[t_]]，其中t_是最后一个时间步，δ是折扣因子。
[0101]
13、将经验回放池中的所有state输入critic网络，得到所有状态的v_ 值，计算优势函数值。
[0102]
14、计算critic网络的损失(loss)函数，反向传播更新critic网络，critic 网络的loss函数的表达式如下：
[0103][0104]
15、对于每个智能体的actor网络，将存储的所有state组合输入actor
‑ꢀ
old和actor-new网络(网络结构一样)，分别得到正态分布normal1和normal2，将存储的所有action组合为actions输入到正态分布normal1和normal2，得到每个actions对应的prob1和prob2，然后用prob2除以prob1得到重要性权重ratio。
[0105]
16、对于每个智能体的actor网络，计算actor网络的loss函数，反向传播更新actor-new网络，actor网络的loss函数的表达式如下：
[0106][0107]
ratio为第15步中得到的重要性权重，∈是学习率，clip(ratio，1-∈，1 ∈) 表示将超出(1-∈，1 ∈)范围的ratio裁剪掉。
[0108]
17、重复步骤第15和16步，例如，重复10次后，用actor-new网络的参数更新actor-old网络。
[0109]
18、判断迭代次数i是否超过最大迭代次数i_max，若不超过，返回第4 步，继续迭代，若超过，则算法结束，此时算法可以根据输入的状态输出最优的路由和最优的转发队列。
[0110]
本发明面向确定性网络，使用基于mappo的确定性网络流路由和队列调度算法实现确定性网络流的转发，一个智能体负责计算转发路径，一个智能体负责计算沿路径各节点处的转发周期，两个智能体共享联合动作的奖励，经过多次迭代学习后，在保障确定性服务的同时可避免计算节点负载过大或网络拥堵导致用户总体体验下降的风险。本发明设计的确定性网络流调度算法能够适应环境的动态性，不需要人为建立复杂的静态模型，能够实时调整调度策略以适应新的环境。
[0111]
需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
[0112]
需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述
实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0113]
基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种确定性网络路由与队列调度装置。
[0114]
图5为本公开实施例的确定性网络路由与队列调度装置的示意图，如图 5所示，所述确定性网络路由与队列调度装置，包括模型构建模块501和调度模块502，其中：
[0115]
模型构建模块501用于创建一个计算转发路径的智能体ar和一个计算沿路径各节点处的转发周期的智能体ac；智能体ar和智能体ac共享奖励在多智能近端策略优化mappo模型中智能体ar和智能体ac对应一个actor网络，智能体ar和智能体ac共享一个critic网络；
[0116]
调度模块502用于以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，以最大化期望奖励为优化目标，不断更新网络，选择最优的路由和最优的转发队列来指定确定性流的转发路径和沿途各节点处的周期偏移信息。
[0117]
可选地，以全局网络状态作为评价网络的输入，以状态价值作为评价网络的输出，以最大化期望奖励为优化目标，不断更新网络，包括：
[0118]
初始化网络环境；
[0119]
分别将网络状态输入到智能体ar和智能体ac对应actor网络，获得联合策略action；
[0120]
执行策略，获得下一时刻运行状态和全局奖励，并将前后运行状态、策略和奖励存储到缓冲器内；
[0121]
在达到训练周期的情况下，从缓冲器内获取经验，分别更新critic网络和actor网络。
[0122]
可选地，所述方法还包括：
[0123]
在未达到训练周期的情况下，再次将网络状态输入到智能体ar和智能体 ac对应actor网络，获得联合策略action。
[0124]
可选地，所述方法还包括：
[0125]
判断迭代次数是否达到最大值；
[0126]
在迭代次数未达到最大值的情况下，再次初始化网络环境。
[0127]
可选地，所述方法还包括：
[0128]
判断迭代次数是否达到最大值；
[0129]
在迭代次数达到最大值的情况下，若模型收敛，则输出最优的路由和最优的转发队列。
[0130]
可选地，所述方法还包括：
[0131]
确定训练轮数和更新周期，并初始化迭代变量。
[0132]
可选地，所述奖励为资源利用率方差和转发时延的综合指数。
[0133]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0134]
上述实施例的装置用于实现前述任一实施例中相应的确定性网络路由与队列调
度方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0135]
基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的确定性网络路由与队列调度方法。
[0136]
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030 和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0137]
处理器1010可以采用通用的cpu(centralprocessingunit，中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
[0138]
存储器1020可以采用rom(readonlymemory，只读存储器)、ram (randomaccessmemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
[0139]
输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0140]
通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0141]
总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器 1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0142]
需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入 /输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0143]
上述实施例的电子设备用于实现前述任一实施例中相应的确定性网络路由与队列调度方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0144]
基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的确定性网络路由与队列调度方法。
[0145]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘
只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0146]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的确定性网络路由与队列调度方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0147]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0148]
另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路) 以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。
[0149]
尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0150]
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：具有可转向镜的机器视觉系统和方法与流程

确定性网络路由与队列调度方法及装置

相关文献

最热文献