一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

单业务资源配置方法、装置、计算机设备和介质与流程

2022-06-05 15:39:56 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,具体涉及一种单业务资源配置方法、装置、计算机设备和计算机可读介质。


背景技术:

2.随着人工智能技术的发展,强化学习技术应用越来越得到各领域和行业的广泛重视。强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及网络分析预测等领域有许多应用。在连接主义机器学习流派中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。
3.强化学习是智能体(agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统(reinforcement learning system,rls)如何去产生正确的动作。由于外部环境提供的信息很少,rls必须靠自身的经历进行学习,通过这种方式,rls在行动-评价的环境中获得知识,改进行动方案以适应环境。
4.近年来,随着强化学习技术的应用与推广,如何将该项技术的优势应用到otn(optical transport network,光传送网络)网络智能化管控与运维领域,特别是强化学习在otn网络光层业务资源优化配置的应用,得到了otn领域专家的广泛关注。
5.基于sdon(software defined optical network,软件定义光网络)架构的otn网络局部单路资源优化(local singel optimization,lso)方案如图1所示,在sdon架构中,pce(path computation element,路径计算单元)主要承担为otn网络业务进行路由计算与资源分配功能,为业务提供满足代价和其他目标策略的优化路径,并在此基础上进行rwa(routing and wavelength assignment,路由波长分配)、rsa(routing and spectrum assignment路由频谱分配)、sdo(software defined optics软件定义光器件)、iv(impairment verification,损伤确认)等资源配置与评估,最终获得满足综合指标优化条件的业务资源路径。传统的otn网络中针对单业务的资源配置方案是分步实现路径资源的计算与配置,没有完整地在一个统一的算法中完成与实现,因此业务资源优化配置的效果、综合优化的程度、优化效率、优化算法理论的严谨程度等等都存在一定的不足。


技术实现要素:

6.本公开针对现有技术中存在的上述不足,提供一种单业务资源配置方法、装置、计算机设备和计算机可读介质。
7.第一方面,本公开实施例提供一种单业务资源配置方法,包括:
8.根据动作策略为待配置业务配置资源参数,并计算当前状态下的及时奖励,全部
资源参数均配置完成后,根据动作策略进行损伤确认iv分析,一个回合结束,其中,一个动作完成后进入下一个状态,所述动作包括配置一个资源参数动作或进行iv分析动作;
9.根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数;
10.迭代预设次数回合,以计算并更新各状态下的优化目标策略参数;
11.根据所述预设次数回合中各状态下的优化目标策略参数,分别确定每个状态下的最优优化目标策略参数;
12.根据各状态下的最优优化目标策略参数更新所述动作策略。
13.在一些实施例中,所述资源参数包括路由、波长、频谱和调制格式,在一个回合中按照以下顺序为待配置业务配置资源参数:配置路由、配置波长、配置频谱、配置调制格式。
14.在一些实施例中,所述状态包括:待配置路由状态、待配置波长状态、待配置频谱状态、待配置调制格式状态、待iv分析状态和终止状态,待配置路由状态下的及时奖励r0=0,其他各状态下的及时奖励满足以下之一或任意组合:
15.待配置波长状态下的及时奖励r1为工作路由代价的函数,且r1与所述工作路由代价的函数呈单调递减关系;
16.待配置频谱状态下的及时奖励r2为波长资源利用率的函数,且r2与所述波长资源利用率的函数呈单调递增关系;
17.待配置调制格式状态下的及时奖励r3为业务所占用的频谱宽度的函数,且r3与所述业务所占用的频谱宽度的函数呈单调递减关系;
18.待iv分析状态下的及时奖励r4为业务频谱效率的函数,且r4与所述业务频谱效率的函数呈单调递增关系;
19.终止状态下的及时奖励r5与iv分析结果相关,其中,iv分析结果为合格时r5为正数,iv分析结果为不合格时r5为负数。
20.在一些实施例中,所述动作策略包括随机动作策略和确定性动作策略,所述根据动作策略为待配置业务配置资源参数,包括:根据随机动作策略为待配置业务配置路由、波长、频谱和调制格式;
21.所述根据动作策略进行损伤确认iv分析,包括:根据确定性动作策略进行iv分析。
22.在一些实施例中,当所述待配置业务的路由包括多个中继段时,所述根据动作策略为待配置业务配置资源参数,包括:分别在各个中继段内根据动作策略为待配置业务配置资源参数;所述根据动作策略进行损伤确认iv分析,包括:分别在各个中继段内根据动作策略进行损伤确认iv分析;
23.所述进行损伤确认iv分析,包括:
24.分别计算所述待配置业务的路由中各个中继段的光信噪比的预算值;
25.响应于各个中继段的光信噪比的预算值均满足预设条件,确定iv分析结果为合格;
26.响应于至少一个中继段的光信噪比的预算值不满足预设条件,确定iv分析结果为不合格。
27.在一些实施例中,所述进行损伤确认iv分析,包括:
28.计算所述待配置业务的光信噪比的预算值;
29.响应于所述光信噪比的预算值满足预设条件,确定iv分析结果为合格;
30.响应于所述光信噪比的预算值不满足预设条件,确定iv分析结果为不合格。
31.在一些实施例中,所述光信噪比的预算值满足预设条件,包括:
32.osnr
预算值-osnr
平坦度
≥osnr
传输门限
33.osnr
传输门限
=osnr
b2b
osnr
非线性
osnr
cd
osnr
pmd
osnr
滤波
osnr
pdl
osnr
波动
osnr
净余量
34.其中,osnr
预算值
为光信噪比的预算值,osnr
平坦度
为光信噪比的平坦度,osnr
b2b
为背靠背的光信噪比,osnr
非线性
为光信噪比的非线性代价,osnr
cd
为光信噪比的色散代价,osnr
pmd
为光信噪比的偏振膜色散代价,osnr
滤波
为光信噪比的滤膜代价,osnr
pdl
光信噪比的偏振相关损耗代价,osnr
波动
为光信噪比的波动,osnr
净余量
为光信噪比所需的净余量;osnr
平坦度
、osnr
b2b
、osnr
非线性
、osnr
cd
、osnr
pmd
、osnr
滤波
、osnr
pdl
、osnr
波动
、osnr
净余量
为预设值。
35.在一些实施例中,所述根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数,包括:
36.根据下一个状态之后各状态下的及时奖励计算当前状态下的预期回报;
37.根据所述当前状态下的预期回报计算并更新当前状态下的优化目标策略参数。
38.在一些实施例中,根据以下公式计算当前状态下的预期回报:
[0039][0040]
其中,g
t
为状态s
t
下执行动作a
t
的预期回报,γ为折扣系数,0<γ<1;r为及时奖励,t为状态s
t
下已配置的资源参数的数量,t=(0,

,n-1),n-1为资源参数的总数量。
[0041]
在一些实施例中,所述优化目标策略参数包括状态行为值q
π
(s,a),或者,
[0042]
所述优化目标策略参数包括状态值v
π
(s),其中,π(a|s)为状态s下根据动作策略π(s,a)采取动作a的概率,a为各状态下执行动作的集合。
[0043]
在一些实施例中,当所述优化目标策略参数为状态行为值q
π
(s,a)时,采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个状态下的优化目标策略参数;
[0044]
所述根据各状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态行为值q
π
(s,a)更新所述动作策略。
[0045]
在一些实施例中,当所述优化目标策略参数为状态值v
π
(s)时,采用动态规划算法计算所述优化目标策略参数;
[0046]
所述根据各状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态值v
π
(s)更新所述动作策略。
[0047]
又一方面,本公开实施例还提供一种单业务资源配置装置,包括:第一处理模块、第二处理模块和更新模块,
[0048]
所述第一处理模块用于,根据动作策略为待配置业务配置资源参数,并计算当前状态下的及时奖励,全部资源参数均配置完成后,根据动作策略进行损伤确认iv分析,一个回合结束,其中,一个动作完成后进入下一个状态,所述动作包括配置一个资源参数动作或
进行iv分析动作;根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各状态下的优化目标策略参数;
[0049]
所述第二处理模块用于,根据所述预设次数回合中各状态下的优化目标策略参数,分别确定每个状态下的最优优化目标策略参数;
[0050]
所述更新模块用于,根据各状态下的最优优化目标策略参数更新所述动作策略。
[0051]
又一方面,本公开实施例还提供一种计算机设备,包括:
[0052]
一个或多个处理器;
[0053]
存储装置,其上存储有一个或多个程序;
[0054]
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的单业务资源配置方法。
[0055]
又一方面,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如前所述的业务资源配置方法。
[0056]
本公开实施例提供的单业务资源配置方法及装置,根据动作策略为待配置业务配置资源参数,并计算当前状态下的及时奖励,全部资源参数均配置完成后,根据动作策略进行损伤确认iv分析,一个回合结束,其中,一个动作完成后进入下一个状态,所述动作包括配置一个资源参数动作或进行iv分析动作;根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各状态下的优化目标策略参数;根据所述预设次数回合中各状态下的优化目标策略参数,分别确定每个状态下的最优优化目标策略参数;根据各状态下的最优优化目标策略参数更新所述动作策略。本公开实施例利用强化学习算法的奖惩机制多种资源与性能指标进行综合优化,优化单条otn网络业务资源配置,进而为用户提供综合指标优化的otn业务路径,得到的动作策略收敛性好、严谨性和可靠性高。
附图说明
[0057]
图1为sdon架构下的otn网络单业务资源配置的示意图;
[0058]
图2为本公开实施例提供的单业务资源配置流程示意图;
[0059]
图3为本公开实施例提供的进行iv分析的流程示意图;
[0060]
图4为本公开实施例提供的计算优化目标策略参数的流程示意图;
[0061]
图5为本公开实施例提供的单业务资源配置装置的结构示意图。
具体实施方式
[0062]
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
[0063]
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
[0064]
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由
……
制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、
动作集包含了为待配置业务路由配置频宽x、频宽y、频宽z
……
等多个配置频谱d动作。需要说明的是,若路由包含中继跨段,则不同中继跨段可采用不同的频谱宽度。
[0079]
(4)a3动作集:配置sdo(调制格式)动作,为待配置业务路由配置调制格式。按照调制格式属性值的区别,a3动作集包含了为待配置业务路由分配调制格式i、调制格式j、调制格式k
……
等多个配置sdo的动作。需要说明的是,若路由包含中继跨段,则不同中继跨段可采用不同的调制格式。
[0080]
(5)a4动作集:iv分析动作,基于待配置业务路由及沿路配置的网络资源,沿路进行iv分析。需要说明的是,若路由包含中继跨段,则在不同中继跨段需要采用不同的背靠背光信噪比osnr
b2b
进行iv分析。
[0081]
在多中继跨段场景下,由于各跨段的资源配置以及iv分析不同,在满足otn网络对每条业务的资源配置约束及属性设置约束的前提下,每个动作集可以进一步以中继跨段为单位,被拆分为多个动作集合,如a
11
动作集表示为待配置业务路由的第一个中继跨段分配波长的动作,a
12
动作集表示为待配置业务路由的第二个中继跨段分配波长的动作。
[0082]
3、定义单业务资源配置过程中的状态s
t
[0083]
一个回合中的各个状态为s
t
,t=(0,

,n),n为资源参数的总数量 1。在本公开实施例中,资源参数的总数量为4,n=5,因此,一个回合包括6个状态,即s
0-s5。s0为初始状态,也即待配置路由状态,在该状态下未进行任何资源参数的配置;s1为待配置波长状态,在该状态下已配置路由(即已执行配置路由动作a0)但未配置波长;s2为待配置频谱状态,在该状态下已配置波长(即已执行配置波长动作a1)但未配置频谱;s3为待配置调制格式状态,在该状态下已配置频谱(即已执行配置频谱动作a2)但未配置调制格式;s4为iv分析状态,在该状态下已配置调制格式(即已执行配置调制格式动作a3)但未进行iv分析;s5为终止状态,在该状态下已配置完全部资源参数,且已完成iv分析,一旦进入终止状态,说明一个回合结束。
[0084]
以业务请求从节点a-节点d为例,在s0状态下,执行配置路由动作a0,从备选路由中选择一条工作路由;在s1状态下,执行配置波长动作a1,为该工作路由分配波长;在s2状态下,执行配置频谱动作a2,为已分配波长的该路由分配频谱;在s3状态下,执行配置sdo动作a3,为已分配波长和频谱的该路由配置调制格式;在s4状态下,执行iv分析动作a4,进行对已分配波长、频谱、sdo的该路由进行iv分析;在s5状态下,iv分析完成,本回合结束。
[0085]
在多中继跨段场景下,与各动作a0、a1、a2、a3、a4相对应的下一状态s1、s2、s3、s4、s5可以随着对应各动作在不同中继跨段中的拆分,进而分别拆分为多个状态。也就是说,状态可以以中继跨段为单位进行划分。在多中继跨段场景下,只有当所有中继跨段都进入s5终止状态,整个回合才结束。
[0086]
本公开实施例提供一种单业务资源配置方法,如图2所示,所述方法包括以下步骤:
[0087]
步骤11,根据动作策略为待配置业务配置资源参数,并计算当前状态下的及时奖励,全部资源参数均配置完成后,根据动作策略进行iv分析,一个回合结束,其中,一个动作完成后进入下一个状态,所述动作包括配置一个资源参数动作或进行iv分析动作。
[0088]
在本步骤中,在一个回合中,根据动作策略π(s,a)为待配置业务配置资源参数,配置完一个资源参数之后,计算该状态下的及时奖励,当前状态结束,进入下一个状态。按照上述步骤,在一个回合中分别配置每个资源参数,并计算相应状态下的及时奖励,直到全部
资源参数配置完成后进行iv分析,此时一个回合结束。
[0089]
步骤12,根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数。
[0090]
在本步骤中,可以采用不同的算法计算更新优化目标策略参数,需要说明的是,采用的算法不同,优化目标策略参数也不同,后续再对各种算法进行详细说明。
[0091]
步骤13,迭代预设次数回合,以计算并更新各状态下的优化目标策略参数。
[0092]
在本步骤中,重复执行步骤11-12,迭代预设次数个回合,计算更新各个回合中各状态下的优化目标策略参数。
[0093]
步骤14,根据预设次数回合中各状态下的优化目标策略参数,分别确定每个状态下的最优优化目标策略参数。
[0094]
在本步骤中,针对每个状态,从不同回合的优化目标策略参数中确定该状态下的最优优化目标策略参数。需要说明的是,采用的算法不同,最优优化目标策略参数的确定方式也不同。经过本步骤,可以得到待配置业务的所有状态下的最优优化目标策略参数。
[0095]
步骤15,根据各状态下的最优优化目标策略参数更新动作策略。
[0096]
优化目标策略参数用于表征状态和动作,当某个状态下的最优优化目标策略参数确定之后,即可确定出该状态下的最优动作a
t
,最优动作a
t
即为在该状态下配置最优资源参数的动作,从而可以确定出该状态下的最优资源参数,由此可以得到全部最优资源参数的动作集合,该动作集合即为优化的动作策略π(s,a)。
[0097]
本公开实施例提供的单业务资源配置方法及装置,根据动作策略为待配置业务配置资源参数,并计算当前状态下的及时奖励,全部资源参数均配置完成后,根据动作策略进行损伤确认iv分析,一个回合结束,其中,一个动作完成后进入下一个状态,所述动作包括配置一个资源参数动作或进行iv分析动作;根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各状态下的优化目标策略参数;根据所述预设次数回合中各状态下的优化目标策略参数,分别确定每个状态下的最优优化目标策略参数;根据各状态下的最优优化目标策略参数更新所述动作策略。本公开实施例利用强化学习算法的奖惩机制多种资源与性能指标进行综合优化,优化单条otn网络业务资源配置,进而为用户提供综合指标优化的otn业务路径,得到的动作策略收敛性好、严谨性和可靠性高。
[0098]
在一些实施例中,资源参数可以包括路由、波长、频谱和调制格式,在一个回合中按照以下顺序为待配置业务配置资源参数:配置路由、配置波长、配置频谱、配置调制格式。需要说明的是,本公开实施例是以配置路由、配置波长、配置频谱、配置调制格式的顺序为例进行说明,但本领域技术人员可知,配置各个资源参数的顺序以及资源参数的种类、数量不限,只要保证iv分析在全部资源参数配置完成之后进行即可。
[0099]
在一些实施例中,状态包括:待配置路由状态s0、待配置波长状态s1、待配置频谱状态s2、待配置调制格式状态s3、待iv分析状态s4和终止状态s5。r
t
表示状态s
t
下获得的及时奖励,是在状态s
t-1
下执行动作a
t-1
后迁移到状态s
t
时获得的及时奖励,t为状态s
t
下已配置的资源参数的数量,t=(0,

,n-1),n-1为资源参数的总数量,需要说明的是,待配置路由状态s0下的及时奖励r0=0,其他各状态下的及时奖励满足以下(1)-(5)之一或任意组合:
[0100]
(1)待配置波长状态s1下的及时奖励r1为工作路由代价的函数,且r1与所述工作路
由代价的函数呈单调递减关系;也就是说,r1可以是待配置业务执行动作a0后所获得的工作路由代价svccost的函数,并且二者之间是单调递减关系。
[0101]
(2)待配置频谱状态下的及时奖励r2为波长资源利用率的函数,且r2与所述波长资源利用率的函数呈单调递增关系;也就是说,r2可以是待配置业务在执行动作a1后获得工作路由波长资源后所得到的及时奖励,在满足波长一致性与连续性约束条件下,r2可以是当前网络波长资源利用率u
λ
的函数,并且二者之间是单调递增关系。
[0102]
(3)待配置调制格式状态下的及时奖励r3为业务所占用的频谱宽度的函数,且r3与所述业务所占用的频谱宽度的函数呈单调递减关系;也就是说,r3可以是待配置业务在执行动作a2获得工作路由的频谱资源后所得到的及时奖励,在满足该待配置业务对频宽最低使用门限的约束条件下,r3可以是该待配置业务当前所占用的频谱宽度fw的函数,并且二者之间是单调递减关系。
[0103]
(4)待iv分析状态下的及时奖励r4为业务频谱效率的函数,且r4与所述业务频谱效率的函数呈单调递增关系;也就是说,r4可以是待配置业务在执行动作a3获得工作路由的sdo(调制格式配置)后所得到的及时奖励,在满足该待配置业务对频宽最低使用门限的约束条件下,r4可以是该待配置业务当前频谱效率ξ的函数,且二者之间是单调递增关系。
[0104]
(5)终止状态下的及时奖励r5与iv分析结果相关,其中,iv分析结果为合格时r5为正数,iv分析结果为不合格时r5为负数。也就是说,r5可以是待配置业务在执行动作a4完成iv分析后所得到的及时奖励,如果iv分析结果为合格,则说明该工作路由满足业务传输性能要求,则r5将被赋给一个正数值奖励,奖励值超过前四个及时奖励的总和;如果iv分析结果为不合格,则说明工作路由不满足业务传输性能要求,则r5将被赋给一个负数值奖励作为惩罚,其绝对值超过前四个及时奖励的总和。
[0105]
在一些实施例中,动作策略π(s,a)包括随机动作策略π'(s,a)和确定性动作策略μ(s,a),所述根据动作策略为待配置业务配置资源参数,包括:根据随机动作策略π'(s,a)为待配置业务配置路由、波长、频谱和调制格式。所述根据动作策略进行iv分析,包括:根据确定性动作策略μ(s,a)进行iv分析。
[0106]
动作a0、a1、a2、a3分别对应路由选择、波长分配、频谱分配、sdo设置四种操作,每种操作下都存在多个备选项,例如,一条otn网络业务可从多条备选路由中选择一条作为工作路由,如果把选择其中一条路由作为工作路由看作是一个具体动作,那么s0状态下的动作a0、实际上对应了一个动作集合,可根据动作策略来执行具体动作进行路由选择,因此在s0状态的动作a0、的初始策略可以采用随机策略π'(s0,a0)。同理,状态s1、s2、s3下的动作a1、a2、a3的初始策略也都采用随机动作策略π'(s1,a1)、π'(s2,a2)、π'(s3,a3)。s4状态下的动作a4对应iv分析操作,其动作策略可采用确定性动作策略μ(s4,a4)。
[0107]
iv分析用于评估otn网络业务传输涉及的背靠背osnr、光纤非线性、光纤cd、光纤pmd、光滤波、光器件引入的pdl、业务多跨段累积osnr波动和osnr平坦度等因素对系统性能影响,在此基础上根据客户对osnr余量配置需求以及设备商策略,对otn网络业务经过的光链路资源性能的可行性进行评估分析。
[0108]
在一些实施例中,如图3所示,所述进行损伤确认iv分析,包括以下步骤:
[0109]
步骤21,计算待配置业务的光信噪比的预算值osnr
预算值

[0110]
在一些实施例中,待配置业务的光信噪比的预算值osnr
预算值
可以采用58公式计算
得到,在此不再赘述。
[0111]
步骤22,判断光信噪比的预算值osnr
预算值
是否满足预设条件,若满足,则执行步骤23,否则,执行步骤24。
[0112]
在一些实施例中,光信噪比的预算值osnr
预算值
满足预设条件,包括:
[0113]
osnr
预算值-osnr
平坦度
≥osnr
传输门限
[0114]
osnr
传输门限
=osnr
b2b
osnr
非线性
osnr
cd
osnr
pmd
osnr
滤波
osnr
pdl
osnr
波动
osnr
净余量
[0115]
其中,osnr
平坦度
为光信噪比的平坦度,为otn网络统计的经验值;osnr
b2b
为背靠背的光信噪比,可以根据光模块手册查询获得;osnr
非线性
为光信噪比的非线性代价,osnr
cd
为光信噪比的色散(chromatic dispersion,cd)代价,osnr
pmd
为光信噪比的偏振膜色散(polarization mode dispersion,pmd)代价,osnr
滤波
为光信噪比的滤膜代价,osnr
pdl
光信噪比的偏振相关损耗(polarization dependent loss,pdl)代价,osnr
波动
为光信噪比的波动,为otn网络统计的经验值;osnr
净余量
为光信噪比所需的净余量,根据实际需求确定;osnr
平坦度
、osnr
b2b
、osnr
非线性
、osnr
cd
、osnr
pmd
、osnr
滤波
、osnr
pdl
、osnr
波动
、osnr
净余量
为预设值。
[0116]
步骤23,确定iv分析结果为合格。
[0117]
步骤24,确定iv分析结果为不合格。
[0118]
在一些实施例中,在多中继跨段场景下,待配置业务的路由包括多个中继段。相应的,所述根据动作策略为待配置业务配置资源参数,包括以下步骤:分别在各个中继段内根据动作策略为待配置业务配置资源参数。所述根据动作策略进行iv分析,包括以下步骤:分别在各个中继段内根据动作策略进行iv分析。所述进行损伤确认iv分析,包括以下步骤:分别计算待配置业务的路由中各个中继段的光信噪比的预算值;响应于各个中继段的光信噪比的预算值均满足预设条件,确定iv分析结果为合格;响应于至少一个中继段的光信噪比的预算值不满足预设条件,确定iv分析结果为不合格。
[0119]
在一些实施例中,如图4所示,所述根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数,包括以下步骤:
[0120]
步骤31,根据下一个状态之后各状态下的及时奖励计算当前状态下的预期回报。
[0121]
在一些实施例中,可以根据以下公式计算当前状态下的预期回报:
[0122][0123]
其中,g
t
为状态s
t
下执行动作a
t
的预期回报,γ为折扣系数,0<γ<1;r为及时奖励,t为状态s
t
下已创建的业务的数量,t=(0,

,n-1),n-1为资源参数的总数量。
[0124]
需要说明的是,最后一个状态下的预期回报即为该状态下的及时奖励。
[0125]
步骤32,根据当前状态下的预期回报计算并更新当前状态下的优化目标策略参数。
[0126]
通过步骤31-32,可以利用加强算法的奖惩机制实现对优化目标策略参数的优化。
[0127]
在一些实施例中,优化目标策略参数可以为状态行为值q
π
(s,a),表示智能体从状态s
t
出发,按照动作策略π(s,a)执行动作a后得到的累积回报的期望。
[0128]
在一些实施例中,优化目标策略参数也可以为状态值v
π
(s),表示状态s下所有状态行为值q
π
(s,a)的加权和。其中,π(a|s)为状态s下根据动作策略π(s,a)执行动作a的概率,a为各状态下执行动作的集合。需要说明的是,如果动作策略π(s,a)为确定性动作策略,则v
π
(s,a)=q
π
(s,a)。
[0129]
在一些实施例中,当所述优化目标策略参数为状态行为值q
π
(s,a)时,可以采用蒙特卡罗(monte carlo process,mcp)算法、异策略的时序差分(异策略的td-error)算法或同策略的时序差分(同策略的td-error)算法计算并更新各个状态下的优化目标策略参数。在一些实施例中,可以选用异策略的td-error算法中的q-learning算法,或者,选用同策略的td-error算法中的sasa(state-action-reward-action)算法。相应的,所述根据各状态下的最优优化目标策略参数更新所述动作策略(即步骤15),包括:根据所述状态行为值q
π
(s,a)更新所述动作策略。
[0130]
例如,若采用q-learning算法或sasa算法,则确定每个状态下的最优优化目标策略参数(即步骤14),可以包括:从所述预设次数回合中各状态下的优化目标策略参数(即状态行为值q
π
(s,a))中,分别确定各状态下的最优优化目标策略参数的最大值。
[0131]
在一些实施例中,当所述优化目标策略参数为状态值v
π
(s)时,可以采用动态规划算法计算并更新所述优化目标策略参数。相应的,所述根据各状态下的最优优化目标策略参数更新所述动作策略(即步骤15),包括:根据所述状态值v
π
(s)更新动作策略μ(s,a)。
[0132]
以下分别对蒙特卡罗算法、q-learning算法、sasa算法、动态规划算法实现otn网络单业务资源配置的过程进行说明。
[0133]
(1)采用探索性初始化蒙特卡罗算法实现otn网络单业务资源配置的处理过程如下:
[0134]
初始化整个网络拓扑环境,对所有s∈s,a∈a(s),
[0135]
q(s,a)

0;动作策略初始值为μ(s,a);
[0136]
returns(s,a)

emptylist;
[0137]
repeat重复循环以下处理:
[0138]
{
[0139]
依照μ(s,a)选择s0∈s,a0∈a(s),并生成1个新episode;
[0140]
for每对在该episode中的(s,a):
[0141]g←
(s,a)第一次出现后的回报;
[0142]
把g加到回报returns(s,a)中去;
[0143]
令状态行为值q(s,a)

average(returns(s,a))对回报取均值;
[0144]
ꢀꢀꢀꢀꢀ
for在该episode中的每个s:
[0145]
ꢀꢀꢀꢀ
π(s)

argmaxaq(s,a);
[0146]
}
[0147]
(2)采用q-learning(即异策略的td-error)算法实现otn网络单业务资源配置的处理过程如下:
[0148]
初始化整个网络拓扑环境,对所有s∈s,a∈a(s),
[0149]
q(s,a)

0;动作策略为μ(s,a);
[0150]
repeat对每个episode循环重复以下处理:
[0151]
初始化状态空间s;
[0152]
repeat(对该episode里的每一步循环重复以下处理):
[0153]
依照策略μ(s,a),在s
t
状态选择动作a
t

[0154]
执行动作a
t
,并得到及时奖励r
t 1
和下一步状态s
t 1

[0155]
令q(s
t
,a
t
)

q(s
t
,a
t
) α[r
t 1
γmaxaq(s
t 1
,a)-q(s
t
,a
t
)];
[0156]
其中,α为学习速率;
[0157]st
←st 1

[0158]
直到s
t
为终止状态;
[0159]
直到所有的q(s,a)收敛;
[0160]
输出最终策略:π(s)

argmaxaq(s,a);
[0161]
(3)采用sarsa(即同策略的td-error)算法实现otn网络单业务资源配置的处理过程如下:
[0162]
初始化整个网络拓扑环境,对所有s∈s,a∈a(s),q(s,a)

0;
[0163]
repeat对每个episode循环重复以下处理:
[0164]
初始化状态空间s;
[0165]
给定起始状态s0,并根据贪婪策略ε(取获得及时奖励最大的动作),选择动作a0;
[0166]
repeat(对该episode里的每一步循环重复以下处理):
[0167]
依照贪婪策略ε,在s
t
状态选择动作a
t
,获得及时奖励r
t 1
和下一个状态s
t 1

[0168]
依照贪婪策略ε得到动作a
t 1

[0169]
令q(s
t
,a
t
)

q(s
t
,a
t
) α[r
t 1
γq(s
t 1
,a
t 1
)-q(s
t
,a
t
)];
[0170]
其中,α为学习速率;
[0171]st
←st 1
;a
t
←at 1

[0172]
直到s
t
为终止状态;
[0173]
直到所有的q(s,a)收敛;
[0174]
输出最终策略:π(s)

argmaxaq(s,a);
[0175]
(4)采用基于策略迭代的动态规划算法实现otn网络单业务资源配置的处理过程如下:
[0176]
步骤1,初始化整个网络拓扑环境,
[0177]
对所有s
t
∈s,a∈a(s),v(s
t
)=0,令所有动作策略初始化为μ(s);
[0178]
步骤2,策略评估
[0179]
这里p(s
t 1
,r
t 1
|s
t
,μ(s))和p(s
t 1
,r
t 1
|s
t
,a)表示采用策略μ(s)在状态s
t
下执行对应动作a的概率;
[0180]
repeat循环重复以下处理:
[0181]
δ

0;
[0182]
for每个s
t
∈s:
[0183]v←
v(s
t
);
[0184]
[0185]
δ

max(δ,|v-v(s
t
)|);
[0186]
直到δ<θ(θ为一个指定常数)收敛;
[0187]
步骤3,策略改进
[0188]
for每个s
t
∈s:
[0189]a←
μ(s);
[0190][0191]
如果a≠μ(s),那么表示策略不收敛,否则策略收敛;
[0192]
如果策略收敛,那么算法结束并返回v(s)和μ(s),否则继续返回步骤2的处理;
[0193]
本公开实施例可以应用于光网络智能管控和运维领域,通过强化学习技术对单条otn业务的多种资源与性能指标进行综合优化,进而为用户提供综合指标优化了的otn业务路径。强化学习算法为路径综合优化提供了可能,期望通过对动作策略的迭代改进能够智能化地获得理想的路径优化结果。
[0194]
基于相同的技术构思,本公开实施例还提供一种单业务资源配置装置,如图5所示,所述单业务资源配置装置包括:第一处理模块101、第二处理模块102和更新模块103,第一处理模块101用于,根据动作策略为待配置业务配置资源参数,并计算当前状态下的及时奖励,全部资源参数均配置完成后,根据动作策略进行损伤确认iv分析,一个回合结束,其中,一个动作完成后进入下一个状态,所述动作包括配置一个资源参数动作或进行iv分析动作;根据各个状态下的及时奖励计算并更新各个状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各状态下的优化目标策略参数。
[0195]
第二处理模块102用于,根据所述预设次数回合中各状态下的优化目标策略参数,分别确定每个状态下的最优优化目标策略参数。
[0196]
更新模块103用于,根据各状态下的最优优化目标策略参数更新所述动作策略。
[0197]
在一些实施例中,所述资源参数包括路由、波长、频谱和调制格式,在一个回合中按照以下顺序为待配置业务配置资源参数:配置路由、配置波长、配置频谱、配置调制格式。
[0198]
在一些实施例中,所述状态包括:待配置路由状态、待配置波长状态、待配置频谱状态、待配置调制格式状态、待iv分析状态和终止状态,待配置路由状态下的及时奖励r0=0,其他各状态下的及时奖励满足以下之一或任意组合:
[0199]
待配置波长状态下的及时奖励r1为工作路由代价的函数,且r1与所述工作路由代价的函数呈单调递减关系;
[0200]
待配置频谱状态下的及时奖励r2为波长资源利用率的函数,且r2与所述波长资源利用率的函数呈单调递增关系;
[0201]
待配置调制格式状态下的及时奖励r3为业务所占用的频谱宽度的函数,且r3与所述业务所占用的频谱宽度的函数呈单调递减关系;
[0202]
待iv分析状态下的及时奖励r4为业务频谱效率的函数,且r4与所述业务频谱效率的函数呈单调递增关系;
[0203]
终止状态下的及时奖励r5与iv分析结果相关,其中,iv分析结果为合格时r5为正数,iv分析结果为不合格时r5为负数。
[0204]
在一些实施例中,所述动作策略包括随机动作策略和确定性动作策略,第一处理
模块101用于,根据随机动作策略为待配置业务配置路由、波长、频谱和调制格式;根据确定性动作策略进行iv分析。
[0205]
在一些实施例中,当所述待配置业务的路由包括多个中继段时,第一处理模块101用于,分别在各个中继段内根据动作策略为待配置业务配置资源参数;分别在各个中继段内根据动作策略进行损伤确认iv分析。
[0206]
第一处理模块101用于,分别计算所述待配置业务的路由中各个中继段的光信噪比的预算值;响应于各个中继段的光信噪比的预算值均满足预设条件,确定iv分析结果为合格;响应于至少一个中继段的光信噪比的预算值不满足预设条件,确定iv分析结果为不合格。
[0207]
在一些实施例中,第一处理模块101用于,计算所述待配置业务的光信噪比的预算值;响应于所述光信噪比的预算值满足预设条件,确定iv分析结果为合格;响应于所述光信噪比的预算值不满足预设条件,确定iv分析结果为不合格。
[0208]
在一些实施例中,所述光信噪比的预算值满足预设条件,包括:
[0209]
osnr
预算值-osnr
平坦度
≥osnr
传输门限
[0210]
osnr
传输门限
=osnr
b2b
osnr
非线性
osnr
cd
osnr
pmd
osnr
滤波
osnr
pdl
osnr
波动
osnr
净余量
[0211]
其中,osnr
预算值
为光信噪比的预算值,osnr
平坦度
为光信噪比的平坦度,osnr
b2b
为背靠背的光信噪比,osnr
非线性
为光信噪比的非线性代价,osnr
cd
为光信噪比的色散代价,osnr
pmd
为光信噪比的偏振膜色散代价,osnr
滤波
为光信噪比的滤膜代价,osnr
pdl
光信噪比的偏振相关损耗代价,osnr
波动
为光信噪比的波动,osnr
净余量
为光信噪比所需的净余量;osnr
平坦度
、osnr
b2b
、osnr
非线性
、osnr
cd
、osnr
pmd
、osnr
滤波
、osnr
pdl
、osnr
波动
、osnr
净余量
为预设值。
[0212]
在一些实施例中,第一处理模块101用于,根据下一个状态之后各状态下的及时奖励计算当前状态下的预期回报;根据所述当前状态下的预期回报计算并更新当前状态下的优化目标策略参数。
[0213]
在一些实施例中,第一处理模块101用于,根据以下公式计算当前状态下的预期回报:
[0214][0215]
其中,g
t
为状态s
t
下执行动作a
t
的预期回报,γ为折扣系数,0<γ<1;r为及时奖励,t为状态s
t
下已配置的资源参数的数量,t=(0,

,n-1),n-1为资源参数的总数量。
[0216]
在一些实施例中,所述优化目标策略参数包括状态行为值q
π
(s,a),或者,
[0217]
所述优化目标策略参数包括状态值v
π
(s),其中,π(a|s)为状态s下根据动作策略π(s,a)采取动作a的概率,a为各状态下执行动作的集合。
[0218]
在一些实施例中,第一处理模块101用于,当所述优化目标策略参数为状态行为值q
π
(s,a)时,采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个状态下的优化目标策略参数。
[0219]
更新模块103用于,根据所述状态行为值q
π
(s,a)更新所述动作策略。
[0220]
在一些实施例中,第一处理模块101用于,当所述优化目标策略参数为状态值v
π
(s)时,采用动态规划算法计算所述优化目标策略参数。
[0221]
更新模块103用于,根据所述状态值v
π
(s)更新所述动作策略。
[0222]
本公开实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的单业务资源配置方法。
[0223]
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的单业务资源配置方法。
[0224]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0225]
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本发明的范围的情况下,可进行各种形式和细节上的改变。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献