一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的灾后电-路协同修复方法、系统与设备与流程

2022-03-26 13:59:31 来源:中国专利 TAG:


1.本发明属于配电网和城市交通网修复技术领域,具体涉及基于强化学习的灾后电-路协同修复方法、系统与设备。


背景技术:

2.随着全球气候的变化,极端自然灾害如台风、洪水等发生次数日益增加,对人民的生命财产安全和社会稳定发展造成了巨大的威胁。配电网作为电力系统的关键环节和薄弱环节,其安全稳定的运行状态是正常电力供应的基础;城市交通网络作为连接各地理区域的物理通道,其正常通行的状态是社会资源调度的前提。因此,如何增强配电网和城市交通网络对极端自然灾害的抵御能力,对减少社会总效益的损失具有重要的意义与价值。
3.在提升配电网对极端自然灾害抵御能力方面,现有研究主要从灾前、灾中和灾后三个时间维度,采取不同的恢复力增强策略提升配电网的弹性。在灾害发生前,主要通过对配电网薄弱环节的辨识和关键元件的增强降低元件损毁概率;在灾害发生时,通过分布式电源接入、联络开关闭合等网络重构策略降低系统失负荷量;在灾害发生后,通过对救灾资源、维修人员的调度,对受损元件进行修复。考虑到极端自然灾害的破坏性,配电网往往会发生高阶故障,因此,灾后相应的维修过程是必需的。维修人员调度问题的基本研究思路是以配电系统失负荷量最小为目标,考虑路径规划、维修顺序等约束建立优化问题并求解。同时,现有研究通过对维修人员的预调度、受损元件的分配等方式提高对大型配电网高阶故障的修复效率。在提升城市交通网络对极端自然灾害的抵御能力方面,现有研究主要基于tsp(traveling salesman problem)问题和vrp(vehicle routing problem)问题等建立考虑通行时间、维修时间的最短路模型进行求解。但是在配电网和城市交通网络协同修复方面,现有的研究涉及较少。交通网络的修复计划对电力网络的修复计划具有单向的影响。同时,电力网络与交通网络故障数量的叠加使得电-路联合系统的故障阶数进一步增加,传统的优化方法难以解决高阶故障下求解速度慢、收敛性差等问题。


技术实现要素:

4.本发明的目的在于提供基于强化学习的灾后电-路协同修复方法、系统与设备,以克服现有技术的不足,提高极端自然灾害下配电网与城市交通网络的协同修复效率,降低社会总效益的损失,增强电-路联合系统对自然灾害的抵御能力。
5.一种基于强化学习的灾后电-路协同修复方法,包括以下步骤
6.s1,基于配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置,构建时序马尔可夫决策网络;
7.s2,根据电-路联合系统当前所处状态以及可采取的动作集合,采用蒙特卡洛树搜索方法根据时序马尔可夫决策网络对维修队下一步的修复对象进行选择,形成以电-路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集;
8.s3,构建以电-路联合系统的状态为输入、以电-路联合系统的下一步的修复对象
为输出的快速决策网络,采用s2获取的数据集对快速决策网络进行优化,最小化快速决策网络的动作选择误差;
9.s4,采用优化后的快速决策网络,根据自然灾害下配电网与交通网络的故障数据生成协同修复计划。
10.进一步的,时序马尔可夫决策网络包括状态空间、动作空间、状态转移和奖励函数四元组。
11.进一步的,从配电网、城市交通网络和维修队三个层次收集数据信息进行拼接,得到状态空间s的表示如下:
[0012][0013]
其中,e1,e2,l,en分别表示各输电线路的运行状态,n为配电网输电线路总数;r1,r2,l,rm分别表示各交通道路的通行状态,m为交通网络道路总数;共计n个0-1变量中仅有一个变量表示电力部门维修队的当前位置在输电线路i处;共计m个0-1变量中仅有一个变量表示交通部门维修队的当前位置在交通道路j处。
[0014]
进一步的,采用集合e(t)和集合r(t)分别表示修复后恢复正常的线路编号集合和道路编号集合,动作空间a(t)的表示如下:
[0015][0016]
变量和分别表示线路i和道路j的编号。
[0017]
进一步的,当故障线路、故障道路经修复后恢复正常运行状态,或维修队位置发生变化时,对状态空间s中的0-1变量进行更新。
[0018]
进一步的,以社会效益损失值的负数作为每一步修复计划的奖励值,奖励函数r(s,a)的表达式如下:
[0019][0020]
其中,是配电网节点总数,是在状态s下节点i的失负荷功率,是在状态s下前往故障线路a时所需的通行时间,是修复线路为a时所需的修复时间;是在状态s下前往故障道路a时所需的通行时间,是修复道路为a时所需的修复时间,la是道路a的长度,ce为单位电量产生的社会效益,cr为单位长度道路在单位时间内产生的社会效益。
[0021]
进一步的,将数据集中各样本对应的最优动作进行独热编码作为样本标签,并使用交叉熵函数作为损失函数对快速决策网络进行训练,交叉熵函数的表达式如下:
[0022]
[0023]
式中,b表示批大小,|a(t)|表示可选择的动作集合a(t)中的动作个数,y
b,a
表示第b个样本标签在动作a的独热编码值,p
b,a
表示快速决策网络以第b个样本为输入时,动作a被选择的概率值。
[0024]
进一步的,根据自然灾害下配电网和交通网络的网络拓扑、故障信息,以及维修站的位置和维修队的当前位置,共同构成电-路联合系统的初始状态,将该初始状态输入至优化后的快速决策网络,决策下一步的修复对象,并根据决策结果和实时修复情况更新电-路联合系统的状态。
[0025]
一种基于强化学习的灾后电-路协同修复系统,包括:
[0026]
初始网络模块,用于根据配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置,构建时序马尔可夫决策网络;
[0027]
数据训练模块,用于根据电-路联合系统当前所处状态以及可采取的动作集合,采用蒙特卡洛树搜索方法根据时序马尔可夫决策网络对维修队下一步的修复对象进行选择,形成以电-路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集;
[0028]
网络优化模块,用于以电-路联合系统的状态为输入、以电-路联合系统的下一步的修复对象为输出的快速决策网络,采用数据训练模块得到的数据集对快速决策网络进行优化,最小化快速决策网络的动作选择误差;
[0029]
修复决策模块,采用优化后的快速决策网络,根据自然灾害下配电网与交通网络的故障数据生成协同修复计划。
[0030]
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现灾后电-路协同修复方法的步骤。
[0031]
与现有技术相比,本发明具有以下有益的技术效果:
[0032]
本发明一种基于强化学习的灾后电-路协同修复方法,通过配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置,构建时序马尔可夫决策网络,然后根据电-路联合系统当前所处状态以及可采取的动作集合,采用蒙特卡洛树搜索方法根据时序马尔可夫决策网络对维修队下一步的修复对象进行选择,形成以电-路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集,构建以电-路联合系统的状态为输入、以电-路联合系统的下一步的修复对象为输出的快速决策网络,本发明考虑了电-路联合系统修复计划存在的矛盾性与协同性,构建的强化学习算法有助于提高两者的协同修复效率,增强电-路联合系统对自然灾害的抵御能力。
[0033]
本发明考虑了交通网络实时维修情况对配电网维修计划的约束,以社会效益的总损失最小为目标,使用集中式强化学习算法优化配电网和交通部门的修复计划。
[0034]
进一步的,本发明基于强化学习框架设计状态空间、动作空间和奖励函数,并使用mcts算法对电-路联合系统的修复对象选择进行优化,既避免了电-路联合系统耦合故障后优化方法求解速度慢、收敛性差等问题,又考虑了实际场景中修复时间和通行时间的不确定性,并基于时间不确定性的经验分布得到下一步最优的修复对象。
[0035]
本发明使用电-路联合系统的状态与mcts算法优化后的动作构建数据集,用于训练快速决策网络,从而实现修复对象的选择。快速决策网络的应用可以大大加快电-路联合系统耦合故障下修复对象选择的决策速度,减少极端灾害发生后在线决策过程所需要的时
间,进一步增强维修队在应急场景下的快速动作能力。
附图说明
[0036]
图1为本发明实施例中具体流程意图。
[0037]
图2为本发明实施例中mcts算法的示意图。
[0038]
图3为本发明实施例中快速决策网络的神经网络结构图。
[0039]
图4为本发明实施例中电-路耦合故障修复计划制定的流程图。
具体实施方式
[0040]
下面给出的实施例拟对本发明作进一步说明,但不能理解为是对本发明保护范围的限制,本领域技术人员根据本发明内容对本发明的一些非本质的改进和调整,仍属于本发明的保护范围。
[0041]
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
[0042]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0043]
本发明一种基于强化学习的灾后电-路协同修复方法,包括以下步骤:
[0044]
基于配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置,针对协同修复过程中电-路联合系统的状态空间和动作空间进行设计,并定义状态随动作确定性转移的数学化表示。同时,基于配电网的失负荷量和道路修复时间与长度设计考虑修复时间和通行时间不确定性的奖励函数,实现对协同修复决策过程的反馈与评估。
[0045]
基于电-路联合系统当前所处状态以及可采取的动作集合,使用蒙特卡洛树搜索(mcts)算法对维修队下一步的修复对象进行选择,同时基于奖励函数对修复对象的选择进行优化,最终形成以电-路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集;
[0046]
基于模仿学习,设计以电-路联合系统的状态为输入、以电-路联合系统的动作即下一步的修复对象为输出的快速决策网络。采用步骤2中形成的数据集对该快速决策网络进行训练,最小化快速决策网络的动作选择误差;
[0047]
收集极端自然灾害下配电网与交通网络的实际数据,并构成电-路联合系统的初始状态,输入至步骤3中训练后的深度神经网络中,选择下一步的修复对象。同时根据实时修复情况更新电-路联合系统的状态,循环输入至该深度神经网络中,最终得到该协同修复计划下相应的社会效益总损失值。
[0048]
具体的流程如图1所示。本发明一共包括四大部分,分别为协同修复决策过程的四元组设计、基于mcts的训练集数据生成、快速决策网络的构建与训练和电-路耦合故障修复计划的制定。各部分具体如下。
[0049]
协同修复决策过程的四元组设计
[0050]
极端自然灾害下,电-路联合系统易发生高阶耦合故障,因此电网维修队与路网维修队修复顺序的制定属于时序决策问题。由于本发明基于强化学习框架对电-路的修复计划进行制定,因此需要将电-路高阶耦合故障的协同修复过程建模为时序马尔可夫决策模型,即设计其相应的状态空间、动作空间、状态转移和奖励函数四元组。下面对该时序马尔可夫决策过程的四元组设计进行详细阐述。
[0051]
状态空间:
[0052]
从配电网、城市交通网络和维修队三个层次收集数据信息,构建协同修复决策过程的状态空间。
[0053]
在配电网层次中,需要考虑配电网的网络拓扑和故障线路的信息,因此针对各输电线路进行编号,用0-1变量ei表示线路i的运行状态,0和1分别表示该线路当前处于正常运行状态和故障状态;
[0054]
在城市交通网络层次中,需要考虑交通网络的网络拓扑和故障道路的信息,因此针对各交通道路进行编号,用0-1变量rj表示道路j的通行状态,0和1分别表示该道路当前处于正常通行状态和故障状态;
[0055]
在维修队层面,需要考虑维修队当前所在的位置,本发明考虑了一个电力部门维修队和一个交通部门维修队,并用独热编码表示维修队当前所在的输电线路位置和交通道路位置。将三个层次收集的数据信息进行拼接,得到状态空间s的表示如下:
[0056][0057]
其中,e1,e2,l,en分别表示各输电线路的运行状态,n为配电网输电线路总数;r1,r2,l,rm分别表示各交通道路的通行状态,m为交通网络道路总数;共计n个0-1变量中仅有一个变量表示电力部门维修队的当前位置在输电线路i处;共计m个0-1变量中仅有一个变量表示交通部门维修队的当前位置在交通道路j处。
[0058]
动作空间:
[0059]
本发明使用变量和分别表示线路i和道路j的编号。
[0060]
考虑到维修队在救援前准备、以及修复线路或道路时不能中断当前工作,因此本发明使用0-1变量和分别表示电力部门维修队和交通部门维修队的当前状态,0和1分别表示维修队可以执行与不能执行下一步修复计划,t表示当前的时刻;同时,修复后恢复正常的线路和道路也不作为下一步可选择的修复对象,采用集合e(t)和集合r(t)分别表示修复后恢复正常的线路编号集合和道路编号集合。因此,动作空间a(t)的表示如下:
[0061][0062]
需要指出的是,当电力部门的维修队与交通部门的维修队均处于空闲状态时,由于下一步修复对象的选择过程时间很短,故默认先对电力部门的下一步修复对象进行选择。
[0063]
状态转移:
[0064]
当故障线路、故障道路经修复后恢复正常运行状态,或维修队位置发生变化时,
电-路联合系统的状态也随之发生变化,此时对式(1)中的0-1变量进行更新即可。
[0065]
奖励函数:
[0066]
由于受损线路和受损道路的修复目标是减少极端灾害发生后的电网失负荷量和道路修复时间,最小化社会效益的总损失值,因此本发明以社会效益损失值的负数作为每一步修复计划的奖励值。
[0067]
考虑到电网失负荷量和道路修复时间的量纲不同,不能直接作为社会效益的损失值,因此本发明引入单位电量产生的社会效益ce与单位长度道路在单位时间内产生的社会效益cr。奖励函数r(s,a)的表达式如下:
[0068][0069]
其中,是配电网节点总数,是在状态s下节点i的失负荷功率,是在状态s下前往故障线路a时所需的通行时间,是修复线路为a时所需的修复时间;是在状态s下前往故障道路a时所需的通行时间,是修复道路为a时所需的修复时间,la是道路a的长度。
[0070]
考虑到维修队的通行过程可能会遇到堵塞,且维修队的故障修复过程的时间也具有一定的不确定性,因此,本发明在式(3)的基础上加入通行时间和维修时间的概率分布,增强优化后的电-路协同修复计划的鲁棒性。计及时间不确定性的奖励函数r(s,a)的表达式如下所示:
[0071][0072]
其中,是在状态s下前往故障线路a对应的通行时间不确定量,是修复线路a对应的修复时间不确定量;是在状态s下前往故障道路a对应的通行时间不确定量,是修复道路a对应的修复时间不确定量。
[0073]
基于式(4)中计及时间不确定性的奖励函数,在状态s1下依次选择动作a1,a2,l,a
τ
对应的累计奖励值r(s1,a1,a2,l,a
τ
)可以表示为:
[0074][0075]
其中在k》1时,电-路联合系统的状态sk由s
k-1
和a
k-1
通过状态转移得到。
[0076]
基于mcts的训练集数据生成
[0077]
基于协同修复决策过程的状态空间、动作空间、状态转移和奖励函数,本发明使用强化学习中的mcts算法制定具体的协同修复计划,指导维修队进行灾后修复工作。
[0078]
考虑到灾后修复过程是时序决策过程,维修队在每个阶段需要根据当前的电-路故障情况,从不多于n m个故障对象中选择一个前往修复。因此在每个阶段,本发明均使用
mcts算法进行4(n m)次搜索,并构建搜索树,最后根据汇总的搜索结果选择当前电-路故障状态下最优的修复对象。需要注意的是,搜索树的节点对应于电-路联合系统的状态,搜索树的边对应于电-路联合系统的动作,即修复对象。
[0079]
在每个阶段构建搜索树的过程中,将当前电-路联合系统的状态作为搜索树的根节点,且每个阶段中搜索树的根节点是不变的。mcts算法在每次搜索时均分为四步,分别是选择、扩展、模拟和回溯,具体可参见图2。
[0080]
下面对mcts每次搜索的过程进行详细阐述。
[0081]
选择:
[0082]
基于当前节点对应的状态s,根据式(2)得到当前可采取的动作集合。在此基础上,本发明使用上限置信区间(uct)算法对动作进行选择。uct算法的选择策略既倾向于选择平均累计收益更高的动作,又愿意探索被选择次数少的动作,uct(s,a)的具体表达式如下:
[0083][0084][0085]
式(6)中,q(s,a)为在状态s下选择动作a对应的累计奖励值,n(s,a)是在状态s选择动作a的次数,cb是利用和探索之间的平衡常数,取值为n(s)是电-路联合系统处于状态s的总次数。式(7)中,是在状态s第i次选择动作a时对应的累计奖励值,其中是第i次选择动作a后执行的动作集合,
[0086]
在状态s下选择uct值最大的动作,将选择的动作添加到相应的集合中,并更新电-路联合系统的状态到相应的子节点处,重复上述选择动作,直至电-路联合系统处于未被探索过的状态或故障全部修复完毕。
[0087]
扩展:
[0088]
当电-路联合系统处于状态s但仍有动作未被选择时,由式(6)可知,未被选择的动作对应的uct值为无穷大。因此,uct算法会优先选择未被探索过的动作a,将选择的动作a添加到相应的集合中,并更新电-路联合系统的状态为s


[0089]
模拟:
[0090]
当电-路联合系统处于未被探索过的状态s

时,采用随机均匀采样策略选择接下来的动作直至所有的故障被修复完成,并将随机均匀采样得到的动作全部添加到相应的集合中,并计算本次模拟对应的累计奖励值
[0091]
回溯:
[0092]
在每次模拟结束后,从状态s

开始依次向根节点回溯,更新各个被选择状态和动作的选择次数n(s)和n(s,a),以及相应的累计奖励值q(s,a)。具体的更新公式如下:
[0093]
n(s)=n(s) 1
ꢀꢀ
(16)
[0094]
n(s,a)=n(s,a) 1
ꢀꢀ
(17)
[0095][0096]
在每个阶段重复上述四个步骤共4(n m)次后,根据构建的搜索树选择电-路联合系统当前状态下的最优动作,即搜索树的根节点处累计奖励值q(s,a)最大的动作,作为下一步的修复对象。同时形成相应的状态-动作对,作为快速决策网络的训练样本。
[0097]
基于根节点和相应的最优动作更新电-路联合系统的状态,同时更新搜索树的根节点为转移后的状态,且仅保留该节点下的树结构。在此基础上进行下一阶段的搜索,并在每个阶段搜索完成时形成相应的状态-动作对添加至训练集中。
[0098]
快速决策网络的构建与训练:
[0099]
考虑到mcts算法的搜索过程需要一定的时间,难以满足灾后电-路联合系统故障修复的快速性要求。因此,本发明基于mcts算法生成的训练集和模仿学习,构建了以电-路联合系统的状态为输入、以电-路联合系统在当前状态下采取的动作即下一步修复对象为输出的快速决策网络,具体的网络结构如图3所示。
[0100]
快速决策网络的基本结构是前馈神经网络,一共包括一个输入层、一个输出层和八个隐藏层。快速决策网络的输入层和隐藏层均采用elu非线性函数作为激活函数,输出层采用softmax层作为激活函数。需要指出的是,输出层的输出在输入至softmax层前,需要舍弃电-路联合系统在当前状态和当前时间下不能采取的动作集合。两个激活函数的表达式如下:
[0101][0102][0103]
式(12)中,xi是快速决策网络输出层舍弃不合理动作后输出向量的第i个分量,该输出向量共n个分量。
[0104]
为了避免层数过深可能造成的梯度消失问题,本发明在前馈神经网络的基础上加入残差连接结构,有效解决了多个隐藏层堆栈后的不收敛问题。第k个残差连接的输出yk为:
[0105]
yk=g(f(x
2k-1
)) x
2k-1
ꢀꢀꢀ
(21)
[0106]
f(x
2k-1
)=elu(w
2k-1
x
2k-1
b
2k-1
)
ꢀꢀꢀ
(22)
[0107]
g(x
2k
)=elu(w
2k
x
2k
b
2k
)
ꢀꢀꢀ
(23)
[0108]
式(13)中,x
2k-1
是第2k-1个隐藏层的输入;式(14)中,w
2k-1
和b
2k-1
分别是第2k-1个隐藏层的权重矩阵与偏置;式(15)中,x
2k
是第2k个隐藏层的输入,w
2k
和b
2k
分别是第2k个隐藏层的权重矩阵与偏置。
[0109]
考虑到快速决策网络的输出是各个动作对应的选取概率值,因此本发明将训练集中各样本对应的最优动作进行独热编码作为样本标签,并使用交叉熵函数作为损失函数对快速决策网络进行训练。交叉熵函数的表达式如下:
[0110]
[0111]
式中,b表示批大小,|a(t)|表示可选择的动作集合a(t)中的动作个数,y
b,a
表示第b个样本标签在动作a的独热编码值,p
b,a
表示快速决策网络以第b个样本为输入时,动作a被选择的概率值。
[0112]
电-路耦合故障修复计划的制定:
[0113]
为了验证本发明提出的基于mcts算法和快速决策网络制定修复计划的有效性,需要收集极端自然灾害下配电网与交通网络的实际数据,具体包括配电网和交通网络的网络拓扑、故障信息,以及维修站的位置和维修队的当前位置,共同构成电-路联合系统的初始状态。将该初始状态输入至步骤3中训练后的深度神经网络中,决策下一步的修复对象,并根据决策结果和实时修复情况更新电-路联合系统的状态,循环输入至该深度神经网络中。最终得到该故障场景下基于mcts算法和快速决策网络制定的协同修复计划,以及相应的社会效益总损失值。具体的流程图见图4。
[0114]
在离线阶段,可以利用mcts算法的生成训练数据,并根据构建的训练集优化快速决策网络,不要求该阶段具有实时性与快速性。在在线阶段,需要循环利用快速决策网络得到电-路耦合故障的协同修复计划,考虑到快速决策网络的映射过程仅需要简单的乘积求和运算以及数个非线性运算,时间复杂度低。因此,相比传统的优化方法,本发明提出的基于mcts算法和快速决策网络的灾后电网与路网协同修复方法具有高效性与快速性。
[0115]
本发明一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器采用中央处理单元(cpu),或者采用其他通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可用于灾后电-路协同修复方法的操作。
[0116]
一种基于强化学习的灾后电-路协同修复系统,包括:
[0117]
初始网络模块,用于根据配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置,构建时序马尔可夫决策网络;
[0118]
数据训练模块,用于根据电-路联合系统当前所处状态以及可采取的动作集合,采用蒙特卡洛树搜索方法根据时序马尔可夫决策网络对维修队下一步的修复对象进行选择,形成以电-路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集;
[0119]
网络优化模块,用于以电-路联合系统的状态为输入、以电-路联合系统的下一步的修复对象为输出的快速决策网络,采用数据训练模块得到的数据集对快速决策网络进行优化,最小化快速决策网络的动作选择误差;
[0120]
修复决策模块,采用优化后的快速决策网络,根据自然灾害下配电网与交通网络的故障数据生成协同修复计划。
[0121]
本发明再一个实施例中,本发明还提供了一种存储介质,具体采用计算机可读存储介质(memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。计算机可读存储介质包括终端设备中的内置存储介质,提供存储空间,存储了终端的操作系统,也可包括终端设备所支持的扩展存储介质。并且,在该存储空间中还存放了适于被
处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中可用于灾后电-路协同修复方法的相应步骤。
[0122]
本发明针对极端自然灾害下电-路联合系统的耦合故障场景,考虑了交通网络实时维修情况对配电网维修计划的约束,以社会效益的总损失最小为目标,使用集中式强化学习算法优化配电网和交通部门的修复计划。本发明考虑了电-路联合系统修复计划存在的矛盾性与协同性,构建的强化学习算法有助于提高两者的协同修复效率,增强电-路联合系统对自然灾害的抵御能力。
[0123]
本发明基于强化学习框架设计状态空间、动作空间和奖励函数,并使用mcts算法对电-路联合系统的修复对象选择进行优化,既避免了电-路联合系统耦合故障后优化方法求解速度慢、收敛性差等问题,又考虑了实际场景中修复时间和通行时间的不确定性,并基于时间不确定性的经验分布得到下一步最优的修复对象。
[0124]
本发明使用电-路联合系统的状态与mcts算法优化后的动作构建数据集,用于训练快速决策网络,从而实现修复对象的选择。快速决策网络的应用可以大大加快电-路联合系统耦合故障下修复对象选择的决策速度,减少极端灾害发生后在线决策过程所需要的时间,进一步增强维修队在应急场景下的快速动作能力。
[0125]
以上对本发明的实施例进行了详细说明,但所述仅是本发明的一部分实施例,本发明的保护范围并不局限于此。基于本发明中的实施例,本领域技术人员所做的非创造性的改进、等同替换和变化等,均应归属于本发明的专利涵盖范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献