一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种配电网拓扑的控制方法、系统、设备及存储介质与流程

2022-03-09 10:03:54 来源:中国专利 TAG:


1.本发明属于电力系统自动化技术领域,涉及一种配电网拓扑的控制方法、系统、设备及存储介质。


背景技术:

2.拓扑优化问题在研究中往往需要将各类控制开关状态定义为0、1的二元变量。而整数的引入及系统模型复杂性造成了传统优化的应用困难,故常采用编码、映射等方式基于如改进粒子群,量子人工蜂群等的启发式优化算法进行求解。这些方法适合基于计划的控制优化,对求解的实时性不能满足。人工智能技术的出现为配电网拓扑控制提供了新思路,为实现从运行特征到网络控制策略的端到端决策解决传统优化计算的实时性瓶颈,其中以深度强化学习技术为主要研究方向。
3.但一般意义上的深度强化学习需要严格稳定的交互环境,且无法清晰构建成马尔科夫决策过程的优化计算使其丧失优势。这些问题使该技术应用在配电网拓扑优化上受限,其一是因为拓扑的改变使环境变得不稳定,导致动作意义发生变化;其二是线路的运行方式是组合效果而非长期收益,很难评价它在形成及改变过程中的具体价值,故只能以单步决策建模,因此不能利用深度强化学习对配电网拓扑进行控制。


技术实现要素:

4.本发明的目的在于克服上述现有技术的缺点,提供了一种配电网拓扑的控制方法、系统、设备及存储介质,该方法、系统、设备及存储介质能够利用深度强化学习对配电网拓扑进行控制。
5.为达到上述目的,本发明采用如下技术方案:
6.本发明一方面,本发明提供了一种配电网拓扑的控制方法,包括:
7.获取配电网拓扑的静态信息及动态信息;
8.将配电网拓扑的静态信息及动态信息输入到利用ac强化学习算法训练后的配电网拓扑控制模型中,得到配电网拓扑中开关组合的控制信息;
9.根据配电网拓扑中开关组合的控制信息对配电网拓扑进行控制,完成配电网拓扑的控制。
10.本发明所述配电网拓扑的控制方法进一步的改进在于:
11.所述将配电网拓扑的静态信息输入到利用ac强化学习算法训练后的配电网拓扑控制模型中之前还包括:
12.利用改进的指针网络构建配电网拓扑控制模型;
13.利用ac强化学习算法对配电网拓扑控制模型进行训练,得训练后的配电网拓扑控制模型。
14.所述构建配电网拓扑控制模型的具体过程为:
15.利用改进的指针网络,基于配电网拓扑中各线路电流限值、配电网拓扑中各节点
电压限值及预设目标函数构建配电网拓扑控制模型。
16.利用改进的指针网络及ac强化学习算法对配电网拓扑控制模型进行训练的过程中的奖励函数为:
[0017][0018]
其中,c1为可靠性的目标评价权重,c2为快速性的目标评价权重,g

为通过决策序列对待控制配电网拓扑进行处理的结果,d为配电网内的负荷节点数目,γi为配电网内第i个负荷节点的带电状态,ω为决策元素序列,βj为表示开关状态变化的0-1变量,其中,当开关状态发生变化时,则βj取为1,否则,则βj为0。
[0019]
第t时刻,所述改进的指针网络中的状态空间为:
[0020][0021]
其中,s
t
为第t时刻配电网拓扑的静态信息,d
t
为第t时刻配电网络拓扑的动态信息,m为配电网拓扑内可控开关数,sm为第m个可控开关的静态信息,d
t,m
第m个可控开关的动态信息的静态元素位置。
[0022]
第t时刻,配电网拓扑的动态信息d
t
为:
[0023][0024]
其中,m为动态信息的静态元素位置,xm为动态信息的静态元素的操作信息,g为配电网络拓扑结构,*为拓扑操作运算,γi为配电网内第i个负荷节点的带电状态,ω
t
为第t时刻的决策元素序列,d为配电网内的负荷节点数目,γi(g)表示拓扑g内负荷节点的带电状态。
[0025]
在t时刻,所述改进的指针网络中掩码的计算逻辑为:
[0026]
根据t-1时刻后掩码矩阵,依次将所有非0的状态加入到决策序列中,并判断所述约束条件是否满足,当不满足约束条件时,则将对应编码的掩码值置为0,否则,则将t时刻选择的状态编号掩码置为0,将t时刻选择状态的互斥状态掩码置为0,再将所述对应编码的掩码值置为0的掩码值还原。
[0027]
本发明二方面,本发明提供了一种配电网拓扑的控制系统,包括:
[0028]
获取模块,用于获取配电网拓扑的静态信息及动态信息;
[0029]
计算模块,用于将配电网拓扑的静态信息及动态信息输入到利用ac强化学习算法训练后的配电网拓扑控制模型中,得到配电网拓扑中开关组合的控制信息;
[0030]
控制模块,用于根据配电网拓扑中开关组合的控制信息对配电网拓扑进行控制,完成配电网拓扑的控制。
[0031]
本发明三方面,本发明提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述配电网拓扑的控制方法的步骤。
[0032]
本发明四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述配电网拓扑的控制方法的步骤。
[0033]
本发明具有以下有益效果:
[0034]
本发明所述的配电网拓扑的控制方法、系统、设备及存储介质在具体操作时,将配电网拓扑的静态信息输入到利用ac强化学习算法训练后的配电网拓扑控制模型中,得配电网拓扑中开关组合的控制信息,其中,利用ac强化学习算法对配电网拓扑控制模型进行训练,从而降低训练的效率及模型优化的复杂度,适用于多类故障的神经网络自学习以及端到端控制策略计算模型训练,然后根据配电网拓扑中开关组合的控制信息控制配电网拓扑,以实现利用深度强化学习对配电网拓扑进行控制的目的,操作方便、简单,实用性极强。
附图说明
[0035]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0036]
图1为本发明的方法流程图;
[0037]
图2为本发明的系统结构图;
[0038]
图3为改进的指针网络的结构图;
[0039]
图4为配电网拓扑控制模型的训练流程图。
[0040]
其中,1为获取模块、2为计算模块、3为控制模块。
具体实施方式
[0041]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0042]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0043]
下面结合附图对本发明做进一步详细描述:
[0044]
实施例一
[0045]
参考图1,本发明所述的配电网拓扑的控制方法,包括:
[0046]
1)构建配电网拓扑控制模型;
[0047]
步骤1)的具体过程为:
[0048]
对于配电网拓扑中的各开关,使用编号及对应的状态变量构建可行解完全集,为保证状态表达形式统一,将各正常可控开关表达为一组互斥元素的排列,即:
[0049]
[0050]
其中,开关的当前状态αn在开关的互斥状态之前,对于故障开关,其状态不存在互斥元素,以两项相同元素形成占位,即:
[0051]
{(n,0),(n,0)}
ꢀꢀꢀꢀ
(2)
[0052]
基于以上建模方式,决策元素完全集内描述拓扑状态的元素共2|v|个,对于决策元素完全集中的每一个元素x,其意义变化为对原拓扑g的一种操作,即将对应编号n的开关调整至元素对应的状态α上,得配电网拓扑的新拓扑g

为:
[0053]g′
=xn*x
n-1
*

*x0*g
ꢀꢀꢀꢀ
(3)
[0054]
其中,*表示拓扑操作运算。
[0055]
设网络拓扑决策前后的线路状态为:
[0056][0057][0058]
则以供电可靠性及快速性为目标,构建的目标函数为:
[0059][0060][0061]
以配网线路电流限值及节点电压限值为约束条件,即:
[0062]ijmin
≤ij≤i
jmax
ꢀꢀꢀꢀꢀꢀ
(7)
[0063]uimin
≤ui≤u
imax
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0064]
2)利用ac强化学习算法对配电网拓扑控制模型进行训练,得训练后的配电网拓扑控制模型;
[0065]
步骤2)的具体过程为:
[0066]
21)配电网拓扑控制模型的求解过程可以描述为:基于当前时刻决策序列循环,求取模型输出概率最大的元素,即:
[0067][0068]
x
t 1
=f(x
t
,y
t 1
)
ꢀꢀꢀꢀꢀ
(9)
[0069]
其中,x
t
为在t时刻的决策状态空间信息输入,y为在t时刻模型的决策输出信息,y
t
={y0,...,y
t
}为t时刻之前模型完成的决策输出序列,f为状态空间更新的状态转移函数,由于决策需要进行t次选择来完成,因此t=1,2,

,t。
[0070]
由式(9)可知,预测变量y始终在集合φ内,且集合φ中的元素直接构成状态空间x,研究该问题需要将模型的输出与模型的输入直接建立联系,通过输出策略反馈的奖励信号及运算过程变量构建高维特征,并进一步得到量化概率模型,即完成输入序列的自映射过程,指针网络是解决组合选取问题的一类模型,其核心是通过注意力机制完成特征对应及概率计算。
[0071]
22)改进的指针网络如图3所示,图1中的状态序列信息首先输入到编码器(encoder)中实现序列编码,目的是将显性信息转化为高维特征向量,编码器实现的向量嵌入一般由卷积或循环神经网络结构完成,考虑到编码器输入的决策状态特征及数据结构,在本发明中采用一维卷积网络结构作为编码器提取状态空间序列包含的隐性拓扑特征;然
后将编码器输出的高维特征作为解码器(decoder)的部分输入,结合注意力机制对原状态集合进行预测,通过求解式(9)循环求得网络拓扑组合,解码器的计算方式与rnn网络预测的方式相同,因此采用gru单元作为模块核心结构。
[0072]
其中,改进的指针网络中动态信息嵌入过程为:
[0073]
初始版本的指针网络只考虑静态状态空间的输入情况,即,x
t
为固定值,改进的指针网络将状态空间分为静态和动态两部分进行构建,即:
[0074][0075]
其中,s
t
表示静态信息,d
t
表示动态信息,m为配电网拓扑内可控开关数,sm为第m个可控开关的静态信息,d
t,m
第m个可控开关的动态信息的静态元素位置,在模型中嵌入表征执行当前元素导致的配网供电节点变化数的动态信息,能够准确表达每一步决策对整体方案可靠性的影响,动态信息d
t
为:
[0076][0077]
其中,m为动态信息的静态元素位置,xm为静态元素的操作信息。
[0078]
改进的指针网络中掩码的设计过程为:
[0079]
由于指针网络的决策依靠注意力机制计算得到的决策概率分布实现,将对应的概率降至0可避免元素被选取,该处理方式称为掩码,加入掩码后的注意力概率为:
[0080]at
=softmax(h
t
log(λ
t
))
ꢀꢀꢀꢀ
(12)
[0081]
其中,λ
t
表示当前时刻t的掩码向量,每位的取值均为0或1,当某一位取值为零时,对应位置元素被选取的概率计算为0,不会被选中,掩码的基础功能是控制指针无重复选取完全集中的元素,即每次预测后将对应元素编号对应的概率置零。
[0082]
以t时刻的模型决策为例,掩码的计算逻辑为:
[0083]
221)根据t-1时刻后掩码矩阵,依次将所有非0的状态加入决策序列并判断约束条件是否满足,当约束条件满足时,则转至步骤22),否则,则将不满足的对应编号掩码值置0;
[0084]
222)将t时刻选择的状态编号掩码置为0;
[0085]
223)将t时刻选择状态的互斥状态掩码置为0;
[0086]
224)将步骤21)中置为0的掩码值还原;
[0087]
225)当t等于限制轮数t,则掩码矩阵置为全0;否则,则保存掩码矩阵并用于t 1步决策。
[0088]
另外,为将初始拓扑信息及操作数目特征进行表示,在静态状态元素中加入表达开关状态变化的0-1变量β,其在对应编号开关发生变化时取值为1,反之,则为0,即静态状态空间ω为从完全集中选择的一半元素组成的集合,可表达为:
[0089]
ω={(n,βn,αn)|n=0

n}
ꢀꢀꢀꢀ
(13)
[0090]
加入β变量后,对元素的操作属性没有影响,仍然用*表示元素操作,由于动作空间没有显式的定义,其本质是对决策元素的选择,在模型中通过注意力机制概率模型进行表达。
[0091]
23)训练过程中,奖励函数间接表达目标函数的值,由于在决策阶段通过掩码方式屏蔽非法项,不需要设置约束惩罚项,奖励值以判断各节点负荷满足情况为主,以执行拓扑
操作统计为辅,构建的组合评价值为:
[0092][0093]
其中,c1表示可靠性的目标评价权重;c2表示快速性的目标评价权重,奖励函数的评价值越低,则组合策略方案越满足优化要求,在训练中采用梯度下降的更新方式。
[0094]
24)在训练过程中,以ac强化学习算法更新神经网络的参数,具体为:
[0095]
如图4所示,作为经典actor-critic架构算法,actor网络本身为指针网络,actor网络的输出并维护决策元素序列ω及序列对应的对数概率值集合π
p
,根据ω计算组合策略的评价函数值r,根据π
p
计算该组合被选出的概率,采用带基线的策略梯度更新actor网络,其目的是平抑网络更新的方差,其目标函数表达为:
[0096][0097]
计算目标函数的策略梯度,再利用基线修正,即:
[0098][0099]
其中,θ为指针网络的网络参数,π为决策策略,pθ为指针网络根据x输出的概率分布,x为决策状态空间,μ为critic网络的网络参数,b
μ
为critic网络的输出结果,由critic网络计算基线的预测结果,根据状态空间完全集对应的静态信息及动态信息,解码器输出判断决策难度及预期评价值,拟合返回组合策略的评价值,其目标函数为:
[0100]jμ
(x)=e[(r(π|x)-b
μ
(x))2]
ꢀꢀꢀꢀꢀꢀ
(17)
[0101]
3)获取配电网拓扑的静态信息及动态信息;
[0102]
4)将配电网拓扑的静态信息及动态信息输入到训练后的配电网拓扑控制模型中,得配电网拓扑中开关组合的控制信息;
[0103]
5)根据配电网拓扑中开关组合的控制信息对配电网拓扑进行控制,完成配电网拓扑的控制。
[0104]
实施例二
[0105]
参考图2,本发明所述配电网拓扑的控制系统,包括:
[0106]
获取模块1,用于获取配电网拓扑的静态信息及动态信息;
[0107]
计算模块2,用于将配电网拓扑的静态信息及动态信息输入到利用ac强化学习算法训练后的配电网拓扑控制模型中,得配电网拓扑中开关组合的控制信息;
[0108]
控制模块3,用于根据配电网拓扑中开关组合的控制信息对配电网拓扑进行控制,完成配电网拓扑的控制。
[0109]
实施例三
[0110]
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述配电网拓扑的控制方法的步骤,其中,所述存储器可能包含内存,例如高速随机存储器,也可能还包括非易失性
存储器,例如,至少一个磁盘存储器等;处理器、网络接口、存储器通过内部总线互相连接,该内部总线可以是工业标准体系结构总线、外设部件互连标准总线、扩展工业标准结构总线等,总线可以分为地址总线、数据总线、控制总线等。存储器用于存放程序,具体地,程序可以包括程序代码、所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0111]
实施例四
[0112]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述配电网拓扑的控制方法的步骤,具体地,所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器可以包括随机存储存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器可以包括只读存储器(rom)、硬盘、闪存、光盘、磁盘等。
[0113]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0114]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0115]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0116]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0117]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献