一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

建立潮流状态调整的并行深度强化学习模型的方法及系统与流程

2021-10-19 20:45:00 来源:中国专利 TAG:并行 电力系统 深度 模型 强化


1.本技术涉及电力系统技术领域,特别是涉及一种建立潮流状态调整的并行深度强化学习模型的方法及系统。


背景技术:

2.潮流方式分析与调整是电网仿真分析最基础的工作,为判别电网运行及规划设计方案的合理性、安全可靠性及经济性提供了定量分析的依据。其根据潮流分析的结果或者后续仿真计算的要求,修改电网潮流方程的参数和结构,将潮流方程的解调整至符合实际情况或后续仿真需要的值,生成运行方式。其中,将潮流状态调整至满足n

1静态稳定约束是重要的步骤之一。在实际工作中该项任务主要依靠人工进行潮流状态调整,自动化程度低。一般步骤是先对初始潮流进行n

1计算,观察潮流的越限情况,然后根据越限情况调整发电机的出力,然而在这个过程中,由于调整方向性不强、调整大小不明确,容易出现此消彼长的情况,导致调整效率的低下。
3.目前对潮流运行状态的调整进行了研究。一方面,通过最优潮流提出了一个最优潮流问题,其中考虑的区域是用灵敏度分析来定义的。通过电流注入法,以n

1安全性为目标。利用统一潮流控制器研究了电力系统的最优潮流控制问题。一种混合整数线性规划模型用以优化确定用于角度调整的移相变压器的子集,在最优潮流问题中,该子集可以调整为使总发电成本最小。通过了一种新的事故筛选模型来加速安全约束下的最优潮流,使在线应用成为可能。另一方面,通过一种实用的基于直流潮流模型灵敏度分析的有功潮流调整方法,提出了缓解流量敏感性的概念,用于在非重载线路上安装串联电容器,以缓解输电线路之间的负载差异。然而,无论是最优潮流还是构建指标,当应用于实际大电网时,由于约束条件复杂、电网规模大,目前对潮流运行状态的调整方法在大电网应用中的效果和收敛性较差。
4.针对上述的现有技术中存在的无论是最优潮流还是构建指标,当应用于实际大电网时,由于约束条件复杂、电网规模大,目前对潮流运行状态的调整方法在大电网应用中的效果和收敛性较差的技术问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本公开的实施例提供了一种建立潮流状态调整的并行深度强化学习模型的方法,以至少解决现有技术中存在的无论是最优潮流还是构建指标,当应用于实际大电网时,由于约束条件复杂、电网规模大,目前对潮流运行状态的调整方法在大电网应用中的效果和收敛性较差的技术问题。
6.根据本公开实施例的一个方面,提供了一种建立潮流状态调整的并行深度强化学习模型的方法,包括:建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程;根据所述潮流状态、动作、策略、奖励和回报,定位调整目标、筛选可动作设备、计算发电机的动作量,所述调整目标包括不同的断面合集;根据所述调整目标、可动作设备以及发电机的动
作量,建立考虑n

1静态稳定约束的潮流状态调整的并行深度强化学习模型。
7.根据本公开实施例的另一方面,还提供了一种建立潮流状态调整的并行深度强化学习模型的系统,包括:形成马尔科夫模块,用于建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程;计算动作量模块,用于根据所述潮流状态、动作、策略、奖励和回报,定位调整目标、筛选可动作设备、计算发电机的动作量;建立模型模块,用于根据所述调整目标、可动作设备以及发电机的动作量,建立考虑n

1静态稳定约束的潮流状态调整的并行深度强化学习模型。
8.在本发明中,通过满足静态稳定的潮流调整过程,构建潮流调整的马尔科夫决策过程。然后基于调整目标的定位、可动作设备的筛选以及动作量的计算,制定潮流状态调整策略,并通过灵敏度、转移比以及负载裕度加速调整过程。再建立并行深度强化学习模型,映射动作至潮流调整,形成发电机动作对,实现多断面目标并行调整。并且,对强化学习的动作策略和深度学习的网络进行改进,提升了学习效率。
附图说明
9.此处所说明的附图用来提供对本公开的进一步理解,构成本技术的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
10.图1是根据本公开实施例所述的一种建立潮流状态调整的并行深度强化学习模型的方法的流程示意图;
11.图2为本公开实施例所述的满足静态稳定约束的潮流自动调整方法示意图。
12.图3为本公开实施例所述的调整策略的流程与实现方法;
13.图4为本公开实施例所述的36节点系统迭代过程中平均调整步数和满足约束的比例;
14.图5为本公开实施例所述的36节点系统不同负载程度下累计越限总数的变化;
15.图6为本公开实施例所述的东北电网不同负载程度下累计越限总数的变化;
16.图7为本公开实施例所述的不同超参数下的实验结果;
17.图8是根据本公开实施例所述的一种建立潮流状态调整的并行深度强化学习模型的方法的示意图。
具体实施方式
18.现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
19.除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
20.根据本实施例的第一个方面,提供了一种建立潮流状态调整的并行深度强化学习模型的方法。参考图1所示,该方法包括:
21.s102:建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程;
22.s104:根据所述潮流状态、动作、策略、奖励和回报,定位调整目标、筛选可动作设备、计算发电机的动作量,所述调整目标包括不同的断面合集;
23.s106:根据所述调整目标、可动作设备以及发电机的动作量,建立考虑n

1静态稳定约束的潮流状态调整的并行深度强化学习模型。
24.具体地,参考图2所示,本实施例提供了一种建立潮流状态调整的并行深度强化学习模型的方法,包括形成马尔科夫决策过程、制定潮流状态调整策略、以及建立并行深度强化学习模型,所述形成马尔科夫决策过程是强化学习建立的基础,所述制定潮流状态调整策略是加速潮流调整的关键,所述基于建立并行深度强化学习模型是潮流调整的核心方法。
25.所述n

1静态稳定,指电力系统的n个元件中的任一独立元件(发电机、输电线路、变压器等)发生故障而被切除后,应不造成因其他线路过负荷跳闸而导致用户停电,不出现电压崩溃等事故。
26.所述形成马尔科夫决策过程,包括状态、动作、策略、奖励和回报的建立。
27.所述状态,即潮流状态,因此需要观察的变量主要包括当前各线路的有功功率和发电机的有功输出,则状态空间可表示为如下式所示。
[0028][0029]
其中,p
li
和p
gi
分别为第i条线路和第i个发电机的有功功率,n
l
和n
g
分别为线路和发电机的数量。
[0030]
所述动作,主要通过动作发电机使潮流满足约束,因此动作空间可表示为如下式。
[0031][0032]
式中,g
i
指第i个发电机的标志位。
[0033]
所述策略,是一种动作的条件概率分布p,具体可表示为下式。该策略可以作为动作的优化指标,在后续介绍的强化学习中有重要作用。
[0034]
π(a|s)=p(a|s)
[0035]
所述奖励,在调整过程中,当前潮流和n

1潮流都有可能出现越限情况,为引导动作使潮流满足静态稳定约束,给予越限情况一定的奖赏,具体奖赏设置如下。
[0036]
a)当前潮流越限情况
[0037]
若调整过程中,当前潮流越限,则给一定的负奖赏,具体设置如下式所示。
[0038][0039]
其中,λ
r
为奖赏系数;和分别为第i条线路的当前功率和功率上限;和分别为第i个节点的当前电压和电压下限。
[0040]
b)n

1潮流越限情况
[0041]
经过n

1计算后,得到n个缺失一个元件的潮流,根据这n个潮流的越限情况,统计每条线路的累计越限数n
l
,可表示为下式。
[0042][0043]
其中,为第i条线路的累计越限数;n
l
为线路总数。则累计越限总数n
zl
为:
[0044][0045]
要使潮流满足n

1约束,可将每次调整后的累计越限总数计入奖赏函数,体现当前的越线情况,具体可表示为下式:
[0046][0047]
其中,n
i
和n
init
分别为第j次调整后的越限数和初始越限数。
[0048]
线路的越限情况除了累计越限总数可以体现外,每条线路在每次调整后的越限转移情况也可以说明当前状态的越限情况,具体可表示为下式。
[0049][0050]
其中,为第j条线路的越限数,为第j条线路的初始越限数,n
init
和n
add
分别为初始越限数和当前增加越限数。
[0051]
除了考虑以上所述的越限数外,还需考虑越限功率的多少,体现当前的越限程度,奖赏设置可表示为下式。
[0052][0053]
其中,和分别为第j次调整后第i条越限线路的越限功率和越限线路数;和分别为初始状态下第i条越限线路的越限功率和越限线路数。
[0054]
所述回报,是奖励随时间的积累,可表示为下式:
[0055][0056]
其中,γ为衰减系数。
[0057]
参考图3所示,所述制定潮流状态调整策略,包括调整目标的定位、可动作设备的筛选、动作量的计算。
[0058]
所述调整目标的定位,经过一次n

1计算后,n次潮流计算的结果便可得到。然后,根据各线在n个潮流中的越限情况,统计各线路的越限数,并基于越限数由大到小对各线路进行排序。则基于越限数的线路排序为:
[0059][0060]
其中,为第i条线路的编号,为第i个节点的编号。
[0061]
为降低调整过程中不同调整对象之间的相互干扰程度,将具有相近电源区和相近负荷区的越限线路归为同一个输电断面。一般地,支路开断后,潮流往往涌向与其具有相同电源区及相同负荷区的输电断面。因此,需要在越限的线路和节点中识别输电断面。
[0062]
为识别越限线路的电源区和负荷区,引入调整灵敏度,定义如下式:
[0063]
s
i,j
=δp
l,j
/δp
g,i
[0064]
其中,δp
l,j
为发电机i的有功功率变化δp
g,i
时线路j的有功功率变化量。
[0065]
若s
i,j
为正,则发电机i属于线路j的电源区;若s
i,j
为负,则发电机i属于线路j的负荷区。形成每条线路的电源区κ
ps
和负荷区κ
ld

[0066][0067]
其中,g
i
表示第i台发电机;n
ps
为电源区的发电机数;n
ld
为负荷区的发电机数。
[0068]
判断各越限线路和节点是否具有相近电源区及负荷区,若相近,则这几条线路和节点就构成了薄弱输电断面,则该输电断面μ
c
可表示为下式。
[0069]
μ
c
={χ
l
(1),


l
(n
cl
),χ
n
(1),


n
(n
cn
)}
[0070]
其中,n
cl
为薄弱断面包含的线路数,n
cn
为薄弱断面包含的节点数。
[0071]
调整过程中,各线路和节点的越限情况会不断地变化,形成不同的断面集合,具体如下式。
[0072][0073]
其中,n
c
为一次调整过程中的输电断面数。
[0074]
所述可动作设备的筛选,在调整某个断面的潮流时,应遵循一定的原则,避免造成过多其他越限。具体原则如下:
[0075]
(1)选择对当前对象影响较大的设备;
[0076]
(2)尽量减少其他线路的潮流变化,否则容易导致其他线路的越限;
[0077]
(3)避免动作负载程度大的潮流部分。
[0078]
基于以上原则,为了在调整某条线路时,使调整后其他线路的潮流影响尽量小,在筛选可调整的发电机时,需考虑各发电机对各线路的功率调整变化情况,即选择上文提到的调整灵敏度。同时,在调整发电机功率时,潮流影响较大的是其周围的线路,周围线路的负载情况可能会影响调整后的越限情况,因此,需要考虑所动作发电机连接线路的负载裕度。连接线路负载裕度指某节点所连线路的功率裕度最小值,具体可表示为:
[0079][0080]
其中,p
li
和为线路i的功角差,ω
l
为节点连接的线路集合。
[0081]
根据调整灵敏度和连接线路负载裕度,对发电机进行初步筛选,将发电机相对于某条线路的影响程度进行排序,根据调整灵敏度的正负,得到以下正向调整发电机序列和负向调整发电机序列
[0082][0083]
然后,形成动作设备对a
match
,如下式所示。
[0084][0085]
所述动作量的计算,对于发电机的动作量计算,首先需要确定越限线路的调整量目标。越限线路的调整量目标与断开线路的功率缺额有关,常用转移因子来描述联络线传输功率波动峰值与功率缺额之间的关系。设某条线路的功率缺额为δp
l0
,越限线路的功率
波动为δp
lf
,则转移因子为:
[0086][0087]
则根据可得到越限线路的调整量目标δp
lt

[0088][0089]
其中,p
lop
为线路断开时的有功功率。
[0090]
然后,计算设备的动作量。动作发电机时,不仅需要考虑上文中的调整灵敏度,同时还需满足功率平衡,即开机量与关机量相等。发电机动作量与线路功率调整量的关系如下式所示,则可根据该式计算出发电机的动作量。
[0091][0092]
其中,和为目标线路的灵敏度匹配对,δp
g
和δp
l
分别为发电机动作量和线路功率调整量。
[0093]
考虑发电机的功限额,则发电机动作量为:
[0094][0095]
其中,p
gi
和p
maxi
分别为第i个发电机的有功功率和功率上限;p
gj
和p
maxj
分别为第j个发电机的有功功率和功率上限。
[0096]
所述建立并行深度强化学习模型,首先,构建actor和critic。actor使用策略函数,负责生成动作(action)并和环境交互。critic使用价值函数,负责评估actor的表现,并指导actor下一阶段的动作。则actor的参数梯度如下式所示。
[0097][0098]
其中,为动作值函数,n为采样次数,t
n
为一个episode所包含的时间段,p
θ
为策略参数θ的条件概率。
[0099]
根据动作设备对a
match
的调整灵敏度,给出动作的先验概率:
[0100][0101]
critic根据估计的q值和实际q值的平方误差进行更新,对critic来说,其loss为:
[0102][0103]
为了增加反馈的指导力度,对q值增加一个基准,使反馈有正有负,这个基准通常为价值函数v(s
t
),因此梯度就变为:
[0104][0105]
然而,上式意味着需要两个网络来分别计算q和v,于是,需将q进行如下估计:
[0106][0107]
则critic网络的损失变为实际的状态价值和估计的状态价值的平方损失,如下式所示。
[0108][0109]
将以上actor

critic网络放到多个线程中同步训练,构成global net和每个线程中的worker net,其结构相同,均为ac结构,唯一不同点在于主网络不需要进行训练,仅用于存储ac结构的参数。worker net每次运行之前,通过pull函数从global net获取运行参数(w,b),运行完之后通过push函数将参数返回到global net,更新global net的参数。一方面,多线程运行,提高了运行效率,另一方面,切断了相关性,利于程序的收敛。在每次迭代中,每个worker net训练一个断面,动作针对该断面灵敏度较高的发电机,实现多断面并行调整。
[0110]
本实施例中,先通过小算例进行验证,在小算例上运用本发明的方法,通过灵敏度选择动作设备,并使用深度强化学习进行功率调整,使样本调整调整至满足约束。测试结果验证了本发明的有效性。
[0111]
进一步的,所述小算例,对于new england 39

bus standard system,基于系统本身的初始收敛潮流,在0

2倍之间随机改变发电机和负荷,同时改变电容电抗器的投切情况,生成5000组数据。将4000组数据作为训练集,1000组数据作为测试集。对于实际大电网系统,本文采用东北电网,生成数据和数据分配的方法与上述一致。
[0112]
进一步的,所述36节点系统迭代过程中平均调整步数和满足约束的比例,参考图4所示,可以看到,在迭代过程中,潮流调整至满足n

1约束的平均步数逐渐降低,在60次迭代后趋于稳定,稳定至5到6步之间。同时,样本中满足约束的比例不断升高,60次迭代后逐渐收敛,最后满足约束的样本接近98%。
[0113]
进一步的,所述36节点系统不同负载程度下累计越限总数的变化,参考图5所示,,可以看出,负载为100%、80%、140%、时,其均可以逐渐降低至0,即均可调整至满足约束。但当负载增加180%时,累计越限总数稳定至55左右,无法降低到0,即不能调整至满足n

1约束。因此,对于39节点系统,在负载程度不会过高的情况下,可以将潮流在10步内调整至满足n

1约束。
[0114]
本发明实施例中,在东北电网进行验证,运用本发明的方法,通过灵敏度选择动作设备,并使用深度强化学习进行功率调整,使样本调整调整至满足约束。
[0115]
进一步的,所述东北电网在不同负载程度下累计越限总数的变化,参考图6所示,负载为100%、80%、120%、140%、160%时,累计越限总数均可以在50步逐渐降低至0,即均可调整至满足n

1约束。但当负载为原始潮流的200%时,累计越限总数稳定至200左右,不能调整至满足约束。因此,对于该实际电网,在负载程度不会过高的情况下,可以将潮流在50步内调整至满足n

1约束。
[0116]
进一步的,所述不同超参数下的实验结果,参考图7所示,奖赏系数、batch size、更新间隔d、全连接网络的层数对调整结果的影响如图7所示。对于奖赏系数,其直接作用于强化学习的奖赏大小。可以观察到,无论是39节点系统还是实际电网系统,在10~50时,csr
持续上升,到60时csr有所下降。因此,奖赏系数应取50。对于batch size,当其较小时,等效于在线学习,缺失长期的样本导致值函数拟合不准确,从而使效果降低;当其过大时,权重更新率降低,导致优化过程变得非常漫长。可以看出,对于39节点系统,batch size取30的效果最佳;对于实际电网系统,batch size取40的效果最佳。对于更新间隔d,涉及target神经网络的更新频率,actor network与critic并不同步更新,可以减少累计误差,从而降低方差。但d过高,又会导致更新过慢,无法学习到最新的动作。从图中可以看出,两个系统的d分别取2和3时训练效果最好。对于全连接网络的层数,当其很小时,模型容易欠拟合,导致训练效果下降;较大时,容易使模型过拟合,同样会使训练效果下降。从图中可以看出,两个系统的层数分别取3和4时训练效果最好。综上,在运用人工智能算法时,参数对结果的影响较大,因此,合理地配置参数很关键。
[0117]
从而,利用灵敏度、转移因子以及负载裕度等指标评估调整目标,并通过深度强化学习学习出最佳动作对象,完成了潮流越限相关设备的快速定位,并行调整多个断面,实现了潮流状态快速调整。
[0118]
在调整潮流过程中,可以定位出系统的薄弱部分,并通过深度强化学习可以学习到动作设备匹配对,实现了多断面同时调整,达到了潮流高效调整的效果。
[0119]
综上所述,通过满足静态稳定的潮流调整过程,构建潮流调整的马尔科夫决策过程。然后基于调整目标的定位、可动作设备的筛选以及动作量的计算,制定潮流状态调整策略,并通过灵敏度、转移比以及负载裕度加速调整过程。再建立并行深度强化学习模型,映射动作至潮流调整,形成发电机动作对,实现多断面目标并行调整。并且,对强化学习的动作策略和深度学习的网络进行改进,提升了学习效率。
[0120]
可选地,建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,包括:根据当前各线路的有功功率和发电机的有功功率,确定潮流状态空间为:
[0121][0122]
其中,s为潮流状态空间,p
li
和p
gi
分别为第i条线路和第i个发电机的有功功率,n
l
为线路的数量,n
g
为线路和发电机的数量;通过动作发电机使潮流满足约束,确定动作空间为:
[0123][0124]
其中,a为动作空间,g
i
为第i个发电机的标志位;
[0125]
根据以下公式,确定策略,所述策略是一种动作的条件概率分布p:
[0126]
π(a|s)=p(a|s)
[0127]
其中π为策略,a为动作。
[0128]
可选地,建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,还包括:在当前潮流越限的情况下,确定当前潮流越限的奖励为:
[0129][0130]
其中,r为当前潮流越限的奖励,λ
r
为奖赏系数,和分别为第i条线路的当前功率和功率上限,和分别为第i个节点的当前电压和电压下限。
[0131]
可选地,建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,还包括:在n

1潮流越限的情况下,确定经过n

1计算后,得到n个缺失一个元件的潮流,根据n个潮流的越限情况,统计每条线路的累计越限数:
[0132][0133]
其中,n
l
为每条线路的累计越限数,为第i条线路的累计越限数;
[0134]
根据所述每条线路的累计越限数以及线路总数,确定累计越限总数:
[0135][0136]
其中,n
zl
为累计越限总数,n
l
为线路总数;
[0137]
要使潮流满足n

1约束,将每次调整后的累计越限总数计入奖励,体现当前的越线情况,确定累计越限总数奖励为:
[0138][0139]
其中,r1为累计越限总数奖励,n
i
和n
init
分别为第j次调整后的越限数和初始越限数;
[0140]
将每条线路在每次调整后的越限转移情况计入奖励,体现当前状态的越限情况,确定越限转移情况奖励为:
[0141][0142]
其中,r2为越限转移情况奖励,为第j条线路的越限数,为第j条线路的初始越限数,n
init
和n
add
分别为初始越限数和当前增加越限数;
[0143]
将越限功率计入奖励,体现当前的越限程度,确定越限功率奖励为:
[0144][0145]
其中,r3为越限功率奖励,和分别为第j次调整后第i条越限线路的越限功率和越限线路数;和分别为初始状态下第i条越限线路的越限功率和越限线路数;
[0146]
根据所述累计越限总数奖励、越限转移情况奖励以及越限功率奖励,确定n

1潮流越限的奖励。
[0147]
可选地,建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,还包括:根据随着时间积累的奖励,确定回报:
[0148][0149]
其中,g为回报,t为时间,γ为衰减系数,τ为一个时间周期。
[0150]
可选地,根据所述马尔科夫决策过程,定位调整目标,包括:经过一次n

1计算后,根据各线在n个潮流中的越限情况,统计各越限线路的越限数,并基于所述越限数由大到小对各越限线路进行排序,基于越限数的线路排序为:
[0151]
[0152]
其中,x
l
为基于越限数的线路排序,为第i条线路的编号;
[0153]
根据发电机的有功功率变化量以及线路的有功功率变化量,确定调整灵敏度:
[0154]
s
i,j
=δp
l,j
/δp
g,i
[0155]
其中,δp
l,j
为发电机i的有功功率变化δp
g,i
时线路j的有功功率变化量。
[0156]
若s
i,j
为正,则发电机i属于线路j的电源区;若s
i,j
为负,则发电机i属于线路j的负荷区,确定每条线路的电源区和负荷区:
[0157][0158]
其中,κ
ps
为电源区,κ
ld
为负荷区,g
i
表示第i台发电机;n
ps
为电源区的发电机数;n
ld
为负荷区的发电机数;
[0159]
判断所述各越限线路和节点是否具有相近电源区及负荷区,若相近,则确定所述各越限线路和所述节点构成了薄弱输电断面,确定所述薄弱输电断面为
[0160]
μ
c
={χ
l
(1),


l
(n
cl
),χ
n
(1),


n
(n
cn
)}
[0161]
其中,μ
c
为薄弱输电断面,n
cl
为薄弱断面包含的线路数,n
cn
为薄弱断面包含的节点数;
[0162]
在调整过程中,所述各越限线路和节点的越限情况会不断地变化,根据所述各越限线路和节点,形成不同的断面集合:
[0163][0164]
其中,ω
c
为不同的断面集合,n
c
为一次调整过程中的输电断面数。
[0165]
可选地,根据所述马尔科夫决策过程,筛选可动作设备,包括:当调整发电机功率时,确定发电机的连接线路负载裕度,所述连接线路的负载裕度指节点所连线路的功率裕度最小值,根据以下公式确定连接线路负载裕度:
[0166][0167]
其中,d
l
为发电机的连接线路负载裕度,p
li
和为线路i的功角差,ω
l
为节点连接的线路集合;
[0168]
根据调整灵敏度和连接线路负载裕度,对发电机进行排序,确定正向调整发电机序列和负向调整发电机序列:
[0169][0170]
其中,为正向调整发电机序列,为负向调整发电机序列,为第一个正向发电机,为第二个正向发电机,为第n
g
个正向发电机,为第一个负向发电机,为第二个负向发电机,为第n
g

个负向发电机;
[0171]
根据所述正向调整发电机序列和所述负向调整发电机序列,形成动作设备对:
[0172][0173]
其中,a
match
为动作设备对。
[0174]
可选地,根据所述马尔科夫决策过程,计算发电机的动作量,包括:根据线路的功率缺额和越限线路的功率波动,确定转移因子:
[0175][0176]
其中,为转移因子,δp
l0
为线路的功率缺额,δp
lf
为越限线路的功率波动;根据所述转移因子,确定越限线路的调整量:
[0177][0178]
其中,δp
lt
为越限线路的调整量目标,p
lop
为线路断开时的有功功率;根据所述越限线路的调整量目标,确定线路功率调整量;根据所述线路功率调整量与发电机的动作量的关系,确定发电机的初始动作量:
[0179][0180]
其中,和为目标线路的灵敏度匹配对,δp
g
和δp
l
分别为发电机的初始动作量和线路功率调整量;考虑发电机的功限额,根据所述发电机的初始动作量,确定发电机动作量为:
[0181][0182]
其中,p
gi
和p
maxi
分别为第i个发电机的有功功率和功率上限;p
gj
和p
maxj
分别为第j个发电机的有功功率和功率上限。
[0183]
可选地,根据所述调整目标、可动作设备以及发电机的动作量,建立并行深度强化学习模型,包括:构建actor模型,利用所述actor模型通过策略函数生成动作和环境交互;构建critic模型,利用所述critic模型通过使用价值函数评估所述actor模型,指导所述actor模型下一阶段的动作;确定所述actor模型的参数梯度为:
[0184][0185]
其中,为参数梯度,为动作值函数,n为采样次数,t
n
为一个episode所包含的时间段,p
θ
为策略参数θ的条件概率为当前的状态,为动作;
[0186]
确定所述critic模型的损失函数为:
[0187][0188]
其中,loss为损失函数,n为采样次数,v
π
为值函数,t
n
为一个episode所包含的时间段,为下一时刻的状态,r
tn
为奖赏;根据所述actor模型和所述actor模型,确定actor

critic网络,并将所述actor

critic网络在多个线程中同步训练。
[0189]
根据本实施例的另一个方面,提供了一种建立潮流状态调整的并行深度强化学习模型的系统800。参考图8所示,该系统800包括:形成马尔科夫模块810,用于建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程;计算动作量模块820,用于根据所述潮流状态、动作、策略、奖励和回报,定位调整目标、筛选可动作设备、计算发电机的动作量;建立
模型模块830,用于根据所述调整目标、可动作设备以及发电机的动作量,建立考虑n

1静态稳定约束的潮流状态调整的并行深度强化学习模型。
[0190]
可选地,形成马尔科夫模块810,包括:确定潮流状态子模块,用于根据当前各线路的有功功率和发电机的有功功率,确定潮流状态空间为:
[0191][0192]
其中,s为潮流状态空间,p
li
和p
gi
分别为第i条线路和第i个发电机的有功功率,n
l
为线路的数量,n
g
为线路和发电机的数量;
[0193]
确定动作子模块,用于通过动作发电机使潮流满足约束,确定动作空间为:
[0194][0195]
其中,a为动作空间,g
i
为第i个发电机的标志位;
[0196]
确定策略子模块,用于根据以下公式,确定策略,所述策略是一种动作的条件概率分布p:
[0197]
π(a|s)=p(a|s)
[0198]
其中π为策略,a为动作。
[0199]
可选地,形成马尔科夫模块810,还包括:确定奖励子模块,用于在当前潮流越限的情况下,确定当前潮流越限的奖励为:
[0200][0201]
其中,r为当前潮流越限的奖励,λ
r
为奖赏系数,和分别为第i条线路的当前功率和功率上限,和分别为第i个节点的当前电压和电压下限。
[0202]
可选地,形成马尔科夫模块810,还包括:统计累计越限数子模块,用于在n

1潮流越限的情况下,确定经过n

1计算后,得到n个缺失一个元件的潮流,根据n个潮流的越限情况,统计每条线路的累计越限数:
[0203][0204]
其中,n
l
为每条线路的累计越限数,为第i条线路的累计越限数;
[0205]
确定累计越限总数子模块,用于根据所述每条线路的累计越限数以及线路总数,确定累计越限总数:
[0206][0207]
其中,n
zl
为累计越限总数,n
l
为线路总数;
[0208]
确定累计越限总数奖励子模块,用于要使潮流满足n

1约束,将每次调整后的累计越限总数计入奖励,体现当前的越线情况,确定累计越限总数奖励为:
[0209][0210]
其中,r1为累计越限总数奖励,n
i
和n
init
分别为第j次调整后的越限数和初始越限数;
[0211]
确定越限转移情况奖励子模块,用于将每条线路在每次调整后的越限转移情况计
入奖励,体现当前状态的越限情况,确定越限转移情况奖励为:
[0212][0213]
其中,r2为越限转移情况奖励,为第j条线路的越限数,为第j条线路的初始越限数,n
init
和n
add
分别为初始越限数和当前增加越限数;
[0214]
确定越限功率奖励子模块,用于将越限功率计入奖励,体现当前的越限程度,确定越限功率奖励为:
[0215][0216]
其中,r3为越限功率奖励,和分别为第j次调整后第i条越限线路的越限功率和越限线路数;和分别为初始状态下第i条越限线路的越限功率和越限线路数;
[0217]
确定n

1潮流越限奖励子模块,用于根据所述累计越限总数奖励、越限转移情况奖励以及越限功率奖励,确定n

1潮流越限的奖励。
[0218]
可选地,形成马尔科夫模块810,还包括:确定回报子模块,用于根据随着时间积累的奖励,确定回报:
[0219][0220]
其中,g为回报,t为时间,γ为衰减系数,τ为一个时间周期。
[0221]
可选地,计算动作量模块820,包括:排序越限线路子模块,用于经过一次n

1计算后,根据各线在n个潮流中的越限情况,统计各越限线路的越限数,并基于所述越限数由大到小对各越限线路进行排序,基于越限数的线路排序为:
[0222][0223]
其中,x
l
为基于越限数的线路排序,为第i条线路的编号;
[0224]
确定调整灵敏度子模块,用于根据发电机的有功功率变化量以及线路的有功功率变化量,确定调整灵敏度:
[0225]
s
i,j
=δp
l,j
/δp
g,i
[0226]
其中,δp
l,j
为发电机i的有功功率变化δp
g,i
时线路j的有功功率变化量。
[0227]
确定电源负荷子模块,用于若s
i,j
为正,则发电机i属于线路j的电源区;若s
i,j
为负,则发电机i属于线路j的负荷区,确定每条线路的电源区和负荷区:
[0228][0229]
其中,κ
ps
为电源区,κ
ld
为负荷区,g
i
表示第i台发电机;n
ps
为电源区的发电机数;n
ld
为负荷区的发电机数;
[0230]
确定薄弱输电断面子模块,用于判断所述各越限线路和节点是否具有相近电源区及负荷区,若相近,则确定所述各越限线路和所述节点构成了薄弱输电断面,确定所述薄弱输电断面为
[0231]
μ
c
={χ
l
(1),


l
(n
cl
),χ
n
(1),


n
(n
cn
)}
[0232]
其中,μ
c
为薄弱输电断面,n
cl
为薄弱断面包含的线路数,n
cn
为薄弱断面包含的节点数;
[0233]
形成断面集合子模块,用于在调整过程中,所述各越限线路和节点的越限情况会不断地变化,根据所述各越限线路和节点,形成不同的断面集合:
[0234][0235]
其中,ω
c
为不同的断面集合,n
c
为一次调整过程中的输电断面数。
[0236]
可选地,计算动作量模块820,包括:确定连接线路负载裕度子模块,用于当调整发电机功率时,确定发电机的连接线路负载裕度,所述连接线路的负载裕度指节点所连线路的功率裕度最小值,根据以下公式确定连接线路负载裕度:
[0237][0238]
其中,d
l
为发电机的连接线路负载裕度,p
li
和为线路i的功角差,ω
l
为节点连接的线路集合;
[0239]
排序发电机子模块,用于根据调整灵敏度和连接线路负载裕度,对发电机进行排序,确定正向调整发电机序列和负向调整发电机序列:
[0240][0241]
其中,为正向调整发电机序列,为负向调整发电机序列,为第一个正向发电机,为第二个正向发电机,为第n
g
个正向发电机,为第一个负向发电机,为第二个负向发电机,为第n
g

个负向发电机;
[0242]
形成动作设备对子模块,用于根据所述正向调整发电机序列和所述负向调整发电机序列,形成动作设备对:
[0243][0244]
其中,a
match
为动作设备对。
[0245]
可选地,计算动作量模块820,包括:确定转移因子子模块,用于根据线路的功率缺额和越限线路的功率波动,确定转移因子:
[0246][0247]
其中,为转移因子,δp
l0
为线路的功率缺额,δp
lf
为越限线路的功率波动;
[0248]
确定越限线路调整量模块,用于根据所述转移因子,确定越限线路的调整量:
[0249][0250]
其中,δp
lt
为越限线路的调整量目标,p
lop
为线路断开时的有功功率;
[0251]
确定线路功率调整量子模块,用于根据所述越限线路的调整量目标,确定线路功率调整量;
[0252]
确定初始动作量子模块,用于根据所述线路功率调整量与发电机的动作量的关系,确定发电机的初始动作量:
[0253]
[0254]
其中,和为目标线路的灵敏度匹配对,δp
g
和δp
l
分别为发电机的初始动作量和线路功率调整量;
[0255]
确定发电机动作量子模块,用于考虑发电机的功限额,根据所述发电机的初始动作量,确定发电机动作量为:
[0256][0257]
其中,p
gi
和p
maxi
分别为第i个发电机的有功功率和功率上限;p
gj
和p
maxj
分别为第j个发电机的有功功率和功率上限。
[0258]
可选地,建立模型模块830,包括:构建actor模型子模块,用于构建actor模型,利用所述actor模型通过策略函数生成动作和环境交互;构建critic模型子模块,用于构建critic模型,利用所述critic模型通过使用价值函数评估所述actor模型,指导所述actor模型下一阶段的动作;确定参数梯度子模块,用于确定所述actor模型的参数梯度为:
[0259][0260]
其中,为参数梯度,为动作值函数,n为采样次数,t
n
为一个episode所包含的时间段,p
θ
为策略参数θ的条件概率,为当前的状态,为动作;
[0261]
确定损失函数子模块,用于确定所述critic模型的损失函数为:
[0262][0263]
其中,loss为损失函数,n为采样次数,v
π
为值函数,t
n
为一个episode所包含的时间段,为下一时刻的状态,r
tn
为奖赏;
[0264]
同步训练子模块,用于根据所述actor模型和所述actor模型,确定actor

critic网络,并将所述actor

critic网络在多个线程中同步训练。
[0265]
本发明的实施例的一种建立潮流状态调整的并行深度强化学习模型的系统800与本发明的另一个实施例的一种建立潮流状态调整的并行深度强化学习模型的系统方法相对应,在此不再赘述。
[0266]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。本技术实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
[0267]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0268]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0269]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0270]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0271]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜