一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习的配电网调度方法、装置及介质与流程

2022-10-13 07:11:27 来源:中国专利 TAG:


1.本发明涉及电力系统领域,尤其涉及一种基于深度强化学习的配电网调度方法、装置及介质。


背景技术:

2.电力系统风险评估是一种综合运行状态概率和严重度的静态安全分析方法,能够定量反映系统运行的安全性。然而,现有技术在基于风险评估的配电网调度中,缺乏考虑可再生能源发电和负荷的不确定性,其次,由于调度过程涉及的计算具有高度的非凸性,难以显式地表达,常规的方法难以进行求解,求取的结果泛化能力较差。


技术实现要素:

3.本发明提供了一种基于深度强化学习的配电网调度方法、装置及介质,以解决现有技术泛化能力差的技术问题。
4.为了解决上述技术问题,本发明实施例提供了一种基于深度强化学习的配电网调度方法,包括:
5.对待调度配电网构建多个设备分别对应的运行约束和成本函数,并构建对应于所述待调度配电网与主网电能交易的约束和成本函数,以及构建所述待调度配电网的节点电压和支路功率的风险约束,获得所述待调度配电网的调度模型(更进一步可以为经济调度模型);
6.获取所述调度模型的状态变量、动作变量和奖赏函数,基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程;
7.在所述马尔科夫决策过程下,结合基础数据,通过sac算法训练对应于所述马尔科夫决策过程的策略网络;
8.基于训练好的策略网络的输出,对所述待调度配电网进行调度。
9.作为优选方案,所述通过sac算法训练对应于所述马尔科夫决策过程的策略网络,具体为:
10.将所述sac算法的参数通过asam算法和per算法进行更新,通过更新后的sac算法,训练智能体和对应于所述马尔科夫决策过程的策略网络;其中,所述sac算法的参数包括soft q网络参数、温度系数和所述策略网络的网络参数。
11.作为优选方案,所述多个设备包括不少于一个柴油机组和不少于一个储能系统;
12.所述柴油机组的运行约束为:
[0013][0014]
其中,为t时段所述待调度配电网中第i个柴油机组的有功出力,p
ig
为所述待调度配电网第i个柴油机组的最小有功功率,为所述待调度配电网第i个柴油机组的最大有功功率,为所有连接了柴油机组的节点的集合,为调度周期中所有时段的集合;
[0015]
所述柴油机组的成本函数为:
[0016][0017][0018]
其中,为t时段所述待调度配电网中全部柴油机组的燃料成本的和,为t时段所述待调度配电网中全部柴油机组的碳排放成本之和,a
g,i
、b
g,i
和c
g,i
为第i个柴油机组的燃料成本系数,d
g,i
和e
g,i
为第i个柴油机组的碳排放成本系数。
[0019]
作为优选方案,所述储能系统的运行约束为:
[0020][0021][0022][0023]
其中,为t时段所述待调度配电网中第i个储能系统的有功出力,为所述待调度配电网中第i个储能系统的最大充电功率,为所述待调度配电网中第i个储能系统的最大放电功率,为所述待调度配电网中所有连接了储能系统的节点的集合,soc
i,t
为t时段所述待调度配电网中第i个储能系统的荷电状态,soc
i,t
为t时段所述待调度配电网中第i个储能系统允许的最小荷电状态,为所述待调度配电网中t时段第i个储能系统允许的最大荷电状态,ηc为储能系统的充电功率,ηd为储能系统的放电功率,ei为所述待调度配电网中第i个储能系统的容量;
[0024]
所述储能系统的成本函数为:
[0025][0026]
其中,为t时段所述待调度配电网全部储能的充放电成本之和,a
e,i
为所述待调度配电网中第i个储能系统的成本系数。
[0027]
作为优选方案,所述待调度配电网与主网电能交易的成本函数为:
[0028][0029]
其中,为t时段所述待调度配电网向主网购电的成本,p
tm
》0为t时段所述待调度配电网向主网购电的功率,p
tm
《0为t时段所述待调度配电网向主网售电的功率,a
m,t
为t时段的实时电价,为主网购电和售电价格与实时价格的差额比例;
[0030]
所述待调度配电网与主网电能交易的约束为:
[0031][0032][0033]
其中,为t时段从主网流向所述待调度配电网的无功功率,为t时段从主网流向所述待调度配电网的视在功率,sm为传输线的最小容量,为所述传输线的最大容量。
[0034]
作为优选方案,所述构建所述待调度配电网的节点电压和支路功率的风险约束,包括:
[0035]
构建待调度配电网的内部潮流计算模型:
[0036][0037][0038][0039][0040][0041][0042]
其中,p
i,t
为t时段节点i的有功功率净注入,q
i,t
为t时段节点i的无功功率净注入,p
ij,t
为t时段支路ij上流过的有功功率,q
ij,t
为t时段支路ij上流过的无功功率,n为所述待调度配电网中所有节点的集合,b
ij
表征支路ij上的功率流向,s
ij,t
为t时段支路ij上流过的视在功率,为t时段节点i的光伏发电的有功功率,为t时段节点i的风力发电的有功功率,为t时段节点i的负荷的有功功率,为t时段节点i的柴油机组发电的无功功率,为t时段节点i的风力发电的无功功率,为t时段节点i的负荷的无功功率,n0为配电网与主网相连的节点集合;
[0043]
在所述内部潮流计算模型的基础上构建所述待调度配电网的节点电压幅值和支路视在功率的风险约束,具体地:
[0044]
[0045][0046]
其中,为t时段所述待调度配电网的节点电压幅值风险,为t时段所述待调度配电网的节点电压的支路视在功率风险,εv为所述待调度配电网的节点电压幅值风险阈值,εs为所述待调度配电网的支路视在功率风险阈值,wi为节点i的权重,w
ij
为支路ij的权重。
[0047]
作为优选方案,所述获取所述调度模型的状态变量、动作变量和奖赏函数,具体为:
[0048]
定义所述调度模型在t时段的状态变量s
t
和在t时段的动作变量a
t

[0049][0050][0051]
其中,为节点i风力发电在t时段的有功功率,为节点i光伏发电在t时段的有功功率,为节点i在t时段的负荷,α
m,t
为实时电价,soc
i,t
为节点i储能系统在t时段的有功功率,为节点i柴油机组在t时段的有功功率,为节点i储能系统在t时段的充放电功率;
[0052]
定义所述调度模型的奖赏函数:
[0053][0054][0055][0056]
其中,r(s
t

t
)为智能体在状态s
t
下采取动作a
t
所得到的奖赏,为t时段加权后的总运行成本,为t时段加权后的总惩罚,ω1、ω2、ω3和ω4为所述奖赏各组成部分的权重。
[0057]
作为优选方案,所述基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程,具体为:
[0058]
根据下式构建所述马尔科夫决策过程:
[0059][0060][0061]
其中,为状态空间,为动作空间,为状态转移概率函数,r为奖赏函数。
[0062]
相应的,本发明实施例还提供了一种基于深度强化学习的配电网调度装置,包括:
[0063]
约束模块,用于对待调度配电网构建多个设备分别对应的运行约束和成本函数,
并构建对应于所述待调度配电网与主网电能交易的约束和成本函数,以及构建所述待调度配电网的节点电压和支路功率的风险约束,获得所述待调度配电网的调度模型;
[0064]
马尔科夫决策过程构建模块,用于获取所述调度模型的状态变量、动作变量和奖赏函数,基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程;
[0065]
训练模块,用于在所述马尔科夫决策过程下,结合基础数据,通过sac算法训练对应于所述马尔科夫决策过程的策略网络;
[0066]
调度模块,用于基于训练好的策略网络的输出,对所述待调度配电网进行调度。
[0067]
相应的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行所述的基于深度强化学习的配电网调度方法。
[0068]
相比于现有技术,本发明实施例具有如下有益效果:
[0069]
本发明实施例提供了一种基于深度强化学习的配电网调度方法、装置和计算机可读存储介质,所述方法包括:对待调度配电网构建多个设备分别对应的运行约束和成本函数,并构建对应于所述待调度配电网与主网电能交易的约束和成本函数,以及构建所述待调度配电网的节点电压和支路功率的风险约束,获得所述待调度配电网的调度模型;获取所述调度模型的状态变量、动作变量和奖赏函数,基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程;在所述马尔科夫决策过程下,结合基础数据,通过sac算法训练对应于所述马尔科夫决策过程的策略网络;基于训练好的策略网络的输出,对所述待调度配电网进行调度。相比于现有技术,通过构建马尔科夫决策过程,以及通过sac算法训练过的策略网络能适应于在线运行和复杂计算,实现毫秒级的快速计算,并显著提高了泛化能力。
附图说明
[0070]
图1:为本发明提供的一种基于深度强化学习的配电网调度方法的一种实施例的流程示意图。
[0071]
图2:为本发明提供的一种配电网储能系统的一种实施例的荷电状态示意图。
[0072]
图3:为本发明提供的策略网络的一种实施例的训练过程示意图。
[0073]
图4:为本发明提供的一种基于深度强化学习的配电网调度装置的一种实施例的结构示意图。
具体实施方式
[0074]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0075]
实施例一:
[0076]
请参照图1,图1为本发明实施例提供的一种基于深度强化学习的配电网调度方法,包括步骤s1至s4,其中:
[0077]
步骤s1,对待调度配电网构建多个设备分别对应的运行约束和成本函数,并构建对应于所述待调度配电网与主网电能交易的约束和成本函数,以及构建所述待调度配电网的节点电压和支路功率的风险约束,获得所述待调度配电网的调度模型(更进一步可以为经济调度模型)。
[0078]
在本实施例中,所述多个设备包括不少于一个柴油机组和不少于一个储能系统;
[0079]
所述柴油机组的运行约束为:
[0080][0081]
其中,为t时段所述待调度配电网中第i个柴油机组(或者说是第i个节点处的柴油机组)的有功出力,p
ig
为所述待调度配电网第i个柴油机组的最小有功功率,为所述待调度配电网第i个柴油机组的最大有功功率,为所有连接了柴油机组的节点的集合,为调度周期中所有时段的集合。
[0082]
所述柴油机组的成本函数为:
[0083][0084][0085]
其中,为t时段所述待调度配电网中全部柴油机组的燃料成本的和,为t时段所述待调度配电网中全部柴油机组的碳排放成本之和,a
g,i
、b
g,i
和c
g,i
为第i个柴油机组的燃料成本系数,d
g,i
和e
g,i
为第i个柴油机组的碳排放成本系数。
[0086]
所述储能系统的运行约束为:
[0087][0088][0089][0090]
其中,为t时段所述待调度配电网中第i个储能系统(或者说是第i个节点处的储能系统)的有功出力(表示放电,表示充电),为所述待调度配电网中第i个储能系统的最大充电功率,为所述待调度配电网中第i个储能系统的最大放电功率,且和均大于0,为所述待调度配电网中所有连接了储能系统的节点的集合,soc
i,t
为t时段所述待调度配电网中第i个储能系统的荷电状态,soc
i,t
为t时段所述待调度配电网中第i个储能系统允许的最小荷电状态,为所述待调度配电网中t时段第i个储能系统允许的最大荷电状态,ηc为储能系统的充电功率,ηd为储能系统的放电功率(ηc,ηd∈[0,1]),ei为所述待调度配电网中第i个储能系统的容量。
[0091]
式中,第一个约束表征了储能系统所连接的换流器的容量限制。第二个约束用于避免可能造成储能系统寿命衰减的过充和过放情况。第三个约束刻画了储能系统在下一时段荷电状态与当前时段荷电状态、当前时段充放电功率的关系。而为了方便下一周期的调度,每一调度周期最后一个时段的荷电状态都应当回到初值,也即soc
i,0
=soc
i,t

[0092]
并且,soc
i,t
,随着当前时刻t变化,而非维持常数,参照图2。其中,为配电网第i个储能系统允许的最小荷电状态和最大荷电状态,a-b和e-d段的斜率为c-d和a-f段的斜率为
[0093]
所述储能系统的成本函数为:
[0094][0095]
其中,为t时段所述待调度配电网全部储能的充放电成本之和,a
e,i
为所述待调度配电网中第i个储能系统的成本系数。
[0096]
进一步的,所述待调度配电网与主网电能交易的成本函数为:
[0097][0098]
其中,为t时段所述待调度配电网向主网购电的成本,p
tm
》0为t时段所述待调度配电网向主网购电的功率,p
tm
《0为t时段所述待调度配电网向主网售电的功率,a
m,t
为t时段的实时电价,为主网购电和售电价格与实时价格的差额比例,目的是使向主网购电电价低于向主网售电电价,促使配电网内部功率消纳,降低配电网内部扰动对主网的负面影响。
[0099]
所述待调度配电网与主网电能交易的约束为:
[0100][0101][0102]
其中,为t时段从主网流向所述待调度配电网的无功功率,为t时段从主网流向所述待调度配电网的视在功率,sm为传输线的最小容量,为所述传输线的最大容量。
[0103]
并且,构建所述待调度配电网的节点电压和支路功率的风险约束,包括:
[0104]
构建待调度配电网的内部潮流计算模型:
[0105][0106][0107][0108]
[0109][0110][0111]
其中,p
i,t
为t时段节点i的有功功率净注入,q
i,t
为t时段节点i的无功功率净注入,p
ij,t
为t时段支路ij上流过的有功功率(支路ij即从节点i到节点j之间的支路),q
ij,t
为t时段支路ij上流过的无功功率,n为所述待调度配电网中所有节点的集合,b
ij
表征支路ij上的功率流向,s
ij,t
为t时段支路ij上流过的视在功率,为t时段节点i的光伏发电的有功功率,为t时段节点i的风力发电的有功功率,为t时段节点i的负荷的有功功率(如果节点i未连接有相应的设备,则相应的,或或为0),为t时段节点i的柴油机组发电的无功功率,为t时段节点i的风力发电的无功功率,为t时段节点i的负荷的无功功率,n0为配电网与主网相连的节点集合(如果节点i未连接有相应的设备,则相应的,或或为0)。
[0112]
其中,节点电压计算公式为:
[0113][0114]vj,t
为t时段节点j的电压幅值,v
i,t
为t时段节点i的电压幅值,r
ij
,x
ij
分别为支路ij的电阻和电抗,v0为与主网连接处的节点电压,为预设值。
[0115]
在所述内部潮流计算模型的基础上构建所述待调度配电网的节点电压幅值和支路视在功率的风险约束,具体地:
[0116][0117][0118]
其中,为t时段所述待调度配电网的节点电压幅值风险,为t时段所述待调度配电网的节点电压的支路视在功率风险,εv为所述待调度配电网的节点电压幅值风险阈值,εs为所述待调度配电网的支路视在功率风险阈值,wi为节点i的权重,w
ij
为支路ij的权重,且满足
[0119]
为t时段节点i的电压幅值风险,为支路ij的视在功率风险,为配电网中所有支路的集合。
[0120]
节点电压幅值风险和支路视在功率风险定义为对概率密度函数与严重度函数的乘积进行积分:
[0121][0122][0123]
其中,pdf(v
i,t
),pdf(s
ij,t
)分别为节点电压幅值v
i,t
和支路视在功率s
ij,t
的概率密度函数,可由概率潮流计算得到,例如采用点估计法结合gram-charlier展开;sevv(v
i,t
),sevs(s
ij,t
)为节点电压幅值v
i,t
和支路视在功率s
ij,t
的严重度函数,符合:
[0124][0125][0126]
v,分别为节点电压幅值的下限和上限,s,分别为支路视在功率的下限和上限。
[0127]
步骤s2,获取所述调度模型的状态变量、动作变量和奖赏函数,基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程。
[0128]
在本实施例中,所述获取所述调度模型的状态变量、动作变量和奖赏函数,优选为:
[0129]
定义所述调度模型在t时段的状态变量s
t
和在t时段的动作变量a
t

[0130][0131][0132]
其中,为节点i风力发电在t时段的有功功率,为节点i光伏发电在t时段的有功功率,为节点i在t时段的负荷,α
m,t
为实时电价,soc
i,t
为节点i储能系统在t时段的有功功率,为节点i柴油机组在t时段的有功功率,为节点i储能系统在t时段的充放电功率。
[0133]
风力发电、光伏发电、负荷、电价是外源性状态变量,由系统不确定性决定,不受动作变量影响;储能荷电状态则是内源性状态变量,受到动作变量影响。对于外源性状态,状态转移由在数据集中读取下一时段的数据实现;对于内源性状态,状态转移由计算下一时段的荷电状态实现。动作变量的定义基于优化模型的决策变量,但与主网的有功交换可由各节点柴油机组的有功功率和各节点储能系统的充放电功率结合潮流计算得到,因此不在动作变量定义的范围内。
[0134]
同时,定义所述调度模型的奖赏函数:
[0135][0136][0137][0138]
其中,r(s
t
,a
t
)为智能体在状态s
t
下采取动作a
t
所得到的奖赏,为t时段加权后的总运行成本(包括柴油机组的燃料成本、碳排放成本、储能系统的充放电成本和向主网购电的成本),为t时段加权后的总惩罚(包括违反荷电状态约束的惩罚、节点电压幅值风险越限的惩罚和支路视在功率风险越限的惩罚),ω1、ω2、ω3和ω4为所述奖赏各组成部分的权重。
[0139]
智能体在与环境的交互中学习,具体地,智能体感知当前环境状态s
t
,并执行动作a
t
,环境转移到下一状态s
t 1
,智能体获得奖赏r(s
t
,a
t
)。
[0140]
并且,基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程,具体根据下式进行构建:
[0141][0142][0143]
其中,为状态空间,为动作空间,为状态转移概率函数,r为奖赏函数。智能体的目标是通过与环境交互,使得长期累积奖赏最大化。因此定义奖赏函数为负的成本和惩罚,是为了引导智能体最小化运行成本并满足约束。
[0144]
步骤s3,在所述马尔科夫决策过程下,结合基础数据,通过sac算法训练对应于所述马尔科夫决策过程的策略网络。
[0145]
具体地,在本实施例中,将所述sac算法的参数通过asam算法和per算法进行更新,通过更新后的sac算法,训练智能体和对应于所述马尔科夫决策过程的策略网络;其中,所述sac算法的参数包括soft q网络参数、温度系数和所述策略网络的网络参数。
[0146]
所述sac算法的目标函数为下式的最大化:
[0147][0148]
其中,π(a
t
|s
t
)为智能体在状态s
t
下采取动作a
t
的概率,ρ
π
为由策略π生成的状态动作轨迹,为策略π的熵,α为温度系数,所述温度系数用于反映所述sac算法的目标函数中策略熵和奖赏的相对重要性,当α

0时该目标函数即退化为常规强化学习算法中的长期累积奖赏最大化,为数学期望。sac算法通过在目标函数中加入策略熵的最大化,能够有效促进智能体探索未知的状态动作空间,提高智能体的学习速度。
[0149]
所述sac算法基于人工神经网络,因此将soft q函数参数化为q
θ
(s
t
,a
t
),soft q网络的网络参数为θ,将高斯策略参数化为π
φ
(a
t
|s
t
),策略的网络参数为φ。
[0150]
soft q网络的输入为状态和动作,输出为该状态-动作对的1维q值;策略网络的输入为状态,输出为高斯动作的均值和标准差。为缓解soft q函数的过估计问题,算法中需要同时建立并独立训练两个soft q网络,其网络参数为θi(i=1,2),并将两个网络中输出的较小q值用于更新soft q网络和策略网络的参数。智能体与环境的交互记录(s
t
,a
t
,s
t 1
,r
t
)被存储至经验回放池,每次更新网络参数时,都从经验回放池中抽取部分样本执行随机梯度下降。
[0151]
对于soft q网络的参数更新,通过soft贝尔曼残差:
[0152][0153]
其中,为经验回放池。soft q网络有其对应的目标网络,其参数是在soft q网络参数的基础上通过软更新得到:
[0154][0155]
τ为目标网络的平滑系数且远小于1。soft贝尔曼残差式中的代入两个目标网络输出q值中较小的一个:
[0156][0157]
为提高泛化能力,在soft q网络的参数更新中引入adaptive sharpness aware minimization(asam)算法,该算法的目标函数如下所示:
[0158][0159]
其中,∈i为网络参数θi(i=1,2)的邻域,ρ为定义这一邻域的超参数,为网络参数的规范化算子,对于全连接网络:
[0160][0161]
为第i个soft q网络第k层的权重系数,λ为l2正则化的权重衰减系数。
[0162]
而对于策略网络,其更新的目标是最小化策略的kullback-leibler散度:
[0163][0164]
其中,q
θ
(s
t
,a
t
)代入两个soft q网络输出q值中较小的一个。温度系数α衡量了目标函数中奖赏和策略熵的折中关系。奖赏函数的幅值大小对温度系数α有直接影响,因此除非对不同任务中或同一任务训练过程中的温度系数进行调节,否则sac算法的性能会遭到破坏。在训练过程中,以最小化下式为目标进行自动的温度系数调节:
[0165][0166]
其中,为策略熵的目标。
[0167]
基于随机梯度下降,更新soft q网络参数、策略网络参数、温度系数。soft q网络参数的更新需要求解min-max型优化问题:
[0168]
首先将内层的max问题由一阶泰勒展开近似,然后求解最优的∈i,再通过梯度下
降更新θi。网络参数更新式如下:
[0169][0170][0171][0172][0173]
其中,λq,λ
π
分别为soft q网络和策略网络的学习率,λ
α
为更新温度系数α的步长。
[0174]
其次,通过prioritized experience replay(per)算法,基于时序差分(td)误差的绝对值对每个样本赋予优先级,对采样概率进行差异化处理:
[0175][0176]
其中,p(k)为经验回放池中第k个样本的采样概率,p(k)为经验回放池中第k个样本的优先级,β1衡量了优先程度(β1=0则为等概率采样)。在比例化优先中,优先级p(k)定义如下:
[0177]
p(k)=|δ(k)| ε;
[0178]
δ(k)为经验回放池中第k个样本的td误差,即认为td误差绝对值更大的样本具有更高的学习价值。ε是一个小的正数,即使td误差为0,也能保证有一定概率被采样。
[0179]
对第i个soft q网络,td误差δi的计算与损失函数密切相关:
[0180][0181]
用于更新经验回放池中第k个样本优先级的td误差为上式δi(i=1,2)的平均值。
[0182]
采样时的优先会引入soft q函数估计的偏差,因此,通过计算损失函数时对样本赋予重要性采样(is)权重消除该偏差,包括:
[0183][0184][0185]
wk为经验回放池中第k个样本的is权重,为稳定性起见需要归一化。n为经验回收池的大小,β2为is权重的补偿力度,当β2=1时为完全补偿。在训练起始的初值,β2线性增长到训练结束时为1。
[0186]
所述训练对应于所述马尔科夫决策过程的策略网络包括(参照图3):
[0187]
步骤s31,随机初始化策略网络参数φ和2个soft q网络参数θ1,θ2,并将soft q网络参数复制给对应的目标网络:
[0188]
步骤s32,在每一调度周期的每一时段,智能体感知环境状态,并从用于训练的数据集(基础数据包括该数据集和历史数据集)中读取当前时段的风力发电、光伏发电、负荷、
电价,以及当前时段的储能系统荷电状态;根据策略网络输出的动作均值和动作方差,按照高斯分布采样并执行动作a
t
~π
φ
(a
t
|s
t
),环境转移到下一状态s
t 1
,从训练数据集中读取下一时段的风力发电、光伏发电、负荷、电价,并计算下一时段的储能系统荷电状态,所述基础数据包括该训练数据集,智能体获得奖赏r(s
t
,a
t
),将样本(s
t
,a
t
,s
t 1
,r
t
)以当前最大的优先级p=maxjpj存储至经验回收池。
[0189]
步骤s33,在每一调度周期的每一时段,从经验回收池中以概率p(k)抽取第k个样本,计算其对应的is权重wk和td误差δ(k),并更新其优先级p(k),以is权重wk累积soft q网络的损失函数jq(θi),该过程共抽取n个样本。
[0190]
步骤s34,在每一调度周期的每一时段,计算自适应锐度所定义的网络参数最优邻域∈i,基于梯度下降更新soft q网络参数θ1,θ2,策略网络参数φ和温度系数α,并对目标网络参数进行软更新。
[0191]
步骤s35,重复步骤s32~s34,直至当前调度周期结束。
[0192]
步骤s36,重复步骤s32~s35,直至调度周期数量达到预设值,并且周期奖赏曲线趋于稳定。
[0193]
步骤s4,基于训练好的策略网络的输出,对所述待调度配电网进行调度。
[0194]
在本实施例中,通过训练好的所述策略网络,在每一时段,智能体感知当前环境状态s
t
,从实时数据中读取当前时段的风力发电、光伏发电、负荷、电价,读取当前时段的储能系统荷电状态,根据策略网络输出的动作均值执行动作a
t
,环境转移到下一状态s
t 1
,从实时数据中读取下一时段的风力发电、光伏发电、负荷、电价,并计算下一时段的储能系统荷电状态,智能体获得奖赏r(s
t
,a
t
),对每一时段执行相同的步骤,直至当前调度周期结束。
[0195]
相应的,参照图4,本发明实施例还提供了一种基于深度强化学习的配电网调度装置,包括:
[0196]
约束模块101,用于对待调度配电网构建多个设备分别对应的运行约束和成本函数,并构建对应于所述待调度配电网与主网电能交易的约束和成本函数,以及构建所述待调度配电网的节点电压和支路功率的风险约束,获得所述待调度配电网的调度模型;
[0197]
马尔科夫决策过程构建模块102,用于获取所述调度模型的状态变量、动作变量和奖赏函数,基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程;
[0198]
训练模块103,用于在所述马尔科夫决策过程下,结合基础数据,通过sac算法训练对应于所述马尔科夫决策过程的策略网络;
[0199]
调度模块104,用于基于训练好的策略网络的输出,对所述待调度配电网进行调度。
[0200]
相应的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行所述的基于深度强化学习的配电网调度方法。
[0201]
其中,所述基于深度强化学习的配电网调度装置集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计
算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
[0202]
相比于现有技术,本发明实施例具有如下有益效果:
[0203]
本发明实施例提供了一种基于深度强化学习的配电网调度方法、装置和计算机可读存储介质,所述方法包括:对待调度配电网构建多个设备分别对应的运行约束和成本函数,并构建对应于所述待调度配电网与主网电能交易的约束和成本函数,以及构建所述待调度配电网的节点电压和支路功率的风险约束,获得所述待调度配电网的调度模型;获取所述调度模型的状态变量、动作变量和奖赏函数,基于所述状态变量、所述动作变量和所述奖赏函数,对所述调度模型构建马尔科夫决策过程;在所述马尔科夫决策过程下,结合基础数据,通过sac算法训练对应于所述马尔科夫决策过程的策略网络;基于训练好的策略网络的输出,对所述待调度配电网进行调度。相比于现有技术,通过构建马尔科夫决策过程,以及通过sac算法训练过的策略网络能适应于在线运行和复杂计算,实现毫秒级的快速计算,并显著提高了泛化能力。
[0204]
需说明的是,以上所描述的装置仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0205]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献