一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多区域电网协同优化方法、系统、设备及可读存储介质

2022-11-13 13:32:08 来源:中国专利 TAG:


1.本发明属于区域电网优化调度技术领域,具体涉及一种多区域电网协同优化方法、系统、设备及可读存储介质,尤其适用于含高比例可再生能源的多区域电网协同优化。


背景技术:

2.构建以可再生能源为主体的新型电力系统成为降低碳排放的重要举措。随着可再生能源的渗透率不断提高,以可控出力连续的煤电机组为主导的传统电力系统,将会向强不确定性、弱可控出力的以可再生能源为主导的新型电力系统转变,这一转变使得区域电网内部电力电量平衡困难。为了保障电网的安全稳定运行,减少传统备用机组的投资,降低电网运行成本,将多个区域电网进行互联,充分挖掘区域电网内部自治以及区域间信息交互与协同优化能力具有重大意义。目前,针对区域电网的协同优化问题主要采用集中式的优化方法。集中式的优化方法需要将整个系统的数据进行采集,然后通过一个调度中心进行决策,再下发给各个执行单元,完成整个系统的优化。但随着新型电力系统分布式发电的渗透率不断提高以及运行模式的多变特点,使得新型电力系统面临可控性降低,全局运行信息难以收集等问题。
3.因此传统集中式控制方法具有数据采集量大、通讯成本高,建模复杂的难题,并且在应对不确定性、求解效率上存在一定局限,难以在线应用于含多分布式电源的复杂系统控制。
4.发明目的
5.本发明的目的在于针对上述现有技术中的问题,提供一种多区域电网协同优化方法、系统、设备及可读存储介质,基于多智能体深度强化学习技术,对于面向含高比例可再生能源的多区域电网协同优化问题,给出更加经济、准确、可靠的解决途径。
6.为了实现上述目的,本发明有如下的技术方案:
7.第一方面,提供一种多区域电网协同优化方法,包括:
8.收集待优化多区域电网中每个智能体区域的观测数据;
9.以所述观测数据为基础,构建含可再生能源的多区域电网协同优化模型;
10.将所述含可再生能源的多区域电网协同优化模型,按照状态空间、动作空间、环境以及奖励函数设计为多智能体环境下的强化学习模型;
11.对所述多智能体环境下的强化学习模型进行求解,输出协同优化结果对多区域电网进行协同优化。
12.作为本发明多区域电网协同优化方法的一种优选方案,还包括对电网进行智能体划分的步骤,对电网进行智能体划分时,将节点标准系统划分为不同的区域,并根据区域设置为不同的智能体,以区域智能体作为决策中心,实现多区域电网的协同优化运行。
13.作为本发明多区域电网协同优化方法的一种优选方案,在所述收集待优化多区域电网中每个智能体区域的观测数据的步骤中,所述每个智能体区域的观测数据包括:
14.负荷数据p
l
、可再生能源实际输出功率火电机组实际输出功率以及火电机
组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi。
15.作为本发明多区域电网协同优化方法的一种优选方案,在所述构建含可再生能源的多区域电网协同优化模型的步骤中,建立如下目标函数:
[0016][0017]
式中,n为划分区域的数量,为区域n火电机组成本,为区域n可再生能源机组的弃风弃光惩罚;其中,以及的计算表达式分别如下:
[0018][0019]
式中,mk为区域n中火电机组的数量;t为计算时长;为火电机组i在时段t的运行状态:表示火电机组i运行,表示火电机组i停机;co为火电机组运行成本系数;为火电机组i在时段t所输出的功率;δt为运行时段区间;sui为火电机组i启动一次的成本;为火电机组i的停机成本;为火电机组i的停机时间;
[0020][0021]
其中,mn为区域n中可再生能源机组的数量;t为计算时长;cg为弃风弃光惩罚系数;为可再生能源机组j在时段t的实际输出功率;为可再生能源机组j在时段t的输出功率上限。
[0022]
作为本发明多区域电网协同优化方法的一种优选方案,在所述构建含可再生能源的多区域电网协同优化模型的步骤中,对所述目标函数建立等式约束以及不等式约束;
[0023]
等式约束,包括网络潮流约束、功率平衡约束;
[0024]
所述网络潮流约束的表达式如下:
[0025][0026][0027]
式中,p
g,i
、q
g,i
为从节点i注入的有功、无功功率;p
d,i
、q
d,i
为节点i负荷消耗的有功、无功功率;ne为配电网络节点数;ui、uj为节点i与节点j的电压幅值;g
ij
、b
ij
分别为电导、电纳;θ
ij
为节点i与节点j的相角差;
[0028]
所述功率平衡约束的表达式如下:
[0029][0030]
式中,mr为区域n中负荷的数量,为负荷r在时段t的功率;
[0031]
不等式约束,包括支路电流上限约束、节点电压上下限约束、火电机组输出功率上下限约束、火电机组开停机时间约束、火电机组爬坡约束、火电机组旋转备用约束、可再生能源机组输出功率上下限约束;
[0032]
支路电流上限约束的表达式如下:
[0033][0034]
式中,i
ij
为支路ij上流过的电流幅值,为支路ij上允许流过的电流的最大幅值;
[0035]
节点电压上下限约束的表达式如下:
[0036][0037]
其中,ui分别表示节点i电压的上、下限;
[0038]
火电机组输出功率上下限约束的表达式如下:
[0039][0040]
其中,p
ti
分别表示火电机组i的输出功率上、下限;
[0041]
火电机组开停机时间约束的表达式如下:
[0042][0043]
式中,为火电机组i的开机时间、停机时间、最小开机时间、最小停机时间;
[0044]
火电机组爬坡约束的表达式如下:
[0045][0046]
式中,u
t
、dn火电机组i在单位时间内有功功率最大爬升和下降速度;
[0047]
火电机组旋转备用约束的表达式如下:
[0048][0049][0050]
式中,为节点r在时间t的负荷备用容量,rw为可再生能源机组j的输出预测误差;可再生能源机组输出功率上下限约束的表达式如下:
[0051][0052]
式中,可再生能源机组j输出功率的上、下限。
[0053]
作为本发明多区域电网协同优化方法的一种优选方案,在将所述含可再生能源的多区域电网协同优化模型,按照状态空间、动作空间、环境以及奖励函数设计为多智能体环境下的强化学习模型的步骤中,所述状态空间变量包括各个智能体区域的负荷数据p
l
、可再生能源实际输出功率可再生能源输出功率上限火电机组实际输出功率火电机组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi,以及节
点电压ui;所述状态空间的表达式如下:
[0054][0055]
所述动作空间变量包括:火电机组的输出功率火电机组的启停可再生能源输出功率所述动作空间的表达式如下:
[0056][0057]
将含可再生能源的多区域电网协同优化模型中,对所述目标函数建立的等式约束以及不等式约束作为环境,每个时刻每个智能体采取动作之后,进行一次电网潮流计算,反馈电网的相关状态量用于计算奖励函数,并转移到下一时刻,如此循环进行;
[0058]
将含可再生能源的多区域电网协同优化模型中,目标函数的相反数作为每个智能体的即时奖励;根据对所述目标函数建立的等式约束以及不等式约束,如果相应变量不满足约束,则设置惩罚值r
push
,和即时奖励一起作为智能体最终的奖励函数,表达式如下:
[0059]
r={f r
push
}。
[0060]
作为本发明多区域电网协同优化方法的一种优选方案,在对所述多智能体环境下的强化学习模型进行求解的步骤中,采用maddpg算法进行求解,在maddpg算法中,智能体i的actor获取自身相关的状态信息si,ai为智能体i采取的动作,ri为获取的奖励,θi为自身的权重参数,设有n个智能体,观测集x=(s1,...,sn)为所有智能体的状态信息;actor不断更新自身参数θi来使得自身奖励的期望值达到最大,即critic的评估值更高;
[0061]
actor的策略更新规则表达式如下:
[0062][0063]
式中,为集中式的状态-动作值函数,每一个智能体的独立学习并更新;d=(x,x',a1,...,an,r1,...,rn)为存放所有智能体经验的回放单元,每次训练时从中随机抽取一组进行训练;对于连续动作maddpg算法采用n个智能体的连续确定策略集μ;对于0-1动作训练阶段采用随机取值;
[0064]
critic通过最小化时间差分误差来更新自身参数,critic的损失函数表达式为:
[0065][0066]
式中,μ'为目标网络的策略集,γ∈[0,1]为折扣因子;
[0067]
目标网络定期从估值网络拷贝参数,规则如下:
[0068]
θ
′i=(1-τ)θ
′i τθi[0069]
式中,θ
′i为智能体i的目标网络参数,τ为软更新系数,且τ≤1;
[0070]
令智能体i的策略μi具有k个子策略的集合构成,在每轮训练中只使用一个子策略μ
i(k)
,在整个训练过程中,使得策略集合的整体奖励最高,actor最终的策略更新为:
[0071][0072]
作为本发明多区域电网协同优化方法的一种优选方案,采用maddpg算法对所述多智能体环境下的强化学习模型进行求解的步骤具体包括:
[0073]
设置优化调度时段t并设置各智能体训练轮数m,初始值均设置为1,初始时随机设置智能体网络参数θi;
[0074]
将多区域电网协同优化模型载入环境,设置与maddpg算法中状态和动作的接口文件,以能够实时根据状态动作进行潮流计算,反馈相应环境状态量;
[0075]
各智能体观测自身区域的状态量并采取动作,与环境进行交互并反馈状态量计算奖励,智能体进行状态转移进入下一时刻,观测下一时刻状态,并将(x,a,r,x

)存入经验回放单元d;
[0076]
从经验回放单元d中随机采样k策略下一组(x
(k)
,a
(k)
,r
(k)
,x

(k)
),更新critic和actor参数,更新目标网络参数;
[0077]
判断当前训练轮数m是否达到设置值m,如果达到设置值则结束训练,输出结果并保存,如果未达到设置值,则重新开始新的一轮训练。
[0078]
第二方面,提供一种多区域电网协同优化系统,包括:
[0079]
观测数据收集模块,用于收集待优化多区域电网中每个智能体区域的观测数据;
[0080]
协同优化模型构建模块,用于以所述观测数据为基础,构建含可再生能源的多区域电网协同优化模型;
[0081]
强化学习模型设计模块,用于将所述含可再生能源的多区域电网协同优化模型,按照状态空间、动作空间、环境以及奖励函数设计为多智能体环境下的强化学习模型;
[0082]
模型求解模块,用于对所述多智能体环境下的强化学习模型进行求解,输出协同优化结果对多区域电网进行协同优化。
[0083]
作为本发明多区域电网协同优化系统的一种优选方案,还包括智能体划分模块,用于对电网进行智能体划分;
[0084]
对电网进行智能体划分时,将节点标准系统划分为不同的区域,并根据区域设置为不同的智能体,以区域智能体作为决策中心,实现多区域电网的协同优化运行。
[0085]
作为本发明多区域电网协同优化系统的一种优选方案,所述观测数据收集模块收集到的每个智能体区域的观测数据包括:
[0086]
负荷数据p
l
、可再生能源实际输出功率火电机组实际输出功率以及火电机组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi。
[0087]
作为本发明多区域电网协同优化系统的一种优选方案,所述协同优化模型构建模块建立如下目标函数:
[0088][0089]
式中,n为划分区域的数量,为区域n火电机组成本,为区域n可再生能源机组的弃风弃光惩罚;其中,以及的计算表达式分别如下:
[0090][0091]
式中,mk为区域n中火电机组的数量;t为计算时长;为火电机组i在时段t的运行状态:表示火电机组i运行,表示火电机组i停机;co为火电机组运行成本系数;为火电机组i在时段t所输出的功率;δt为运行时段区间;sui为火电机组i启动一次的成本;为火电机组i的停机成本;为火电机组i的停机时间;
[0092][0093]
其中,mn为区域n中可再生能源机组的数量;t为计算时长;cg为弃风弃光惩罚系数;为可再生能源机组j在时段t的实际输出功率;为可再生能源机组j在时段t的输出功率上限。
[0094]
作为本发明多区域电网协同优化系统的一种优选方案,所述协同优化模型构建模块对所述目标函数建立等式约束以及不等式约束;
[0095]
等式约束,包括网络潮流约束、功率平衡约束;
[0096]
所述网络潮流约束的表达式如下:
[0097][0098][0099]
式中,p
g,i
、q
g,i
为从节点i注入的有功、无功功率;p
d,i
、q
d,i
为节点i负荷消耗的有功、无功功率;ne为配电网络节点数;ui、uj为节点i与节点j的电压幅值;g
ij
、b
ij
分别为电导、电纳;θ
ij
为节点i与节点j的相角差;
[0100]
所述功率平衡约束的表达式如下:
[0101][0102]
式中,mr为区域n中负荷的数量,为负荷r在时段t的功率;
[0103]
不等式约束,包括支路电流上限约束、节点电压上下限约束、火电机组输出功率上下限约束、火电机组开停机时间约束、火电机组爬坡约束、火电机组旋转备用约束、可再生能源机组输出功率上下限约束;
[0104]
支路电流上限约束的表达式如下:
[0105][0106]
式中,i
ij
为支路ij上流过的电流幅值,为支路ij上允许流过的电流的最大幅值;
[0107]
节点电压上下限约束的表达式如下:
[0108][0109]
其中,ui分别表示节点i电压的上、下限;
[0110]
火电机组输出功率上下限约束的表达式如下:
[0111][0112]
其中,p
ti
分别表示火电机组i的输出功率上、下限;
[0113]
火电机组开停机时间约束的表达式如下:
[0114][0115]
式中,为火电机组i的开机时间、停机时间、最小开机时间、最小停机时间;
[0116]
火电机组爬坡约束的表达式如下:
[0117][0118]
式中,u
t
、dn火电机组i在单位时间内有功功率最大爬升和下降速度;
[0119]
火电机组旋转备用约束的表达式如下:
[0120][0121][0122]
式中,为节点r在时间t的负荷备用容量,rw为可再生能源机组j的输出预测误差;可再生能源机组输出功率上下限约束的表达式如下:
[0123][0124]
式中,可再生能源机组j输出功率的上、下限。
[0125]
作为本发明多区域电网协同优化系统的一种优选方案,所述强化学习模型设计模块在将所述含可再生能源的多区域电网协同优化模型,按照状态空间、动作空间、环境以及奖励函数设计为多智能体环境下的强化学习模型的步骤中,所述状态空间变量包括各个智能体区域的负荷数据p
l
、可再生能源实际输出功率可再生能源输出功率上限火电机组实际输出功率火电机组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi,以及节点电压ui;所述状态空间的表达式如下:
[0126][0127]
所述动作空间变量包括:火电机组的输出功率火电机组的启停可再生能源输出功率所述动作空间的表达式如下:
[0128][0129]
将含可再生能源的多区域电网协同优化模型中,对所述目标函数建立的等式约束
以及不等式约束作为环境,每个时刻每个智能体采取动作之后,进行一次电网潮流计算,反馈电网的相关状态量用于计算奖励函数,并转移到下一时刻,如此循环进行;
[0130]
将含可再生能源的多区域电网协同优化模型中,目标函数的相反数作为每个智能体的即时奖励;根据对所述目标函数建立的等式约束以及不等式约束,如果相应变量不满足约束,则设置惩罚值r
push
,和即时奖励一起作为智能体最终的奖励函数,表达式如下:
[0131]
r={f r
push
}。
[0132]
作为本发明多区域电网协同优化系统的一种优选方案,所述模型求解模块采用maddpg算法对所述多智能体环境下的强化学习模型进行求解,在maddpg算法中,智能体i的actor获取自身相关的状态信息si,ai为智能体i采取的动作,ri为获取的奖励,θi为自身的权重参数,设有n个智能体,观测集x=(s1,...,sn)为所有智能体的状态信息;actor不断更新自身参数θi来使得自身奖励的期望值达到最大,即critic的评估值更高;
[0133]
actor的策略更新规则表达式如下:
[0134][0135]
式中,为集中式的状态-动作值函数,每一个智能体的独立学习并更新;d=(x,x',a1,...,an,r1,...,rn)为存放所有智能体经验的回放单元,每次训练时从中随机抽取一组进行训练;对于连续动作maddpg算法采用n个智能体的连续确定策略集μ;对于0-1动作训练阶段采用随机取值;
[0136]
critic通过最小化时间差分误差来更新自身参数,critic的损失函数表达式为:
[0137][0138]
式中,μ'为目标网络的策略集,γ∈[0,1]为折扣因子;
[0139]
目标网络定期从估值网络拷贝参数,规则如下:
[0140]
θ
′i=(1-τ)θ
′i τθi[0141]
式中,θ
′i为智能体i的目标网络参数,τ为软更新系数,且τ≤1;
[0142]
令智能体i的策略μi具有k个子策略的集合构成,在每轮训练中只使用一个子策略μ
i(k)
,在整个训练过程中,使得策略集合的整体奖励最高,actor最终的策略更新为:
[0143][0144]
作为本发明多区域电网协同优化系统的一种优选方案,所述模型求解模块采用maddpg算法对所述多智能体环境下的强化学习模型进行求解的步骤具体包括:
[0145]
设置优化调度时段t并设置各智能体训练轮数m,初始值均设置为1,初始时随机设置智能体网络参数θi;
[0146]
将多区域电网协同优化模型载入环境,设置与maddpg算法中状态和动作的接口文件,以能够实时根据状态动作进行潮流计算,反馈相应环境状态量;
[0147]
各智能体观测自身区域的状态量并采取动作,与环境进行交互并反馈状态量计算奖励,智能体进行状态转移进入下一时刻,观测下一时刻状态,并将(x,a,r,x

)存入经验回放单元d;
[0148]
从经验回放单元d中随机采样k策略下一组(x
(k)
,a
(k)
,r
(k)
,x

(k)
),更新critic和actor参数,更新目标网络参数;
[0149]
判断当前训练轮数m是否达到设置值m,如果达到设置值则结束训练,输出结果并保存,如果未达到设置值,则重新开始新的一轮训练。
[0150]
第三方面,提供一种电子设备,包括:
[0151]
存储器,存储至少一个指令;及
[0152]
处理器,执行所述存储器中存储的指令以实现所述的多区域电网协同优化方法。
[0153]
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的多区域电网协同优化方法。
[0154]
相较于现有技术,本发明第一方面至少具有如下的有益效果:
[0155]
本发明是一种基于多智能体深度强化学习的多区域电网协同优化方法,主要针对目前电网中多区域协调优化问题呈现出的高维、非凸非线性特点,导致建模复杂,优化求解难度较大等问题,同时考虑了可再生能源等不确定因素,构建的多区域电网协同优化模型含高比例可再生能源,采用基于多智能体深度确定性策略梯度方法,将优化问题设计为多智能体强化学习环境下的分布式优化问题,该方法能够有效求解高维、非凸非线性的多区域电网协调优化问题。本发明相较以往电网优化调度方法的优越之处在于:(1)采用多决策中心的分布式模型减轻了系统的通讯压力,同时可以达到和集中式优化近乎一致的结果。(2)所提出的优化方法能够在训练中考虑到可再生能源和负荷的双重不确定性,根据算法的自适应性,训练后的模型相比于传统迭代求解方法不仅具有较好应对不确定性的能力,还能够实现系统实时决策,有利于在线应用。(3)基于多智能体“集中训练-分布执行”的特性,训练完成后各区域电网只需根据自身局部的观测值对可控机组做出决策,有利于保护各区域电网的隐私性。
[0156]
可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
[0157]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0158]
图1基于多智能体深度强化学习的多区域电网协同优化方法所用的电网拓扑结构;
[0159]
图2本发明实施例基于多智能体深度强化学习的多区域电网协同优化方法的流程图;
[0160]
图3本发明实施例基于maddpg的ies分布式优化模型的整体算法求解流程图;
[0161]
图4本发明实施例基于多智能体深度强化学习的多区域电网协同优化系统结构框图。
具体实施方式
[0162]
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术的实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
[0163]
另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0164]
针对目前对于面向含高比例可再生能源的多区域电网协同优化问题解决方法不够经济、准确、可靠的问题,提供基于多智能体深度强化学习的多区域电网协同优化方法,相比集中式优化和传统分布式优化方法,本发明所提出的方法(1)采用多决策中心的多区域电网协同优化模型能充分考虑各区域电网内部复杂的约束条件,减轻系统通讯压力,降低决策维度,建立高精度的区域电网优化模型;(2)采用基于多智能体深度强化学习的方法,将优化问题设计为多智能体强化学习环境下的分布式优化问题,所提方法不仅能够在训练中考虑到在波动场景下可再生能源和负荷的不确定性,还能够实现系统实时决策,有利于在线应用。(3)基于多智能体“集中训练-分布执行”的特性,训练完成之后,各区域电网只需根据自身局部的观测值对可控机组做出决策,有利于保护各区域电网的隐私性。
[0165]
本发明基于多智能体深度强化学习的区域电网协同优化方法,通过收集每个智能体区域的观测数据,涉及的数据主要包括可再生能源机组出力数据、火电机组出力数据以及负荷数据等;并以此为基础构建面向含高比例可再生能源的多区域电网协同优化模型,以系统内所有区域电网的经济性为优化目标,以系统安全稳定运行作为约束;采用多智能体深度确定性策略梯度方法(multi-agent deep deterministic policy gradient,maddpg),将该模型按照状态空间、动作空间、环境和奖励函数设计为多智能体环境下的强化学习模型;最后利用仿真软件对上述模型进行编程求解,然后将求解得到的结果和其他方法进行对比,验证训练后的模型不仅具有较好应对不确定性的能力,还能够实现系统实时决策,同时在训练过程中具有较快的收敛速度和较好的训练结果,在应对复杂环境问题中具有明显的优势。
[0166]
本发明提出的多区域电网协同优化方法主要包括以下步骤:
[0167]
1、对电网进行智能体划分;
[0168]
以ieee39节点标准系统为例,并按照以下标准作为划分依据:1)区域间的连接尽可能为单回线;2)区域间结构清晰,潮流流向单一;3)组内电网基本无约束,结构性强。将ieee39节点标准系统划分为不同的区域,并根据区域设置为不同的智能体,以区域智能体作为决策中心,实现多区域电网的协同优化运行,区域划分情况如图1所示。
[0169]
2、基于多智能体深度强化学习的多区域电网协同优化方法,包括以下步骤:
[0170]
收集每个智能体区域的观测数据,本发明涉及的每个智能体的观测数据包括:负荷数据、可再生能源实际输出功率、火电机组实际输出功率、成本系数包括火电机组运行成
本系数、弃风弃光成本系数、启动成本系数以及停机成本系数;每个区域智能体一方面通过发电机组(主要为火电机组、可再生能源机组),另一方面通过区域间进行能量交互来满足区域内负荷的需求以及可再生能源的最大消纳,在一定程度上实现各区域分布自治,模型如下:
[0171][0172]
以系统内所有区域电网的总体经济性为优化目标,每个区域电网的成本设置为火电机组的成本以及可再生能源的弃风弃光惩罚,其中,n为划分区域的数量。为区域n火电机组成本,为区域n可再生能源机组的弃风弃光惩罚。
[0173]
根据构建的含高比例可再生能源的多区域电网协同优化模型,确定优化模型的约束条件:
[0174]
系统的等式约束条件主要包含网络潮流约束及功率平衡约束。系统的不等式约束主要以保证系统运行的安全稳定为目的,主要包括支路电流上限约束、节点电压上下限约束、火电机组输出功率上下限约束、火电机组开停机时间约束、火电机组爬坡约束、火电机组旋转备用约束,以及可再生能源机组输出功率上下限约束。
[0175]
基于多智能体深度强化学习的基本要素,将含高比例可再生能源的区域电网协同优化模型按照状态空间、动作空间、环境和奖励函数,设计为多智能体环境下的强化学习模型,并采用maddpg方法进行求解。
[0176]
利用计算机软件实现求解,通过与集中式优化求解相对比,验证训练后的模型不仅具有较好应对不确定性的能力,还能够实现系统实时决策,有利于在线应用;通过与单智能体深度强化学习方法相对比,验证采用maddpg方法在训练过程中具有较快的收敛速度和较好的训练结果,在应对复杂环境问题中具有明显的优势。
[0177]
3、采用的maddpg方法中,采用的是“集中训练,分布执行”的模式,每个智能体都设置了一个单独的演员(actor)和评论家(critic)网络,与ddpg不同,在训练时,每个智能体的actor根据自身的状态采取动作,然后critic对actor的动作进行评价,actor根据反馈来更新自身策略,每个智能体的critic通过对其他智能体进行策略估计来获取更准确的评价信息。训练完成后,每个智能体只需利用actor根据自身的状态采取动作,此时不需要获取其他智能体的信息,各个智能体独立完成决策。maddpg通过集中式训练学习得到最优策略,应用时只需局部信息即可,可以有效保护各智能体的隐私信息。
[0178]
4、在基于多智能体深度强化学习的多区域电网协同优化方法中,模型训练过程中考虑到可再生能源的和负荷的双重不确定性,在模型训练过程中在输入数据的同时叠加了不确定性,即在maddpg训练过程中,每个区域电网智能体需要获取自身区域范围内可观测的状态数据,在读取可再生能源和负荷数据的时刻,即相应在获得数据本身上面叠加一个未知数据,也就是波动范围,使其服从正态分布,因此就可以保证,不论训练多少轮,每次所获取的可再生能源和负荷数据都是不同的,但都在波动范围内,波动范围的大小可以灵活进行调整。
[0179]
实施例1
[0180]
参见图2,本发明实施例基于多智能体深度强化学习的多区域电网协同优化方法包括以下步骤:
[0181]
s01,收集每个智能体区域的观测数据,本发明涉及的每个智能体的观测数据包括负荷数据、可再生能源实际输出功率、火电机组实际输出功率、成本系数包括火电机组运行成本系数、弃风弃光成本系数、启动机成本系数、停机成本系数;
[0182]
s02,构建含高比例可再生能源的多区域电网协同优化模型,以系统内所有区域电网的总体经济性为优化目标,每个区域电网的成本设置为火电机组的成本以及可再生能源的弃风弃光惩罚,系统的等式约束条件主要包含网络潮流约束及功率平衡约束,不等式约束主要以保证系统运行的安全稳定为目的,主要为变量的上下限约束,爬坡约束以及旋转备用约束;
[0183]
s03,基于多智能体深度强化学习的基本要素,将含高比例可再生能源的多区域电网协同优化模型按照状态空间、动作空间、环境和奖励函数设计为多智能体环境下的强化学习模型;
[0184]
s04,根据构建的基于多智能体深度强化学习的多区域电网协同优化模型,采用maddpg方法进行求解,并给出求解流程;
[0185]
s05,利用计算机软件对其进行求解,通过与集中式优化求解相对比,验证训练后的模型不仅具有较好应对不确定性的能力,还能够实现系统实时决策,有利于在线应用;通过与单智能体深度强化学习方法相对比,验证采用maddpg方法在训练过程中具有较快的收敛速度和较好的训练结果,在应对复杂环境问题中具有明显的优势。
[0186]
在一种可能的实施方式当中,首先收集每个智能体区域的观测数据,实施例涉及的每个智能体的观测数据包括负荷数据p
l
、可再生能源实际输出功率火电机组实际输出功率火电机组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi。
[0187][0188]
然后,构建含高比例可再生能源的多区域电网协同优化模型,包括:
[0189]
步骤2.1:建立目标函数。
[0190]
构建含高比例可再生能源的多区域电网协同优化模型,以ieee39节点标准系统为例,将其划分为3个区域电网,以系统内所有区域的总体经济性为优化目标,每个区域电网的成本设置为火电机组的成本以及可再生能源的弃风弃光惩罚,系统的目标函数如下:
[0191][0192]
其中,n为划分区域的数量。为区域n火电机组成本,为区域n可再生能源机组的弃风弃光惩罚。
[0193]
式(3)中,
[0194][0195]
其中,mk为区域n中火电机组的数量。t为计算时长。为火电机组i在时段t的运行状态,表示火电机组i运行;表示火电机组i停机。co为运行成本系数。为火电机组i在时段t所输出的功率。δt为运行时段区间。sui为火电机组i的启动一次的成本。为
火电机组i的停机成本。为火电机组i的停机时间。
[0196]
式(3)中,
[0197][0198]
其中,mn为区域n中可再生能源机组的数量;t为计算时长;cg为弃风弃光惩罚系数;为可再生能源机组j在时段t的实际输出功率;为可再生能源机组j在时段t的输出功率上限。
[0199]
步骤2.2:建立优化模型的约束条件。
[0200]
上述含高比例可再生能源的多区域电网协同优化模型的约束条件包括等式约束条件和不等式约束条件。
[0201]
1、等式约束:
[0202]
系统的等式约束条件主要包含网络潮流约束及功率平衡约束。
[0203]
网络潮流约束如下:
[0204][0205]
式中,p
g,i
、q
g,i
为从节点i注入的有功、无功功率;p
d,i
、q
d,i
为节点i负荷消耗的有功、无功功率;ne为配电网络节点数;ui、uj为节点i与节点j的电压幅值;g
ij
、b
ij
分别为电导、电纳;θ
ij
为节点i与节点j的相角差;
[0206]
功率平衡约束如下:
[0207][0208]
其中,mr为区域n中负荷的数量。为负荷r在时段t的功率。该公式表示整个系统的注入功率即所有可再生能源输出功率与火电机组输出功率之和,要满足所有负荷消耗的功率。
[0209]
2、不等式约束:
[0210]
系统的不等式约束主要以保证系统运行的安全稳定为目的,且满足机组实际运行工况。主要为支路电流上限约束;节点电压上下限约束;火电机组输出功率上下限约束,开停机时间约束,爬坡约束,旋转备用约束;可再生能源机组输出功率上下限约束。
[0211]
支路电流上限约束如下:
[0212][0213]
其中,i
ij
为支路ij上流过的电流幅值,为支路ij上允许流过的电流的最大幅值。
[0214]
节点电压上下限约束如下:
[0215][0216]
其中,ui分别表示节点i电压的上、下限。
[0217]
火电机组输出功率上下限约束:
[0218][0219]
其中,p
ti
分别表示火电机组i的输出功率上、下限。
[0220]
火电机组开停机时间约束:
[0221][0222]
其中,为火电机组i的开机时间、停机时间、最小开机时间、最小停机时间。
[0223]
火电机组爬坡约束:
[0224][0225]
其中,u
t
、dn火电机组i在单位时间内有功功率最大爬升和下降速度。
[0226]
火电机组旋转备用约束:
[0227][0228]
其中,为节点r在时间t的负荷备用容量,通常为总负荷的5%。rw为可再生能源机组j的输出预测误差。第一个式子表示所有机组输出功率的上限大于所有负荷与最大正误差之和。第二个式子表示所有机组输出功率的下限小于所有负荷与最大负误差之差。
[0229]
可再生能源机组输出功率上下限约束:
[0230][0231]
其中,可再生能源机组j输出功率的上、下限。
[0232]
再基于多智能体深度强化学习的基本要素,将含高比例可再生能源的多区域协同优化模型按照状态空间、动作空间、环境和奖励函数设计为多智能体环境下的强化学习模型:
[0233]
1、状态空间
[0234]
系统的状态空间主要包括各个智能体区域的负荷数据p
l
、可再生能源实际输出功率可再生能源输出功率上限火电机组实际输出功率成本系数包括火电机组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi,节点电压ui,即
[0235][0236]
2、动作空间
[0237]
动作空间变量与所研究系统的控制变量相对应,在系统中每个区域电网作为智能
体,根据智能体的约束,其动作空间变量包括火电机组的输出功率火电机组的启停可再生能源输出功率即
[0238][0239]
3、环境设计
[0240]
每个智能体的actor根据此时刻状态采取动作,与环境进行交互,得到奖励并转移到下一时刻的状态,critic对此动作进行评价,并指导下一时刻智能体采取动作。依据此流程,将多区域电网模型式(6)-(14)作为环境,每个时刻每个智能体采取动作之后,进行一次电网潮流计算,反馈电网的相关状态量用于计算奖励函数,并转移到下一时刻,如此循环进行。
[0241]
4、奖励函数
[0242]
奖励函数在一定程度上会影响算法的收敛性,因此奖励信号的设置需要能够传递给智能体想要完成的目标,从而引导智能体向着奖励函数最大化方向改善动作。将多区域电网模型目标函数的相反数作为每个智能体的即时奖励。在优化问题中还需要满足相应的约束条件,根据本发明所述的约束条件,如果相应变量不满足约束,则设置惩罚值r
push
,和即时奖励一起作为智能体最终的奖励函数,计算如下:
[0243]
r={f r
push
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0244]
最后,根据上述构建的基于多智能体深度强化学习的多区域电网协同优化模型,采用maddpg方法进行求解。在maddpg方法中,智能体i的actor只需获取自身相关的状态信息si,ai为智能体i采取的动作,ri为获取的奖励,θi为自身的权重参数。设有n个智能体,观测集x=(s1,...,sn)为所有智能体的状态信息。actor不断更新自身参数θi来使得自身奖励的期望值达到最大,即critic的评估值更高。actor的策略更新规则为:
[0245][0246]
式中,为集中式的状态-动作值函数,每一个智能体的独立学习并更新。d=(x,x',a1,...,an,r1,...,rn)为存放所有智能体经验的回放单元,每次训练时从中随机抽取一组进行训练。为了改善在连续空间上以动作分布来选择某一个动作导致智能体不易收敛的问题,对于连续动作maddpg采用的是n个智能体的连续确定策略集μ;对于0-1动作训练阶段采用随机取值。
[0247]
critic主要通过最小化时间差分误差来更新自身参数,critic的损失函数为:
[0248][0249]
式中,μ'为目标网络的策略集,γ∈[0,1]为折扣因子。
[0250]
最后,目标网络采取软更新方式定期从估值网络拷贝参数,规则如下:
[0251]
θ
′i=(1-τ)θ
′i τθiꢀꢀꢀꢀꢀꢀ
(20)
[0252]
式中,θ
′i为智能体i的目标网络参数,τ为软更新系数,且τ≤1。
[0253]
在多智能体环境中,智能体同时和环境进行交互,导致环境对于每个智能体来说都是不稳定的。maddpg提出了一种策略集成的方法,令智能体i的策略μi具有k个子策略的集合构成,在每轮训练中只使用一个子策略μ
i(k)
,在整个训练过程中,使得策略集合的整体奖励最高。因此actor最终的策略更新为:
[0254][0255]
参见图3,根据maddpg方法的求解原理,本发明实施例基于maddpg的多区域电网协同优化模型的整体算法流程如下:
[0256]
步骤一:各智能体同步并初始化参数。设置优化调度时段t并设置各智能体训练轮数m,初始值均设置为1,初始时随机设置智能体网络参数θi。
[0257]
步骤二:初始化环境。将多区域电网协同优化模型载入环境,设置与maddpg算法中状态和动作的接口文件,以能够实时根据状态动作进行潮流计算,反馈相应环境状态量。
[0258]
步骤三:各智能体与环境进行交互。各智能体观测自身区域的状态量并采取动作,与环境进行交互并反馈状态量计算奖励,智能体进行状态转移进入下一时刻,观测下一时刻状态,并将(x,a,r,x

)存入经验回放单元d。
[0259]
步骤四:更新各网络参数。从经验回放单元d中随机采样k策略下一组(x
(k)
,a
(k)
,r
(k)
,x

(k)
),根据公式(17)、(19)更新critic和actor参数,根据(18)更新目标网络参数。
[0260]
步骤五:判断当前训练轮数m是否达到设置值m,如果达到设置值则结束训练,输出结果并保存,如果未达到设置值,则返回步骤二,重新开始新的一轮训练。
[0261]
利用仿真软件对上述模型进行编程求解,将通过与集中式优化求解相对比,验证训练后的模型不仅具有较好应对不确定性的能力,还能够实现系统实时决策,有利于在线应用;通过与单智能体深度强化学习方法相对比,验证采用maddpg方法在训练过程中具有较快的收敛速度和较好的训练结果,在应对复杂环境问题中具有明显的优势。
[0262]
实施例2
[0263]
参见图4,本发明实施例的一种多区域电网协同优化系统,包括:
[0264]
观测数据收集模块2,用于收集待优化多区域电网中每个智能体区域的观测数据;
[0265]
协同优化模型构建模块3,用于以所述观测数据为基础,构建含可再生能源的多区域电网协同优化模型;
[0266]
强化学习模型设计模块4,用于将所述含可再生能源的多区域电网协同优化模型,按照状态空间、动作空间、环境以及奖励函数设计为多智能体环境下的强化学习模型;
[0267]
模型求解模块5,用于对所述多智能体环境下的强化学习模型进行求解,输出协同优化结果对多区域电网进行协同优化。
[0268]
在一种可能的实施方式中,还包括智能体划分模块1,用于对电网进行智能体划分;
[0269]
对电网进行智能体划分时,将节点标准系统划分为不同的区域,并根据区域设置为不同的智能体,以区域智能体作为决策中心,实现多区域电网的协同优化运行。
[0270]
在一种可能的实施方式中,观测数据收集模块2收集到的每个智能体区域的观测
数据包括:负荷数据p
l
、可再生能源实际输出功率火电机组实际输出功率以及火电机组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi。
[0271]
在一种可能的实施方式中,协同优化模型构建模块3建立如下目标函数:
[0272][0273]
式中,n为划分区域的数量,为区域n火电机组成本,为区域n可再生能源机组的弃风弃光惩罚;其中,以及的计算表达式分别如下:
[0274][0275]
式中,mk为区域n中火电机组的数量;t为计算时长;为火电机组i在时段t的运行状态:表示火电机组i运行,表示火电机组i停机;co为火电机组运行成本系数;为火电机组i在时段t所输出的功率;δt为运行时段区间;sui为火电机组i启动一次的成本;为火电机组i的停机成本;为火电机组i的停机时间;
[0276][0277]
其中,mn为区域n中可再生能源机组的数量;t为计算时长;cg为弃风弃光惩罚系数;为可再生能源机组j在时段t的实际输出功率;为可再生能源机组j在时段t的输出功率上限。
[0278]
在一种可能的实施方式中,协同优化模型构建模块3对所述目标函数建立等式约束以及不等式约束;
[0279]
等式约束,包括网络潮流约束、功率平衡约束;
[0280]
所述网络潮流约束的表达式如下:
[0281][0282][0283]
式中,p
g,i
、q
g,i
为从节点i注入的有功、无功功率;p
d,i
、q
d,i
为节点i负荷消耗的有功、无功功率;ne为配电网络节点数;ui、uj为节点i与节点j的电压幅值;g
ij
、b
ij
分别为电导、电纳;θ
ij
为节点i与节点j的相角差;
[0284]
所述功率平衡约束的表达式如下:
[0285][0286]
式中,mr为区域n中负荷的数量,为负荷r在时段t的功率;
[0287]
不等式约束,包括支路电流上限约束、节点电压上下限约束、火电机组输出功率上下限约束、火电机组开停机时间约束、火电机组爬坡约束、火电机组旋转备用约束、可再生能源机组输出功率上下限约束;
[0288]
支路电流上限约束的表达式如下:
[0289][0290]
式中,i
ij
为支路ij上流过的电流幅值,为支路ij上允许流过的电流的最大幅值;
[0291]
节点电压上下限约束的表达式如下:
[0292][0293]
其中,ui分别表示节点i电压的上、下限;
[0294]
火电机组输出功率上下限约束的表达式如下:
[0295][0296]
其中,p
ti
分别表示火电机组i的输出功率上、下限;
[0297]
火电机组开停机时间约束的表达式如下:
[0298][0299]
式中,为火电机组i的开机时间、停机时间、最小开机时间、最小停机时间;
[0300]
火电机组爬坡约束的表达式如下:
[0301][0302]
式中,u
t
、dn火电机组i在单位时间内有功功率最大爬升和下降速度;
[0303]
火电机组旋转备用约束的表达式如下:
[0304][0305][0306]
式中,为节点r在时间t的负荷备用容量,rw为可再生能源机组j的输出预测误差;可再生能源机组输出功率上下限约束的表达式如下:
[0307][0308]
式中,可再生能源机组j输出功率的上、下限。
[0309]
在一种可能的实施方式中,强化学习模型设计模块4在将所述含可再生能源的多区域电网协同优化模型,按照状态空间、动作空间、环境以及奖励函数设计为多智能体环境下的强化学习模型的步骤中,所述状态空间变量包括各个智能体区域的负荷数据p
l
、可再生能源实际输出功率可再生能源输出功率上限火电机组实际输出功率火电机组运行成本系数co、弃风弃光成本系数cg、启动机成本系数sui、停机成本系数sdi,以及节点
电压ui;所述状态空间的表达式如下:
[0310][0311]
所述动作空间变量包括:火电机组的输出功率火电机组的启停可再生能源输出功率所述动作空间的表达式如下:
[0312][0313]
将含可再生能源的多区域电网协同优化模型中,对所述目标函数建立的等式约束以及不等式约束作为环境,每个时刻每个智能体采取动作之后,进行一次电网潮流计算,反馈电网的相关状态量用于计算奖励函数,并转移到下一时刻,如此循环进行;
[0314]
将含可再生能源的多区域电网协同优化模型中,目标函数的相反数作为每个智能体的即时奖励;根据对所述目标函数建立的等式约束以及不等式约束,如果相应变量不满足约束,则设置惩罚值r
push
,和即时奖励一起作为智能体最终的奖励函数,表达式如下:
[0315]
r={f r
push
}。
[0316]
在一种可能的实施方式中,模型求解模块5采用maddpg算法对所述多智能体环境下的强化学习模型进行求解,在maddpg算法中,智能体i的actor获取自身相关的状态信息si,ai为智能体i采取的动作,ri为获取的奖励,θi为自身的权重参数,设有n个智能体,观测集x=(s1,...,sn)为所有智能体的状态信息;actor不断更新自身参数θi来使得自身奖励的期望值达到最大,即critic的评估值更高;
[0317]
actor的策略更新规则表达式如下:
[0318][0319]
式中,为集中式的状态-动作值函数,每一个智能体的独立学习并更新;d=(x,x',a1,...,an,r1,...,rn)为存放所有智能体经验的回放单元,每次训练时从中随机抽取一组进行训练;对于连续动作maddpg算法采用n个智能体的连续确定策略集μ;对于0-1动作训练阶段采用随机取值;
[0320]
critic通过最小化时间差分误差来更新自身参数,critic的损失函数表达式为:
[0321][0322]
式中,μ'为目标网络的策略集,γ∈[0,1]为折扣因子;
[0323]
目标网络定期从估值网络拷贝参数,规则如下:
[0324]
θ
′i=(1-τ)θ
′i τθi[0325]
式中,θi'为智能体i的目标网络参数,τ为软更新系数,且τ≤1;
[0326]
令智能体i的策略μi具有k个子策略的集合构成,在每轮训练中只使用一个子策略μ
i(k)
,在整个训练过程中,使得策略集合的整体奖励最高,actor最终的策略更新为:
[0327][0328]
在一种可能的实施方式中,模型求解模块5采用maddpg算法对所述多智能体环境下的强化学习模型进行求解的步骤具体包括:
[0329]
设置优化调度时段t并设置各智能体训练轮数m,初始值均设置为1,初始时随机设置智能体网络参数θi;
[0330]
将多区域电网协同优化模型载入环境,设置与maddpg算法中状态和动作的接口文件,以能够实时根据状态动作进行潮流计算,反馈相应环境状态量;
[0331]
各智能体观测自身区域的状态量并采取动作,与环境进行交互并反馈状态量计算奖励,智能体进行状态转移进入下一时刻,观测下一时刻状态,并将(x,a,r,x

)存入经验回放单元d;
[0332]
从经验回放单元d中随机采样k策略下一组(x
(k)
,a
(k)
,r
(k)
,x

(k)
),更新critic和actor参数,更新目标网络参数;
[0333]
判断当前训练轮数m是否达到设置值m,如果达到设置值则结束训练,输出结果并保存,如果未达到设置值,则重新开始新的一轮训练。
[0334]
实施例3
[0335]
本发明另一实施例还提出一种电子设备,包括:
[0336]
存储器,存储至少一个指令;及
[0337]
处理器,执行所述存储器中存储的指令以实现本发明所述的多区域电网协同优化方法。
[0338]
实施例4
[0339]
本发明另一实施例还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述的多区域电网协同优化方法。
[0340]
所述计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。为了便于说明,以上内容仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质是非暂时性的,可以存储在各种电子设备形成的存储装置当中,能够实现本发明实施例方法记载的执行过程。
[0341]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品
的形式。
[0342]
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0343]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0344]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0345]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献