一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于Rainbow深度Q网络的微电网能量管理方法与流程

2022-07-13 03:25:54 来源:中国专利 TAG:

基于rainbow深度q网络的微电网能量管理方法
技术领域
1.本发明涉及电力工程技术领域,具体涉及微电网运行控制与能量管理领域。


背景技术:

2.近年来,由于全球煤炭库存出现紧张,导致电厂的发电量不断出现负增长,造成全球的电力短缺。而微电网作为一种多种能源系统、储能设备相耦合的新型能源互联网,既能接入风力发电和光伏发电等清洁新能源来减少电网的购电量,又可以利用分布式资源以及多种能量管理手段来提高能量的利用率,减少能量以及经济的浪费。应对电力短缺时,可以起到开源节流的正向作用。但是正是由于微电网的多能耦合特性,可再生能源的不确定性,能量流动和负荷的多样性使得能量在不同时间和空间的调度问题,成为微电网能量管理的重大挑战。所以需要找到一种高效的能量管理方法来应用于微电网能量管理。


技术实现要素:

3.本发明所要解决的技术问题就是提供一种基于rainbow深度q网络的微电网能量管理策略,对微电网结构进行建模,并学习出一种最优策略以在保证微电网各个参与部分正常运转的前提下,实现微电网日运行成本最低以及提高能量利用率的目的。
4.为了解决上述技术问题,本发明采用如下技术方案:
5.基于rainbow深度q网络的微电网能量管理方法,包括如下步骤:
6.步骤(1):根据居民微电网建立与之对应的能量管理仿真模型,在日前调度阶段,获取未来一天的光伏和风能发电预测出力数据、微电网的实时负荷需求预测数据以及主电网的实时电价预测数据,将其作为模型的训练数据集。
7.步骤(2):定义强化学习中马尔科夫决策所决定的微电网能量管理仿真模型所需的训练环境,包括如下子步骤:
8.(2.1)定义环境状态空间:调度当日0时至23时的负荷需求、新能源的出力功率以及电动汽车的实时荷电状态和储能设备的实时荷电状态四个部分,构成本次能量管理仿真模型所需的环境状态空间s(t)。
9.(2.2)定义智能体动作空间:通过调度所述智能体执行电动汽车和储能设备的充放电动作进行控制。
10.(2.3)定义奖励函数:所述奖励函数引导所述智能体实现预定的微电网能量管理优化。
11.(2.4)设置微电网后备安全控制器,所述微电网后备安全控制器用于控制所述智能体执行过充或过放误操作;使得储能设备以及电动汽车超过荷电状态的上下限值,影响设备寿命和安全。
12.(2.5)执行实际控制指令:所述智能体执行从rainbow深度q网络中学习出的动作,进行充放电操作。
13.(2.6)与大电网交互:通过公共联接点与大电网相连接,在新能源出力能满足微电
网负荷需求后仍有多余的时刻,将剩余的电量回馈给大电网;在新能源出力和储能设备、电动汽车以最大功率输出仍不能满足微电网负荷需求的时刻,以实时电价从主电网购电。从而实现整个微电网系统的实时功率平衡。
14.步骤(3):采用rainbow深度q网络,对步骤(2)定义的微电网能量管理模型进行训练,将0至23时分为24个调度时刻,每一时作为一步,一幕为24时;利用该日的实时预测数据进行反复多幕的训练,直至最终的奖励函数达到收敛。
15.步骤(4):将步骤(3)训练完毕的智能体应用于该日的微电网能量管理,在进行每一幕的训练时,将每一个调度时刻的模型状态空间数据输入神经网络,得出该状态空间下每一个可执行动作的动作价值函数;通过横向比较每个动作的动作价值函数选出最优动作并将其转化为实际指令,从而控制储能设备以及电动汽车的充放电操作;
16.居民区用户的电动汽车参与微电网能量管理,在负荷需求较大的调度的时刻可以充当储能设备进行功率输出以减少电网购电量;在负荷需求较小的时刻充当可中断负载;以达到减少微电网日运行成本的目的。
17.风力和光伏发电构成微电网系统的可再生能源出力;居民区用户连接于微电网以供应其用电;微电网系统具备储能设备;微电网通过公共联结点与大电网相连接以交换电量并获得实时电价。
18.所述步骤(1)包括如下步骤:
19.i)优化一日运行成本,所述运行成本包括三个部分:第一,电网交互成本,分为售电收入和购电成本;第二,储能设备运行成本;第三,电动汽车运行成本;具体公式如下:
[0020][0021]
其中,t为总调度时段;e
b,t
为t时刻的购电价格;e
s,t
为t时刻的售电价格;x
t
为t时刻与电网交换的电量;c
b,t
为t时刻储能系统的运行成本;c
v,t
为t时刻电动汽车的运行成本。
[0022]
ii)平衡各个参与部分的功率与大电网功率,具体功率平衡公式如下:
[0023]
p
x,t-p
l,t
p
n,t-p
b,t-p
v,t
=0
ꢀꢀ
(2)
[0024]
其中,p
x,t
为t调度时刻从大电网交换电量的功率,正数代表购电,负数代表售电;p
l,t
为t时刻微电网系统的实时负荷需求;p
n,t
为t时刻的风力和光伏出力功率;p
b,t
为t时刻的储能设备运行功率,正数代表充电状态下的功率,负数代表放电状态下的功率;p
v,t
为t时刻的电动汽车实时功率,正数代表充电状态下的功率,负数代表放电状态下的功率。
[0025]
iii)能量管理系统在实现日最低运行成本的优化目标的同时,需要减小负荷和生产不平衡造成的峰谷差值,且确保各设备运行在正常的工作环境,优化目标如下:
[0026][0027]
如上所示,储能设备的充电功率,、放电功率p
bd,t
均不超过其正常工作允许的最大功率;同理,电动汽车的充电功率p
vc,t
、放电功率p
vd,t
亦不超过其正常工作允许的最大功率。
[0028]
步骤(2.1)中,在每个调度时刻前,所述智能体从环境中获取该时刻的新能源出力预测p
n,t
和微电网该时刻的负荷需求预测p
l,t
,作为能量管理模型的外部状态信息。同时,根
据上一个调度时刻智能体所选取的动作,改变了电动汽车该时刻的荷电状态b
v,t
和储能设备该时刻的荷电状态b
b,t
,此两者为能量管理模型的可控状态信息;将这四个状态信息组成状态空间,用以送入神经网络训练出最优动作并进行选取。
[0029]
步骤(2.2)中,用以进行微电网能量管理模型优化的动作包括每个调度时刻的电动汽车的充放电功率p
v,t
和储能设备的充放电功率p
b,t
,并依照各自电池的充放电档位组合成nv*nb(nv为电动汽车的充放电档位个数,nb为储能设备的充放电档位个数)个在每一个调度时刻可供智能体选取的动作,构成动作空间。
[0030]
步骤(2.3)中,所述智能体通过奖励函数选择动作;奖励函数分为三个部分:购电成本与售电奖励、储能系统运行成本以及违规惩罚、电动汽车运行补偿以及违规惩罚。如下所示:
[0031][0032]
其中,c
e,t
为t调度时刻与电网交互的收入或成本,e
s,t
为t时刻的单位售电价格,e
b,t
为t时刻的单位购电价格,x
t
为t时刻与电网交互的电量;v
b,t
代表储能设备t时刻的总度电成本,δ1为度电系数;d
b,t
代表t时刻储能设备的过充或过放惩罚,δ2为惩罚系数,d
p1,t
为t时刻储能系统过充或过放的电量;同样,v
v,t
代表电动汽车t时刻的运行补偿成本,用以补偿用户因电动车参与调度造成的电池损耗等问题所损失的利益,δ3为补偿系数;d
v,t
代表t时刻电动汽车的过充或过放惩罚,δ4为惩罚系数,d
p2,t
为t时刻电动汽车过充或过放的电量。c
b,t
(储能系统运行成本以及违规惩罚)、c
v,t
(电动汽车运行补偿以及违规惩罚)、c
e,t
之和构成奖励函数r
t

[0033]
步骤3包含以下子步骤
[0034]
(3.1)构建rainbow深度q网络,包括以下部分:
[0035]
i)构建包含两个全连接层和一个隐藏层的神经网络,对所有的全连接层的权重,加上一个高斯分布的噪声项进行干扰以替代原有的ε-greedy(随机-贪婪)探索方式,提高算法的探索合理性。
[0036]
ii)在输出层q网络前加入一个竞争网络,将输出的q函数拆分成价值函数v(状态下所有q值的平均数)和优势函数a(被限制平均为0的数)之和,优点在于将动作的价值与智能体实时所在的状态相关联,使选取动作的策略更优;具体公式如下:
[0037][0038]
其中,α和β分别为价值函数网络层和优势函数网络层的参数,1/|a|为优势函数的平均值。
[0039]
iii)搭建两个q网络作为神经网络最后的输出层,将动作选择和价值估计进行解
耦,一个网络用于对状态下所有动作的评估,另一个用于具体动作的选择。用以改善自举所造成的过估计误差。
[0040]
iv)使用多步学习(muti-step learning)方法更新q网络,用以加速q网络的收敛,公式如下:
[0041][0042]
其中,n为更新的步幅长度,w为神经网络参数,γ为折扣率。
[0043]
(3.2)优先经验回放池:设定一个容量固定的经验池,将所述智能体已经训练过的每一组数据(s
t
,a
t
,r
t
,s
t 1
)存放入经验回放池中,并根据之前训练时所造成的误差大小,用公式排列优先度来评估每一组数据重新送入神经网络中训练的顺序和概率,目的是增加数据的利用率以及减小相邻数据的相关性,具体采样方式如下所示:
[0044][0045]
其中,δi为这一组经验在之前训练时所造成的误差值,ε为防止pi为0的噪声,β为退火因子,用以调节优先度。
[0046]
本发明将微电网的能量管理问题描述为强化学习框架下的马尔科夫决策过程,在不断与环境交互状态信息后,学习出一种最优控制策略。它克服了新能源出力的不确定性所造成的建模困难,在获得最终奖励的收敛后,就可以将训练好的智能体用于一天的实时调度。
[0047]
在调度阶段,将每个调度时段的实时状态信息输入神经网络,神经网络对每个动作进行评估并选择最优动作,并以此为依据执行电动汽车以及储能设备的充放电操作,在保证正常运行的基础上,达到日运行成本最低的优化目标。
[0048]
该方法解决了新能源出力的不确定性所造成的建模困难,而且训练后具备快速收敛性,面对新的能量管理场景时也具备优秀的泛化能量。
[0049]
本发明的具体技术方案及其有益效果将会在下面的具体实施方式中进行详细的说明。
附图说明
[0050]
图1微电网结构图及其能量管理策略框图
[0051]
图2一日风力发电及光伏发电预测图
[0052]
图3实时负荷需求预测图
[0053]
图4主电网分时电价图
[0054]
图5 rainbow深度q网络训练结果图
[0055]
图6深度q网络训练结果图
[0056]
图7神经网络loss值变化图
[0057]
图8电动汽车以及储能设备的荷电状态变化图
具体实施方式
[0058]
下面对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本发明的保护范围。
[0059]
本发明涉及一种能量管理方法,将微电网的能量管理问题描述为强化学习框架下的马尔科夫决策过程,在不断与环境交互状态信息后,学习出一种最优控制策略。
[0060]
本发明的目的是,在调度阶段,将每个调度时段的实时状态信息输入神经网络,神经网络对每个动作进行评估并选择最优动作,并以此为依据执行电动汽车以及储能设备的充放电操作,在保证正常运行的基础上,达到日运行成本最低的优化目标。
[0061]
基于rainbow深度q网络的微电网能量管理方法,包括如下步骤:
[0062]
步骤(1):根据居民微电网建立与之对应的能量管理仿真模型,在日前调度阶段,获取未来一天的光伏和风能发电预测出力数据、微电网的实时负荷需求预测数据以及主电网的实时电价预测数据,将其作为模型的训练数据集。
[0063]
i)优化一日运行成本,所述运行成本包括三个部分:第一,电网交互成本,分为售电收入和购电成本;第二,储能设备运行成本;第三,电动汽车运行成本;具体公式如下:
[0064][0065]
其中,t为总调度时段;e
b,t
为t时刻的购电价格;e
s,t
为t时刻的售电价格;x
t
为t时刻与电网交换的电量;c
b,t
为t时刻储能系统的运行成本;c
v,t
为t时刻电动汽车的运行成本。
[0066]
ii)为保证对微电网系统进行能量管理时,各个参与部分的功率能够始终维持平衡,定义如下功率平衡关系:
[0067]
p
x,t-p
l,t
p
n,t-p
b,t-p
v,t
=0
ꢀꢀ
(2)
[0068]
其中,p
x,t
为t调度时刻从大电网交换电量的功率,正数代表购电,负数代表售电;p
l,t
为t时刻微电网系统的实时负荷需求;p
n,t
为t时刻的风力和光伏出力功率;p
b,t
为t时刻的储能设备运行功率,正数代表充电状态下的功率,负数代表放电状态下的功率;p
v,t
为t时刻的电动汽车实时功率,正数代表充电状态下的功率,负数代表放电状态下的功率。
[0069]
步骤(2):定义强化学习中马尔科夫决策所决定的微电网能量管理仿真模型所需的训练环境。
[0070]
(2.1)定义环境状态空间:调度当日0时至23时的负荷需求、新能源的出力功率以及电动汽车的实时荷电状态和储能设备的实时荷电状态四个部分,构成本次能量管理仿真模型所需的环境状态空间s(t)。
[0071]
(2.2)定义智能体动作空间:通过调度所述智能体执行电动汽车和储能设备的充放电动作进行控制。
[0072]
(2.3)定义奖励函数:用以引导所述智能体实现预定的微电网能量管理优化目的。
[0073]
(2.4)设置微电网后备安全控制器,以防所述智能体执行过充或过放误操作使得储能设备以及电动汽车超过荷电状态的上下限值,影响设备寿命和安全。
[0074]
(2.5)执行实际控制指令:所述智能体执行从rainbow深度q网络中学习出的动作,进行充放电操作。
[0075]
(2.6)与大电网交互:通过公共联接点与大电网相连接,在新能源出力能满足微电网负荷需求后仍有多余的时刻,将剩余的电量回馈给大电网;在新能源出力和储能设备、电
动汽车以最大功率输出仍不能满足微电网负荷需求的时刻,以实时电价从主电网购电。从而实现整个微电网系统的实时功率平衡。
[0076]
步骤(3):采用rainbow深度q网络,对步骤(2)定义的微电网能量管理模型进行训练,将0至23时分为24个调度时刻,每一时作为一步,一幕为24时;利用该日的实时预测数据进行反复多幕的训练,直至最终的奖励函数达到收敛。
[0077]
步骤(4):将步骤(3)训练完毕的智能体应用于该日的微电网能量管理,在进行每一幕的训练时,将每一个调度时刻的模型状态空间数据输入神经网络,得出该状态空间下每一个可执行动作的动作价值函数;通过横向比较每个动作的动作价值函数选出最优动作并将其转化为实际指令,从而控制储能设备以及电动汽车的充放电操作。
[0078]
为了说明本发明效果,下面以某一微电网系统作为本发明的实施对象对本发明方法进行详细说明:
[0079]
步骤(1):根据居民微电网建立与之对应的能量管理仿真模型,微电网结构如图1所示。在日前调度阶段,获取未来一天的光伏和风能发电预测出力数据,如图2所示;微电网的实时负荷需求预测数据,如图3所示;以及如图4所示的主电网实时电价数据,将其作为模型的训练数据集。
[0080]
i)根据微电网一日运行成本最低的优化目标,设定包括电网交互成本,储能设备运行成本、电动汽车运行成本的微电网总费用的构成,具体如公式(1)所示:
[0081][0082]
由于本次的设定以一日的微电网能量管理作为目标,所以本次发明中的总时段t取23,即将一日分为24个时段进行模型优化。
[0083]
ii)考虑到各个参与部分的功率在总的调度过程中应始终维持平衡,定义如公式(2)所示的功率平衡关系:
[0084]
p
x,t-p
l,t
p
n,t-p
b,t-p
v,t
=0
ꢀꢀ
(2)
[0085]
步骤(2):定义强化学习中马尔科夫决策所决定的微电网能量管理仿真模型所需的训练环境,包括如下子步骤:
[0086]
(2.1)定义环境状态空间:调度当日0时至23时的负荷需求、新能源的出力功率以及电动汽车的实时荷电状态和储能设备的实时荷电状态四个部分,即状态空间s(t)={p
n,t
,p
l,t
,b
v,t
,b
b,t
}
[0087]
(2.2)定义智能体动作空间:通过调度所述智能体执行电动汽车和储能设备的充放电动作进行控制,即动作空间a(t)={p
b,t
,p
v,t
},由于基于价值迭代的强化学习智能执行离散动作,所以将电动汽车的充放电动作设定为以下11个档位:
[0088]
{-200,-150,-100,-50,0,50,100,150,200,300,400}
[0089]
同样的,将储能设备的充放电动作也设定9个档位进行控制:
[0090]
{-200,-150,-100,-50,0,50,100,150,200}
[0091]
(2.3)定义奖励函数:用以引导所述智能体实现预定的微电网能量管理优化目的,奖励函数分为三个部分:购电成本与售电奖励、储能系统运行成本以及违规惩罚、电动汽车运行补偿以及违规惩罚。如公式(8)所示:
[0092]rt
=c
e,t
c
v,t
c
b,t
ꢀꢀ
(8)
[0093]
(2.4)设置微电网后备安全控制器,以防止智能体执行过充或过放误操作使得储
能设备以及电动汽车超过荷电状态的上下限值,影响设备寿命和安全,设定如公式(9)所示,当超过或等于该设定值时,后备控制器会将模型给出的动作进行置0处理。电动汽车的最小荷电状态设定为0.35的原因是用户需要使用电动汽车时保证其有一定的电池余量供其使用。
[0094][0095]
(2.5)执行实际控制指令:在电动汽车和储能设备的荷电状态不超过设定值时,智能体执行从rainbow深度q网络中学习出的动作,进行充放电操作。
[0096]
(2.6)与大电网交互:通过公共联接点与大电网相连接,在新能源出力能满足微电网负荷需求后仍有多余的时刻,将剩余的电量回馈给大电网;在新能源出力和储能设备、电动汽车以最大功率输出仍不能满足微电网负荷需求的时刻,以实时电价从主电网购电。从而实现整个微电网系统的实时功率平衡。
[0097]
步骤(3):采用rainbow深度q网络,对步骤(2)定义的微电网能量管理模型进行训练,将0至23时分为24个调度时刻,每一时作为一步,一幕为24时;利用该日的实时预测数据进行反复多幕的训练,直至最终的奖励函数达到收敛。步骤3包含以下子步骤
[0098]
(3.1)构建rainbow深度q网络,包括以下部分:
[0099]
i)构建包含两个全连接层和一个隐藏层的神经网络,对所有的全连接层的权重,加上一个高斯分布的噪声项进行干扰以替代原有的ε-greedy(随机-贪婪)探索方式,提高算法的探索合理性,具体的损失函数如公式(10)所示。
[0100][0101]
其中,原有的权重w和误差b从一个数值转化为服从于均值为μ,方差为σ的正态分布,同时存在一定的服从高斯分布的随机噪声ε,噪声ε为每一轮训练中产生的常量,计算方式如公式(11)所示:
[0102][0103][0104][0105]
ii)在输出层q网络前加入一个竞争网络。
[0106]
iii)搭建两个q网络作为神经网络最后的输出层。
[0107]
iv)使用多步学习(muti-step learning)方法更新q网络,用以加速q网络的收敛,使用多步更新时,更新步幅不宜太长,本模型选用双步更新方法用以更新q网络。
[0108]
(3.2)优先经验回放池:在开始训练前先让智能体随机动作以积累2000组经验来充分保证训练初期即拥有一定的经验进行回放训练。模型的经验池大小设置为3000,当经验池存储经验数量达到3000时,新的训练数据将按采样顺序替换经验池中原有的数据。并采用sumtree法分布所用的待采样数据以及其优先度,进行采样以实现优先经验回放。
[0109]
步骤(4):将步骤(3)训练完毕的智能体应用于该日的微电网能量管理,电动汽车的初始荷电状态设定为0.35,储能设备的初始荷电状态设定为0.2。将每一个调度时刻的模型状态空间数据输入神经网络,得出该状态空间下每一个可执行动作的动作价值函数;通过横向比较每个动作的动作价值函数选出最优动作并将其转化为实际指令,从而控制储能
设备以及电动汽车的充放电操作。
[0110]
为了能达到较好的训练效果,本实例设定了数个不同的随机数种子,并比较了在每个随机数种子下的模型训练效果,得出其中的最优解。图5为最终的奖励变化曲线图,图7为神经网络loss值变化图。可以看到,无论是收敛速度以及最终效果,都要优于如图6所示的深度q网络训练结果。运用训练好的智能体进行微电网的能量管理,可以得到更好的储能设备和电动汽车的充放电方案,使其在正常运行的基础上,充分发挥其削峰填谷的正向作用,有效地提高了能量的利用率,减少了从大电网的购电量,从而提高了经济效益。图8为执行最优控制时的电动汽车以及储能设备的荷电状态变化图。
[0111]
综上,本发明作为一种新型的基于学习的无模型调度策略生成方法,将微电网一天24小时的负荷需求、光伏以及风力出力、电动汽车和储能设备的荷电状态预测数据作为rainbow深度q网络的状态空间输出,通过智能体学习并执行电动汽车以及储能设备的充、放电动作,从而实现以保证功率稳定和设备寿命和安全的前提之下的微电网一日运行成本最低的目的,并提高了能量的利用率。该方法由于可以解决可再生能源的随机性和间歇性导致的微电网能量管理模型建模困难,而且训练后具备快速收敛性,应对新的微电网能量管理模型时也具有优秀的泛化能力,从而能够有效地解决可再生能源的不确定性,能量流动和负荷的多样性导致的微电网能量利用率低、运行成本较高的缺陷。
[0112]
以上所述,仅为本发明的具体实施方式,但发明的保护范围并不局限于此,熟悉本领域的技术人员应该明白本发明包括但不限于上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都包括在权利要求书的范围中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献