一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的风电互联系统的LFC控制方法

2023-02-19 10:22:51 来源:中国专利 TAG:

一种基于强化学习的风电互联系统的lfc控制方法
技术领域
1.本发明涉及大规模风电并网发电系统控制技术领域,尤其涉及一种基于强化学习的风电互联系统的lfc控制方法。


背景技术:

2.以风力发电为代表的可再生能源在全球范围内得到了广泛的大规模开发应用,通常风力发电厂将风能转变为电能,再由电力电子设备连接到交流电网,但是风力电厂的有功功率的输出与电网频率是解耦的,这使得风力电厂无法像同步发电机一样在系统功率供需不平衡时,为电网及时提供频率支持。一般风力发电距离负荷中心远,需要采用特高压交/直流输电线路将风电场的电能输送至大城市,随着风力发电渗透率的提高,而风力发电具有明显的随机性、间歇性以及波动性,向常规互联电力系统的稳定运行和负荷频率控制提出了新的挑战。
3.电力系统频率稳定是电力系统安全运行最重要的因素之一,我国规定,电力系统正常运行时的频率应保持在50
±
0.2hz。风力发电具有明显的随机扰动性和波动性,大规模风力并网发电给常规电力系统平衡带来了功率波动,风力发电渗透率越高,所需二次调频备用机组越多。传统的依靠人手动调节和单一调频电厂调频的方法已经无法满足用户对电能质量日益严格的需求。
4.负载频率控制lfc(load frequency control)是根据电力系统机组出力和负荷波动引起的频率偏差δf和联络线功率偏差δptie,利用自动发电控制系统实时调整发电机组输出有功功率,以适应不断变化的负荷需求,在一定范围内实现电能的发供平衡,从而保证系统频率恢复至基准值、联络线交换功率恢复至规定值。


技术实现要素:

5.基于此,本发明采用强化学习设计一种负荷频率控制方法,让风力电厂参与电网频率的调节,当电网受到较大功率不平衡扰动时,缓解常规机组的调频压力,保证电网频率的稳定。
6.本发明为了解决大规模风力并网发电导致电力系统惯性和频率响应的降低,由于风力发电基于模型的随机性、间歇性和波动性特征,风力电厂无法像同步发电机一样在系统功率供需不平衡时,为电网及时提供频率支持,增加了常规机组的调频压力的问题,提出了一种基于强化学习的风电互联系统的lfc控制方法,包括以下步骤:
7.s101:构建三区互联电力系统;所述三区互联电力系统包括:火电厂频率控制系统、水电厂频率控制系统和火风发电频率控制系统,其中三个控制系统中任意两个系统的频率偏差输出信号,作为另外一个控制系统中控制器的输入信号,实现三区互联;
8.s102:将强化学习控制器作用于三区互联电力系统中,采用基于强化学习的方法对三区互联电力系统进行控制。
9.与现有技术相比,本发明的有益效果包括:该负荷频率控制器能够及时有效抑制
电力系统的频率振荡,一方面提高电网的安全性与稳定性,另一方面使得电网能够及时大规模吸纳风电厂发出的电能,提高风力发电企业的经济和社会效益。
附图说明
10.图1是本发明方法的流程示意图;
11.图2是三区互联示意图
12.图3是单独区域电力系统的lfc控制框图;
13.图4是三区互联电力系统lfc控制框图
14.图5是强化学习控制原理图;
15.图6是所述critic网络的结构原理图;
16.图7是所述actor网络的结构原理图;
17.图8是强化学习流程示意图;
18.图9是gru网络的结构;
19.图10是gru网络原理示意图;
20.图11是风机有功功率预测曲线;
21.图12是风机有功功率预测误差曲线;
22.图13是风机有功功率的误差响应曲线;
23.图14是各区域频率偏差响应曲线。
具体实施方式
24.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
25.首先对本技术相关专业术语及其缩写形式统一说明如下。
26.自动发电控制automatic generation control(agc);
27.负载频率控制(load frequency control,lfc);
28.区域控制偏差(area control error,ace);
29.强化学习(reinforcement learning,rl);
30.请参考图1,图1是本发明的方法的流程示意图;
31.本发明提供了一种基于强化学习的风电互联系统的lfc控制方法。本发明方法包括以下步骤:
32.s101:构建三区互联电力系统;所述三区互联电力系统包括:火电厂频率控制系统、水电厂频率控制系统和火风发电频率控制系统,其中三个控制系统中任意两个系统的频率偏差输出信号,作为另外一个控制系统中控制器的输入信号,实现三区互联;
33.请参考图2,图2是三区互联示意图;
34.图2中,将互联区域分为了三个,分别为区域一-火电厂、区域二-水电厂和区域三-火风电厂;
35.对于单个区域电厂(火电厂、水电厂、火风电厂中的任意一个),其线性化后的电力系统负荷频率模型包括三个部分:发电机-负荷模型(转子惯性和负荷环节):
[0036][0037]
非再热式汽轮机模型:
[0038][0039]
调速器模型为:
[0040][0041]
上式(1.1)-(1.3)中,h为发电机组的标幺惯性时间常数,d为用电负荷的调节频率效应系数,t
t
为无再热式蒸汽汽轮机的惯性时间常数,tg为调速器的惯性时间常数。
[0042]
由于风力发电其具有随机性、间歇性和波动性等特点,不能像火电机组、核电机组以及水电机组等常规的发电机组一样,在一段时间内保持恒定的输出功率,因此可将风电的偏差功率δp
wind
作为扰动量输入至三区互联电力系统。
[0043]
而将风电功率作为扰动量,其能量守恒方程如下式(1.4):
[0044]
δp
e-δp
wind
=δp
l
dδw
ꢀꢀꢀꢀ
(1.4)
[0045]
其中,δpe为同步发电机的电磁输出功率变化量;δp
wind
为风电机组有功输出与预测值之间的偏差;δp
l
为有功负荷的变化量;dδw为有功负荷与频率相关部分的变化量。
[0046]
由于本技术为三区互联电力系统,因此即使只有区域3存在风电,但其也会影响到区域一和区域二,则对于三区互联电力系统中,任意一个单独的系统而言,其lfc控制框图如图3所示。
[0047]
图3中包括了上述的三个基本模型,即调速器、汽轮机、转子惯性-负荷;
[0048]
下面针对图3中的一些还未解释的参数进行释义;图3中,b为频率偏差常数;r为系统的调差系数;δpc为调速器的输出量;δpg为蒸汽阀门的开度;δpm为原动机的输出机械功率变化量;δp
tie
表示联络线交换功率偏差;δf表示电网的实际频率与额定频率的偏差;k表示频率响应系数;
[0049]
关于ace,这里表示每个控制器的输入信号;区域控制偏差(ace)采用定频率交换功率控制方式,统一表述为:
[0050]
ace=δp
tie-10bδf
ꢀꢀꢀꢀ
(1.5)
[0051]
该方式下,ace既反映了频率偏差δf又反映了联络线交换功率偏差δp
tie

[0052]
根据图3(单独电力系统的lfc控制框图),可以进一步得到三区互联电力系统的总体控制框图。请参考图4,图4是三区互联电力系统lfc控制框图。
[0053]
需要特别说明的是,在每一个框图的右下角部分,传入的信号为另外两个框图的输出信号,以此将三个控制系统进行互联。图3从上至下,具体为:
[0054]
第一个图是火电厂频率控制:
[0055][0056]
第二个图是火电厂频率控制:
[0057][0058]
第三个图是火-风电厂频率控制:
[0059][0060]
s102:将强化学习控制器作用于三区互联电力系统中,采用基于强化学习的方法对三区互联电力系统进行控制。
[0061]
请参考图5,图5是强化学习控制原理图;所述强化学习控制包括:状态转换器、actor网络和critic网络;其单独控制的原理为:
[0062]
根据实际情况预先给定信号w(t)与被控光伏发电系统输出量y(t)相减,产生误差信号e(t);误差信号e(t)经过状态转换器转变为强化学习网络的输入状态信号x(t);状态信号x(t)输入至actor网络,得到输出信号un(t);状态信号x(t)与误差的强化学习信号r(t)一起输入至critic网络,得到输出信号n(t);输出信号un(t)与n(t)相结合,得到被控光伏发电系统的控制输入信号u(t);u(t)作用于被控光伏发电系统,得到输出信号y(t)形成闭环控制;actor网络和critic网络还通过时序差分信号δ
td
(t)在线更新actor网络和critic网络的权值系数。
[0063]
采用两个bp神经网络分别完成actor网络的策略函数和critic网络的值函数功能。
[0064]
请参考图6,图6是所述critic网络的结构原理图;
[0065]
critic网络的输入为状态信号
[0066]
xc(t)=[x1(t),x2(t)l,xn(t),r(t)]
t
ꢀꢀꢀꢀ
(1)
[0067]
critic网络误差函数如式(2)所示,
[0068][0069]
其中λ为折扣系数,0《λ《1;
[0070]
r(t)定义为:
[0071][0072]
其中为ε》0的常数;
[0073]
critic网络隐含层神经元的转移函数采用双极性sigmoid函数,如式(4)所示:
[0074][0075]
critic网络输出为性能指标函数j(t),其隐含层采sigmoid激活函数,输出层则采用线性激活函数;critic网络的隐含层和输出层神经元的输入和输出如式(5):
[0076][0077]
其中nc为评价网络隐含层神经元的个数,qi和pi分别为隐含层第i个神经元的输入和输出,ω
c(1)
和ω
c(2)
分别表示输入层到隐含层与隐含层到输出层的权值;
[0078]
critic网络权值更新计算如公式(6):
[0079][0080]
ηc(t)是critic网络的学习速率;根据反向梯度下降法得到从隐含层到输出层梯度计算如式(7)所示:
[0081][0082]
从输入层到隐含层梯度计算式如式(8)所示:
[0083][0084]
请参考图7,图7是actor网络的结构原理图;
[0085]
所述actor网络的输入为:
[0086]
xa(t)=[x1(t),x2(t)l,xn(t)]
t
ꢀꢀꢀꢀ
(9)
[0087]
actor网络隐含层和输出层神经元的输入和输出如式(10):
[0088][0089]
na为评价网络隐含层神经元的个数,hi和gi分别为隐含层第i个神经元的输入和输出,ω
a(1)
和ω
a(2)
分别表示输入层到隐含层与隐含层到输出层的权值;
[0090]
actor网络权值更新公式如式(11)所示:
[0091][0092]
ηa(t)是actor网络的学习速率;从隐含层到输出层以及输入层到隐含层的梯度计算式如式(12)和式(13)所示:
[0093][0094][0095]
其中ω
nj
和ωj分别为actor网络和critic网络的权值系数。
[0096]
控制输入信号u(t)的表达式如下式(14):
[0097]
u(t)=u1(t) ηm(0,ρ(t))
ꢀꢀꢀꢀ
(14)
[0098]
ηm的大小依赖于critic网络的输出j(t),ρ(t)=[1 exp(2j(t))]-1

[0099]
请参考图8,图8是强化学习流程示意图;强化学习流程具体如下:
[0100]
1、初始化actor网络和critic网络的学习速率、权值、迭代次数和误差阈值;
[0101]
2、根据前述式(5)、(10)计算j(t)和u1(t)的值;
[0102]
3、初始化迭代次数i=1;判断i是否小于最大迭代次数nc;若是,则进入第4步;否则转到第7步;
[0103]
4、按照公式(2)计算时序差分函数δ
td
的值;
[0104]
5、判断误差阈值δ0》δ
td
是否成立,若是,则按照式(7)、(8)更新critic网络的权值;否则转到第7步;
[0105]
6、按照式(12)、(13)更新actor网络的权值;
[0106]
7、t=t 1进入更新权值后的计算过程;
[0107]
8、按照式(14)计算控制信号u(t),并作用于被控系统;
[0108]
9、更新系统状态向量;
[0109]
10、判断t是否大于仿真时间t,若是,则强化学习过程结束;否则i=i 1,跳转至第三步中的迭代次数判断过程。
[0110]
针对前文所述的风力发电的随机特征,本文采取了一种短期预测方法对风力发电部分的功率波动进行了预测,这将有助于快速抑制风力发电系统的频率波动,提高电网稳定性。
[0111]
具体的说,本技术采用了gru网络对风力发电的波动功率进行预测。下面对gru网络进行介绍。请参考图9,图9是gru网络的结构。
[0112]
gru的隐藏层中仅含有重置门和更新门。与长短期记忆网络lstm相比,gru网络模型更加简单,网络的学习训练效率更高,而性能与lstm的性能差不多。图9中,z
t
表示更新门,r
t
表示重置门。这两个门的功能是用来控制信息被转移的程度。两个门的输入均为当前时刻的输入x
t
和前一时刻的隐藏状态h
t-1

[0113]
两个门的计算公式如下:
[0114]
1重置门
[0115]
重置门负责决定需要保留多少的记忆信息。重置门的输入由当前时刻的输入x
t
和上一时刻隐藏层的状态h
t-1
拼接而成,其输出一个(0,1)区间内的数,表示上一时刻隐藏层的状态h
t-1
保留的比例。重置门的输出如式(2.1)所示。
[0116]rt
=σ(wr×
[h
t-1
,x
t
] br)
ꢀꢀ
(2.1)
[0117]
gru通过两个门结构将输入的信息进行舍弃和记忆之后,会计算得到候选隐藏状态值其计算表达式如式(2.2)所示。
[0118][0119]
其中f为tanh激活函数。x
t
表示t时刻的输入,h
t-1
表示上一个时刻的隐藏状态,[ ]表示两个向量相连,wz、wr表示权重矩阵,σ()表示sigmoid函数。
[0120]
2更新门
[0121]
gru中更新门负责决定需要遗忘多少上一时刻的信息以及记忆多少当前时刻的信息。更新门的输入由当前时刻的输入x
t
和上一时刻隐藏层的状态h
t-1
拼接而成,其输出一个(0,1)区间内的数。更新门的输出如式(2.3)所示。
[0122]zt
=σ(wz×
[h
t-1
,x
t
] bz)
ꢀꢀꢀꢀ
(2.3)
[0123]
tanh激活函数通过更新门得到更新的状态信息后,其根据新的输入创建所有可能的值的向量,计算得到候选隐藏状态值再通过网络计算出当前时刻的最终状态h
t
,公式如式(2.4)所示。
[0124][0125]
损失函数定义为:
[0126][0127]
预测/决策函数为:
[0128]
predicted_class=argmax(sign(wx b))
ꢀꢀꢀꢀ
(2.6)
[0129]
请参考图10,图10是gru网络原理示意图。根据上面的计算公式,gru通过两个门存储并过滤信息,通过门函数将重要的特征保留下来,通过学习来捕获依赖项,进而得到最佳的输出值。
[0130]
在gru的输出层采用softmax函数,输出风机有功功率,从而能够预测风机功率波动。
[0131]
最后,作为一种实施例,本技术进行了三区互联电力系统的lfc控制仿真实验。相关实验参数请参照表1。
[0132]
表1三区域风电互联系统模型的电气参数
[0133][0134]
在matlab环境下建立系统模型,采用的强化学习控制器,其参数见表2。
[0135]
表2强化学习网络参数设置
[0136][0137]
1)基于gru的风机有功功率预测结果
[0138]
通常风速、风向、历史功率数据以及湿度等因素是影响风力发电功率的关键因素,将风速、风向、历史功率数据以及湿度等信号作为gru深度学习网络的输入信号,从而得到风力发电功率预测值。
[0139]
请参考图11、图12,图11和图12分别是风机有功功率预测曲线和预测误差曲线。
[0140]
2)基于强化学习的三区域风电系统lfc控制仿真结果
[0141]
请参考图13和图14;图13是风机有功功率的误差响应曲线。图14是各区域频率偏差响应曲线;从仿真结果可见,采用强化学习lfc控制器后,三区域互联电力系统的频率响应波动变化范围明显比常规lfc控制小,三个互联区域频率偏差稳定在50
±
0.15hz,交流电
网的频率更加稳定,电能质量更加好。
[0142]
本发明有益效果是:随着风力发电渗透率不断提高,所需二次调频备用越多,适当利用风力发电具有调频速度快的特点,采用基于强化学习的lfc控制器一方面可以有效保证电力系统频率稳定性;另一方面充分缓解常规机组的调频压力,提高机组利用率,增加风力发电企业的经济和社会效益。
[0143]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0144]
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献