一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习的双时间尺度电网电压优化方法与流程

2021-12-17 21:46:00 来源:中国专利 TAG:


1.本发明涉及一种双时间尺度电网电压优化方法。特别是涉及一种基于深度强化学习的双时间尺度电网电压优化方法。


背景技术:

2.为构建以新能源为主体的新型电力系统,各类可再生能源的渗透率必将进一步提高,负荷需求响应的随机性和动态性也将进一步增强,这给现代电网的运行和控制带来巨大挑战。
3.电网无功电压优化优化能够在一定程度上有效并且经济的解决电力系统常常由于受到扰动而引发电压大范围波动这一问题,而电网无功电压优化问题可以看成是一个拥有众多目标、变量及约束,且非线性的复杂优化问题。
4.目前,处理动态无功电压优化的方法主要有传统运筹学优化法、启发式搜索法等。但这些方法往往存在收敛速度慢、计算量大、易陷入局部最优等问题。此外,大多数现有方法基于模型求解,高度依赖模型精度,这对大量新能源接入的电力系统来说是不切实际的。为减少模型精度对控制性能的影响,将人工智能算法应用在无功电压优化领域能够使电力系统在各种状况下及时准确地做出应对措施,无疑为电力系统的运行控制提供了新思路。


技术实现要素:

5.本发明所要解决的技术问题是,提供一种能够同时考虑离散与连续无功补偿装置的基于深度强化学习的双时间尺度电网电压优化方法。
6.本发明所采用的技术方案是:一种基于深度强化学习的双时间尺度电网电压优化方法,包括如下步骤:
7.1)分别对双时间尺度方法中的长时间尺度间隔和短时间尺度间隔进行划分:
8.将一天分割成k
l
个相同的长时间间隔,在一天内每个长时间间隔的初始时刻分别为t=0,

,k
l

1,再将每个长时间间隔细分为k
s
个相同的短时间间隔,在一个长时间间隔内每个短时间间隔的初始时刻分别为t=0,

,k
s

1;
9.2)基于dqn算法进行长时间尺度电网电压优化,包括:建立长时间尺度电网电压优化模型,利用隶属函数对多目标进行整合,针对长时间尺度电网电压优化模型设计奖励函数,以及运用dqn算法对长时间尺度电网电压优化模型进行求解,得到长时间尺度并联电容器组投切计划;
10.3)基于ddpg算法进行短时间尺度无功电压优化,包括:建立短时间尺度电网电压优化模型,针对短时间尺度电网电压优化模型设计奖励函数,以及运用ddpg算法对短时间尺度电网电压优化模型进行求解,得到短时间尺度连续无功补偿装置出力计划。
11.本发明的一种基于深度强化学习的双时间尺度电网电压优化方法,具有如下优点:
12.1、本发明在长短时间尺度上通过两个智能体之间的相互配合,实现各类无功补偿
装置的优势互补,具备更强的无功电压优化能力。
13.2、本发明所设计方法在长时间尺度上以抑制常规负载需求变化带来的电压大范围波动和最小化全系统网损为目标,将dqn算法作为优化内核,可在一天内各优化时刻点对电容器投切计划进行统筹安排。
14.3、本发明所设计方法在短时间尺度上为解决新能源大规模并网带来的电网电压快速、频繁波动问题为目标,将ddpg算法作为优化内核,有效实现快速优化。
15.4、本发明所提出的电网电压优化方法可有效应对高比例新能源接入下电网电压频繁波动问题,对工程应用具有实际意义。
附图说明
16.图1是本发明一种基于深度强化学习的双时间尺度电网电压优化方法的流程图;
17.图2是本发明实例中改进的ieee39节点测试系统示意图;
18.图3是本发明实例中典型日内长时间尺度电容器组投切计划示意图;
19.图4是本发明实例中长时间尺度日均网络损耗示意图;
20.图5是本发明实例中典型日内短时间尺度连续无功补偿装置无功出力示意图;
21.图6a是本发明实例中典型日内节点6电压优化效果示意图;
22.图6b是本发明实例中典型日内节点23电压优化效果示意图;
23.图6c是本发明实例中典型日内节点26电压优化效果示意图。
具体实施方式
24.下面结合实施例和附图对本发明的一种基于深度强化学习的双时间尺度电网电压优化方法做出详细说明。
25.如图1所示,本发明的一种基于深度强化学习的双时间尺度电网电压优化方法,包括如下步骤:
26.1)分别对双时间尺度方法中的长时间尺度间隔和短时间尺度间隔进行划分:
27.将一天分割成k
l
个相同的长时间间隔,在一天内每个长时间间隔的初始时刻分别为t=0,

,k
l

1,再将每个长时间间隔细分为k
s
个相同的短时间间隔,在一个长时间间隔内每个短时间间隔的初始时刻分别为t=0,

,k
s

1;
28.2)基于dqn算法进行长时间尺度电网电压优化;包括:
29.(2.1)建立长时间尺度电网电压优化模型:
30.长时间尺度电网电压优化模型目标函数f
l
(t)为:
31.min f
l
(t)=|f1(t),f2(t)|
[0032][0033][0034]
其中,t为全部并联电容器组投切状态向量,f1(t)和f2(t)分别为目标函数f
l
(t)的第一个子目标和第二个子目标;t(τ)表示t时刻全部并联电容器组投切状态向量,各个并联
电容器组的投切状态由投切档位表示;n为电网中节点的数量;v
p
表示中枢节点对应的电压幅值;v
ref
为中枢节点对应电压参考值;p
ij
表示节点i流向节点j的有功功率;k
l
表示一天内长时间间隔的数量;
[0035]
考虑电网运行潮流约束以及电压约束:
[0036][0037][0038][0039]
其中,p
i
表示注入节点i的有功功率;q
i
为表示注入节点i的无功功率;v
i
表示节点i的电压幅值;和分别表示节点i的电压幅值上限和下限;g
ij
表示节点i和节点j间的电导;b
ij
表示节点i和节点j间的电纳;ω
ij
表示节点i和节点j间的电压相角差;
[0040]
第m台并联电容器组的投切受到投切档位t
m
上下限和的限制:
[0041][0042]
并联电容器组一天内的投切次数上限设置为
[0043][0044]
其中,c
m
表示第m台并联电容器组一天内的投切次数。
[0045]
(2.2)利用隶属函数对多目标进行整合;
[0046][0047]
其中,表示第b个子目标对应的单一维度上可能的最优值,其中b=1,2;δ
β
为子目标f
β
取值的容忍度,用来划定目标函数能够到达的边界,对于任意子目标,当对应目标值位于容忍范围内,隶属函数μ(f
β
)将则子目标f
β
取值映射到[0,1]之间,在子目标f
β
取值的容忍度外时隶属函数取值置0,当发现新的子目标最优值时隶属函数取值置1;
[0048]
采用隶属函数映射后的新目标函数为:
[0049]
min[

μ(f
l
)]=k1μ(f1) k2μ(f2)
[0050]
其中,μ(f
l
)表示与目标函数f
l
对应的隶属函数;k1和k2分别为两个目标的权重系数。
[0051]
(2.3)针对长时间尺度电网电压优化模型设计奖励函数r
l
(τ):
[0052][0053]
其中,μ(f
l
)表示与目标函数f
l
对应的隶属函数;σ
l
为长时间尺度电压越限以及电
容器投切次数越限的惩罚因子;v
i
(τ)表示t时刻节点i的电压幅值;c
m
(τ)表示t时刻第m台并联电容器组一天内的投切次数。
[0054]
(2.4)运用dqn算法对长时间尺度电网电压优化模型进行求解,得到长时间尺度并联电容器组投切计划;包括:
[0055]
(2.4.1)计算dqn网络损失函数l(q):
[0056][0057]
其中,r
l
(τ)表示长时间尺度电网电压优化模型的奖励函数;s(τ)和s(τ

1)分别表示智能体在时刻t和时刻t

1的状态,由信息矩阵集合{v,p,q,t,c,q}组成,v、p、q分别为各节点电压幅值向量、各节点注入有功功功率向量和无功功率向量,t、c、q分别为全部并联电容器组投切状态向量、全部并联电容器组一天内已投切次数向量以及全部连续无功补偿装置的无功出力向量;a为智能体的动作空间;a
l
表示智能体所选择的动作;a
l
(t)=t(t)是智能体基于t

1时刻的状态s(t

1)实施策略得出的;q
π
由估计价值网络输出;由一个与估计价值网络形式相同的目标网络输出,该目标网络参数由估计价值网络每隔固定步长传入,因此目标网络相对估计价值网络具有一定滞后,θ和θ
target
分别为估计价值网络和目标网络参数;
[0058]
(2.4.2)采用随机梯度下降法对估计价值网络参数进行更新,更新方法为:
[0059][0060]
其中,θ
τ 1
和θ
τ
分别表示t 1时刻和t时刻的估计价值网络参数;α表示估计价值网络在更新过程中的学习率;

表示梯度求取。
[0061]
3)基于ddpg算法进行短时间尺度电网电压优化;包括:
[0062]
(3.1)建立短时间尺度电网电压优化模型:
[0063]
短时间尺度电网电压优化模型目标函数f
s
为:
[0064][0065]
其中,q为各个连续无功补偿装置的无功出力组成的向量;q(t)表示t时刻各个连续无功补偿装置的无功出力组成的向量;v
p
表示中枢节点对应电压幅值;v
ref
为中枢节点对应电压参考值;k
s
表示一个长时间尺度内短时间间隔的数量;
[0066]
考虑电网运行潮流约束以及电压约束,约束条件为:
[0067][0068][0069][0070]
其中,p
i
表示注入节点i的有功功率;q
i
为表示注入节点i的无功功率;v
i
表示节点i的电压幅值;和分别表示节点i的电压幅值上限和下限;g
ij
表示节点i和节点j间的电导;b
ij
表示节点i和节点j间的电纳;ω
ij
表示节点i和节点j间的电压相角差;
[0071]
为应对电力系统中的突发情况,连续无功补偿装置在调节过程中需要留出一定储备量,连续无功补偿装置在调节过程中的约束条件为:
[0072][0073]
其中,q
con,n
为第n台连续无功补偿装置的无功出力值;和分别为q
con,n
的无功出力上下限;
[0074]
(3.2)针对短时间尺度电网电压优化模型设计奖励函数r
s
(t):
[0075][0076]
其中,μ(f
s
)表示与目标函数f
s
对应的隶属函数;σ
s
为短时间尺度电压越限的惩罚因子;v
i
(t)表示t时刻节点i的电压幅值。
[0077]
(3.3)运用ddpg算法对短时间尺度电网电压优化模型进行求解,得到短时间尺度连续无功补偿装置出力计划;包括
[0078]
(3.3.1)计算critic网络损失函数l(q
q
):
[0079][0080]
其中,表示在所有t的取值上对应目标值的期望;s(t)为智能体在时刻t的状态,由信息矩阵集合{v,p,q,t,c,q}组成,v、p、q分别为各节点电压幅值向量以及各节点注入有功功率向量和无功功率向量,t、c、q分别为全部并联电容器组投切状态向量、全部并联电容器组一天内已投切次数向量以及全部连续无功补偿装置的无功出力向量;a
s
(t)=t(t)表示智能体在时刻t采取的动作,是基于t

1时刻的状态s(t

1)实施策略得出的;θ
q
为critic网络中估计价值网络的参数;q由critic网络中的估计价值网络输出;由于ddpg算法属于基于确定性策略梯度求取方法,在不同状态下每个动作选取的概率分布不能确定,因此将期望值求取转化为m次抽样求取平均值,所述m次抽样数据从记忆库中随机不重复抽取,s
m
(t)和分别看作第m次抽样的智能体状态和智能体采取的动作;y
m
(t)看作第m次抽样的标签;标签y(t)表达式为:
[0081]
y(t)=r
s
(t) γq
target
{s(t 1),ψ
target
[s(t)∣θ
ψ'
]∣θ
q'
}
[0082]
其中,r
s
(t)为短时间尺度电网电压优化模型的奖励函数;s(t)和s(t 1)分别为智能体在时刻t和时刻t 1的状态;ψ
target
由actor网络中的目标网络输出;θ
ψ'
为actor网络中目标网络的参数;q
target
由critic网络中的目标网络输出;θ
q'
为critic网络中目标网络的参数;g为衰减因子;
[0083]
(3.3.2)actor网络基于critic网络的评判,采取梯度更新方法更新actor网络,梯度更新计算方法为:
[0084][0085]
其中,表示在所有t的取值上对应目标值的期望;q由critic网络中的估计价值网络输出;ψ由actor网络中的估计价值网络输出;s和a分别表示智能体状态和智能体采取的动作;θ
q
为critic网络中估计价值网络的参数;θ
ψ
为actor网络中估计价值网络的参数;表示对应目标值对动作a的梯度求取;表示对应目标值对参数θ
ψ
的梯度求取;m为抽样次数;s
m
(t)和a
sm
(t)分别看作第m次抽样的智能体状态和智能体采取的动作;
[0086]
(3.3.3)分别对actor网络和critic网络进行参数更新,更新方法为:
[0087][0088][0089]
其中,和分别表示t 1时刻和t时刻actor网络中估计价值网络的参数;和分别表示t 1时刻和t时刻critic网络中估计价值网络的参数;α1和α2分别表示actor网络中估计价值网络和critic网络中估计价值网络在更新过程中的学习率;表示梯度求取。
[0090]
下面给出实例:
[0091]
根据图1所示的本发明的基于深度强化学习的双时间尺度电网电压优化方法流程图,对图2所示的改进ieee39节点测试系统在新能源出力不确定以及负荷不确定的情况下进行电压优化。将节点6、节点23以及节点26设置为该区域的中枢节点。节点33和节点37处为风电场,额定容量均为500mw。在原系统的4号、8号节点分别安装并联电容器组1和并联电容器组2,其参数相同,最大档位均为6,每档50mvar,每天最多调节次数为6次。节点6、节点23和节点26各接入一台连续装置,可调范围均为

120~120mvar。考虑突发情况对电网电压的影响,svg设置无功储备区域用于紧急情况下的无功支撑,在本实例所提无功电压方法中,其可调范围调整至

80~80mvar。为适应无功补偿装置的动作时间,本实例选取的长时间尺度决策时间为1h,短时间尺度决策时间为5min。根据典型日负荷曲线以及典型风电出力曲线构造420天的电力系统运行数据,作为驱动双智能体的训练数据。本实例通过对深度强化学习算法与遗传算法得出的优化效果与运算时间进行对比来分析比较算法的综合运算性能。
[0092]
电容器组在投切过程中受到投切次数限制,由图3可以看出,采用本发明的方法能够依据电容器当前投切次数以及此时电网运行状况决定下一时刻的投切计划是否执行。可以看到,在4:00左右,风电出力充足且负荷需求较低时,并联电容器组置于较低档位,给予电网的无功支撑较少,而在12:00左右,风电出力较少且负荷需求量大时,并联电容器组则调整至较高档位,抑制电压大范围波动。在电容器组投切次数受限的情况下,长时间尺度如果仅仅根据当前电网运行情况进行优化,优化作用往往在单日次数到达上限后不能充分发挥,本实例所提方法综合考虑单日内各优化点的优化效果,统筹安排电容器组投切,因此即使在某一时刻的优化效果即便不是最好的,但从整日来看优于单时间断面优化。
[0093]
根据图4可以看出,与遗传算法相比,本发明所提方法在200~400天的平均网损降低率为5.24%,而遗传算法优化下的平均网损降低率则为4.66%,充分显示了本发明所提方法的优越性。
[0094]
根据图5可以看出典型日内短时间尺度上各连续装置的无功出力情况。连续无功补偿装置主要用来抑制新能源不确定性带来的电压快速、频繁波动,因此其在一天内的出力频繁变化。
[0095]
根据图6a、图6b、图6c可以看出本发明所提方法在典型日内,相比遗传算法,具有良好的电压优化效果。在典型日内,本发明所提方法优化所用的累积时间仅为137.58s,而用遗传算法进行优化所用累积时间为685.44s,证明了该方法在解决决策问题时的快速性。
[0096]
综上,在长短时间尺度上通过两个智能体之间的相互配合,实现各类无功补偿设备的优势互补,具备更强的无功电压优化能力,具有良好的可行性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献