一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种配电网电压分布式实时控制方法

2022-11-14 14:56:40 来源:中国专利 TAG:


1.本发明涉及配电网络电压控制技术领域,尤其涉及一种配电网电压分布式实时控制方法。


背景技术:

2.传统的配电网通常采用通过调节变压器分接头以及控制无功补偿器的投切来调节电压。然而,传统的控制措施响应速度慢,调节精度较低,且无法频繁动作,因此,难以应对由于新能源广泛接入造成的电压波动问题。近年来,由于先进量测装置、智能监控技术、电力电子技术以及信息通信技术的发展,配电网正从自动化程度不高,调度方法落后的传统模式向智能化模式逐步过渡。在这种背景下,主动配电网的概念应运而生。主动配电网可以通过先进的电力电子设备调节分布式发电装置的无功出力,参与系统的无功电压控制,优化潮流分布,并通过调节柔性负荷消纳新能源发电的间歇出力,抵消新能源发电的随机性和间歇性带来的不利影响,提高新能源发电的利用率和消纳水平。
3.根据控制层次的类型,电压无功控制方法可分为集中式和分布式。在已提交的发明专利“一种配电网无模型的电压实时控制方法”中采用了集中控制方法,然而集中式方法需要全局信息来进行决策,这通常需要大量的计算过程和完整的通信链路,受限于通信条件和计算能力,难以用于高比例可再生能源接入下大规模配电网的实时优化控制。
4.现有的电压控制策略都是基于模型的控制方法,调度策略的制定依赖于配电网精确的线路参数和拓扑结构,然而,配电网的物理模型在现实中通常是不精确、不可靠的。精确的参数估计需要完整的同步相量测量装置的测量数据或者是大量带有时标的智能电表数据,而前者在现有配电网的硬件条件下很难满足,后者则需要较长的时间。不仅如此,配电网重构等操作还会导致其局部参数发生变化。这都导致配电网实际的物理模型和假定的“理想”模型间存在差别,进而导致控制算法的表现不够理想。
5.随着人工智能的发展,多智能体深度强化学习算法在各种应用中越来越广泛。强化学习由智能体和环境组成,是一类具有自学习能力的算法。将每一个控制元件定义为一个智能体,在学习训练过程中,多个智能体采用中心式训练方法,智能体通过和代理模型的不断交互习得协同控制策略,当完成训练后,将多个智能体分布式部署,每个智能体依据局部观测信息做出实时的调度决策。


技术实现要素:

6.本发明的目的在于克服现有技术存在的不足,本发明提出一种配电网电压分布式实时控制方法,基于动作-评价架构的深度强化学习算法的结构特征,采用中心式训练-分布式执行的多智能体框架充分挖掘历史数据,当完成训练后,将多个智能体分布式部署,每个智能体依据局部观测信息做出实时的调度决策从而实现配电网电压控制。
7.为实现上述发明目的,本发明公开一种配电网电压分布式实时控制方法,其特征在于,包括以下步骤:
8.(1)、将光伏逆变器随机接入配电网;
9.获取配电网的拓扑结构,在拓扑结构的不同节点上随机分散接入光伏逆变器,其中,接入光伏逆变器的个数为m1;
10.(2)、获取拓扑结构中各个节点注入的有功功率及无功功率,遍历拓扑结构的各个节点,若节点i接入了光伏逆变器k,k=1,2

,m1,那么节点i在和时刻l时实际注入的有功功率pi(l)和无功功率qi(l)分别为:
11.pi(l)=p
i,k,pv
(l)-p
i,k,c
(l)
12.qi(l)=q
i,k,pv
(l)-q
i,k,c
(l)
13.若节点i未接入了光伏逆变器k,那么节点i在时刻l时实际注入的有功功率pi(l)和无功功率qi(l)分别为:
14.pi(l)=-p
i,c
(l)
15.qi(l)=-q
i,c
(l)
16.其中,i=1,2,

,n,n表示配电网拓扑结构中节点数量,l=1,2,

,t,t为采样时刻总数,p
i,k,c
(l)表示光伏逆变器k连接节点i在时刻l时的负荷有功功率,p
i,c
(l)表示无光伏逆变器连接节点i在时刻l时的负荷有功功率,p
i,k,pv
(l)表示光伏逆变器k连接节点i后在时刻l时注入的总有功功率,q
i,k,c
(l)表示光伏逆变器k连接节点i在时刻l时的负荷无功功率,q
i,c
(l)表示无光伏逆变器连接节点i在时刻l时的负荷无功功率,q
i,k,pv
(l)表示光伏逆变器k在连接节点i后在时刻l时注入的总无功功率;
17.(3)、构建多智能体深度确定性梯度策略模型maddpg;
[0018][0019]
其中,表示输入状态时的电压值;s表示所有光伏逆变器状态的合集;
[0020]
设置maddpg更新参数为θ,θ=[α,β],其中π为动作选择π(
·
)的参数,β为引入注意力机制的评价网络函数q(
·
)的参数,每个光伏逆变器都有一个动作选择函数和引入注意力机制的评价网络函数,即α=[α1,α2,

,αk],β=[β1,β2,

,βk];
[0021]
动作选择函数π的损失函数采用策略梯度更新算法:
[0022][0023]
其中,d表示经验池的数据集合,表示动作选择函数的下降方向,表示注意力机制控制算法q(
·
)的下降方向,s表示所有光伏逆变器的状态集合,a表示所有光伏逆变器动作的集合;
[0024]
引入注意力机制的评价网络函数q(
·
)损失函数采用最小化算法其中,y表示目标值,评价网络函数通过最小化和目标值y之间的差值来更新参数;
[0025]
(4)、训练多智能体深度确定性梯度策略模型maddpg
[0026]
(4.1)、每个时刻l光伏逆变器k的状态sk(l),sk(l)=(p
i,k,c
(l),q
i,k,c
(l),p
i,k,pv
(l)),每个时刻l全局状态信息为s(l)=(s1(l),s2(l),

,sk(l)),随机为θ进行初始化赋值;
[0027]
(4.2)、依据步骤(4.1)的状态sk(l)获取光伏逆变器k的动作值,ak(l)=πk(sk(l)),光伏逆变器k的动作值只包括其总无功出力,即ak(l)=q
i,k,pv
(l),每个时刻l全局动
作信息a(l)=(a1(l),a2(l),

,ak(l));
[0028]
(4.3)、将步骤(4.2)获得的动作a(l)值带入步骤(2)获得l时刻配电网节点i在不同相位注入的有功功率pi(l)和无功功率qi(l),将时刻l配电网所有节点的有功功率与无功功率输入到训练好的预测代理模型中,获得l时刻配电网所有节点电压值ui(l);
[0029]
(4.4)、依据步骤(4.3)获得的配电网电压值ui(l)计算当前时刻l的实时奖励值:其中,r(l)表示时刻l时的实时奖励,η为电压越过阈值的惩罚值;
[0030]
(4.5)、判断当前时刻奖励值r(l)是否收敛,若收敛,训练结束,输出配电网所有节点电压ui(l)并跳转至步骤(5);否则,利用梯度下降法对参数θ进行更新,然后进入步骤(4.6);
[0031][0032]
其中,λ表示参数更新的学习率,表示下降趋势,l表示迭代次数,l》1,θ

(l)表示第l次更新以后的参数值,即θ

(l)=[α



];
[0033]
(4.6)、参数θ

(l)=[α



]替换maddpg的参数θ=[α,β],然后判断当前时刻l是否达到最大采样时刻t,若达到最大采样时刻t,进入步骤(5),未达到,令l=l 1,跳转至步骤(4.2);
[0034]
(5)电压实时控制
[0035]
实时采集配电网在当前时刻的状态s,然后输入至训练好的多智能体深度确定性梯度策略模型maddpg,按照步骤(4.2)-(4.3)所述方法获取配电网所有节点在当前时刻下的电压值。
[0036]
本发明的发明目的是这样实现的:
[0037]
本发明一种配电网电压分布式实时控制方法,首先将每一个光伏逆变器建模为一个智能体,配电网作为和智能体进行交互的环境,然后建立多智能体深度强化学习型交互机制,通过预测代理模型提供的电压值计算即时奖励,从历史数据中学习电压调节策略,训练过程采用中心式方法,训练完成后将每个智能体分布式部署从而根据最新观测的信息进行实时电压控制策略。该方法可以在不了解系统参数和拓扑的情况下实时提供电压控制。
[0038]
同时,本发明一种配电网电压分布式实时控制方法,还具有以下有益效果:
[0039]
(1)、本发明将预测代理模型与深度强化学习算法协同集成,实现无物理模型控制,不需要详细的配电网网络参数;
[0040]
(2)本发明引入了注意力机制,可以让智能体在训练过程中学会将“注意力”集中在和自身奖励值最相关的信息上,从而提高当智能体数量较多时算法的控制性能;
[0041]
(3)本发明训练过程是采用基于全局信息的中心式训练,因此在智能体分布部署后,也能实现具有协同性的电压控制;
[0042]
(4)、本发明可以实时根据最新观测信息进行决策,以应对光伏功率快速变化引起的快速电压波动;
[0043]
(5)、本发明与ddpg算法相比,maddpg算法引入了注意力机制,提高算法在面对智能体较多的时候整体的控制性能;另外,ddpg只能用于集中式控制,maddpg可以应用于分布
式控制,将每个光伏逆变器定义为一个智能体,每个智能体都有动作选择函数于注意力机制函数,相较于ddpg只有一个动作函数来说,maddpg的算法结构更加复杂。面对通信设施相对落后的配电网,maddpg的优势更加明显;另外,在中心式训练过程中评价网络函数基于全局信息指导动作选择函数的学习,促使动作选择函数在训练过程中对其余智能体的策略进行建模,因此,在训练完成后分布式部署时,动作选择函数依据局部信息就可以做出具有协同性的调度决策。
附图说明
[0044]
图1是本发明一种配电网无模型的实时电压控制方法流程图;
[0045]
图2是ieee 33节点系统的拓扑结构图
[0046]
图3是本发明一种配电网电压分布式实时控制方法对电压控制结果与其他方法控制电压结果的对比图。
具体实施方式
[0047]
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0048]
实施例
[0049]
图1是本发明一种配电网电压分布式实时控制方法流程图。
[0050]
在本实施例中,如图2所示以ieee 33节点系统进行实验,光伏逆变器总共6个,分别接在节点15、18、22、24、27、33,光伏发电数据采用真实有效的历史记录数据。
[0051]
如图1所示,本发明一种配电网电压分布式实时控制方法包括以下步骤:
[0052]
s1、将光伏逆变器随机接入配电网;
[0053]
获取配电网的拓扑结构,在拓扑结构的不同节点上随机分散接入光伏逆变器,其中,接入光伏逆变器的个数为6个;
[0054]
s2、获取拓扑结构中各个节点注入的有功功率及无功功率,遍历拓扑结构的各个节点,若节点i接入了光伏逆变器k,k=1,2

,6,那么节点i在和时刻l时实际注入的有功功率pi(l)和无功功率qi(l)分别为:
[0055]
pi(l)=p
i,k,pv
(l)-p
i,k,c
(l)
[0056]
qi(l)=q
i,k,pv
(l)-q
i,k,c
(l)
[0057]
若节点i未接入了光伏逆变器k,那么节点i在时刻l时实际注入的有功功率pi(l)和无功功率qi(l)分别为:
[0058]
pi(l)=-p
i,c
(l)
[0059]
qi(l)=-q
i,c
(l)
[0060]
其中,i=1,2,

,33,l=1,2,

,20000,p
i,k,c
(l)表示光伏逆变器k连接节点i在时刻l时的负荷有功功率,p
i,c
(l)表示无光伏逆变器连接节点i在时刻l时的负荷有功功率,p
i,k,pv
(l)表示光伏逆变器k连接节点i后在时刻l时注入的总有功功率,q
i,k,c
(l)表示光伏逆变器k连接节点i在时刻l时的负荷无功功率,q
i,c
(l)表示无光伏逆变器连接节点i在时刻l时的负荷无功功率,q
i,k,pv
(l)表示光伏逆变器k在连接节点i后在时刻l时注入的总无功功
率;
[0061]
s3、构建多智能体深度确定性梯度策略模型maddpg;
[0062][0063]
其中,表示输入状态时的电压值;s表示所有光伏逆变器状态的合集;
[0064]
设置maddpg更新参数为θ,θ=[α,β],其中π为动作选择π(
·
)的参数,β为引入注意力机制的评价网络函数q(
·
)的参数,每个光伏逆变器都有一个动作选择函数和引入注意力机制的评价网络函数,即α=[α1,α2,

,α6],β=[β1,β2,

,β6];
[0065]
动作选择函数π(
·
)的损失函数采用策略梯度更新算法:
[0066][0067]
其中,d表示经验池的数据集合,表示动作选择函数的下降方向,表示引入注意力机制的评价网络函数q(
·
)的下降方向,s表示所有光伏逆变器的状态集合,a表示所有光伏逆变器动作的集合;
[0068]
引入注意力机制的评价网络函数q(
·
)损失函数采用最小化算法其中,y表示目标值,由算法直接求解得出,评价网络函数通过最小化和目标值y之间的差值来更新参数;
[0069]
s4、训练多智能体深度确定性梯度策略模型maddpg
[0070]
s4.1、每个时刻l光伏逆变器k的状态sk(l),sk(l)=(p
i,k,c
(l),q
i,k,c
(l),p
i,k,pv
(l)),每个时刻l全局状态信息为s(l)=(s1(l),s2(l),

,s6(l)),随机为θ进行初始化赋值;
[0071]
s4.2、依据s4.1的状态sk(l)获取光伏逆变器k的动作值,ak(l)=πk(sk(l)),光伏逆变器k的动作值只包括其总无功出力,即ak(l)=q
i,k,pv
(l),每个时刻l全局动作信息a(l)=(a1(l),a2(l),

,a6(l)),;
[0072]
s4.3、将s4.2获得的动作a(l)值带入s2获得l时刻配电网节点i在不同相位注入的有功功率pi(l)和无功功率qi(l),将时刻l配电网所有节点的有功功率与无功功率输入到训练好的预测代理模型中,获得l时刻配电网所有节点电压值ui(l);
[0073]
s4.4、依据s4.3获得的配电网电压值ui(l)计算当前时刻l的实时奖励值:其中,r(l)表示时刻l时的实时奖励,η=-50;
[0074]
s4.5、判断当前时刻奖励值r(l)是否收敛,若收敛,训练结束,输出配电网所有节点电压ui(l)并跳转至s5;否则,利用梯度下降法对参数θ进行更新,然后进入s4.6;
[0075][0076]
其中,λ=0.001,表示下降趋势,l表示迭代次数,l》1,θ

(l)表示第l次更新以后的参数值,即θ

(l)=[α



];
[0077]
s4.6、参数θ

(l)=[α



]替换maddpg的参数θ=[α,β],然后判断当前时刻l是否达到最大采样时刻20000次,若达到最大采样时刻,进入s5,若未达到,令l=l 1,跳转至s4.2;
[0078]
s5、电压实时控制
[0079]
实时采集配电网在当前时刻的状态然后输入至训练好的多智能体深度确定性梯度策略模型maddpg,按照s4.2-s4.3所述方法获取配电网所有节点在当前时刻下的电压值。
[0080]
在本实施例中,选取某一次电压控制结果如图3所示,从图中可以看出,原始方法即不对逆变器施加任何无功控制策略,逆变器产生的无功设置为0,节点17-18的电压越过了安全上限。下垂控制方法即经典的q-v控制算法可以将系统节点电压调节到合理的范围,然而,由于逆变器间缺乏协同性,该策略下电压存在超调现象。相比之下,maddpg在离线训练过程中采用中心式学习方式,每个智能体在训练过程中对其余智能体的动作行为进行建模,从而在实施阶段可以取得基于局部信息的协同控制。因此,基于maddpg的控制算法可以将电压调整到安全范围并取得了比下垂控制更好的控制效果。本发明所提方法由于引入了注意力机制,使得智能体在离线训练过程中将“注意力”集中在和自身奖励值更相关的信息上,因此控制效果比maddpg有进一步的提升。集中式控制方法取得了最好的控制效果,然而,该方法依赖于完善的通信条件,易受通信时延和单点通信故障的影响,无法实现对光伏逆变器的实时调节。
[0081]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献