无功电压分布式控制方法、服务器、控制器及存储介质

2022-11-23 22:18:55 来源：中国专利 TAG：

1.本发明属于电力系统运行和控制技术领域，特别涉及一种无功电压分布式控制方法、服务器、控制器及存储介质。

背景技术：

2.大规模分布式电源(dg，distributed generation)已成为新型电力系统的重要组成部分，如果缺乏有效的协调控制，海量dg并网会严重影响系统的安全运行。dg通常由电力电子变流器并入配电网，具有快速的控制性能，结合人工智能、5g通信等新技术，可以成为受端电网调控的灵活性资源，主动参与电网调控，支持新型电力系统的构建。在此背景下，高dg渗透率配电网的各类先进运行控制手段的价值日益凸显。其中，无功电压控制一直是配电网能量管理系统的重要组成，能够通过对配电网中各类无功资源的合理配置，消除配网电压越限等安全隐患，并提升配电网运行效率。
3.传统无功电压控制方法往往采用了基于模型的集中优化架构，即在配网控制中心处收集全配网状态信息，通过事先建立的配网模型进行数学优化，并将优化后的控制指令下发到各个被控设备。然而，这种基于模型的集中优化架构在实际应用中常面临以下两方面问题，限制了基于模型的集中无功电压控制方法的应用。一方面，集中式架构存在单点失效、通讯与计算负担高、受通信时延影响严重、难以保护各主体隐私等关键问题。这是由于在高渗透率配电网中，被控dg众多，网络结构复杂，通讯条件难以支撑快速的dg控制。工程实践中，常采用虚拟电厂(virtual power plant，vpp)的形式对dg进行聚合，在配电网内部形成多个主体。各主体之间的不仅需要进行协调控制，还需要保证各主体的隐私。因此，业内出现了大量分布式无功电压控制方法，在各个vpp上设置本地控制器，旨在实现点对点通信条件或无通讯条件下的无功电压控制。相比于集中式方法，分布式方法往往对通信条件的要求更弱，控制速度更快，适用于大规模dg的控制。另一方面，海量dg并入配电网，其模型难于精确和及时维护，这是由于庞大的设备规模和频繁的变动导致配电网网络模型维护成本巨大，实际上基本采用理论参数，精度低。由于配电网的理想模型难以获得，传统基于模型的优化控制方法无法保障控制效果，往往出现控制指令远离最优点、电网运行在次优状态的情况。因此，业内出现了一批基于深度强化学习的无模型无功电压优化方法，能够通过对控制过程产生的海量数据在线学习，自适应地获得最优无功电压控制策略。
4.结合上述两个方向的改进，业内出现了一类基于多智能体深度强化学习的无功电压控制方法，能够通过“集中学习-分散控制”的方式，兼具无模型自适应的全局优化能力和分散控制的高速灵活本地控制能力，提升了无功电压控制在海量dg场景下的实用性。然而，现有基于多智能体深度强化学习的无功电压控制方法，要求将各个本地控制器中的运行数据上传到集中服务器进行学习，并将学习好的策略下发到各个本地控制器，该过程不仅需要耗费大量的通讯资源，还造成了各个vpp隐私的泄露。
5.因此，有必要提出一种低通讯、高隐私保护性的控制方法，在兼具全局无模型自适应优化能力和本地快速控制能力的同时，仅使用少量通讯带宽，节省通讯成本并保护各主
体隐私。

技术实现要素：

6.针对上述问题，本发明提供一种无功电压分布式控制方法，采用在线联邦学习与分布式控制并行的控制架构，包括：
7.在本地控制器上部署多智能体深度强化学习算法；
8.通过本地控制器与集中服务器之间的边际变量交换，本地控制器学习得到各本地控制器的控制策略；
9.各本地控制器基于控制策略和本地量测数据，执行电网无功电压控制；
10.其中，所述集中服务器用于协调各个本地控制器上的智能体的学习过程。
11.进一步地，在各区域本地控制器上执行以下步骤：
12.框架构建步骤：构建基于马尔科夫博弈的多智能体交互训练框架；
13.网络部署步骤：部署神经网络；
14.本地控制步骤：并行执行无功电压控制；
15.本地交换步骤：并行执行与所述集中服务器之间的边际变量交换，包括从所述集中服务器获取下行边际变量和向所述集中服务器发送上行边际变量；
16.本地学习步骤：根据下行边际变量，并行执行本地学习；
17.其中，所述下行边际变量由所述集中服务器根据收集的上行边际变量，执行集中学习后得到；
18.本地控制步骤、本地交换步骤和本地学习步骤重复并行执行。
19.进一步地，所述上行边际变量包括本地控制器计算的标量数据；
20.所述下行边际变量包括用于计算梯度信息的数据。
21.进一步地，集中服务器用于建立分布式无功电压优化模型，包括确定各区域无功电压控制目标：
22.将配电网按照实际的本地控制器安装情况，分为|a|个区域，区域标号集合记为a，每个区域设置一个本地控制器，用于快速获取本区域的量测数据，本地控制器能够与集中服务器进行通讯；其中，各区域无功电压控制目标为在满足电压约束的条件下最小化全网网损：
[0023][0024]
其中，l
opt
为分布式无功电压优化目标，p
loss
为全网网损，分别代表第i个区域中第j个节点的有功功率注入和电压幅值，v,分别为电压幅值的下限与上限；q
s,i
代表第i个区域中所有静止无功补偿器svc的无功功率输出，q
s,1
表示第1个区域中所有svc的无功功
率输出，q
s,|a|
表示第|a|个区域中所有svc的无功功率输出，其中代表第i个区域中第j个svc的无功功率输出，分别代表第i个区域中第j个svc的无功功率输出的下限与上限；q
g,i
代表第i个区域中所有dg的无功功率输出，
qg,1
表示第1个区域中所有dg的无功功率输出，
qg,|a|
表示第|a|个区域中所有dg的无功功率输出，其中代表第i个区域中第j个dg的无功功率输出，为第i个区域中第j个dg的装机容量和有功功率输出，ni为第i个区域节点的集合，为第i个区域dg的集合，为第i个区域svc的集合。
[0025]
进一步地，构建基于马尔科夫博弈的多智能体交互训练框架，包括：
[0026]
对应各区域系统的量测数据，构建各区域观测变量oi如(1.2)所示：
[0027][0028]
代表第i个区域中第j个节点的无功功率注入；
[0029]
对应各区域无功电压优化目标，构建各区域统一回馈变量r如(1.3)所示：
[0030][0031]
其中，cv为电压约束的惩罚系数；函数[]

的定义为[x]

＝max(0,x)；
[0032]
将统一回馈变量按区域分解，可得：
[0033][0034]
其中，ri为r在第i个区域的分解变量，即第i个区域的本地回馈变量，能够通过第i个区域的本地量测数据计算得到；
[0035]
对应可控灵活性资源的无功功率，构建各区域动作变量ai如(1.5)所示：
[0036][0037]
其中，代表第i个区域中第k个svc的无功功率输出，代表第i个区域中第j个dg的无功功率输出，可控灵活性资源包括svc和dg。
[0038]
进一步地，在各区域本地控制器上分别部署神经网络包括：
[0039]
在各区域本地控制器上部署神经网络并初始化，对于任意的第i个区域，包括如下步骤：
[0040]
定义第i个区域的第一神经网络ci为一个输入(oi,ai)、输出单个标量值的全连接神经网络，记ci的网络参数为对应的冻结参数为冻结参数对应的神经网络记为随机初始化与第一神经网络用于评估期望奖励；
[0041]
定义第i个区域的第二神经网络ei为一个输入(oi,ai)输出单个标量值的全连接神经网络，记ei的网络参数为对应的冻结参数为冻结参数对应的神经网络记为随
机初始化与第二神经网络用于评估熵；
[0042]
定义第三神经网络和第四神经网络其中，与均为输入oi输出ki维向量的策略神经网络，其中ki为动作向量ai的维度；与分别具有独立的输出层，同时共享相同的神经网络输入层与隐含层，包括若干个隐含层；记与的全部网络参数为θi。
[0043]
进一步地，方法还包括：
[0044]
初始化离散时间变量，令当前时刻t＝0，两个迭代之间的实际时间间隔为δt，根据本地控制器的实际量测数据及指令控制速度确定；
[0045]
初始化各本地控制器本地缓存经验库di,i∈a，对于任意的第i个区域，初始化临时变量
[0046]
进一步地，各区域本地控制器并行执行边际变量交换步骤包括：
[0047]
从区域电网的量测装置获得量测数据，更新对应的观测变量oi；
[0048]
根据本地的策略神经网络与更新本迭代对应动作变量ai：
[0049][0050]
ξi表示第i个随机变量，n表示正态分布，ii表示ki维的单位向量；
[0051]
本地控制器将ai下发至本地对应的被控dg和/或svc；
[0052]
各区域本地控制器在t时刻执行以下边际变量交换步骤，并行执行：
[0053]
根据当前时刻，随机在di中抽取样本，记为{oi,ai,ri,o
′i}，并计算上行边际变量：
[0054][0055]
其中，o
′i为oi的抽取样本，a
′i和的计算方式为：
[0056][0057][0058]
将上行边际变量ui通过通讯网络上传到集中服务器上。
[0059]
进一步地，各本地控制器收集集中服务器下发的下行边际变量，并行执行学习步骤，包括：
[0060]
根据下行边际变量di和本地数据进行如下计算：
[0061][0062][0063][0064]
[0065]
其中，表示第i个区域的熵估计函数目标值，πi表示第i个区域的策略函数，表示神经网络e的损失函数，γ表示强化学习折扣值，α表示惩罚系数，表示第i个区域的第一神经网络c的梯度，为第i个区域的全部网络参数θi的梯度，表示对所有观测变量和动作中的随机变量求期望；表示在数据集上对o,a,r,o'求期望，o＝[o1,
…
,on]
t
表示全部区域的观测变量，a＝[a1,
…
,an]
t
表示全部区域的动作变量，o
′1为全部区域的样本观测变量；
[0066][0067]
其中，表示全部区域的推断动作变量，ci表示第i个区域的神经网络；
[0068]
表示神经网络f对区域i的第一神经网络ci取值的偏导数；表示损失函数l
φ
对神经网络f取值的偏导数；
[0069]
更新参数更新参数与θi：
[0070][0071][0072][0073]
其中，η
θ
表示策略神经网络的学习率，l
θ
表示策略神经网络参数的损失函数，ηq为一超参数，代表值函数学习率；
[0074]
更新冻结参数与
[0075][0076][0077]
进一步地，所述下行边际变量通过所述集中服务器收集各区域上行边际变量并进行集中学习而获得：
[0078]
收集各个本地控制器上传的上行边际变量ui；
[0079]
根据ui中的信息计算：
[0080][0081]
其中，y表示值函数目标量，γ表示强化学习折扣值，表示第1个区域的冻结参数
对应的神经网络，(o
′1,a
′1)表示第1个区域的冻结参数对应的神经网络的输入，其中，o
′1为第一个区域的样本观测变量，a
′1为第一个区域的样本动作变量；表示第n个区域的冻结参数对应的神经网络，(o
′n,a
′n)表示第n个区域的冻结参数对应的神经网络的输入，其中，o
′n为第n个区域的样本观测变量，a
′n为第n个区域的样本动作变量；神经网络f为一个输入|a|个标量输出1个标量值的全连接神经网络，记f的网络参数为φf，对应的冻结参数为冻结参数对应的神经网络记为
[0082][0083]
其中，l
φ
表示神经网络的参数φ的损失函数，表示第1个区域的第一神经网络c1的网络参数，表示第n个区域的第一神经网络cn的网络参数,φf的梯度通过以下公式计算：
[0084][0085]
更新网络参数φf：
[0086][0087]
步骤5-4：更新冻结参数
[0088][0089]
其中η为一超参数，代表冻结系数；
[0090]
形成对各个本地控制器的下发下行边际变量di；
[0091]
将各个下行边际变量di通过通讯网络下发到对应的本地控制器。
[0092]
本发明还提供一种无功电压分布式控制方法，采用在线联邦学习与分布式控制并行的控制架构，包括：
[0093]
通过集中服务器协调各个本地控制器上的智能体的学习过程；
[0094]
所述本地控制器上部署多智能体深度强化学习算法；
[0095]
集中服务器与所述本地控制器交换边际变量，以使得本地控制器学习得到各本地控制器的控制策略，基于控制策略和本地量测数据，执行电网无功电压控制。
[0096]
进一步地，方法包括：
[0097]
模型确定步骤：建立分布式无功电压优化模型；
[0098]
网络部署步骤：在集中服务器部署神经网络；
[0099]
集中学习步骤：集中服务器收集各区域上行边际变量，执行集中学习，并下发下行边际量到各个本地控制器；
[0100]
所述下行边际变量用于各本地控制器并行执行本地学习以获得控制策略；
[0101]
其中，集中学习步骤重复执行。
[0102]
进一步地，所述上行边际变量包括本地控制器计算的标量数据；
[0103]
所述下行边际变量包括用于计算梯度信息的数据。
[0104]
进一步地，建立分布式无功电压优化模型包括确定各区域无功电压控制目标：
[0105]
将配电网按照实际的本地控制器安装情况，分为|a|个区域，区域标号集合记为a，每个区域设置一个本地控制器，用于快速获取本区域的量测数据，本地控制器能够与集中服务器进行通讯；其中，各区域无功电压控制目标为在满足电压约束的条件下最小化全网网损：
[0106][0107]
其中，l
opt
为分布式无功电压优化目标，p
loss
为全网网损，分别代表第i个区域中第j个节点的有功功率注入和电压幅值，v,分别为电压幅值的下限与上限；q
s,i
代表第i个区域中所有静止无功补偿器svc的无功功率输出，q
s,1
表示第1个区域中所有svc的无功功率输出，q
s,|a|
表示第|a|个区域中所有svc的无功功率输出，其中代表第i个区域中第j个svc的无功功率输出，分别代表第i个区域中第j个svc的无功功率输出的下限与上限；q
g,i
代表第i个区域中所有dg的无功功率输出，q
g,1
表示第1个区域中所有dg的无功功率输出，q
g,|a|
表示第|a|个区域中所有dg的无功功率输出，其中代表第i个区域中第j个dg的无功功率输出，为第i个区域中第j个dg的装机容量和有功功率输出，ni为第i个区域节点的集合，为第i个区域dg的集合，为第i个区域svc的集合。
[0108]
进一步地，所述本地控制器上具有通过以下方式形成的基于马尔科夫博弈的多智能体交互训练框架：
[0109]
对应各区域系统的量测数据，构建各区域观测变量oi如(1.2)所示：
[0110][0111]
代表第i个区域中第j个节点的无功功率注入；
[0112]
对应各区域无功电压优化目标，构建各区域统一回馈变量r如(1.3)所示：
[0113][0114]
其中，cv为电压约束的惩罚系数；函数[]

的定义为[x]

＝max(0,x)；
[0115]
将统一回馈变量按区域分解，可得：
[0116]
[0117]
其中，ri为r在第i个区域的分解变量，即第i个区域的本地回馈变量，能够通过第i个区域的本地量测数据计算得到；
[0118]
对应可控灵活性资源的无功功率，构建各区域动作变量ai如(1.5)所示：
[0119][0120]
其中，代表第i个区域中第k个svc的无功功率输出，代表第i个区域中第j个dg的无功功率输出，可控灵活性资源包括svc和dg。
[0121]
进一步地，在集中服务器上部署神经网络并初始化；
[0122]
定义神经网络f为一个输入|a|个标量输出1个标量值的全连接神经网络；记f的网络参数为φf，对应的冻结参数为冻结参数对应的神经网络记为随机初始化φf与
[0123]
进一步地，集中服务器收集各区域上行边际变量并执行学习步骤并下发下行边际量到各个本地控制器，包括：
[0124]
收集各个本地控制器上传的上行边际变量ui；
[0125]
根据ui中的信息计算：
[0126][0127]
其中，y表示值函数目标量，γ表示强化学习折扣值，表示第1个区域的冻结参数对应的神经网络，(o
′1,a
′1)表示第1个区域的冻结参数对应的神经网络的输入，其中，o
′1为第一个区域的样本观测变量，a
′1为第一个区域的样本动作变量；表示第n个区域的冻结参数对应的神经网络，(o
′n,a
′n)表示第n个区域的冻结参数对应的神经网络的输入，其中，o
′n为第n个区域的样本观测变量，a
′n为第n个区域的样本动作变量；
[0128][0129]
其中，l
φ
表示神经网络的参数φ的损失函数，表示第1个区域的第一神经网络c1的网络参数，表示第n个区域的第一神经网络cn的网络参数,表示在数据集上对o,a,r,o'求期望；φf的梯度通过以下公式计算：
[0130][0131]
更新网络参数φf：
[0132][0133]
其中ηq为一超参数，代表值函数学习率；
[0134]
步骤5-4：更新冻结参数
[0135][0136]
其中η为一超参数，代表冻结系数；
[0137]
形成对各个本地控制器的下发下行边际变量di：
[0138][0139]
其中，o＝[o1,
…
,on]
t
表示全部区域的观测变量，a＝[a1,
…
,an]
t
表示全部区域的动作变量，表示全部区域的推断动作变量，ci表示第i个区域的神经网络；
[0140]
表示神经网络f对区域i的第一神经网络ci取值的偏导数；表示损失函数l
φ
对神经网络f取值的偏导数；
[0141]
将各个下行边际变量di通过通讯网络下发到对应的本地控制器。
[0142]
本发明提供一种无功电压分布式控制的控制器，所述控制器为能够应用在线联邦学习与分布式控制并行的控制架构中的本地控制器；
[0143]
配电网被划分为若干个被控区域，每个被控区域包括多个节点；
[0144]
每个被控区域的节点与该被控区域的本地控制器通信连接，将采集的量测数据上传到该被控区域的本地控制器；
[0145]
每个控制器均与集中服务器通信连接，所述集中服务器协用于调各个本地控制器上的智能体的学习过程；
[0146]
在本地控制器上部署多智能体深度强化学习算法；
[0147]
本地控制器与集中服务器的边际变量交换，本地控制器学习得到各本地控制器的控制策略；
[0148]
各本地控制器基于控制策略和本地量测数据，执行电网无功电压控制。
[0149]
本发明提供一种无功电压分布式控制的服务器，所述服务器为能够应用在线联邦学习与分布式控制并行的控制架构中的集中服务器；
[0150]
所述集中服务器用于协调各个本地控制器上的智能体的学习过程；
[0151]
其中，配电网被划分为若干个被控区域，每个被控区域包括多个节点；每个被控区域的节点与该被控区域的本地控制器通信连接，将采集的量测数据上传到该被控区域的本地控制器；
[0152]
集中服务器与本地控制器均通信连接，与本地控制器进行边际变量交换；
[0153]
所述本地控制器部署多智能体深度强化学习算法，能够基于交换的边际变量，学习得到各本地控制器的控制策略，并基于控制策略和本地量测数据，执行电网无功电压控制。
[0154]
本发明提供一种计算机存储介质，具有存储于其上的计算机可执行指令，当由计算设备执行时，所述计算机可执行指令使得所述计算设备执行上述能够运行在本地控制器的无功电压分布式控制方法。
[0155]
本发明提供一种计算机存储介质，具有存储于其上的计算机可执行指令，当由计算设备执行时，所述计算机可执行指令使得所述计算设备执行上述能够运行在集中服务器的无功电压分布式控制方法。
[0156]
本发明采用分布式架构，无需被控配电网的精确模型即可实现近似最优的无功电压控制，各个本地控制器通过与集中服务器进行边际变量交换和本地学习，能够快速获取
并执行控制策略，进而保证了高速的本地控制。采用边际变量交换的方式，通讯量低，隐私保护性强，能够节省通讯带宽并保护各个被控区域的隐私。同时，相比依赖p2p(peer-to-peer)架构的分布式学习方法，本发明充分利用了电网的集中协调架构，具有更高的训练效率。本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
[0157]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0158]
图1示出了根据本发明实施例的无功电压分布式控制方法流程图；
[0159]
图2示出了根据本发明实施例的另一种无功电压分布式控制方法流程图；
[0160]
图3示出了根据本发明实施例的无功电压分布式控制系统结构示意图；
[0161]
图4示出了根据本发明实施例的一种计算设备的结构示意图。
具体实施方式
[0162]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0163]
本发明实施例提出一种无功电压分布式控制方法，将联邦学习架构与多智能体强化学习结合，采用在线联邦学习与分布式控制并行的控制架构，部署高效的多智能体深度强化学习算法，通过集中服务器协调各个本地控制器上的智能体学习过程；通过本地控制器与集中服务器的边际变量异步交换，学习得到各控制器的控制策略，各控制器基于本地的控制策略和本地量测数据，执行电网无功电压控制。
[0164]
示例性地，配电网包含多个被控区域，每个被控区域设置控制器，各个控制器能够与区域电网调控中心的云服务器通讯，以交互边际变量。每个被控区域包括多个节点，且包含布置有静止无功补偿器svc的svc节点和/或布置有可再生能源发电设备dg的dg节点。每个被控区域内的节点通过支路连接，形成配电网络。相邻被控区域之间具有通信连接关系，例如，通过控制器进行通信连接。
[0165]
本发明实施例的无功电压分布式控制方法能够应用在上述配电网中集中服务器和/或本地控制器中，单独在集中服务器或本地控制器上实施本发明实施例的方法，或者在集中服务器和本地控制器上同时实施本发明实施例的方法均属于本发明的保护范围。
[0166]
本发明实施例的一方面提供一种能够运行在本地控制器上的无功电压分布式控制方法，方法采用在线联邦学习与分布式控制并行的控制架构，如图1所示，方法包括：在本地控制器上部署多智能体深度强化学习算法；通过本地控制器与集中服务器之间的边际变量交换，本地控制器学习得到各本地控制器的控制策略；各本地控制器基于控制策略和本
地量测数据，执行电网无功电压控制；其中，集中服务器用于协调各个本地控制器上的智能体的学习过程。
[0167]
具体地，方法包括在各区域本地控制器上执行以下步骤：
[0168]
框架构建步骤：构建基于马尔科夫博弈的多智能体交互训练框架；
[0169]
网络部署步骤：部署神经网络；
[0170]
本地控制步骤：并行执行无功电压控制；
[0171]
本地交换步骤：并行执行与集中服务器之间的边际变量交换，包括从集中服务器获取下行边际变量和向集中服务器发送上行边际变量；
[0172]
本地学习步骤：根据下行边际变量，并行执行本地学习；
[0173]
其中，下行边际变量由集中服务器根据收集的上行边际变量，执行集中学习后得到；
[0174]
本地控制步骤、本地交换步骤和本地学习步骤重复并行执行。
[0175]
本发明实施例的另一方面提供一种能够运行在集中服务器上的无功电压分布式控制方法，采用在线联邦学习与分布式控制并行的控制架构，如图2所示，方法包括：通过集中服务器协调各个本地控制器上的智能体的学习过程；所述本地控制器上部署多智能体深度强化学习算法；集中服务器与所述本地控制器交换边际变量，以使得本地控制器学习得到各本地控制器的控制策略，基于控制策略和本地量测数据，执行电网无功电压控制。
[0176]
具体地，方法包括以下步骤：
[0177]
模型确定步骤：建立分布式无功电压优化模型；
[0178]
网络部署步骤：在集中服务器部署神经网络；
[0179]
集中学习步骤：集中服务器收集各区域上行边际变量，执行集中学习，并下发下行边际量到各个本地控制器；
[0180]
下行边际变量用于各本地控制器并行执行本地学习以获得控制策略；
[0181]
其中，集中学习步骤重复执行。
[0182]
相比p2p的分布式学习方法，本方法能够获得更高的训练效率。通过联邦学习中，各个控制器并不将本地的观测变量(oi)、动作变量(ai)和控制策略(神经网络函数与)上传到集中服务器，而是上传经过本地控制器(智能体)计算得到的标量数据到集中服务器，集中服务器下传用于计算梯度信息的数据(具体为用于计算梯度信息的偏导数)到本地控制器，在学习阶段本地控制器自行执行更新，这样既利用了全局信息，又保护了个体隐私。其中，一个本地控制器可以视为一个智能体。
[0183]
本发明实施例通过采用高效的多智能体深度强化学习算法，兼具全局无模型自适应优化能力和本地快速控制能力，实现模型不完备场景下电网无功电压的优化控制；通过对联邦学习的有机结合，各控制器控制数据、策略信息仅在本地处理，不仅避免了大量的数据交换，节省通讯成本，还能够保护各主体隐私；进而具备低通讯要求、高隐私保护性、高效性、高灵活性，从而在通讯条件差、模型条件差的情况下大幅提高电网的电压质量，降低电网运行网损。
[0184]
本发明实施例的本地控制器可根据实时本地量测数据进行快速控制，充分发挥分布式控制的速度优势，特别适用于具备大量高速dg资源的配电网；另一方面本发明无需暴露各智能体本地的量测数据和控制策略，仅需要进行少量边际变量的交换，通讯带宽需求
低，能够节省通讯成本并保护各主体隐私，特别适合有多vpp接入的配电网使用。本发明实施例的控制方法还兼具分布式控制的灵活高效优势与多智能体强化学习的全局优化能力，既避免了集中控制带来的单点失败风险高、控制指令时延大等问题，又节省了重复维护精确模型带来的高昂成本，避免了模型粗糙导致的控制效果降低；同时，降低了对通讯带宽的要求，节省通讯成本并保护各主体隐私，适合大规模推广。
[0185]
下面将本地控制器和集中服务器协同作用为例，对上述应用在本地控制器和集中服务器上的无功电压分布式控制方法进行详细说明。
[0186]
步骤1：
[0187]
模型确定步骤：在集中服务器上确定各被控区域无功电压控制目标，建立分布式无功电压优化模型；
[0188]
框架构建步骤：基于分布式无功电压优化模型，在本地控制器上构建基于马尔科夫博弈的多智能体交互训练框架，包括：
[0189]
步骤1-1，建立分布式无功电压优化模型：配电网按照实际的控制器安装情况，被分为|a|个区域，区域标号集合记为a。每个区域安装有控制器(即，被控区域控制器或本地控制器)，用于快速获取本区域的量测数据。控制器具备一定的运算能力，并能够同集中服务器(即区域电网调控中心的云服务器)进行通讯。建立分布式无功电压优化模型包括确定各区域无功电压控制目标，其中，各区域无功电压控制目标为在满足电压约束的条件下最小化全网网损：
[0190][0191]
其中，l
opt
为分布式无功电压优化目标，p
loss
为全网网损，代表第i个区域中第j个节点的有功功率注入和电压幅值，v,分别为电压幅值的下限与上限；q
s,i
代表第i个区域中所有svc(static var compensator，静止无功补偿器)的无功功率输出(q
s,1
表示第1个区域中所有svc的无功功率输出，q
s,|a|
表示第|a|个区域中所有svc的无功功率输出)，其中代表第i个区域中第j个svc的无功功率输出，分别代表第i个区域中第j个svc的无功功率输出的下限与上限；q
g,i
代表第i个区域中所有dg的无功功率输出，(
qg,1
表示i＝1时，第1个区域中所有dg的无功功率输出，
qg,|a|
表示第|a|个区域中所有dg的无功功率输出)，其中代表第i个区域中第j个dg的无功功率输出，为第i个区域中第j个dg的装机容量和有功功率输出。ni为第i个区域节点的集合，为第i个区域dg的集合，为第i个区域svc的集合。此外，被控区域的配网还满足潮流约束，潮流约束方程为本领域技术人员所熟知的，在此处省略。
[0192]
构建基于马尔科夫博弈的多智能体交互训练框架，包括：
[0193]
步骤1-2：对应各区域系统的量测数据，构建各区域观测变量oi如(1.2)所示。
[0194][0195]
代表第i个区域中第j个节点的无功功率注入；
[0196]
本发明实施例中，除非特殊说明，相同符号表示相同的物理参数，不再赘述。
[0197]
步骤1-3：对应各区域无功电压优化目标，构建各区域统一回馈变量r如(1.3)所示。
[0198][0199]
其中，cv为电压约束的惩罚系数，示例性地，值取为1；函数[]

的定义为[x]

＝max(0,x)。
[0200]
将统一回馈变量按区域分解，可得：
[0201][0202]
其中，ri为r在第i个区域的分解变量，即第i个区域的本地回馈变量，能够通过第i个区域的本地量测数据计算得到。
[0203]
步骤1-4：对应可控灵活性资源的无功功率，构建各区域动作变量ai如(1.5)所示。
[0204][0205]
其中，代表第i个区域中第k个svc的无功功率输出。代表第i个区域中第j个dg的无功功率输出。可控灵活性资源包括svc和dg。
[0206]
步骤2：在集中服务器和各区域本地控制器上分别部署神经网络，并初始化各神经网络及相关控制过程变量，具体为步骤2-1至2-4描述的一系列被用于控制过程的变量；
[0207]
步骤2-1：在集中服务器上部署神经网络并初始化；
[0208]
定义神经网络f为一个输入|a|个标量输出1个标量值的全连接神经网络，包括若干个隐含层(例如，2个隐含层)，每个隐含层包含若干个神经元(例如，512个神经元)，激活函数为relu函数。记f的网络参数为φf，对应的冻结参数为冻结参数对应的神经网络记为随机初始化φf与
[0209]
步骤2-2：在各区域本地控制器上部署神经网络并初始化，以第i个区域为例，包括如下步骤：
[0210]
步骤2-2-1：定义第i个区域的第一神经网络ci为一个输入(oi,ai)、输出单个标量值的全连接神经网络，包括若干个隐含层(例如，2个隐含层)，每个隐含层包含若干个神经元(例如，512个神经元)，激活函数为relu函数。记ci的网络参数为对应的冻结参数为冻结参数对应的神经网络记为随机初始化与第一神经网络用于评估期望奖励。
[0211]
步骤2-2-2：定义第i个区域的第二神经网络ei为一个输入(oi,ai)输出单个标量值
的全连接神经网络，包括若干个隐含层(例如，2个隐含层)，每个隐含层包含若干个神经元(例如，512个神经元)，激活函数为relu函数。记ei的网络参数为对应的冻结参数为冻结参数对应的神经网络记为随机初始化与第二神经网络用于评估熵(entropy)。
[0212]
优选地，第一神经网络和第二神经网络结构相同。
[0213]
步骤2-2-3：定义第三神经网络和第四神经网络其中，与均为输入oi输出ki维向量的神经网络，其中ki为动作向量ai的维度。与分别具有独立的输出层，同时共享相同的神经网络输入层与隐含层，包括若干个隐含层(例如，2个隐含层)，每个隐含层包含若干个神经元(例如，512个神经元)，激活函数为relu函数。记与的全部网络参数为θi。随机初始化θi。
[0214]
步骤2-3：初始化离散时间变量，令当前时刻t＝0，两个迭代之间的实际时间间隔为δt，根据本地控制器的实际量测数据及指令控制速度确定；
[0215]
步骤2-4：初始化各控制器本地缓存经验库di,i∈a，以第i个区域为例，初始化临时变量
[0216]
步骤3：各第i个区域本地控制器在t时刻执行以下控制步骤，并行执行互不干扰：
[0217]
步骤3-1：从区域电网的量测装置获得量测数据，更新对应的观测变量oi；
[0218]
其中，量测装置包括设在区域的各个节点的电压传感器与电流传感器，通过各个节点的电流传感器与电压传感器，能获取各个节点的电流信号和电压信号，进而能获取各个节点的有功功率注入、无功功率注入和电压幅值。
[0219]
步骤3-2：根据本地的策略神经网络与更新本迭代对应动作变量ai：
[0220][0221]
t表示当前时刻，ξi表示第i个随机变量，n表示正态分布，ii表示ki维的单位向量。
[0222]
步骤3-3：控制器将ai下发至本地对应的被控dg和/或svc；
[0223]
步骤3-4：若tmpi不为空集，则将当前时刻(当前迭代的时间节点)的观测变量和上一迭代时刻观测变量、动作变量、本地回馈变量储存到di中，即di←di
∪{oi∪tmpi}；
[0224]
步骤3-5：根据oi计算ri，并计tmpi＝{oi,ai,ri}；
[0225]
步骤4：各区域本地控制器在t时刻执行以下边际变量交换步骤，并行执行互不干扰：
[0226]
步骤4-1：根据当前时刻，随机在di中抽取样本，记为{oi,ai,ri,o
′i}，并计算上行边际变量：
[0227][0228]
其中，o
′i为oi的抽取样本，a
′i和的计算方式为：
[0229]
[0230][0231]
步骤4-2：将上行边际变量ui通过通讯网络上传到集中服务器上。
[0232]
步骤5：集中服务器执行以下学习步骤(可以在当前迭代与本地控制器并行执行，例如，集中服务器也在t时刻执行以下步骤)：
[0233]
步骤5-1：收集各个本地控制器上传的上行边际变量ui；
[0234]
步骤5-2：根据ui中的信息计算：
[0235][0236]
其中，y表示值函数目标量，γ表示强化学习折扣值(典型值取为0.99)，表示第1个区域的冻结参数对应的神经网络，(o
′1,a
′1)表示第1个区域的冻结参数对应的神经网络的输入，其中，o
′1为第一个区域的样本观测变量，a
′1为第一个区域的样本动作变量；表示第n个区域的冻结参数对应的神经网络，(o
′n,a
′n)表示第n个区域的冻结参数对应的神经网络的输入，其中，o
′n为第n个区域的样本观测变量，a
′n为第n个区域的样本动作变量；
[0237][0238]
其中，l
φ
表示神经网络的参数的损失函数，表示第1个区域的第一神经网络c1的网络参数，表示第n个区域的第一神经网络cn的网络参数,表示在数据集上对o,a,r,o'求期望；φf的梯度通过以下公式计算：
[0239][0240]
步骤5-3：更新网络参数φf：
[0241][0242]
其中ηq为一超参数，代表值函数学习率，示例性地，取值为0.001。
[0243]
步骤5-4：更新冻结参数
[0244][0245]
其中η为一超参数，代表冻结系数，示例性地，取值为0.995。
[0246]
步骤5-5：形成对各个本地控制器的下发下行边际变量di，其中偏导数的求取可直接采用商用神经网络自动微分器，如采用tensorflow或pytorch等框架：
[0247][0248]
其中，o＝[o1,
…
,on]
t
表示全部区域的观测变量，a＝[a1,
…
,an]
t
表示全部区域的动作变量，表示全部区域的推断动作变量，ci表示第i个区域的神经网络；表示神经网络f对区域i的第一神经网络ci取值的偏导数；表示损失函数l
φ
对神经
网络f取值的偏导数。
[0249]
步骤5-6：将各个下行边际变量di通过通讯网络下发到对应的本地控制器；
[0250]
步骤6：各区域i本地控制器在t时刻收到集中服务器下发的di后执行以下控制步骤，并行执行互不干扰：
[0251]
步骤6-1：根据下行边际变量di和本地数据进行如下计算：
[0252][0253][0254][0255][0256]
其中，表示第i个区域的熵估计函数目标值，πi表示第i个区域的策略函数，表示神经网络e的损失函数，γ表示强化学习折扣值，α表示惩罚系数，表示第i个区域的第一神经网络c的梯度，表示对所有观测变量和动作中的随机变量求期望。
[0257]
步骤6-2：更新参数2：更新参数与θi：
[0258][0259][0260][0261]
其中，η
θ
表示策略神经网络的学习率，l
θ
表示策略神经网络参数的损失函数；
[0262]
步骤6-3：更新冻结参数与
[0263][0264][0265]
步骤7：t＝t 1，在下一个迭代中，返回步骤3并重复步骤3、4、5、6。
[0266]
基于相同的发明构思，本发明实施例还提供一种无功电压分布式控制的控制器，控制器为能够应用在线联邦学习与分布式控制并行的控制架构中的本地控制器；配电网被划分为若干个被控区域，每个被控区域包括多个节点；每个被控区域的节点与该被控区域的本地控制器通信连接，将采集的量测数据上传到该被控区域的本地控制器；每个控制器均与集中服务器通信连接，所述集中服务器协用于调各个本地控制器上的智能体的学习过程；在本地控制器上部署多智能体深度强化学习算法；本地控制器与集中服务器的边际变
量交换，本地控制器学习得到各本地控制器的控制策略；各本地控制器基于控制策略和本地量测数据，执行电网无功电压控制。
[0267]
基于相同的发明构思，本发明实施例还提供一种无功电压分布式控制的服务器，服务器为能够应用在线联邦学习与分布式控制并行的控制架构中的集中服务器。集中服务器用于协调各个本地控制器上的智能体的学习过程；其中，配电网被划分为若干个被控区域，每个被控区域包括多个节点；每个被控区域的节点与该被控区域的本地控制器通信连接，将采集的量测数据上传到该被控区域的本地控制器；集中服务器与本地控制器均通信连接，与本地控制器进行边际变量交换；本地控制器部署多智能体深度强化学习算法，能够基于交换的边际变量，学习得到各本地控制器的控制策略，并基于控制策略和本地量测数据，执行电网无功电压控制。
[0268]
上述集中服务器和本地控制器在应用时能够协同工作，形成无功电压分布式控制系统。如图3所示，系统包括区域电网调控中心云服务器(即，集中服务器)，被控区域电网控制器，即本地控制器(简称控制器)。配电网被划分为若干个被控区域，每个被控区域包括多个节点。节点为连接在配电网中的包含耗能设备或储能设备的单元。
[0269]
每个节点上均设有量测装置。电网还根据其自身的实际情况，在其部分或者全部节点上设有上静止无功补偿器(svc)和可再生能源发电设备(dg)中的一种。具体的，被控电网节点可以是仅设有量测装置的节点，设有量测装置和dg的节点，设有量测装置和svc的节点。量测装置用于采集节点的量测数据。量测装置包括：电压量测装置、电流量测装置和功率量测装置。电流量测装置用于量测各个节点的电流，电压量测装置用于量测各个节点的电压，功率量测装置用于量测有功功率和无功功率。量测装置可以采用电压传感器、电流传感器，但是不限于此。
[0270]
每个被控区域的节点与该被控区域的控制器通信连接，将采集的量测数据上传到该被控区域的控制器。控制器通过向svc节点和dg节点发送控制信号，控制其动作。
[0271]
每个控制器均与集中服务器通信连接，如通过通讯网络连接。集中服务器与控制器交互边际变量。具体地，集中服务器下发下行边际变量(d1
…
dn)到控制器，控制器上传上行边际变量(u1
…
un)到集中服务器。
[0272]
集中服务器和控制器上均部署神经网络。其中，神经网络用于实现分布式无功电压优化模型，分布式无功电压优化模型基于各被控区域的无功电压控制目标建立。具体地，集中服务器和控制器上均设置有能够用于部署神经网的计算机系统，包括处理器和存储器。具体地，控制器上部署有本地学习模块，神经网络部署在本地学习模块上，在每个迭代中持续学习，生成控制策略。本地学习模块包括能够执行神经网络部署、初始化和学习的软件和硬件的集合。
[0273]
集中服务器和控制器能够用于执行上述实施例的无功电压分布式控制方法，各个步骤的具体执行方式在此不再赘述。
[0274]
本发明实施例的控制方法采用了联邦学习的架构，集中服务器仅进行协调，各控制器控制数据、策略信息仅在本地处理，不仅避免了大量的数据交换，节省通讯成本，还能够保护各主体隐私。
[0275]
本发明实施例的控制方法无需事先建立准确的配电网模型，能够通过对控制过程数据的积累与学习进行无模型优化并获得各智能体的最优控制策略，能够在模型不完备场
景下优化配电网的无功分布，消除电压越限并保障高效运行。
[0276]
本发明实施例的控制方法各个控制器完全并行运行，主要的计算量集中在各个控制器本地，且随着接入控制器的增加，集中服务器上的计算量增加缓慢，新接入的控制器能够完成本地的计算，因此能够充分利用计算资源，对问题规模和计算条件有良好的兼容性。
[0277]
本发明中各区域控制器在执行控制操作时，不需要同集中服务器或其他控制器进行通讯，可根据储存的策略神经网络，快速生成控制指令，高效利用高速灵活性资源，提高了无功电压控制的效率。
[0278]
基于相同的发明构思，本发明实施例还提供一种计算机存储介质，具有存储于其上的计算机可执行指令，当由计算设备执行时，计算机可执行指令使得计算设备执行上述无功电压分布式控制方法，包括能够运行在本地控制器的无功电压分布式控制方法或能够运行在集中服务器的无功电压分布式控制方法。
[0279]
示例性地，如图4所示，计算设备包括：至少一个处理器(processor)，图4中以一个处理器为例；和存储器(memory)，还可以包括通信接口(communication interface)和总线。其中，处理器、通信接口、存储器可以通过数据连接完成相互间的通信。通信接口可以用于信息传输。处理器可以调用存储器中的逻辑指令，以执行上述实施例的无功电压分布式控制方法。
[0280]
此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
[0281]
存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本发明实施例中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的无功电压分布式控制方法。
[0282]
存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器。
[0283]
尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：无线能量发射装置及电动汽车地埋式无线充电系统

无功电压分布式控制方法、服务器、控制器及存储介质

相关文献

最热文献