一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多智能体强化学习的智能电网分区网络重构方法与流程

2022-03-02 01:48:44 来源:中国专利 TAG:


1.本发明涉及多智能体强化学习领域,具体为一种基于多智能体强化学习的智能电网分区网络重构方法


背景技术:

2.网络重构是指改变电网的网络拓扑结构,即对电网的联络开关与分段开关的运行状态进行改变,使馈线或者配电站之间的负荷转移,从而改变电网的运行状态。电网发生故障时,网络重构可以使电网恢复安全稳定运行。传统网络重构依赖优化算法或专家经验,优化算法往往计算量庞大,处理速度慢,不利于实时应用。专家经验则对未发生过的可能风险缺乏应对手段,难以解决日益复杂的电力系统运行安全问题。另外传统的网络重构很难同时考虑风电、光伏发电和负荷的不确定性。执行网络重构前需要对网络重构后的电网运行状态进行估计,估计的精确性直接决定了网络重构动作的优劣,这增加了网络重构的难度。强化学习充分考虑环境的变化规律,对动作后的新环境具有预知的能力,为网络重构提供了新思路。此外,基于强化学习的方法具有计算速度快、效率高的特点,适合电力系统在线应用。


技术实现要素:

3.本发明的目的是为了实现智能电网自动决策、保障电网安全运行而提供一种基于多智能体强化学习的智能电网分区网络重构方法,
4.本发明的目的是这样实现的:
5.一种基于多智能体强化学习的智能电网分区网络重构方法,包括以下步骤:
6.步骤1:根据电网运行需要将电网划分成n个区域,并构建多智能体强化学习的基本元素,包括环境、智能体、状态、观测、动作、奖励函数;
7.步骤2:运行电力系统仿真环境,创建电力系统的初始运行状态数据集;
8.步骤3:构造深度神经网络模型,应用增强智能体间学习(reinforced inter-agent learning,rial)对决策智能体进行训练;
9.步骤4:利用训练完成的智能体为电网重构提供策略。
10.进一步的,所述步骤1中多智能体强化学习方法基本要素构建过程包括以下步骤:
11.步骤1.1:构建以电力系统仿真环境作为智能体的交互环境,为智能体提供决策参考的电网各类属性、状态值。当电力系统安全运行即不存在过载线路时,不运行智能体。当且仅当电力系统中存在线路过载时,智能体进行一系列连续的决策行为,使电力系统恢复安全运行。每运行一个步长,环境根据所有智能体的动作,修改电网中的相关参数,再根据发电厂、负荷功率的时变规律,进行潮流计算更新电网状态;
12.步骤1.2:构建n个区域控制智能体。智能体同时作为决策者和学习者,与环境交互来获得经验,并从中不断学习来获得最优策略。每个智能体负责监管一个区域,智能体之间通过合作不断学习到最优的全局策略;
13.步骤1.3:构建全局状态空间。状态反应某一时刻电力系统的运行状态。以电网拓扑结构、发电厂、负荷和输电线路的有功功率作为当前系统特征;
14.步骤1.4:为每个智能体构建观测空间。观测反应某一时刻某一智能体可观测的区域电网运行状态。以电网拓扑结构、发电厂、负荷和输电线路的有功功率作为观测量;
15.步骤1.5:为每个智能体构建环境动作空间。每个智能体的环境动作都会影响环境和团队奖励。环境动作从以下两种动作中选择一种来执行:投切一条线路;为一个配电站的一个设备切换母线。当电网安全运行时环境动作选择保持原状;一旦发现线路越限,则改变电网拓扑结构以恢复电网安全。根据实际电网的操作限制,对同一条线路或配电站的操作需要间隔至少3个步长,一个步长对应现实电网中的5分钟;
16.步骤1.6:为每个智能体构建通信动作空间。每个智能体的通信动作会在下一时刻被其他智能体接收并作为决策的依据,但不会直接影响环境或奖励。通信动作是多维向量,其维数由实际应用场景下智能体之间的通信能力和通信需求决定;
17.步骤1.7:奖励函数包含两种情况。第一是重构过程中基于线路过载量的奖励函数;
18.第二是本轮重构结束时基于系统是否恢复安全运行所得的奖励函数。
19.基于线路过载量的奖励函数:当前时刻所有过载线路的线路过载量标幺值之和。
[0020][0021]
其中为p
iactual
第i条线路的实际有功功率标幺值,p
ithreshold
为第i条线路的有功功率阈值标幺值,o为过载线路的序号集。
[0022]
进一步的,所述步骤2中的电力系统运行状态数据集构造方法包括以下步骤:
[0023]
步骤2.1:根据智能体所在的电网结构,建立电网的拓扑结构模型和潮流计算模型;
[0024]
步骤2.2:使用真实电网历史数据以及预测数据,建立电网中各发电厂和负荷有功功率的时变规律模型;
[0025]
步骤2.3:设计随机的网络攻击。在电网安全稳定运行后随机地断开一条线路,以此创造事件交由智能体解决。
[0026]
进一步的,所述步骤3中应用rial算法进行训练的方法为:
[0027]
使用深度q学习(deep q network,dqn)同时训练所有智能体,但对dqn有以下两个修改:第一,不使用经验复用池;第二,将智能体所采取的环境动作和通信动作作为下一个时间步的输入。
[0028]
多智能体的深度q学习包括以下步骤:
[0029]
步骤3.1:建立电力系统仿真环境;
[0030]
步骤3.2:确定状态空间、观察空间、环境动作空间、通信动作空间;
[0031]
步骤3.3:按照rial架构确定智能体的神经网络结构并初始化神经网络参数;
[0032]
步骤3.4:环境初始化,输入电力系统的故障状态作为初始状态;
[0033]
步骤3.5:每个步长,所有智能体选择各自的动作,环境接收联合动作后转变为新环境并产生奖励,根据该转移过程更新各智能体的神经网络参数;
[0034]
步骤3.6:判断环境是否达到收敛或发散条件,若未达到则返回步骤3.5,否则返回
步骤3.4。
[0035]
与现有技术相比,本发明的有益效果是:
[0036]
采用多智能体方法解决复杂的电网故障后重构问题,无需对复杂的电力系统建模,通过多智能体与环境的交互以及多智能体之间的信息交互来学习最优重构策略,实现网络的自动重构,不依赖专家系统和传统模型算法,方法对风电、光伏和负荷的不确定性具有自适应性,对未知的风险具有较好的应对措施。分区的多智能体使训练效率高,决策速度快。
附图说明
[0037]
图1为本发明的总体流程图;
[0038]
图2为本发明rial架构图;
[0039]
图3为本发明多智能体的dqn训练流程图;
[0040]
图4为本发明多智能体的通信示意图;
具体实施方式
[0041]
下面结合附图与具体实施方式对本发明作进一步详细描述。
[0042]
一种基于多智能体强化学习的智能电网分区自动决策方法,其总体流程图参照图1,该方法包括以下步骤:
[0043]
步骤1:根据电网运行需要将电网划分成n个区域,并构建多智能体强化学习(marl)的基本元素,包括环境、智能体、状态、观测、动作、奖励函数。
[0044]
步骤2:运行电力系统仿真环境,创建电力系统的初始运行状态数据集。
[0045]
步骤3:构造深度神经网络模型,应用增强智能体间学习(rial)对决策智能体进行训练。
[0046]
步骤4:利用训练完成的智能体为电网控制提供策略。
[0047]
本发明还包括:
[0048]
1.步骤1中多智能体强化学习方法基本要素构建过程如下:
[0049]
(1)构建以电力系统仿真环境作为智能体的交互环境,为智能体提供决策参考的电网各类属性、状态值。当电力系统安全运行即不存在过载线路时,不运行智能体。当且仅当电力系统中存在线路过载时,智能体进行一系列连续的决策行为,使电力系统恢复安全运行。每运行一个步长,环境根据所有智能体的动作,修改电网中的相关参数,再根据发电厂、负荷功率的时变规律,进行潮流计算更新电网状态。
[0050]
(2)构建n个区域控制智能体。智能体同时作为决策者和学习者,与环境交互来获得经验,并从中不断学习来获得最优策略。每个智能体负责监管一个区域,智能体之间通过合作不断学习到最优的全局策略。
[0051]
(3)构建全局状态空间。状态反应某一时刻电力系统的运行状态。以电网拓扑结构、发电厂、负荷和输电线路的有功功率作为当前系统特征。
[0052]
(4)为每个智能体构建观测空间。观测反应某一时刻某一智能体可观测的区域电网运行状态。以电网拓扑结构、发电厂、负荷和输电线路的有功功率作为观测量。
[0053]
(5)为每个智能体构建环境动作空间。每个智能体的环境动作都会影响环境和团
队奖励。环境动作从以下两种动作中选择一种来执行:投切一条线路;为一个配电站的一个设备切换母线。当电网安全运行时(电网中不存在越限线路)环境动作选择保持原状;一旦发现线路越限,则改变电网拓扑结构以恢复电网安全。根据实际电网的操作限制,对同一条线路或配电站的操作需要间隔至少3个步长,一个步长对应现实电网中的5分钟。
[0054]
(6)为每个智能体构建通信动作空间。每个智能体的通信动作会在下一时刻被其他智能体接收并作为决策的依据,但不会直接影响环境或奖励。通信动作是多维向量,其维数由实际应用场景下智能体之间的通信能力和通信需求决定。
[0055]
(7)奖励函数包含两种情况。第一种是重构过程中基于线路过载量的奖励函数。第二种是本轮重构结束时基于系统是否恢复安全运行所得的奖励函数。
[0056]
基于线路过载量的奖励函数:当前时刻所有过载线路的线路过载量标幺值之和。
[0057][0058]
其中为p
iactual
第i条线路的实际有功功率标幺值,p
ithreshold
为第i条线路的有功功率阈值标幺值,o为过载线路的序号集。
[0059]
确定一轮重构的结束条件。当电力系统恢复安全即不存在过载线路时,本轮重构成功,结束且获得较大奖励,例如100。如果电力系统经过多次动作(超过设置的最大步数)仍未达到安全,则本轮重构失败,结束且给予较大惩罚,例如-100。
[0060]
2.步骤2中的电力系统运行状态数据集构造方法为:
[0061]
(1)根据智能体所在的电网结构,建立电网的拓扑结构模型和潮流计算模型。
[0062]
(2)使用真实电网历史数据以及预测数据,建立电网中各发电厂和负荷有功功率的时变规律模型。
[0063]
(3)设计随机的网络攻击。在电网安全稳定运行后随机地断开一条线路(模拟电网中可能发生的事故,例如电缆烧毁、人为破坏等),以此创造事件交由智能体解决。
[0064]
3.步骤3中构造深度神经网络模型方法为:
[0065]
每个智能体包括两个循环神经网络rnn,分别对应环境动作和通信动作。对应环境动作的rnn,其输入为当前时刻自己的观察、上一时刻来自其他智能体的信息、上一时刻自己的环境动作、自己的个体编号,其输出为当前时刻自己环境动作的q函数及环境动作。对应通信动作的rnn,其输入为当前时刻自己的观察、上一时刻来自其他智能体的信息、上一时刻自己的通信动作、自己的个体编号,其输出为当前时刻自己通信动作的q函数及通信动作。该rnn由gru层、bn层、relu激活层和全连接层构成。
[0066]
rial架构如附图2。其中i是智能体的个体编号,i

表示除i以外的其他智能体,表示t时刻第i个智能体的观察,是t-1时刻来自其他智能体的通信动作,a是环境动作,q是值函数。
[0067]
4.步骤3中应用rial算法进行训练的方法为:
[0068]
使用深度q学习(dqn)同时训练所有智能体,但对dqn有以下两个修改:第一,不使用经验复用池;第二,将智能体所采取的环境动作和通信动作作为下一个时间步的输入。
[0069]
多智能体的深度q学习包括以下步骤:
[0070]
步骤1:建立电力系统仿真环境;
[0071]
步骤2:确定状态空间、观察空间、环境动作空间、通信动作空间;
[0072]
步骤3:按照rial架构确定智能体的神经网络结构并初始化神经网络参数;
[0073]
步骤4:环境初始化,输入电力系统的故障状态作为初始状态;
[0074]
步骤5:每个步长,所有智能体选择各自的动作,环境接收联合动作后转变为新环境并产生奖励,根据该转移过程更新各智能体的神经网络参数;
[0075]
步骤6:判断环境是否达到收敛或发散条件,若未达到则返回步骤5,否则返回步骤4。
[0076]
dqn训练流程如附图3。多智能体的通信过程如附图4。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献