一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种电力系统深度强化学习紧急控制策略提取方法与流程

2022-02-22 08:54:42 来源:中国专利 TAG:


1.本发明属于人工智能与电力系统交叉领域,尤其涉及一种电力系统深度强化学习紧急控制策略提取方法。


背景技术:

2.在世界各地发生的一些大停电事件,例如2003年的美加大停电,造成了巨大的社会经济损失,警示着我们亟需构建一个更加安全、可靠的电力系统。但是,当前的电力系统保护与控制机制都是在离线情况下基于一些典型场景设计的,并不能适应电力系统的未知变化。与此同时,随着人工智能(artificial intelligence,ai)技术在自然语言处理技术,计算机视觉,自动驾驶等领域的发展,这些技术也在电力系统中取得了成功的应用,例如负荷预测和新能源预测,输电线路覆冰厚度辨识,电动汽车快速充电引导等。以深度学习(deep learning,dl)为代表的人工智能算法因为其强大的特征提取和非线性映射能力,可使其更加容易地应对电力系统的未知变化。
3.近年来,深度强化学习(deep reinforcement learning,drl)在自动驾驶,游戏等的应用验证了它在解决序列决策问题上的优势,当然也包括电力系统控制问题。众多学者尝试基于drl去解决电力系统预防控制、紧急控制、恢复控制等问题,并取得了良好的效果。
4.但是人工智能算法自身的黑盒性、难以交互性限制了它们在实际场景中的应用,尤其在涉及到一些关键决策的场合。因此,国内外学者尝试基于模仿学习和知识蒸馏等概念,利用现有ai模型,以建立一个更加轻量的,具有可解释性的决策模型。具体地,一些学者提出了基于决策树及其变体的强化学习策略提取方法。但是,这些工作都仅仅在一些简单游戏场景下验证了他们的可行性,相关的工作在电力系统控制问题中的研究与成效还未开展。


技术实现要素:

5.为解决上述背景技术的不足,本发明提出了一种电力系统深度强化学习紧急控制策略提取方法。
6.本发明的具体技术方案为一种电力系统深度强化学习紧急控制策略提取方法,具体包括以下步骤。
7.步骤1:引入电力系统节点模型多个历史时刻的特征数据构建观测数据;
8.步骤2:引入深度q学习网络模型,进一步将多组观测数据依次输入至深度q学习网络模型,预测并得到负荷削减动作,进一步采用随机梯度下降优化算法进行优化训练得到电力系统紧急控制深度强化学习模型;
9.步骤3:基于已训练完成的深度q学习网络模型,在特定的故障场景下,生成数据集;
10.步骤4:在信息增益比的加权倾斜决策树模型中每个非叶子节点下,将所述每个非叶子节点下下数据集中状态-动作对数据输入于信息增益比的加权倾斜决策树模型中,并
通过拟牛顿算法求解模型目标函数最小值,并得到该节点下模型最优参数,同时将该节点下数据集分为左子集、右子集,并构建左子节点、右子节点,循环上述步骤,直到满足算法终止条件;
11.步骤5:设定策略保真度指标、策略实际控制性能指标、模型复杂度指标,以评估不同超参数下的模型性能,从而根据任务需求选出最优模型,用于电力系统紧急控制中;
12.作为优选,步骤1所述观测数据,具体定义为:
13.x
t
=[u
t
,u
t 1
,...,u
t l-1
]
t
[0014]ut l
={data
t l,p,j
|1≤p≤p,1≤j≤j},l∈[0,l-1]
[0015]
其中,x
t
表示第t组观测数据,t表示第t组观测数据的起始时刻,l为正整数,为观测数据窗口长度。u
t k
表示第t组观测数据中第l组观测数据,即电力系统多节点模型中第t l个时刻的观测数据;data
t l,p,j
表示第t组观测数据中第l步观测数据的第p个母线节点第j种类型的特征数据,即电力系统多节点模型中第t l个时刻第p个电力系统节点第j种类型的特征数据,p表示电力系统节点的数量,j为节点特征的数量。
[0016]
作为优选,步骤2所述预测的负荷削减动作由电力系统母线节点切负荷百分比组合方式构成,每个母线节点都有两种削减负荷的方式,分别定义不动作和减载所述母线节点上总负荷的20%;
[0017]
深度q学习网络模型预测的负荷削减动作的数量总共包含2h种,h为可控节点的数量;进一步,将动作所包含的动作进行整理及编号,即,定义动作集为:
[0018]
y=[0,1,...,y,...,2
h-1
],y∈ν
[0019]
作为优选,步骤3所涉及的数据集具体生成步骤为:在深度q学习网络模型训练完成之后,针对设定的故障场景,通过将电力系统t时刻至t l-1时刻的特征量x
t
滚动输入dqn决策模型中,由该决策模型在动作集y选择最优动作y
t
,并记录下每一步的模型输入、输出数据,构建状态-动作对,(x
t
,y
t
),以完成带标签数据集的生成。步骤3所述状态-动作对数据集可表述为:
[0020]
s={(x1,y1),(x2,y2),(xi,yi),...,(xn,yn)}
[0021]
其中,(xi,yi)表示状态动作对数据集中第i个状态动作对,xi表示状态-动作对数据集中第i个状态动作对的电力系统状态量,yi表示状态-动作对数据集中第i个状态动作对的控制动作,n表示状态-动作对数据集中状态-动作对的数量;
[0022]
作为优选,所述步骤4具体如下:
[0023]
步骤4.1:设定信息增益比的加权倾斜决策树模型中每一非叶子节点下,其输入条件为训练数据集s,(xi,yi)∈s,i=1,2,3,...,m≤n,其中,m为当前节点下数据集样本数量,n为总样本数量;设定模型最大深度为d,当前节点深度为d;
[0024]
其中,根节点下训练数据集为步骤3生成的数据集s,其他非叶子结点下的训练数据集为其父节点的训练集划分得到的左子集s’l
、右子集s’r

[0025]
步骤4.2:基于数据集s创建模型根节点g,并令当前节点深度d=0;
[0026]
步骤4.3:如果当前节点深度d>模型最大深度d,则节点g设为叶子结点,其标签为数据集s内样本数量最多的对应标签k;否则,转步骤4.4;
[0027]
步骤4.4:如果数据集s内所有样本属于同一类别k,则节点g设为叶子结点,其标签为k。否则,转步骤4.5;
[0028]
步骤4.5:以单变量决策树方式初始化模型当前节点下参数θ,得到初始值θ0;
[0029]
步骤4.6:基于拟牛顿算法和初始值θ0求解模型目标函数最小值,并得到模型最优参数θ
best

[0030][0031]
其中,l(θ)为模型目标函数,λ为l2正则化项系数,θ为模型各节点下的待训练参数,||θ||2为θ的二范数,h(s)为样本集合s的经验熵,h(s|θ)为样本集合s在θ下的条件经验熵;
[0032][0033]
其中,k是样本总类别数;k表示样本中第k类样本标签;|sk|是样本集合s中第k类样本数量,|s|是样本集合s总样本数量;
[0034][0035]
其中,w
l
为所有样本分属左子集的权重之和,wr为所有样本分属右子集的权重之和,h
l
为左子节点加权信息熵,hr为右子节点加权信息熵,m是该节点下样本集合s总样本数量,θ为模型各节点下的待训练参数;
[0036][0037]
其中,为样本(xi,yi)属于左子节点的权重,s
l
各样本关联属于左子节点权重信息的集合。
[0038][0039]
其中,为样本(xi,yi)属于右子节点的权重,sr各样本关联属于右子节点权重信息的集合。
[0040][0041]
其中,k是样本总类别数;k表示样本中第k类样本标签,为样本集合中k类别下样本属于左子集的权重之和,w
l
为样本集合s中所有样本属于左子集的权重之和。
[0042][0043]
其中,k是样本总类别数;k表示样本中第k类样本标签,为样本集合中k类别下样本属于右子集的权重之和;wr为样本集合s中所有样本属于右子集的权重之和;
[0044][0045]
[0046]
其中,(xi,yi)表示样本集合s中第i个样本,s
l
为各样本关联分属左子集权重信息的集合,sr为各样本关联分属右子集权重信息的集合;
[0047][0048][0049]
其中,为第i个样本分属左子节点的权重,为第i个样本分属右子节点的权重,σ(
·
)为sigmoid函数;
[0050][0051]
其中,k是样本总类别数;k表示样本中第k类样本标签,为样本集合中k类别下样本属于左子集的权重之和。
[0052][0053]
其中,k是样本总类别数;k表示样本中第k类样本标签,为样本集合中k类别下样本属于右子集的权重之和。
[0054]
步骤4.7:基于当前模型参数θ
best
结合l(θ)计算此时目标函数值l0;
[0055]
步骤4.8:随机初始化参数θ,并重复进行c次,c为模型超参数,得到参数初始值θ
’0;
[0056]
步骤4.9:基于拟牛顿算法和初始值θ
’0求解式l(θ),得到模型最优参数θ’best

[0057]
步骤4.10:基于当前求解得到的模型参数θ’best
计算此时目标函数值l
’0;
[0058]
步骤4.11:如果目标函数值l
’0<l0,则模型最优参数θ
best
=θ’best
,否则转步骤4.12;
[0059]
步骤4.12:基于最优参数θ
best
得到左子集、右子集,s’l
,s’r
;其中,
[0060][0061][0062]
其中,(xi,yi)表示样本集合s中第i个样本,为第i个样本分属左子节点的权重,s
l
为各样本关联分属左子集权重信息的集合,为第i个样本分属右子节点的权重,sr为各样本关联分属右子集权重信息的集合;
[0063]
步骤4.13:构建左子节点g
l
,并令该节点下训练集为s’l
,d=d 1,转步骤4.3;
[0064]
步骤4.14:构建右子节点gr,并令该节点下训练集为s’r
,d=d 1,转步骤4.3;
[0065]
作为优选,所述步骤5具体为:
[0066]
步骤5.1,步骤5所述策略保真度指标为策略保真度,含义为基于信息增益比的加权倾斜决策树模型与深度强化学习策略的决策匹配度,计算公式为:
[0067][0068]
其中,y与分别是在给定相同输入x条件下,深度强化学习与基于信息增益比的加权倾斜决策树模型的输出,n是样本总量,i(
·
)是示性函数。
[0069]
步骤5.2:步骤5所述策略实际控制性能指标为策略实际控制性能,表示当将基于信息增益比的加权倾斜决策树策略应用于实际控制场景中,其在每一个回合下取得的平均回报。当将深度强化学习模型应用于实际控制场景中,其在每一个回合下取得的平均回报记为:re,对应地,基于信息增益比的加权倾斜决策树在相应场景下取得的平均回报记为:r’e
。因此,re=r’e-re>0代表基于信息增益比的加权倾斜决策树模型控制性能优于深度强化学习模型,反之亦然。
[0070]
步骤5.3:步骤5所述模型复杂度指标为模型复杂度,由模型参数量或模型深度来衡量。从模型可解释性及交互性来看,我们需要寻找一个模型复杂度尽可能小的基于信息增益比的加权倾斜决策树策略。
[0071]
步骤5.4:在综合考量步骤5.1至步骤5.3的指标结果后,依据实际需求选出最优信息增益比的加权倾斜决策树模型;
[0072]
本发明的优势在于本发明能很好地将复杂的深度强化学习模型提取为一个轻量的、具有一定可解释性的控制策略,并提供良好的控制性能,解决人工智能技术因其黑盒性而难以实际应用的难题。
附图说明
[0073]
图1:是电力系统深度强化学习紧急控制策略提取工作流程图;
[0074]
图2:是ieee39节点系统拓扑图;
[0075]
图3:是基于信息增益比的加权倾斜决策树模型的算法伪代码图;
具体实施方式
[0076]
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
[0077]
本实施例基于ieee39节点系统上的低压减载问题展开介绍,对用于低压减载的深度强化学习智能体进行策略提取,将复杂的深度强化学习策略转换为更加轻量的、具有一定可解释性的信息增益比的加权倾斜决策树模型形式的策略,并通过策略保真度、策略实际控制性能、模型复杂度三个指标评估所提方法的有效性与先进性。
[0078]
下面结合图1至图3介绍本发明的实施方式,如附图1,本发明的具体实施方式为一种电力系统深度强化学习紧急控制策略提取方法,具体包括以下步骤:
[0079]
步骤1:如附图1第1步所示,引入电力系统多节点模型多个历史时刻的特征数据构建观测数据。
[0080]
步骤1所述观测数据,具体定义为:
[0081]
x
t
=[u
t
,u
t 1
,...,u
t l-1
]
t
[0082]ut l
={data
t l,p,j
|1≤p≤p,1≤j≤j},l∈[0,l-1]
[0083]
其中,x
t
表示第t组观测数据,t表示第t组观测数据的起始时刻,l为正整数,为观测数据窗口长度。u
t k
表示第t组观测数据中第l组观测数据,即电力系统多节点模型中第t l个时刻的观测数据;data
t l,p,j
表示第t组观测数据中第l步观测数据的第p个母线节点第j种类型的特征数据,即电力系统多节点模型中第t l个时刻第p个电力系统节点第j种类型的特征数据,p表示电力系统节点的数量,j为节点特征的数量。
[0084]
如图2所示,设置智能体的观测量为:4、7、8、18号母线高低压侧电压标幺值,以及4、7号母线负荷余量,p=4,j
母线4
=j
母线7
=3,j
母线8
=j
母线18
=2。为捕捉特征变化趋势,叠加最近5个仿真步长的特征量作为最后智能体的输入量,x。即:p=4,j
母线4
=j
母线7
=3,j
母线8
=j
母线18
=2,l=5,则,x
t
=[u
t-4
,u
t-3
,...u
t
]。
[0085]
步骤2:如附图1第2步所示,引入深度q学习网络模型,进一步将多组观测数据依次输入至深度q学习网络模型,预测并得到负荷削减动作,进一步采用随机梯度下降优化算法进行优化训练得到电力系统紧急控制深度强化学习模型;
[0086]
步骤2所述预测的负荷削减动作由电力系统母线节点切负荷百分比组合方式构成,每个母线节点都有两种削减负荷的方式,分别定义不动作和减载所述母线节点上总负荷的20%。
[0087]
深度q学习网络模型预测的负荷削减动作的数量总共包含2h种,h为可控节点的数量;进一步,将动作所包含的动作进行整理及编号,即,定义动作集为:
[0088]
y=[0,1,...,y,...,2
h-1
],y∈ν
[0089]
这里设定可动作母线为4、7号母线,即h=2,因此:y=[0,1,2,3]。
[0090]
步骤3:如附图1第3步所示,基于已训练完成的深度q学习网络模型,在特定的故障场景下,生成数据集。
[0091]
步骤3所涉及的数据集具体生成步骤为:在深度q学习网络模型训练完成之后,针对设定的故障场景,通过将电力系统t时刻至t 4时刻的特征量x
t
滚动输入dqn决策模型中,由该决策模型在动作集[0,1,2,3]选择最优动作y
t
,并记录下每一步的模型输入、输出数据,构建状态-动作对,(x
t
,y
t
),以完成带标签数据集的生成。步骤3所述状态-动作对数据集可表述为:
[0092]
s={(x1,y1),(x2,y2),(xi,yi),...,(xn,yn)}
[0093]
其中,(xi,yi)表示状态动作对数据集中第i个状态动作对,xi表示状态-动作对数据集中第i个状态动作对的电力系统状态量,yi表示状态-动作对数据集中第i个状态动作对的控制动作,n表示状态-动作对数据集中状态-动作对的数量,这里,n=4836。
[0094]
步骤4:如附图1第4步所示,在信息增益比的加权倾斜决策树模型中每个非叶子节点下,将所述每个非叶子节点下下数据集中状态-动作对数据输入于信息增益比的加权倾斜决策树模型中,并通过拟牛顿算法求解模型目标函数最小值,并得到该节点下模型最优参数,同时将该节点下数据集分为左子集、右子集,并构建左子节点、右子节点,循环上述步骤,直到满足算法终止条件;
[0095]
如附图3伪代码所示,所述步骤4具体如下:
[0096]
步骤4.1:设定信息增益比的加权倾斜决策树模型中每一非叶子节点下,其输入条件为训练数据集s,(xi,yi)∈s,i=1,2,3,...,m≤n,其中,m为当前节点下数据集样本数量,
n为总样本数量,这里n=4836;设定模型最大深度为d,这里设定为d∈{3,4,5,6,7,8},当前节点深度为d;
[0097]
其中,根节点下训练数据集为步骤3生成的数据集s,其他非叶子结点下的训练数据集为其父节点的训练集划分得到的左子集s’l
、右子集s’r

[0098]
步骤4.2:基于数据集s创建模型根节点g,并令当前节点深度d=0;
[0099]
步骤4.3:如果当前节点深度d>模型最大深度d,则节点g设为叶子结点,其标签为数据集s内样本数量最多的对应标签k;否则,转步骤4.4;
[0100]
步骤4.4:如果数据集s内所有样本属于同一类别k,则节点g设为叶子结点,其标签为k。否则,转步骤4.5;
[0101]
步骤4.5:以单变量决策树方式初始化模型当前节点下参数θ,得到初始值θ0;
[0102]
步骤4.6:基于拟牛顿算法和初始值θ0求解模型目标函数最小值,并得到模型最优参数θ
best

[0103][0104]
其中,l(θ)为模型目标函数,λ为l2正则化项系数,这里设定为:λ=0.0001;θ为模型各节点下的待训练参数,||θ||2为θ的二范数,h(s)为样本集合s的经验熵,h(s|θ)为样本集合s在θ下的条件经验熵;
[0105][0106]
其中,k是样本总类别数,这里,k=4;k表示样本中第k类样本标签;|sk|是样本集合s中第k类样本数量,|s|是样本集合s总样本数量;
[0107][0108]
其中,w
l
为所有样本分属左子集的权重之和,wr为所有样本分属右子集的权重之和,h
l
为左子节点加权信息熵,hr为右子节点加权信息熵,m是该节点下样本集合s总样本数量,θ为模型各节点下的待训练参数;
[0109][0110]
其中,为样本(xi,yi)属于左子节点的权重,s
l
各样本关联属于左子节点权重信息的集合。
[0111][0112]
其中,为样本(xi,yi)属于右子节点的权重,sr各样本关联属于右子节点权重信息的集合。
[0113][0114]
其中,k是样本总类别数,这里,k=4;k表示样本中第k类样本标签,为样本集合
中k类别下样本属于左子集的权重之和,w
l
为样本集合s中所有样本属于左子集的权重之和。
[0115][0116]
其中,k是样本总类别数,这里,k=4;k表示样本中第k类样本标签,为样本集合中k类别下样本属于右子集的权重之和;wr为样本集合s中所有样本属于右子集的权重之和;
[0117][0118][0119]
其中,(xi,yi)表示样本集合s中第i个样本,s
l
为各样本关联分属左子集权重信息的集合,sr为各样本关联分属右子集权重信息的集合;
[0120][0121][0122]
其中,为第i个样本分属左子节点的权重,为第i个样本分属右子节点的权重,σ(
·
)为sigmoid函数;
[0123][0124]
其中,k是样本总类别数,这里,k=4;k表示样本中第k类样本标签,为样本集合中k类别下样本属于左子集的权重之和。
[0125][0126]
其中,k是样本总类别数,这里,k=4;k表示样本中第k类样本标签,为样本集合中k类别下样本属于右子集的权重之和。
[0127]
步骤4.7:基于当前模型参数θ
best
结合l(θ)计算此时目标函数值l0;
[0128]
步骤4.8:随机初始化参数θ,并重复进行c次,c为模型超参数,这里设定为:c=3,得到参数初始值θ
’0;
[0129]
步骤4.9:基于拟牛顿算法和初始值θ
’0求解式l(θ),得到模型最优参数θ’best

[0130]
步骤4.10:基于当前求解得到的模型参数θ’best
计算此时目标函数值l
’0;
[0131]
步骤4.11:如果目标函数值l
’0<l0,则模型最优参数θ
best
=θ’best
,否则转步骤4.12;
[0132]
步骤4.12:基于最优参数θ
best
得到左子集、右子集,s’l
,s’r
;其中,
[0133][0134]
[0135]
其中,(xi,yi)表示样本集合s中第i个样本,为第i个样本分属左子节点的权重,s
l
为各样本关联分属左子集权重信息的集合,为第i个样本分属右子节点的权重,sr为各样本关联分属右子集权重信息的集合;
[0136]
步骤4.13:构建左子节点g
l
,并令该节点下训练集为s’l
,d=d 1,转步骤4.3;
[0137]
步骤4.14:构建右子节点gr,并令该节点下训练集为s’r
,d=d 1,转步骤4.3;
[0138]
步骤5:如附图1第5步所示,设定策略保真度指标、策略实际控制性能指标、模型复杂度指标,以评估不同超参数下的模型性能,从而根据实际需求选出最优模型;
[0139]
所述步骤5具体为:
[0140]
步骤5.1,步骤5所述策略保真度指标为策略保真度,含义为基于信息增益比的加权倾斜决策树模型与深度强化学习策略的决策匹配度,计算公式为:
[0141][0142]
其中,y与分别是在给定相同输入x条件下,深度强化学习与基于信息增益比的加权倾斜决策树模型的输出,n是样本总量,i(
·
)是示性函数。
[0143]
步骤5.2:步骤5所述策略实际控制性能指标为策略实际控制性能,表示当将基于信息增益比的加权倾斜决策树策略应用于实际控制场景中,其在每一个回合下取得的平均回报。当将深度强化学习模型应用于实际控制场景中,其在每一个回合下取得的平均回报记为:re,对应地,基于信息增益比的加权倾斜决策树在相应场景下取得的平均回报记为:r’e
。因此,re=r’e-re>0代表基于信息增益比的加权倾斜决策树模型控制性能优于深度强化学习模型,反之亦然。
[0144]
步骤5.3:步骤5所述模型复杂度指标为模型复杂度,由模型参数量或模型深度来衡量。从模型可解释性及交互性来看,我们需要寻找一个模型复杂度尽可能小的基于信息增益比的加权倾斜决策树策略。
[0145]
步骤5.4:在综合考量步骤5.1至步骤5.3的指标结果后,依据实际需求选出最优信息增益比的加权倾斜决策树模型;
[0146]
这里,各指标结果为:
[0147][0148]
因此,在策略保真度与策略实际控制性能相差不大的情况下,我们选择模型复杂度更低的模型,即:模型深度为3的基于信息增益比的加权倾斜决策树模型。
[0149]
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0150]
虽然以上结合附图描述了本发明的具体实施方式,但是本领域普通技术人员应当理解,这些仅是举例说明,可以对这些实施方式做出多种变形或修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献