一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Q学习网络攻击的电网连锁故障预测方法

2022-04-24 22:34:01 来源:中国专利 TAG:

一种基于q学习网络攻击的电网连锁故障预测方法
技术领域
1.本发明属于电力系统领域,具体的说是一种基于q学习网络攻击的电网连锁故障预测方法。


背景技术:

2.随着电力系统与信息系统深度耦合,信息系统在提高电网性能的同时也引入新的故障形式,改变连锁故障传播路径,因此传统的连锁故障预测方式需要相应改进。当前大多数学者在研究网络攻击的时候,主要针对由单一网络攻击或信息网自身故障引起的连锁故障,并未考虑多次网络攻击的场景,且传统的连锁故障分析模型难以发现普遍规律或计算量过于庞大。


技术实现要素:

3.本发明是为了解决上述现有技术存在的不足之处,提出一种基于q学习网络攻击的电网连锁故障预测方法,以期能更精准地预测网络攻击情形下的事故链,并对连锁故障进行风险评估,进一步提高风险预测的准确率,并在工作量与完备性之间取得平衡,从而能为电网连锁故障防控提供理论指导。
4.本发明为达到上述发明目的,采用如下技术方案:
5.本发明一种基于q学习网络攻击的电网连锁故障预测方法的特点是按如下步骤进行:
6.步骤1、以断路器无故障跳闸为目标,构建基于模糊层次分析法的攻击树模型,并得到断路器无故障跳闸攻击的各攻击路径成功概率,其中,第i条攻击路径mi的成功概率记为p(mi);
7.步骤2、构建基于q学习的连锁故障演化模型,并使用q学习算法进行训练:
8.步骤2.1、初始化迭代次数x=1,初始化事故链所处环节数y=1,定义最大迭代次数为n,随机网络攻击的迭代次数阈值为m;
9.步骤2.2、若迭代次数x小于等于m,则采用随机攻击;
10.若迭代次数x大于m次,则按照概率ε采用随机攻击,按照概率1-ε采用最大q值的对应线路作为攻击目标;
11.步骤2.3、判断第x次连锁故障过程的事故链所处环节的环节数y是否为1,若是,则将网络攻击线路直接作为初始故障线路,令初始故障概率pc=p(mi)并转步骤2.6,否则执行步骤2.4;
12.步骤2.4、判断电网是否解列为两部分或者事故链是否达到预定的演化深度,若是,则表示结束第x次连锁故障过程,并转至步骤2.7,否则执行步骤2.5;
13.步骤2.5、后续故障线路的选取:
14.若第x次连锁故障过程中事故链的第y环节有线路严重过负荷,则将严重过负荷线路直接作为下级停运线路;
15.若第x次连锁故障过程中事故链的第y环节无严重过负荷线路,判断是否有线路一般过负荷,若是,则采用基于灵敏度的过负荷控制方法消除一般过负荷线路,再计算所有线路停运概率,选取停运概率最高的线路作为下级停运线路,若否,则直接计算所有线路停运概率,选取停运概率最高的线路作为下级停运线路;其中,所述线路停运概率包括:潮流转移因素、隐性故障因素、网络攻击因素;
16.步骤2.6、跳开所选的初始故障线路或下级停运线路,计算第x次连锁故障过程中的环节风险值,并用于更新q值表后,将y 1赋值给y,并转至步骤2.2;
17.步骤2.7、判断x是否达到n,若是,则表示训练结束,得到最终的连锁故障演化模型并执行步骤3,否则,将x 1赋值给x后,初始化事故链所处的环节数y=1,并转至步骤2.2顺序执行;
18.步骤3、输出相应数据包括:事故链路径、事故链各环节采取控制量,事故发生概率,各环节风险值、q值表,从而得到最优攻击方案,即产生较大风险的攻击路径。
19.本发明所述的基于q学习网络攻击的电网连锁故障预测方法的特点也在于,所述步骤2.5的线路停运概率是按如下步骤计算:
20.步骤2.5.1、利用式(1)得到线路k的潮流转移因素的随机停运概率
[0021][0022]
式(1)中,cori表示线路i的关联性指标;cork表示线路k的关联性指标;n
p
为电力系统中的线路集合;
[0023]
步骤2.5.2、利用式(2)得到保护误动和断路器误动所引起的线路k的隐性故障因素的停运概率
[0024][0025]
式(2)中,p
mis_b
,p
mis_d
分别表示保护装置、断路器的误动概率,p
inact_d
为断路器拒动的概率;
[0026]
步骤2.5.3、利用式(3)得到网络攻击引起的线路k的网络攻击因素的停运概率
[0027][0028]
步骤2.5.4、利用式(4)得到无线路过负荷的后续线路k的停运概率
[0029][0030]
所述步骤2.6包括:
[0031]
步骤2.6.1、令s
t
为第t阶段下电网线路的状态,即s
t
={s
t
(1),
…st
(w)

,s
t
(w)},其中,s
t
(w)表示第t阶段下线路w的状态,w为电网的线路总数,1《w《w;并有:
[0032][0033]
式(5)中,当s
t
(w)=1时,表示线路w正常运行,当s
t
(w)=0时,表示线路w停运;
[0034]
步骤2.6.2、利用式(6)得到单次网络攻击造成的风险值并作为奖罚值r
t 1

[0035][0036]
式(6)中,sev为事故链环节的控制量,为第x次连锁故障过程中严重过负荷后线路k的停运概率;
[0037]
步骤2.6.3、利用式(7)更新q值表:
[0038]q′
(s
t
,a
t
)=q(s
t
,a
t
) α[r
t 1
γmaxq(s
t 1
,a
t
)-q(s
t
,a
t
)]
ꢀꢀꢀ
(7)
[0039]
式(7)中,α表示学习因子,a
t
表示agent在t阶段采取的动作方案;r
t 1
表示agent处于状态s
t
,采取某一动作a
t
后的奖罚值;γ为折扣因子;maxq(s
t 1
,a
t
)表示agent目前状态s
t
到达下一状态所取的最大q值。
[0040]
与现有技术相比,本发明的有益效果在于:
[0041]
1、本发明将q学习算法与多次网络攻击结合,在考虑网络攻击的基础上预测高风险事故链路径;并使用强化学习解决了类似遍历算法的大范围计算问题,有效缩短了计算时间,同时也兼顾完备性,提高预测效率。通过调整折扣因子参数,可以综合考虑每一环节风险和总风险的影响,解决了传统连锁故障风险计算中事故链长度和总风险值间的矛盾。
[0042]
2、本发明在连锁故障分析中考虑网络攻击成功概率,将网络攻击作为下级线路停运的因素之一,完善多次网络攻击场景,克服了现有后续故障线路选取的局限性,考虑了多次攻击对连锁故障的影响,同时兼顾了潮流转移因素和隐性故障因素的影响,提高了事故链预测的精准性。
附图说明
[0043]
图1为本发明断路器无故障跳闸攻击树模型;
[0044]
图2为现有技术中ieee39节点系统结构图;
[0045]
图3为本发明各断路器被攻击的成功概率。
具体实施方式
[0046]
本实施例中,一种基于q学习网络攻击的电网连锁故障预测方法是按如下步骤进行:
[0047]
步骤1、以断路器无故障跳闸为目标,构建基于模糊层次分析法的攻击树模型,并得到断路器无故障跳闸攻击的各攻击路径成功概率,其中,第i条攻击路径mi的成功概率记为p(mi);
[0048]
实现断路器无故障跳闸目标g的方案有:攻击控制中心、攻击控制中心与变电站之间的通信网络、访问变电站hmi、访问rtu和访问保护继电器,分别用v1~v5表示,构建攻击树模型如图1所示,f
1-f
11
为叶节点,f1、f2分别表示通过端口扫描方式和访问交换机并入侵控制中心服务器;f3表示截获测量值以及状态包;v6表示虚假信息注入;f4、f5表示实现v6的两种方法,即安装窃听设备和用恰当解码方法破解信息;f6、f7表示通过端口扫描访问系统端口和访问并入侵变电站用户接口;f8、f9表示拨号连接到达变电站应答调制解调器和破解密码访问rtu;f
10
、f
11
表示端口扫描变电站网络和破解密码访问保护继电器。
[0049]
叶节点f的攻击成功概率由三个属性表示,即叶节点f的攻击成本costf、叶节点f的攻击难度difff和叶节点f的攻击被发现可能性detf,评分标准有5级,利用式(1)可得叶节点f的攻击成功概率p(f):
[0050]
p(f)=w
cost
×
u(costf) w
diff
×
u(difff) w
det
×
u(detf)
ꢀꢀꢀ
(1)
[0051]
式(1)中,w
cost
、w
diff
、w
det
分别为叶节点f攻击成本costf、叶节点f攻击难度difff、叶节点f攻击被发现可能性detf三个属性对应的权重;u(costf)、u(difff)、u(detf)分别为叶节点f攻击成本costf、叶节点f攻击难度difff、叶节点f攻击被发现可能性detf三个属性对应的效用值。权重可由模糊层次分析法得出,各叶节点属性评分由计算分析人员给出,效用值则由各属性评分得到。
[0052]
综上所述,利用式(2)可得各路径攻击成功概率:
[0053][0054]
式(2)中,p(mi)表示第i条攻击路径被攻击的成功概率,f表示攻击路径总数。
[0055]
本实施例中,以ieee39节点电力系统模拟网络攻击情形下的电网连锁故障传播过程,ieee39节点系统结构如图2所示,计算可得6个攻击路径实现断路器无故障开断的成功概率,其中由于v2有两种实现方法,故共有6个攻击路径,结果如图3所示。
[0056]
步骤2、构建基于q学习的连锁故障演化模型,并使用q学习算法进行训练:
[0057]
步骤2.1、初始化迭代次数x=1,初始化事故链所处环节数y=1,定义最大迭代次数为n,随机网络攻击的迭代次数阈值为m;
[0058]
步骤2.2、若迭代次数x小于等于m,则采用随机攻击;
[0059]
若迭代次数x大于m次,则按照概率ε采用随机攻击,按照概率1-ε采用最大q值的对应线路作为攻击目标;
[0060]
训练初期agent经验较少,难以采用最优攻击。攻击方案通常先采取随机攻击,获取尽可能多的方案,实现对环境的初步探索。随着训练的增多,一定程度可根据学习经验选取局部最优攻击方案,主要采用ε-greed算法选择攻击方案,利用式(3)可得选择局部最优攻击方案概率:
[0061][0062]
式(3)中,a
t
表示agent在t阶段采取的动作方案,表示agent处于状态s
t
,采取局部最优攻击方案的概率值。ε为探索参数,为1表示agent完全随机选取攻击方案,为0表示按照q值选取。训练后期,ε会随着训练的深入不断减小。
[0063]
步骤2.3、判断第x次连锁故障过程的事故链所处环节数y是否为1,若是,则将网络攻击线路直接作为初始故障线路,令初始故障概率pc=p(mi)并转步骤2.6,否则执行步骤2.4;
[0064]
步骤2.4、判断电网是否解列为两部分或者事故链是否达到预定的演化深度,若是,则表示结束第x次连锁故障过程,并转至步骤2.7,否则执行步骤2.5;
[0065]
步骤2.5、后续故障线路的选取:
[0066]
若第x次连锁故障过程中事故链第y环节有线路严重过负荷,则将严重过负荷线路直接作为下级停运线路;
[0067]
若第x次连锁故障过程中事故链的第y环节无严重过负荷线路,判断是否有线路一般过负荷,若是,则采用基于灵敏度的过负荷控制方法消除一般过负荷线路,再计算所有线路停运概率,选取停运概率最高的线路作为下级停运线路,若否,则直接计算所有线路停运概率,选取停运概率最高的线路作为下级停运线路;其中,所述线路停运概率包括:潮流转移因素、隐性故障因素、网络攻击因素;
[0068]
本实施例中,线路停运概率是按如下步骤计算:
[0069]
步骤2.5.1、利用式(4)得到线路k的潮流转移因素的随机停运概率
[0070][0071]
式(4)中,cori表示线路i的关联性指标;cork表示线路k的关联性指标;n
p
为电力系统中的线路集合,cork按如下计算:
[0072]
利用式(5)~式(8)定义线路k的潮流负载情况指标dk、线路k的潮流耦合关系指标sk、线路k的潮流波动指标bk来描述线路k断开后对其他线路的影响,以此评估线路k因潮流转移因素引起的随机停运,得到下级线路k的关联性指标cork:
[0073]
cork=dk×
sk×bk
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0074]dk
=(f
k,j-f
k,j-1
)/f
kmax
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0075]
sk=|(f
k,j-f
k,j-1
)/f
i,j-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0076]bk
=|(f
lk,j-f
lk,j-1
)/f
k,j-1
ꢀꢀꢀꢀꢀꢀꢀ
(8)
[0077]
式(5)~式(8)中,f
k,j
、f
k,j-1
分别表示线路k在事故链第j和j-1阶段的潮流值;f
kmax
表示线路k的热稳定极限值。
[0078]
步骤2.5.2、利用式(9)得到保护误动和断路器误动所引起的线路k的隐性故障因素的停运概率
[0079][0080]
式(9)中,p
mis_b
,p
mis_d
分别表示保护装置、断路器的误动概率,p
inact_d
为断路器拒动的概率;
[0081]
步骤2.5.3、利用式(10)得到网络攻击引起的线路k的网络攻击因素的停运概率
[0082][0083]
步骤2.5.4、利用式(11)得到无线路过负荷的后续线路k的停运概率
[0084]
[0085]
步骤2.6、跳开所选的初始故障线路或下级停运线路,计算第x次连锁故障过程中的环节风险值,并用于更新q值表后将y 1赋值给y并转至步骤2.2;
[0086]
步骤2.6包括:
[0087]
步骤2.6.1、令s
t
为第t阶段下电网线路的状态,即s
t
={s
t
(1),
…st
(w)

,s
t
(w)},其中,s
t
(w)表示第t阶段下线路w的状态,w为电网的线路总数,1《w《w;并有:
[0088][0089]
式(12)中,当s
t
(w)=1时,表示线路w正常运行,当s
t
(w)=0时,表示线路w停运;
[0090]
步骤2.6.2、利用式(13)得到单次网络攻击造成的风险值并作为奖罚值r
t 1

[0091][0092]
式(13)中,sev为事故链环节的控制量,为第x次连锁故障过程中严重过负荷后线路k的停运概率;
[0093]
本实施例中,严重过负荷线路k的停运概率按如下方式计算:
[0094]
当线路k严重过负荷时,其故障概率应为过负荷保护不拒动且断路器不拒动的概率,利用式(14)可得严重过负荷线路k的停运概率
[0095]
p
jk1
=(1-p
inact_b
)(1-p
inact_d
)
ꢀꢀꢀ
(14)
[0096]
式(14)中,p
inact_b
、p
inact_d
分别为保护拒动和断路器拒动的概率。
[0097]
步骤2.6.3、利用式(15)更新q值表:
[0098]q′
(s
t
,a
t
)=q(s
t
,a
t
) α[r
t 1
γmaxq(s
t 1
,a
t
)-q(s
t
,a
t
)]
ꢀꢀꢀ
(15)
[0099]
式(15)中,α表示学习因子,α=1表示agent完全接收实时奖罚值,易导致学习过程中波动性较大;α=0表示agent完全保守,不接受更新。a
t
表示agent在t阶段采取的动作方案。r
t 1
表示agent处于状态s
t
,采取某一动作a
t
后的奖罚值。γ为折扣因子,表示接下来的决策对目前q值更新的影响程度。maxq(s
t 1
,a
t
)表示agent目前状态s
t
到达下一状态所取的最大q值。
[0100]
步骤2.7、判断x是否达到n,若是,则表示训练结束,得到最终的连锁故障演化模型并执行步骤3,否则,将x 1赋值给x后,初始化事故链所处环节数y=1,并转至步骤2.2顺序执行。
[0101]
步骤3、输出相应数据包括:事故链路径、事故链各环节采取控制量,事故发生概率,各环节风险值、q值表,从而得到最优攻击方案,即产生较大风险的攻击路径。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献