一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种电力物联网的运行风险预测方法、系统和电子设备与流程

2022-05-18 11:22:13 来源:中国专利 TAG:


1.本发明涉及电力物联网技术领域,尤其涉及一种电力物联网的运行风险预测方法、系统和电子设备。


背景技术:

2.电力物联网在运行过程中面临的风险呈现种类多样化和范围扩大化等特点,设备故障、网络攻击、人为失误等风险都会对电力物联网造成不可忽视的影响,风险若不被及时处理,可能会造成一系列的跨空间连锁故障,严重时甚至会导致灾难性的大停电事故。而发现风险的时间越早,采取措施越及时,控制风险的代价就越低。因此,开展电力物联网运行风险预测研究,引入电力物联网信息、物理、社会侧的多源数据,充分挖掘出数据中潜藏的信息,使其在故障发生前就能及时预测出电力物联网面临的各类安全风险,以便找出薄弱环节加以改进,对保障电力物联网安全稳定运行具有重要意义。
3.当前对电力物联网风险分析存在三点不足:
4.1)传统电力物联网运行风险预测大多孤立地研究电力信息域、物理域的风险,很少考虑社会侧风险的影响,没有从信息物理社会角度对电力物联网运行风险进行综合分析;电力物联网运行风险本质上是由信息、物理和社会侧三个空间的风险所决定的,因此,风险预测要综合考虑信息、物理、社会侧的量测数据。
5.2)电力物联网运行数据中风险样本占比很少,这会引起数据失衡,使训练出来的分类器更偏向于多数类而导致分类器的性能下降,给后续模型训练精度带来挑战,使模型在对风险进行预测时造成误报。因此,在模型训练前有必要对来自信息、物理、社会的多源数据进行有效的数据处理。


技术实现要素:

6.本发明所要解决的技术问题是针对现有技术的不足,提供了一种电力物联网的运行风险预测方法、系统和电子设备。
7.本发明的一种电力物联网的运行风险预测方法的技术方案如下:
8.以时间序列为基准,对预设历史时间段内的多源数据进行融合,得到完整数据集,所述多源数据包括:电力物联网的信息侧的量测数据、物理侧的量测数据和社会侧的量测数据;
9.当所述完整数据集中的数据不平衡时,基于自适应综合过采样方法对所述完整数据集进行数据平衡处理,得到平衡数据集;
10.基于所述平衡数据集训练得到电力物联网运行风险预测模型;
11.根据待测试电力物联网的当前的多源数据和所述电力物联网运行风险预测模型,得到所述待测试电力物联网的运行风险预测结果。
12.本发明的一种电力物联网的运行风险预测方法的有益效果如下:
13.一方面,通过引入影响电力物联网安全的信息侧、物理侧、社会侧的量测数据,以
时间序列为基准进行数据融合,基于随机矩阵理论构建融合信息侧的量测数据、物理侧的量测数据和社会侧的量测数据的完备数据集,另一方面,基于自适应综合过采样(adasyn)方法对融合后的数据进行数据平衡处理,能够生成和真实样本高度相仿的伪样本,辅助构建平衡数据集,克服某些类别样本数量过低引起的训练精度过低,造成风险预测模型性能不稳定的弊端,基于上述两方面,能够提高训练出的电力物联网运行风险预测模型的预测精度,提高运行风险预测结果的准确度。
14.在上述方案的基础上,本发明的一种电力物联网的运行风险预测方法还可以做如下改进。
15.进一步,所述基于所述平衡数据集训练得到电力物联网运行风险预测模型,包括:
16.以对称决策树作为基分类器,构建catboost集成学习模型,并基于所述平衡数据集进行训练,得到catboost集成分类器;
17.利用贝叶斯优化方法得到所述catboost集成分类器的每个参数对应的最优参数;
18.将所有最优参数传递给所述catboost集成分类器,得到所述电力物联网运行风险预测模型。
19.采用上述进一步方案的有益效果是:传统catboost模型可以通过合并多个分类器来提升分类性能,但模型性能会受关键参数影响,而手动调参具有一定的盲目性,容易丢失参数最优解,且消耗时间过长,会影响风险预测模型的精度。而本技术中,建模过程包含两个模型训练学习阶段,第一阶段以对称决策树为基分类器构建catboost集成学习模型,训练得到catboost集成分类器;第二阶段引入贝叶斯优化算法(bayesian optimization)对catboost模型进行参数寻优,使得到的电力物联网运行风险预测模型具有更高的预测精度。
20.进一步,所述以时间序列为基准,对预设历史时间段内的多源数据进行融合,得到完整数据集,包括:
21.根据所述预设历史时间段内的多源数据生成原始数据集dataset,其中,xi=(x
i1
,x
i2
,...x
in
)
t
,yi=(y
i1
,y
i2
,...y
in
)
t zi=(z
i1
,z
i2
,...z
in
)
t
,dc表示:预设历史时间段内的电力物联网的信息侧的量测数据,d
p
表示:预设历史时间段内的电力物联网的物理侧的量测数据,ds表示预设历史时间段内的电力物联网的社会侧的量测数据,x
i1
,x
i2
,...x
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的信息侧的n个量测数据,y
i1
,y
i2
,...y
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据,z
i1
,z
i2
,...z
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据,其中,i、n和n均为正整数;
22.基于所述原始数据集dataset,以时间序列为基准,利用随机矩阵理论,构造所述完整数据集d:
23.本发明的一种电力物联网的运行风险预测系统的技术方案如下:
24.包括融合模块、平衡模块、训练模块和预测模块;
25.所述融合模块用于:以时间序列为基准,对预设历史时间段内的多源数据进行融合,得到完整数据集,所述多源数据包括:电力物联网的信息侧的量测数据、物理侧的量测数据和社会侧的量测数据;
26.所述平衡模块用于:当所述完整数据集中的数据不平衡时,基于自适应综合过采样方法对所述完整数据集进行数据平衡处理,得到平衡数据集;
27.所述训练模块用于:基于所述平衡数据集训练得到电力物联网运行风险预测模型;
28.所述预测模块用于:根据待测试电力物联网的当前的多源数据和所述电力物联网运行风险预测模型,得到所述待测试电力物联网的运行风险预测结果。
29.本发明的一种电力物联网的运行风险预测系统的有益效果如下:
30.一方面,通过引入影响电力物联网安全的信息侧、物理侧、社会侧的量测数据,以时间序列为基准进行数据融合,基于随机矩阵理论构建融合信息侧的量测数据、物理侧的量测数据和社会侧的量测数据的完备数据集,另一方面,基于自适应综合过采样(adasyn)方法对融合后的数据进行数据平衡处理,能够生成和真实样本高度相仿的伪样本,辅助构建平衡数据集,克服某些类别样本数量过低引起的训练精度过低,造成风险预测模型性能不稳定的弊端,基于上述两方面,能够提高训练出的电力物联网运行风险预测模型的预测精度,提高运行风险预测结果的准确度。
31.在上述方案的基础上,本发明的一种电力物联网的运行风险预测系统还可以做如下改进。
32.进一步,所述训练模块用于具体用于:
33.以对称决策树作为基分类器,构建catboost集成学习模型,并基于所述平衡数据集进行训练,得到catboost集成分类器;
34.利用贝叶斯优化方法得到所述catboost集成分类器的每个参数对应的最优参数;
35.将所有最优参数传递给所述catboost集成分类器,得到所述电力物联网运行风险预测模型。
36.采用上述进一步方案的有益效果是:传统catboost模型可以通过合并多个分类器来提升分类性能,但模型性能会受关键参数影响,而手动调参具有一定的盲目性,容易丢失参数最优解,且消耗时间过长,会影响风险预测模型的精度。而本技术中,建模过程包含两个模型训练学习阶段,第一阶段以对称决策树为基分类器构建catboost集成学习模型,训练得到catboost集成分类器;第二阶段引入贝叶斯优化算法(bayesian optimization)对catboost模型进行参数寻优,使得到的电力物联网运行风险预测模型具有更高的预测精度。
37.进一步,所述融合模块具体用于:
38.根据所述预设历史时间段内的多源数据生成原始数据集dataset,其中,xi=(x
i1
,x
i2
,...x
in
)
t
,yi=(y
i1
,y
i2
,...y
in
)
t zi=
(z
i1
,z
i2
,...z
in
)
t
,dc表示:预设历史时间段内的电力物联网的信息侧的量测数据,d
p
表示:预设历史时间段内的电力物联网的物理侧的量测数据,ds表示预设历史时间段内的电力物联网的社会侧的量测数据,x
i1
,x
i2
,...x
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的信息侧的n个量测数据,y
i1
,y
i2
,...y
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据,z
i1
,z
i2
,...z
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据,其中,i、n和n均为正整数;
39.基于所述原始数据集dataset,以时间序列为基准,利用随机矩阵理论,构造所述完整数据集d:
40.本发明的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的一种电力物联网的运行风险预测方法。
41.本发明的一种电子设备,包括处理器和上述的存储介质,所述处理器执行所述存储介质中的指令。
附图说明
42.图1为本发明实施例的一种电力物联网的运行风险预测方法的流程示意图;
43.图2为平衡数据集的获取过程的示意图;
44.图3为训练电力物联网运行风险预测模型的流程示意图;
45.图4为gbdt的训练过程示意图;
46.图5为拓扑结构的示意图;
47.图6为数据平衡化处理前的风险预测结果的混淆矩阵;
48.图7为数据平衡化处理后的风险预测结果的混淆矩阵;
49.图8为roc曲线的示意图;
50.图9为精度-召回率曲线的示意图;
51.图10为混淆矩阵的示意图;
52.图11为参数优化后的roc曲线;
53.图12为参数优化后的精度-召回率曲线;
54.图13为参数优化后的混淆矩阵;
55.图14为本发明实施例的一种电力物联网的运行风险预测系统的结构示意图;
具体实施方式
56.如图1所示,本发明实施例的一种电力物联网的运行风险预测方法,包括如下步骤:
57.s1、以时间序列为基准,对预设历史时间段内的多源数据进行融合,得到完整数据集,多源数据包括:电力物联网的信息侧的量测数据、物理侧的量测数据和社会侧的量测数据;
58.其中,预设历史时间段可根据实际情况设置,多源数据可通过采集多个电力物联
网的信息侧的量测数据、物理侧的量测数据和社会侧的量测数据得到。
59.其中,信息侧的量测数据包括:对电力物联网的攻击信号,以及电力物联网的网络流量等,物理侧的量测数据包括:电力物联网的三相电压、三相电流等,社会侧的量测数据包括气象数据如湿度、温度、降水量等。
60.s2、当所述完整数据集中的数据不平衡时,基于自适应综合过采样方法对完整数据集进行数据平衡处理,得到平衡数据集;由于完整数据集中可能存在数据不平衡现象而导致后续模型性能下降,因此在模型训练前基于自适应综合过采样(adasyn)算法对少数类样本做过采样处理,如图2所示,具体步骤如下:
61.s20、计算数据是否平衡,即确定完整数据集中的数据是否平衡,具体地:完整数据集d包括风险数据集和正常运行的数据集,其中,风险数据指电力物联网受到网络攻击、系统故障、系统扰动等所产生的数据,分布在信息侧、物理侧和社会侧,可根据这些风险数据确定完整数据集d中的所有的风险样本例如“x
11 x
21

x
n1 y
11 y
21
…yn1 z
11 z
21
…zn1”等,组成风险数据集,正常运行的数据集中的数据为:完整数据集d中除了风险数据集之外所剩余的样本。
62.也就是说,完整数据集d中每行数据均为一个样本,例如“x
11 x
21

x
n1 y
11 y
21
…yn1 z
11 z
21
…zn1”为一个样本,将包括风险数据的样本确定为风险样本,组成风险数据集,将剩余的样本组成正常运行的数据集。
63.记风险数据集中的所有样本的数量为ms,记正常运行的数据集的所有样本的数量为m
l
,通过以下公式计算不平衡度:当d小于预设阈值时候,则确定完整数据集d中的数据不平衡,预设阈值为1%或1

等,也可根据实际情况进行设置和调整。
64.根据上述内容确定完整数据集中的数据是否平衡,若是,则将当前的完整数据集确定为平衡数据集,若否,则执行s21;
65.s21、过采样,即对完整数据集进行数据平衡处理,将过采样后的完整数据集确定为平衡数据集。其中,过采样过程如下,具体地:
66.s210、计算需要合成的样本数量g,g=(m
l-ms)*b,其中,b∈[0,1],且b的具体取值可根据实际情况设置如b=1时,此时,合成的样本数量与风险数据集中的风险样本的数量之和等于正常运行的数据集中的样本的数量,此外,b也可设置为0.5等不同的数值;
[0067]
s211、对于每个风险样本,找出其k个近邻的样本,并计算:其中,δ为k个近邻的样本中属于正常运行的数据集中的样本的数量,z为规范因子以确保r构成一个分布。这样,若一个风险样本周围的属于正常运行的数据集中的样本的数量越多,则其r也就越高,其中,δ、k均为整数。
[0068]
s212、通过公式:gj=rj×
g,计算每个风险样本需合成样本的数量,rj表示第j个风险样本对应的r,gj表示第j个风险样本对应的需合成样本的数量,其中,j为整数。
[0069]
s213、合成第j个风险样本对应的合成样本,也就是说,风险样本即为adasyn算法中的少数类样本,正常运行的数据集中的样本作为adasyn算法中的多数类样本,由此合成每个风险样本对应的合成样本。adasyn算法通过自动决定每个少数类样本需要合成的样本数量,来获得充足的和原始数据高度相仿的伪数据,在数据端彻底解决了数据不平衡对机
器学习算法训练精度的影响。
[0070]
s3、基于平衡数据集训练得到电力物联网运行风险预测模型;
[0071]
s4、根据待测试电力物联网的当前的多源数据和电力物联网运行风险预测模型,得到待测试电力物联网的运行风险预测结果。
[0072]
一方面,通过引入影响电力物联网安全的信息侧、物理侧、社会侧的量测数据,以时间序列为基准进行数据融合,基于随机矩阵理论构建融合信息侧的量测数据、物理侧的量测数据和社会侧的量测数据的完备数据集,另一方面,基于自适应综合过采样(adasyn)方法对融合后的数据进行数据平衡处理,能够生成和真实样本高度相仿的伪样本,辅助构建平衡数据集,克服某些类别样本数量过低引起的训练精度过低,造成风险预测模型性能不稳定的弊端,基于上述两方面,能够提高训练出的电力物联网运行风险预测模型的预测精度,提高运行风险预测结果的准确度。
[0073]
可选地,在上述技术方案中,基于平衡数据集训练得到电力物联网运行风险预测模型,包括:
[0074]
s30、以对称决策树作为基分类器,构建catboost集成学习模型,并基于平衡数据集进行训练,得到catboost集成分类器;如图3所示,具体地:
[0075]
将平衡数据集划分为训练集和测试集,然后,以对称决策树作为基分类器,构建catboost集成学习模型,具体可构建多个对称决策树,每个对称决策树对基于训练集和测试集进行分类训练,得到catboost集成分类器。
[0076]
s31、利用贝叶斯优化方法得到catboost集成分类器的每个参数对应的最优参数;如图3所示,具体地:
[0077]
s310、确定参数初始化种群,具体地:获取catboost集成分类器的每个参数,建立参数初始化种群;
[0078]
s311、建立替代概率模型,将参数初始化种群带入替代概率模型;
[0079]
s312、计算目标函数;
[0080]
s313、构建贝叶斯网络;
[0081]
s314、贝叶斯网络采样,并判断是否达到最大迭代次数,若是,输出最优参数组合,若否,修改概率模型返回s311,直至输出最优参数组合,最优参数组合包括catboost集成分类器的每个参数对应的最优参数。
[0082]
其中,s310至s314的具体技术细节为领域技术人员所悉知,在此不做赘述。
[0083]
s32、将所有最优参数传递给catboost集成分类器,得到电力物联网运行风险预测模型。具体地:
[0084]
以对称决策树为基分类器,构建catboost集成学习模型,为了进一步提升模型性能,采用贝叶斯优化算法来寻找模型最优参数。首先,以对称决策树为基分类器构建catboost风险预测模型;然后,利用贝叶斯优化根据给定的目标函数,通过不断地添加样本点来更新目标函数的后验分布,从而得到模型的最优参数,进而提升模型对样本的分类精度。基于bo-catboost的电力物联网运行风险预测模型构建方案。具体地:梯度提升决策树(gbdt)是一种基于决策树的集成学习框架,它采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法,在训练过程中通过降低偏差来不断提高最终分类器的精度,将每轮训练得到的弱分类器加权求和得到最终的总分
类器,gbdt的训练过程如图4所示。
[0085]
随着数据量的几何增长,gdbt算法普遍存在容易过拟合,训练速度慢的缺点。catboost在gbdt基础上做了改进,主要改进措施是提出了排序提升策略以解决标准gbdt模型存在的梯度偏差和预测偏移问题,同时采用了完全对称决策树来提高模型的泛化能力与预测速度,同时保证了模型的训练和预测精度。
[0086]
1)快速评分
[0087]
catboost使用完全对称决策树(odt)作为基学习器,与一般决策树不同的是,完全对称决策树对于相同深度的内部节点,分裂时选择的特征以及特征阈值是完全一致的。所以完全对称决策树也可以变换成具有2d条目的决策表格,d表示决策树的层数。这种结构的决策树更加平衡并且特征处理速度远快于一般的决策树。
[0088]
2)排序型提升算法
[0089]
catboost使用排序提升的方法来减小梯度偏差,解决预测偏移问题。对于训练集中的每一样本xk,利用除该样本外的所有样本数据训练对应模型mk,并通过计算样本数据的梯度估计值不断对弱学习器进行训练,以得到优化好的模型,从而提高模型的泛化能力。算法处理流程如下:
[0090]
输入:训练集迭代轮数t;
[0091]
输出:模型m1,m2,...,mq;
[0092]

随机生成序列σ,根据序列值对训练集w中的样本数据进行排序,并分别计算其对应模型m1,m2,...,mq;
[0093]

每一模型mk,mk∈(m1,m2,...,mq)均由随机排列的前k个样本训练得到;
[0094]

迭代更新的过程中,模型m
k-1
是基于第k个样本进行梯度无偏估计;
[0095]

基于样本的梯度对弱学习器不断进行训练,直至迭代轮数达到最大值,输出最终模型,停止训练。其中,k、q均为正整数。
[0096]
catboost模型可以通过合并多个分类器来提升分类性能,但模型性能会受关键参数影响,人工调参需要一定的工作量,且具有一定的盲目性,容易丢失参数最优解,从而影响风险预测模型的精度。相比于其他超参数优化算法,例如网格搜索、随机搜索、遗传算法等,贝叶斯优化对初始样本点数量要求少、优化效率高,更加适合模型超参数调优场景。
[0097]
贝叶斯优化算法将遗传算法中的交叉和变异利用贝叶斯网络抽样来替代,首先,采样后得到更优解的联合概率分布,并生成贝叶斯网络模型。再对网络模型进行采样,为下一次迭代生成新的候选解。通过循环这个过程,最终得到最优解,具体算法流程如图3所示。
[0098]
为找到适合模型的超参数集合,提升模型的预测精度,本构建了构建了基于bo-catboost的电力物联网运行风险预测模型,具体执行过程如下:
[0099]

设置catboost算法参数的优化区间。每个参数都可取区间内任意值。
[0100]

初始化catboost算法的回归预测模型,其中,选取catboost算法为训练目标,把模型的性能指标作为评价标准。
[0101]

对贝叶斯优化算法进行初始化,建立备选概率模型。再从参数集中选取一个参数组合作为catboost算法模型的初始参数,然后进行训练。训练完成后,通过测试集对模型进行测试,并将测试集和结果集作为评价函数的输入进行评估。结果则是应用该参数组合的catboost算法模型的效果评估值。
[0102]

依照

中得到的效果评估值,搜索代理模型上最佳的参数,并同时输出相应的评估值和参数。
[0103]

当找到参数的迭代次数达到最大时,停止优化,并从代理模型中找到使评估值最大的参数组合集。得到的最优参数组合即为catboost算法的参数,通过训练得到最终预测模型。
[0104]
传统catboost模型可以通过合并多个分类器来提升分类性能,但模型性能会受关键参数影响,而手动调参具有一定的盲目性,容易丢失参数最优解,且消耗时间过长,会影响风险预测模型的精度。而本技术中,建模过程包含两个模型训练学习阶段,第一阶段以对称决策树为基分类器构建catboost集成学习模型,训练得到catboost集成分类器;第二阶段引入贝叶斯优化算法(bayesian optimization)对catboost模型进行参数寻优,使得到的电力物联网运行风险预测模型具有更高的预测精度。
[0105]
可选地,在上述技术方案中,以时间序列为基准,对预设历史时间段内的多源数据进行融合,得到完整数据集,包括:
[0106]
s10、根据预设历史时间段内的多源数据生成原始数据集dataset,其中,xi=(x
i1
,x
i2
,...x
in
)
t
,yi=(y
i1
,y
i2
,...y
in
)
t zi=(z
i1
,z
i2
,...z
in
)
t
,dc表示:预设历史时间段内的电力物联网的信息侧的量测数据,d
p
表示:预设历史时间段内的电力物联网的物理侧的量测数据,ds表示预设历史时间段内的电力物联网的社会侧的量测数据,x
i1
,x
i2
,...x
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的信息侧的n个量测数据,y
i1
,y
i2
,...y
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据,z
i1
,z
i2
,...z
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据;其中,i、n和n均为正整数。
[0107]
基于原始数据集dataset,以时间序列为基准,利用随机矩阵理论,构造完整数据集d:具体地:
[0108]
为了从信息侧、物理侧、社会侧三个角度对电力物联网运行风险进行综合分析,引入随机矩阵方法,在任意一段时间内,信息侧、物理侧、社会侧的任一节点中的任意属性采集到的量测数据可以构成一个列向量,其中,任一节点中的任意属性比如:第2个节点的攻击信号 a项电压 温度,抽取信息侧、物理侧、社会侧的量测数据构成原始数据集dataset,以时间序列为基准,对同一时间不同空间的数据进行融合,数据融合时,选择其中一个数据文件中的时间序列为基准,该文件称为基准文件,其他数据流文件的参数都要统一,到这一时间基准上来。按照时间序列导入信息侧、物理侧、社会侧各个采样时刻的数据,构造出高维随机矩阵,该高维随机矩阵即为完整数据集d:
[0109][0110]
其中,信息侧的量测数据包括:对电力物联网的攻击信号,以及电力物联网的网络流量等,物理侧的量测数据包括:电力物联网的三相电压、三相电流等,社会侧的量测数据包括气象数据如湿度、温度、降水量等。
[0111]
下面通过一个实例对本技术的一种电力物联网的运行风险预测方法的技术效果进行说明,具体地:
[0112]
利用rt-lab与opnet联合仿真搭建16节点拓扑结构,仿真信息侧、物理侧的量测数据,该拓扑结构如图5所示,其中圆形框选的元件表示断路器,实线矩形框选的元件表示输电线路,虚线矩形框选的元件表示变压器,八边形框选的元件表示电源。
[0113]
在搭建好的16节点拓扑结构中,以0.01s为时间间隔,采集了200s共两万多条数据,其中在15~16.5s期间设置单相短路风险,在45~45.5s期间设置双相短路风险,在75~76.5s期间设置两相接地风险,在120~120.5s期间设置三相短路风险,在150~151s期间设置虚假命令攻击注入风险,在195s~200s时设置人为误操作风险,采集得到信息侧、物理侧的量测数据。
[0114]
同时,在中国气象网下载到同时段的社会侧的气象数据,主要包括湿度、温度、降水量等。得到信息、物理、社会侧的量测数据后,以采集的时间序列为基准,将信息侧、社会侧的量测数据融合到仿真出的物理数据集中,得到完整数据集,如表1所示,表中node表示各节点。
[0115]
表1:
[0116][0117]
为了分析过采样对风险预测模型的提升程度,通过catboost算法分别对平衡前后的数据集进行训练,并对模型风险预测性能进行对比分析,数据平衡化处理前后的风险预测结果的混淆矩阵如图6和图7所示。
[0118]
由图6可知,原始数据中风险类别1、2、3、4由于样本数量较少,预测精度偏低,且误报较高。由图7分析可知,数据平衡化处理后,风险类别1、2、3、4的预测精度分别提升10%、2%、9%、10%,误报率也明显下降。因此,对少数类样本进行过采样得到平衡数据集对降低模型风险预测的误报率和提升模型的稳定性具有重要作用。
[0119]
分别采用精度(precision)、召回率(recall)、f1-score等作为衡量风险预测模型的性能指标,其中,精度用来衡量所有被预测为正例的样本中,真正例样本所占的比例。召回率用来衡量所有正确分类的样本中正例样本所占比例。f1-score是精度和召回率的调和平均值。各指标的计算公式如下所示:
[0120][0121]
其中,tp(真正例)表示正例样本被预测为正例;tn(真反例)表示正例样本被预测为反例;fp(假正例)表示反例样本被预测为正例;fn(假反例)表示反例样本被预测为反例。
[0122]
将过采样后的平衡数据放入到模型中进行训练,按照7:3的比例划分训练集和测试集,catboost算法风险预测的平均精度、平均召回率以及平均f1-score分别99.76%,98.09%和98.9%,catboost算法的roc曲线,精度-召回率曲线以及混淆矩阵如图8-10所示。
[0123]
由图8分析可知,catboost模型的roc曲线拐点接近(0,1),说明模型在低误报率的条件下可以实现高预测精度。由图9分析可知,曲线拐点接近(1,1),说明模型在高召回率的条件下可以获得高精度。由图10分析可知,整体分类精度较好,仅有1、3、4类别还稍有待提
升。综合上述分析,说明catboost模型对处理电力物联网运行风险预测问题有一定的适用性。
[0124]
catboost模型性能会受一些关键参数影响,表2列出了一些关键参数,最大树数会影响模型的计算成本和导致过拟合。学习率影响训练的总时间。树的最大深度对模型效果和过拟合也有很大影响。
[0125]
表2:
[0126]
参数含义默认值iterations最大树数500learning_rate学习率0.03depth树的最大深度6
[0127]
为进一步提升模型性能,采用贝叶斯优化方法来寻找模型的最优参数,在实验中,贝叶斯优化的参数区间设置如表3所示。
[0128]
表3:
[0129]
参数含义寻优区间iterations最大树数[100,1000]learning_rate学习率[0.01,0.3]depth树的最大深度[1,10]
[0130]
参数寻优过程如下,为避免训练结果具有偶然性,参数寻优过程中采用五折交叉验证进行训练,以模型交叉验证5次的auc均值作为目标函数,最后得到风险预测模型的最优的参数集合为{iterations=883,learning_rate=0.13,depth=9}。
[0131]
在模型中设置最优参数组合,得到的roc曲线,精度-召回率曲线以及混淆矩阵如图11-13所示。
[0132]
由图11-图13分析可知,bo-catboost算法风险预测的平均精度、平均召回率以及平均f1-score分别为99.77%、98.8%、99.07%,相对于参数优化前分别提升0.01%、0.71%、0.17%。参数优化后的模型整体已具有较好的性能,模型整体的误报率仅有1%,说明此风险预测模型具有很好的稳定性。
[0133]
(1)电力物联网运行风险本质上是由信息、物理和社会侧三个空间的风险所决定的,因此,风险预测要综合考虑信息、物理、社会侧的量测数据。目前的风险预测方法大多是只考虑了信息和物理侧的量测数据,而忽略了社会侧的量测数据。
[0134]
(2)而电力物联网运行数据中风险样本占比很少,这会引起数据失衡,使训练出来的分类器更偏向于多数类而导致分类器的性能下降,给后续模型训练精度带来挑战,使模型在对风险进行预测时造成误报。因此,在模型训练前有必要对来自信息、物理、社会的多源数据进行有效的数据处理。传统的smote算法它随机选择一个少数类样本作为一个主样本,从它的k近邻少数类样本中随机选择一个,将两者的凸组合作为合成样本。它不是简单地复制少数类,减轻了过拟合的影响。但其对噪声样本敏感,当主样本是一个噪声样本时,新合成的样本有可能也是一个噪声样本。
[0135]
(3)电力物联网中传统的风险分析主要集中在事后控制,即对已发生的问题快速准确的解决,减少实际损失,如风险评估和故障定位,应急方式过于被动,不利于维护电力物联网安全运行。准确、及时地预测出电力物联网运行时面临的风险类别对电网人员及时
隔离风险、排除故障起到一定的辅助作用。因此在模型设计上,应该主要关注模型对风险预测的精度和对未知数据中的风险预测性能问题。传统catboost模型可以通过合并多个分类器来提升分类性能,但模型性能会受关键参数影响,而手动调参具有一定的盲目性,容易丢失参数最优解,且消耗时间过长,会影响风险预测模型的精度。
[0136]
术语解释:
[0137]
电力物联网:电力物联网是物联网在智能电网中的应用,是信息通信技术发展到一定阶段的结果,其将有效整合通信基础设施资源和电力系统基础设施资源,提高电力系统信息化水平,改善电力系统现有基础设施利用效率,为电网发、输、变、配、用电等环节提供重要技术支撑。
[0138]
电力信息物理系统(cyber-physical system,cps):电力系统信息侧与物理侧日益交互耦合,大量的电气设备、数据采集装置和计算终端通过电网、通信网两个实体网络互连,逐渐形成了一个集计算系统、通信网络以及物理环境为一体的电力信息物理系统,即电力cps。
[0139]
在上述各实施例中,虽然对步骤进行了编号s1、s2等,但只是本技术给出的具体实施例,本领域的技术人员可根据实际情况调整s1、s2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
[0140]
如图14所示,本发明实施例的一种电力物联网的运行风险预测系统200,包括融合模块210、平衡模块220、训练模块230和预测模块240;
[0141]
融合模块210用于:以时间序列为基准,对预设历史时间段内的多源数据进行融合,得到完整数据集,多源数据包括:电力物联网的信息侧的量测数据、物理侧的量测数据和社会侧的量测数据;
[0142]
平衡模块220用于:当所述完整数据集中的数据不平衡时,基于自适应综合过采样方法对完整数据集进行数据平衡处理,得到平衡数据集;
[0143]
训练模块230用于:基于平衡数据集训练得到电力物联网运行风险预测模型;
[0144]
预测模块240用于:根据待测试电力物联网的当前的多源数据和电力物联网运行风险预测模型,得到待测试电力物联网的运行风险预测结果。
[0145]
一方面,通过引入影响电力物联网安全的信息侧、物理侧、社会侧的量测数据,以时间序列为基准进行数据融合,基于随机矩阵理论构建融合信息侧的量测数据、物理侧的量测数据和社会侧的量测数据的完备数据集,另一方面,基于自适应综合过采样(adasyn)方法对融合后的数据进行数据平衡处理,能够生成和真实样本高度相仿的伪样本,辅助构建平衡数据集,克服某些类别样本数量过低引起的训练精度过低,造成风险预测模型性能不稳定的弊端,基于上述两方面,能够提高训练出的电力物联网运行风险预测模型的预测精度,提高运行风险预测结果的准确度。
[0146]
可选地,在上述技术方案中,训练模块230用于具体用于:
[0147]
以对称决策树作为基分类器,构建catboost集成学习模型,并基于平衡数据集进行训练,得到catboost集成分类器;
[0148]
利用贝叶斯优化方法得到catboost集成分类器的每个参数对应的最优参数;
[0149]
将所有最优参数传递给catboost集成分类器,得到电力物联网运行风险预测模型。
[0150]
传统catboost模型可以通过合并多个分类器来提升分类性能,但模型性能会受关键参数影响,而手动调参具有一定的盲目性,容易丢失参数最优解,且消耗时间过长,会影响风险预测模型的精度。而本技术中,建模过程包含两个模型训练学习阶段,第一阶段以对称决策树为基分类器构建catboost集成学习模型,训练得到catboost集成分类器;第二阶段引入贝叶斯优化算法(bayesian optimization)对catboost模型进行参数寻优,使得到的电力物联网运行风险预测模型具有更高的预测精度。
[0151]
可选地,在上述技术方案中,融合模块210具体用于:
[0152]
根据预设历史时间段内的多源数据生成原始数据集dataset,其中,xi=(x
i1
,x
i2
,...x
in
)
t
,yi=(y
i1
,y
i2
,...y
in
)
t zi=(z
i1
,z
i2
,...z
in
)
t
,dc表示:预设历史时间段内的电力物联网的信息侧的量测数据,d
p
表示:预设历史时间段内的电力物联网的物理侧的量测数据,ds表示预设历史时间段内的电力物联网的社会侧的量测数据,x
i1
,x
i2
,...x
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的信息侧的n个量测数据,y
i1
,y
i2
,...y
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据,z
i1
,z
i2
,...z
in
表示:在预设历史时间段内的第i个时刻所采集到电力物联网的物理侧的n个量测数据,其中,i、n和n均为正整数;
[0153]
基于原始数据集dataset,以时间序列为基准,利用随机矩阵理论,构造完整数据集d:
[0154]
上述关于本发明的一种电力物联网的运行风险预测系统200中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种电力物联网的运行风险预测方法的实施例中的各参数和步骤,在此不做赘述。
[0155]
本发明实施例的一种存储介质,存储介质中存储有指令,当计算机读取指令时,使计算机执行上述任一项的一种电力物联网的运行风险预测方法。
[0156]
本发明实施例的一种电子设备,包括处理器和上述的存储介质,处理器执行存储介质中的指令,电子设备可以选用电脑、手机等。
[0157]
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。
[0158]
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[0159]
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便
携式计算机磁盘、硬盘、随机存取存储器(ram),只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0160]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献