一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种电力系统多源异构数据的特征提取及选择方法与流程

2022-12-13 21:56:25 来源:中国专利 TAG:


1.本发明属于电力系统与人工智能交叉领域,尤其涉及一种电力系统多源异构数据的特征提取及选择方法。


背景技术:

2.随着计算机、网络、数据库等信息技术的快速发展,其在社会各领域的普遍应用,加快了社会各行各业的信息化进程,电力行业更是如此。在电力行业中,随着智能电网建设的深入实施和智能传感设备的广泛使用,数据量呈爆炸性增长趋势,电力行业迎来了大数据时代。国家电网拥有众多的业务系统,包括企业管理系统,如erp、mes、crm等各类信息系统。这些信息系统有不同的开发周期和不同的开发商,其产品体系结构多种多样,编码数据结构各不相同,前端功能和底层数据库也各不相同。这些来自各种传感设备和各类信息系统的数据形成了多源异构的电力数据,不利于信息的共享和数据潜在价值的挖掘。
3.通过数据分析的手段能够得到多源异构数据的隐藏价值,由于其异构性,人们需要对其进行特征提取表示为计算分析时可用的形式。常见的特征提取方法有手工设计提取规则、线性映射、非线性映射等。手工设计提取规则是针对数据结构特点设计规则进行数据变换处理,线性映射有主成成分分析和线性判别分析等,将高维数据映射到低维空间。这些方法都存在一定的局限性,如特征信息局部性、计算复杂度高、无法反映语义信息等。
4.电力系统运行过程中,有不少任务需求,如设备故障诊断、故障预测、健康状态评估等,任务的完成需要电力数据的支撑,如何从海量的多源异构数据中挖掘出数据的关键信息,并用以实现需求是一大难点。现有的特征提取技术如手工提取、线性映射等,具有一定局限性如特征提取片面、计算复杂等。


技术实现要素:

5.为解决现有技术所存在的技术问题,本发明提供一种电力系统多源异构数据的特征提取及选择方法,能够较为全面挖掘数据特征,同时能够反映实际数据的语义性。所选取得到的特征能够支撑任务需求,大大提高实际任务的完成度。
6.本发明可以通过采取如下技术方案达到:
7.一种电力系统多源异构数据的特征提取及选择方法,所述方法包括:
8.s1、将电力系统中的多源异构数据作为输入数据,构建训练数据集;
9.s2、为每组多源异构数据设计不同结构的神经网络,采用逐层训练算法对自编码器模型进行训练得到训练好的堆叠自编码器模型,通过训练好的堆叠自编码器模型提取每组多源异构数据的编码特征;
10.s3、将每组多源异构数据的编码特征作为堆叠自编码器模型的输入数据,构建融合层网络,消除多源异构数据的编码特征的异构性得到同构特征表达,对整个堆叠自编码器模型的参数进行微调;
11.s4、对得到的同构特征进行稀疏化处理,计算得到各个特征维度的权重,筛选出具
有较高权重的特征。
12.优选的技术方案中,所述步骤s2具体包括步骤:
13.根据输入的n组多源异构数据,构建n个异构堆叠自编码器;
14.在训练第n个堆叠自编码器的每一个隐藏层时,对于当前输入异构数据,在隐藏层经由权值矩阵和激活函数做非线性变换,得到输出的隐表达;
15.对隐表达进行解码,由权值矩阵和激活函数变换重构得到重构输出,采用梯度下降法进行求解原始输入与重构输出的误差;当误差为0时,将重构输出作为下一层的原始输入再次训练,得到堆叠自编码器模型。
16.所述步骤s3具体步骤如下:
17.以前馈神经网络作为融合层网络,在融合层网络中将多组多源异构数据进行特征融合,该前馈神经网络与每组多源异构数据的堆叠自编码器网络相连;
18.融合层网络外接softmax分类器,计算输入向量的标签类别概率;
19.使用梯度下降法对堆叠自编码器模型参数进行微调。
20.本发明与现有技术相比,具有如下优点和有益效果:
21.本发明提供一种电力系统多源异构数据的特征提取及选择方法,通过使用深度学习的方法构建人工神经网络,为每组多源异构数据设计不同结构的神经网络,采用逐层训练算法对自编码器模型进行训练得到训练好的堆叠自编码器模型,来实现电力系统中多源异构数据的特征提取与选择,能够较为全面挖掘数据特征,同时能够反映实际数据的语义性,所选取得到的特征能够支撑任务需求,大大提高实际任务的完成度。
附图说明
22.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
23.图1是本发明实施例中的电力系统多源异构数据的特征提取及选择方法的流程图;
24.图2是本发明实施例中的堆叠自编码器的结构图结构框图;
25.图3是本发明实施例中的堆叠自编码器算法程序流程图;
26.图4是本发明实例中的融合层结构图。
具体实施方式
27.下面将结合附图和实施例,对本发明技术方案做进一步详细描述,显然所描述的实施例是本发明一部分实施例,而不是全部的实施例,本发明的实施方式并不限于此。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.实施例1:
29.如图1所示,本发明的具体实施方式为一种电力系统多源异构数据特征提取及选择方法,包括以下步骤:
30.s1,引入电力系统中的多源异构数据作为输入数据,构建训练数据集。多源异构数据包括各传感器检测的电压、电流、有功出力、开关状态等,同时包含音视频监控系统带来的音频数据、图像数据,还包括系统运行的文本记录。
31.所述输入数据,具体定义为:
32.x=[x1,x2,

,xn]
[0033]
xn={data1,data2,

,datam}
[0034]
其中,x表示多源异构数据的合集,xn表示第n组多源异构数据,datam表示第n组多源异构数据的第m维度的数据,每组多源异构数据由于异构性其维度各不相同。
[0035]
s2、通过堆叠自编码器模型为每组多源异构数据设计不同结构的神经网络,采用逐层训练算法对自编码器模型进行训练得到训练好的堆叠自编码器模型,通过训练好的堆叠自编码器模型提取每组多源异构数据的编码特征。
[0036]
自编码器是一种神经网络模型,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习。堆叠自编码器是堆叠多个自编码器,把每一个自编码器隐藏层的输出作为第二个自编码器的输入,以增加模型的表征能力。如图2所示,所述堆叠自编码器模型由多层神经网络组成,即输入x经过3层隐藏层h1、h2、h3的非线性变换,最终得到重构后的第4层输出层h4,其含义和结构与输入的x相同。需要注意的是,此处的神经网络结构只是作为示例,而不代表所有自编码器的神经网络结构是如此。如图3所示,为堆叠自编码器的算法程序流程图。
[0037]
步骤s2具体包括步骤:
[0038]
根据输入的n组多源异构数据,构建n个异构堆叠自编码器。据输入的n组多源异构数据,构建n个异构堆叠自编码器,即隐藏层与神经元节点数量不同。第n组异构数据的神经网络所含隐藏层数量定义为mn,第i个隐藏层表示为第i个隐藏层与前一层之间的连接权值表示为
[0039]
在训练第n个堆叠自编码器的每一个隐藏层时,对于当前输入的异构数据xn,在隐藏层经由权值矩阵w1和激活函数f(
·
)做非线性变换,得到输出的隐表达:
[0040]
h=f(w1xn c)
[0041]
其中,h是输出的隐表达,c为偏置项,激活函数f(
·
)为sigmoid函数。
[0042]
对隐表达进行解码,由权值矩阵和激活函数变换重构得到重构输出,采用梯度下降法进行求解原始输入与重构输出的误差;当误差为0时,将重构输出作为下一层的原始输入再次训练,得到堆叠自编码器模型。
[0043]
具体地,对隐表达进行解码,由权值矩阵w2和激活函数变换重构,得到重构输出:
[0044][0045]
其中为自编码器的重构输出,b为偏置项。
[0046]
原始输入与重构输出的误差如下:
[0047][0048]
其中,x为原始输入,为自编码器的重构输出。
[0049]
该误差即优化目标,采用梯度下降法进行求解,偏导求解完成后,即可更新权重与偏置:
[0050][0051][0052]
其中lr为学习率,通过权重与偏置的不断更新,使得重构误差为0,即完成优化。
[0053]
优化完成后,该层的重构输出可作为下一层的原始输入再次训练,最终得到堆叠自编码器模型。将每组多源异构数据输入相应的堆叠自编码器模型,即可得到对应的特征编码输出,用于后续计算任务的使用。通过该模型提取多源异构数据的特征表达。
[0054]
s3、将每组多源异构数据的编码特征作为堆叠自编码器模型的输入数据,构建融合层网络,消除多源异构数据的编码特征的异构性得到同构特征表达,对整个堆叠自编码器模型的参数进行微调。
[0055]
步骤s3具体包括以下步骤:
[0056]
s31、以前馈神经网络作为融合层网络,在融合层网络中将多组多源异构数据进行特征融合,该前馈神经网络与每组多源异构数据的堆叠自编码器网络相连,权值为tn,且权值共享,以便消除抽取特征的异构性和强关联性。如图4所示,融合层与堆叠自编码器的结构图。
[0057]
s32、融合层网络外接softmax分类器,计算输入向量hn的标签类别概率。sofxmax分类器可计算每个标签类别的得分,并把所有得分映射成一个概率值,即分类概率。定义第n组多源异构数据的堆叠自编码器最上层的神经元为hn,融合层的标签信息为p,可定义损失函数如下:
[0058][0059]
其中,n表示多源异构数据组的数量,m表示训练样本的数量,b为偏置项,y(i)表示样本x(i)的标签,y表示条件概率密度函数中的概率事件,y=y(i)的意思是此时的概率事件为y(i)。表示第n个子网络对输入x(i)的顶层输出。对于k分类的任务,输入向量hn属于标签类别i的概率为:
[0060][0061]
其中,bi,b
l
表示偏置向量,表示权值矩阵t的第l个行向量,ti表示权值矩阵t的第i个行向量。
[0062]
s33、使用梯度下降法对堆叠自编码器模型参数进行微调,整个网络采用有监督微调。优选地,轮流迭代调整各个堆叠编码器的参数,每次调整其中一个模型,固定其他模型网络的参数,直到所有堆叠自编码器模型的参数调整完毕。
[0063]
根据上一步骤得到的模型损失函数,即优化目标如下:
[0064][0065]
采用梯度下降法求解,偏导求解完成后,即可更新模型的参数,即上述步骤所示的权重w1、w2与偏置b、c。
[0066]
s4、采用结构化稀疏方法对得到的同构特征进行稀疏化处理,计算得到各个特征维度的权重,筛选出具有较高权重的特征。
[0067]
首先对同构特征的数据进行定义,然后根据定义的变量进行公式表达与计算。
[0068]
具体地,定义步骤3得到的同构特征特征表达含有p维特征向量,是标签,x=(x1,x2,

,xn)表示输入训练数据矩阵,y=(y1,y2,

,yn)表示标签矩阵;设定p维特征向量划分成k个特征组,kj表示第j个组的特征维度数量;β
l
=(β
l1

l2
,


lj
)表示对于第l个类别的权值系数向量,β
lj
表示对应第j组的子系数向量。
[0069]
通过目标函数对第l个类别的特征选择,得到权值不为0的特征,目标函数
[0070][0071]
其中,为损失函数,为正则项,损失函数与步骤3.2的损失函数相同:
[0072][0073]
正则项描述如下:
[0074][0075]
其中,λ1和λ2为正则项系数,超参数ωj为第j个特征组的权值,y(i)表示样本输入x(i)的标签,t为权值矩阵,b为偏置项。该正则项包括两部分:l1范数作为惩罚项,l2范数起稀疏化效果。通过正则项可以使同组的特征向量与各组特征向量之间同时产生稀疏效果,令某些预定特征维度的权值为0,从而得到经过特征选择的权值不为0的特征。
[0076]
需要注意的是,此处特征是经过堆叠自编码器模型提取后得到的编码特征数据,可用于计算机的计算任务,无法与原始数据中的特征属性如电压、电流等相对应。权值β
l
为优化目标函数过程各特征的权值系数,经过初始化后在优化过程中不断更新。
[0077]
得到经选择的特征后,可根据实际任务需求将特征输入任务模型验证效果。本实施例以故障分类任务为例,将电力系统的多源异构数据如开关状态、有功无功出力、文本记
录、图像等经过上述步骤实现数据的特征提取与选择;将经选取的特征输入sofxmax分类器计算,可得到设备故障的概率,能够大大提升任务的准确性。
[0078]
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0079]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献