一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种变压器振动声信号特征提取方法与流程

2022-06-01 10:38:23 来源:中国专利 TAG:


1.本发明涉及变压器领域,具体涉及一种变压器振动声信号特征提取方法。


背景技术:

2.变压器的振动声信号与其运行状态存在必然联系。变压器出现故障时,其振动声信号特性通常发生变化,如:各频带信号能量变化等。理论研究与实际运行经验表明,由变压器的振动与噪声信号中提取的奇异性特征能够作为表征其运行状态的重要参数。
3.为了充分利用信号中的各种有用信息,一般在模式识别方案设计初期会尽量多列举各种可能与分类有关的特征,改善分类效果。但大量特征中必定包含许多彼此相关因素,造成特征重复与浪费,增加计算量。因此,在保证分类效果的前提下,需要用尽可能少的特征完成分类。


技术实现要素:

4.本发明所要解决的技术问题是一种变压器振动声信号特征提取方法,通过适当的变换将p个经过提取后的特征转换为m(≤p)个新特征,目的在于一方面降低特征空间的维数,使模式识别过程中分类器的设计在计算上更容易实现;另一方面,消除特征之间可能存在的相关性,减少特征中与分类无关的信息,使新的特征更有利于分类。
5.本发明是通过以下技术方案来实现的:一种变压器振动声信号特征提取方法,包括预处理、特征的评价准则以及主成分分析法,其中,
6.(二)预处理
7.(1)剔除离群点离群点定义为与相应随机变量的平均值距离很远的点,通常为标准差的整数倍,远离平均值的点可能产生较大的误差,如果离群点非常少,可将其剔除;
8.(2)数据归一化
9.在很多情况下,特征的量纲往往不同;在代价函数中,大值特征比小值特征的影响更大,但在分类器设计中,这并不能反映它们的真实重要程度;因此,在计算之前应先消除量纲的影响;通常将特征归一化处理,使其位于相似范围;一个常用的线性方法是用各自的均值和方差的估计值进行归一化,对于第k个特征的n个数据,有
[0010][0011][0012][0013]
所有归一化后的特征具有零均值和单位方差,另一个线性方法是通过合适的比例将特征值限值在[0,1]或[-1,1]范围内,除线性方法外,当数据不是均匀分布在均值周围时,可以使用非线性方法,在这种情况下,使用非线性函数变换将数据映射到指定空间;
[0014]
(二)特征的评价准则
[0015]
为了进行特征选择,首先需要确定特征选择的准则;确定评价准则后,特征选择问题就变成了从d个特征中选出使准则函数最优的d个特征的搜索问题;
[0016]
最直接的方法是采用分类器的错误率作为准则,但该方法在很多实际问题中并不一定可行;原因在于:多数情况下样本的概率密度函数未知,错误率的计算也非常复杂;即使用样本对错误率进行实验估计,由于需要采用交叉验证等方法,计算量也将大大增加;
[0017]
特征评价准则通常应该满足如下要求:
[0018]
(1)与错误率具有单调关系,以较好地反映分类目标;
[0019]
(2)当特征独立时,判据对特征应该具有可加性,即
[0020][0021]
式中:j
ij
是第i类和第j类的可分性准则函数,j
ij
越大,类的分离程度越高;xi为特征变量;
[0022]
(3)具有以下度量特性
[0023]jij
>0,i≠j
[0024]jij
=0,i=j
[0025]jij
=j
ji
[0026]
(4)理想判据应该具有单调性,加入新的特征不会使判据减小,即
[0027]jij
(x1,x2,

,xd)≤j
ij
(x1,x2,

,xd,x
d 1
)
[0028]
如果类别可分性判据满足上述条件且比较便于计算,就可以较好地用来作为特征选择的标准;
[0029]
目前所用的类可分性准则的一个主要缺点是不容易计算,除非假设为高斯分布;更简单的准则考虑在l维空间中特征向量样本分布之间的关系;类内散布矩阵
[0030][0031]
σi=e[(x-μi)(x-μi)
t
]
[0032]
式中:σi为ωi类的协方差矩阵;pi为ωi类的先验概率,pi≈ni/n,其中ni为n个总样本中属于ωi类的样本数,迹{s
ω
}是所有类特征方差的平均测度;
[0033]
类间散布矩阵
[0034][0035]
式中:μ0为全局均值向量
[0036][0037]
迹{sb}是每一类的均值和全局均值之间平均距离的一种测度;
[0038]
混合散布矩阵
[0039]
sm=e[(x-μ0)(x-μ0)
t
]
[0040]
即sm是全局均值向量的协方差矩阵,是特征值关于全局均值的方差和;
[0041]
sm=s
ω
sb[0042]
根据以上定义可以得到如下准则:
[0043][0044][0045][0046]
对于等概率类,|s
ω
|与成正比,|sb|与(μ
1-μ2)2成正比,合并sb和s
ω
,得到fisher判别率fdr(fisher’s discriminant ratio)
[0047][0048]
有时用fdr定量描述单个特征的可分类能力;对于多类的情况,可使用fdr的均值形式
[0049][0050]
式中:下标i、j分别表示类ωi与ωj的特征均值和方差;
[0051]
(三)主成分分析法
[0052]
基本思想是将原来众多的具有一定相关性的p个原始特征x1,

,x
p
,重新组合为一组特征个数较少的互不相关的新综合特征ξi以代替原始特征;
[0053]
设新特征ξi,i=1,

,m为原始特征x1,

,x
p
的线性组合,每一个主成分所提取的信息量可用其方差度量,方差越大,该主成分所包含的信息越多;新特征的矩阵形式为
[0054][0055]
式中:a
ij
为第i个主成分中第j个原始特征对应的系数,ai为第i个主成分归一化的系数矩阵;a为特征变换矩阵;x为原始特征矩阵;
[0056]
正交变换保证了新特征之间不相关,新特征方差越大,则样本在该维特征熵的差异越大,因而该特征就越重要;可以证明,原始特征协方差矩阵的特征值为主成分的方差;因此,前m个较大特征值代表前m个较大的主成分方差值;原始特征协方差矩阵前m个较大的特征值所对应的特征向量即为相应主成分ξi的表达式系数ai;特征值在某种程度上可视为表示主成分影响力度大小的指标,如果某一特征值小于1,说明该主成分的解释力度低于直接引入一个原变量的平均解释力度;
[0057]
作为一种特征提取方法,通常希望用较少的主成分来表示数据,前k个主成分所代表数据的方差贡献率为:
[0058][0059]
式中:λi为第i个主成分的方差;
[0060]
多数情况下,数据中的大部分信息集中在较少的几个主成分上;当前k个主成分的累计方差贡献率己经足够大时,可取前k个主成分作为新特征量,一般而言,当k个主成分的累计方差贡献率超过85%时,所选择的主成分就蕴涵了原始特征量的主要信息。
[0061]
本发明的有益效果是:本发明通过适当的变换将p个经过提取后的特征转换为m(≤p)个新特征,目的在于一方面降低特征空间的维数,使模式识别过程中分类器的设计在计算上更容易实现;另一方面,消除特征之间可能存在的相关性,减少特征中与分类无关的信息,使新的特征更有利于分类。
附图说明
[0062]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0063]
图1为本发明的主成分分析示例图。
具体实施方式
[0064]
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
[0065]
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
[0066]
在本发明的描述中,需要理解的是,术语“一端”、“另一端”、“外侧”、“上”、“内侧”、“水平”、“同轴”、“中央”、“端部”、“长度”、“外端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0067]
此外,在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0068]
本发明使用的例如“上”、“上方”、“下”、“下方”等表示空间相对位置的术语是出于便于说明的目的来描述如附图中所示的一个单元或特征相对于另一个单元或特征的关系。空间相对位置的术语可以旨在包括设备在使用或工作中除了图中所示方位以外的不同方位。例如,如果将图中的设备翻转,则被描述为位于其他单元或特征“下方”或“之下”的单元将位于其他单元或特征“上方”。因此,示例性术语“下方”可以囊括上方和下方这两种方位。设备可以以其他方式被定向(旋转90度或其他朝向),并相应地解释本文使用的与空间相关的描述语
[0069]
在本发明中,除非另有明确的规定和限定,术语“设置”、“套接”、“连接”、“贯穿”、“插接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0070]
特征提取是通过适当的变换将p个经过提取后的特征转换为m(≤p)个新特征,目的在于一方面降低特征空间的维数,使模式识别过程中分类器的设计在计算上更容易实现;另一方面,消除特征之间可能存在的相关性,减少特征中与分类无关的信息,使新的特征更有利于分类。
[0071]
特征提取方法包括线性方法与非线性方法。最常使用的特征变换为线性变换,即若x∈rd为d维原始特征,变换后的d维新特征y∈rd为
[0072]
y=w
t
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3.1-14)
[0073]
式中:w为d
×
d维矩阵,称为变换阵。特征提取就是根据训练样本寻求适当的w,使某种特征变换的准则最优。
[0074]
下面具体介绍以下本发明的具体提取方法,其包括预处理、特征的评价准则以及主成分分析法,其中,
[0075]
预处理
[0076]
(1)剔除离群点离群点定义为与相应随机变量的平均值距离很远的点,通常为标准差的整数倍,远离平均值的点可能产生较大的误差,如果离群点非常少,可将其剔除;
[0077]
(2)数据归一化
[0078]
在很多情况下,特征的量纲往往不同;在代价函数中,大值特征比小值特征的影响更大,但在分类器设计中,这并不能反映它们的真实重要程度;因此,在计算之前应先消除量纲的影响;通常将特征归一化处理,使其位于相似范围;一个常用的线性方法是用各自的均值和方差的估计值进行归一化,对于第k个特征的n个数据,有
[0079][0080][0081][0082]
所有归一化后的特征具有零均值和单位方差,另一个线性方法是通过合适的比例将特征值限值在[0,1]或[-1,1]范围内,除线性方法外,当数据不是均匀分布在均值周围时,可以使用非线性方法,在这种情况下,使用非线性函数变换将数据映射到指定空间;
[0083]
(二)特征的评价准则
[0084]
为了进行特征选择,首先需要确定特征选择的准则;确定评价准则后,特征选择问题就变成了从d个特征中选出使准则函数最优的d个特征的搜索问题;
[0085]
最直接的方法是采用分类器的错误率作为准则,但该方法在很多实际问题中并不一定可行;原因在于:多数情况下样本的概率密度函数未知,错误率的计算也非常复杂;即使用样本对错误率进行实验估计,由于需要采用交叉验证等方法,计算量也将大大增加;
[0086]
特征评价准则通常应该满足如下要求:
[0087]
(1)与错误率具有单调关系,以较好地反映分类目标;
[0088]
(2)当特征独立时,判据对特征应该具有可加性,即
[0089]
[0090]
式中:j
ij
是第i类和第j类的可分性准则函数,j
ij
越大,类的分离程度越高;xi为特征变量;
[0091]
(3)具有以下度量特性
[0092]jij
>0,i≠j
[0093]jij
=0,i=j
[0094]jij
=j
ji
[0095]
(4)理想判据应该具有单调性,加入新的特征不会使判据减小,即
[0096]jij
(x1,x2,

,xd)≤j
ij
(x1,x2,

,xd,x
d 1
)
[0097]
如果类别可分性判据满足上述条件且比较便于计算,就可以较好地用来作为特征选择的标准;
[0098]
目前所用的类可分性准则的一个主要缺点是不容易计算,除非假设为高斯分布;更简单的准则考虑在l维空间中特征向量样本分布之间的关系;类内散布矩阵
[0099][0100]
σi=e[(x-μi)(x-μi)
t
]
[0101]
式中:σi为ωi类的协方差矩阵;pi为ωi类的先验概率,pi≈ni/n,其中ni为n个总样本中属于ωi类的样本数,迹{s
ω
}是所有类特征方差的平均测度;
[0102]
类间散布矩阵
[0103][0104]
式中:μ0为全局均值向量
[0105][0106]
迹{sb}是每一类的均值和全局均值之间平均距离的一种测度;
[0107]
混合散布矩阵
[0108]
sm=e[(x-μ0)(x-μ0)
t
]
[0109]
即sm是全局均值向量的协方差矩阵,是特征值关于全局均值的方差和;
[0110]
sm=s
ω
sb[0111]
根据以上定义可以得到如下准则:
[0112][0113][0114][0115]
对于等概率类,|s
ω
|与成正比,|sb|与(μ
1-μ2)2成正比,合并sb和s
ω
,得到fisher判别率fdr(fisher’s discriminant ratio)
[0116][0117]
有时用fdr定量描述单个特征的可分类能力;对于多类的情况,可使用fdr的均值
形式
[0118][0119]
式中:下标i、j分别表示类ωi与ωj的特征均值和方差;
[0120][0121]
σi=e[(x-μi)(x-μi)
t
]
[0122]
式中:σi为ωi类的协方差矩阵;pi为ωi类的先验概率,pi≈ni/n,其中ni为n个总样本中属于ωi类的样本数,迹{s
ω
}是所有类特征方差的平均测度;
[0123]
类间散布矩阵
[0124][0125]
式中:μ0为全局均值向量
[0126][0127]
迹{sb}是每一类的均值和全局均值之间平均距离的一种测度;
[0128]
混合散布矩阵
[0129]
sm=e[(x-μ0)(x-μ0)
t
]
[0130]
即sm是全局均值向量的协方差矩阵,是特征值关于全局均值的方差和;
[0131]
sm=s
ω
sb[0132]
根据以上定义可以得到如下准则:
[0133][0134][0135][0136]
对于等概率类,|s
ω
|与成正比,|sb|与(μ
1-μ2)2成正比,合并sb和s
ω
,得到fisher判别率fdr(fisher’s discriminant ratio)
[0137][0138]
有时用fdr定量描述单个特征的可分类能力;对于多类的情况,可使用fdr的均值形式
[0139][0140]
式中:下标i、j分别表示类ωi与ωj的特征均值和方差;
[0141]
(三)主成分分析法
[0142]
基本思想是将原来众多的具有一定相关性的p个原始特征x1,

,x
p
,重新组合为一组特征个数较少的互不相关的新综合特征ξi以代替原始特征;
[0143]
设新特征ξi,i=1,

,m为原始特征x1,

,x
p
的线性组合,每一个主成分所提取的信息量可用其方差度量,方差越大,该主成分所包含的信息越多;新特征的矩阵形式为
[0144][0145]
式中:a
ij
为第i个主成分中第j个原始特征对应的系数,ai为第i个主成分归一化的系数矩阵;a为特征变换矩阵;x为原始特征矩阵;
[0146]
正交变换保证了新特征之间不相关,新特征方差越大,则样本在该维特征熵的差异越大,因而该特征就越重要;可以证明,原始特征协方差矩阵的特征值为主成分的方差;因此,前m个较大特征值代表前m个较大的主成分方差值;原始特征协方差矩阵前m个较大的特征值所对应的特征向量即为相应主成分ξi的表达式系数ai;特征值在某种程度上可视为表示主成分影响力度大小的指标,如果某一特征值小于1,说明该主成分的解释力度低于直接引入一个原变量的平均解释力度;
[0147]
作为一种特征提取方法,通常希望用较少的主成分来表示数据,前k个主成分所代表数据的方差贡献率为:
[0148][0149]
式中:λi为第i个主成分的方差;
[0150]
多数情况下,数据中的大部分信息集中在较少的几个主成分上;如图1所示,当前k个主成分的累计方差贡献率己经足够大时,可取前k个主成分作为新特征量,一般而言,当k个主成分的累计方差贡献率超过85%时,所选择的主成分就蕴涵了原始特征量的主要信息。
[0151]
主成分载荷反映了主成分ξi与原始变量xj之间的相互关联程度,原来变量xj在各主成分ξi上的荷载l
ij
可表示为:
[0152][0153]
本发明的有益效果是:本发明通过适当的变换将p个经过提取后的特征转换为m(≤p)个新特征,目的在于一方面降低特征空间的维数,使模式识别过程中分类器的设计在计算上更容易实现;另一方面,消除特征之间可能存在的相关性,减少特征中与分类无关的信息,使新的特征更有利于分类。。
[0154]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献