一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于改进的ReliefF多路信号特征优化方法与流程

2021-10-27 20:17:00 来源:中国专利 TAG:多路 信号 改进 特征 优化

一种基于改进的relieff多路信号特征优化方法
技术领域
1.本发明涉及数据处理技术领域,尤其涉及一种基于改进的relieff多路信号特征优化方法。


背景技术:

2.在人机交互中,随着数据处理的体量越来越大,如何快速有效地选择特征是数据处理中不可避免的问题。当特征维度偏高时,不仅消耗了计算的时间,降低了计算的效率,而且高维的特征中存在不相关或冗余的特征反而会影响辨识的精度。因此,对数据样本量大,维度偏高的情况,发掘其潜在的有用的信息以便能最大程度地保留原始信号数据的特征,是当前数据处理领域研究的热点。
3.目前,已有许多的特征维度优化算法被提出,这些特征优化的算法在不同应用的场合下具备各自的特性。方差选择法先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。相关系数法先要计算各个特征对目标值的相关系数以及相关系数的p值,然后结合相关系数来选择特征。relief算法最早由kira提出,它从训练集d中随机选择一个样本r,然后从和r同类的样本中寻找k个最近邻样本h,从和r不同类的样本中寻找k个最近邻样本m,最后按照公式更新特征权重。
4.针对高维数据的分类问题,大多特征选择优化算法只单一地考虑了特征与类别目标间的相关性问题或者特征间的冗余度问题,没有把两者结合起来分析。另外,传统的快速相关性滤波的方法(fcbf)虽然考虑了特征的相关性和冗余度问题,但是在样本数远大于特征维数的情况下,特征的相关性排序效果不甚理想。而且在特征冗余度分析时,每次被主特征比较后删除的特征都不会再参与下一轮主特征的比较,从而使得原始信息的表征不能尽可能的全面。


技术实现要素:

5.本发明的目的是提供一种基于改进的relieff多路信号特征优化方法,从特征的相关性和冗余性两个角度出发,最大程度地保留了仍具有贡献力度的特征,减少了原始特征信息的不必要的损失。
6.本发明为实现上述发明目的采用如下技术方案:
7.本发明提供了一种基于改进的relieff多路信号特征优化方法,包括:
8.获取预处理信号;
9.根据信号特性,进行单路信号特征提取;
10.选出各单路信号下合适的维度特征,进行多信号多特征的融合,并进行归一化处理;
11.利用relieff算法分析特征与目标类别间的相关性,并根据特征权重大小将特征进行排序;
12.利用对称不确定性分析比较特征间的冗余性,通过把每轮与主特征比较后删除的
特征重新恢复再比较并设定删除阈值,最终输出的主特征集为最优的维度特征集。
13.进一步地,预处理信号的方法包括:
14.提取相关信号,降低采样频率,去工频滤波降噪并对各类信号进行数据划分。
15.进一步地,提取的特征包括:
16.几何平均、调和平均、峭度、最大值、平均值、中值、最小值、阈值、斜度、标准差和方差。
17.进一步地,采用数据平滑处理和去趋势的方式进行单路信号特征提取。
18.进一步地,所述数据平滑处理和去趋势的方式包括:
19.移动标准差移动方差移动均值移动中位数mmad=median(|a
i

median(a)|);
20.其中,a是一个移动的向量,向量的长度为n,a
i
表示a中第i个向量值,μ表示均值。
21.进一步地,利用relieff算法分析特征与目标类别间的相关性的方法包括:
22.利用relieff算法处理多分类问题,从训练样本集中随机取出一个样本r,从和样本r同类的样本集中找出k个近邻样本;
23.从和样本r不同类的训练样本集中找出k个近邻样本;
24.计算特征在同类近邻样本和不同类近邻样本间相关性的权重,公式如下:
[0025][0026][0027]
其中,p(c)为该类别的比例,p(class(r))为随机选取的某样本类别的比例,diff(p,r,h)表示样本r和样本h在特征p上的差,m为抽样次数;
[0028]
根据权重大小对特征进行排序。
[0029]
进一步地,利用对称不确定性分析比较特征间的冗余性的方法包括:
[0030]
取经过relieff算法后得到的有序特征集f
u

[0031]
从有序特征集f
u
中按顺序取特征f
i
(i∈{1,2,...,n})作为主特征;
[0032]
将确定的主特征与余下特征f
j
(j∈{i 1,i 2,...,n})依次比较特征间的对称不确定性值su
i,j

[0033]
设立阈值λ,若su
i,j
大于λ,则将被比较的特征f
j
删除,反之则保留。
[0034]
进一步地,将与主特征比较后删除的特征重新恢复再比较并设定删除阈值,最终输出的主特征集为最优的维度特征集的方法包括:
[0035]
每轮确定出的主特征不再参与下一轮的比较,并把主特征挑出放入优化的特征集中,被删除的特征f
j
将被标记并累计删除的次数d
j

[0036]
若d
j
不大于3则将上一轮所有删除的特征依次按删除的顺序放入现存特征集的末端,刷新现存的特征集;
[0037]
若d
j
大于3,则该特征f
j
将被永久地删除,不再参与比较;
[0038]
按现存排序的顺序重新确定下一个主特征,直至不再有主特征产生;
[0039]
整合所有被挑出的主特征,该特征集便是最优的维度特征集。
[0040]
本发明的有益效果如下:
[0041]
本发明在特征维度优化时从特征的相关性和冗余性两个角度出发,最大程度地保留了仍具有贡献力度的特征,减少了原始特征信息的不必要的损失;
[0042]
在高维的数据空间达到了维度优化的目的,减少了计算的复杂度和计算消耗的时间;
[0043]
相比于传统的主观选择最优维度的方法,本发明具有维度优化的效果且维度优化速度更快,可以自适应地抉择出满足条件的特征,组成最优的维度特征集。
附图说明
[0044]
图1为根据本发明实施例提供的一种基于改进的relieff多路信号特征优化方法的流程框图;
[0045]
图2为根据本发明实施例提供的一种基于改进的relieff多路信号特征优化方法中fcbf算法的原理图;
[0046]
图3为根据本发明实施例提供的一种基于改进的relieff多路信号特征优化方法的算法流程图。
具体实施方式
[0047]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048]
本发明所涉及方法的整体流程图如图1所示,包括以下步骤:
[0049]
步骤1:预处理相关生理信号。相关的生理信号包括:呼吸(rsp)、血压(bvp)、皮电(gsr)、肌电(emg)及眼电(eog)。降低采样频率至128hz,每个训练样本去除眼电伪迹和前3秒的基线。对各类生理信号进行数据划分,6秒一段并作3秒的重叠。
[0050]
步骤2:特征提取。尽可能多地提取特征组建特征库。常见的提取的特征包括:最大值(max)、最小值(min)、方差(var)、标准差(std)、中值(median)、均值(mean)、范围(range)、几何平均(geometric mean)、调和平均(harmonic mean)。采用一些数据平滑处理和去趋势的方法,同样提取以上特征,可以获得更多不同类型下的特征值。数据平滑处理和去趋势的方法包括:移动标准差移动方差移动均值移动中位数
(movmad)mmad=median(|a
i

median(a)|),a是一个移动的向量,向量的长度为n,a
i
表示a中第i个向量值,μ表示均值。
[0051]
步骤3:选择出各单路信号下合适的维度特征,进行多信号多特征的融合,组成m
×
n的特征集(m表示样本数,n表示特征数),并进行归一化处理。
[0052]
步骤4:利用relieff算法分析特征与目标类别间的相关性并根据特征权重大小将特征进行排序。relieff算法处理多分类问题,每次从训练样本集中随机取出一个样本r,然后从和r同类的样本集中找出k个近邻样本(near hits),从每个r的不同类的样本集中找出k个近邻样本(near misses),然后依据公式计算每个特征的权重以此来分析特征与目标类别间的相关性,并根据权重大小将特征进行排序。
[0053]
步骤5:利用对称不确定性分析比较特征间的冗余性,通过把每轮与主特征比较后删除的特征重新恢复再比较并设定删除阈值,以便保留每个特征最大的表征力度。最终输出的主特征集便是最优的特征维度。
[0054]
传统的fcbf算法是一种基于相关性的快速滤波的算法。采用信息熵理论度量的方式,依据对称不确定性值su(symmetrical uncertainty),先分析特征i与类别c之间的相关性,若特征的相关性值su
i,c
大于设定的阈值θ则保留,反之则删除。按su
i,c
值大小,对特征排序。如图2所示,特征f1至f6,便是相关性分析后排完序的特征。接着比较特征i和特征j间的冗余度值su
i,j
。按先前特征排序的大小,先确定主特征f1并依次按顺序与余下的特征挨个比较,大于设定的阈值λ则删除,反之则保留,f3和f4被删除。再确定第二主特征f2重复上述步骤,f6被删除。最终,挑出的f1、f2、f5便是最优特征集。
[0055]
但是传统的fcbf在样本数大于特征数的情况下,相关性分析的效果不甚理想。于是,采用基于relieff的方法对特征进行相关性排序并用对称不确定性进行特征间的冗余度分析。于是,一种基于改进的relieff多路信号特征优化方法如图3所示,所述改进的relieff多路信号特征优化方法步骤如下:
[0056]
(1)取经过relieff算法后得到的有序特征集f
u
(特征维度为n)。
[0057]
(2)按顺序取特征f
i
(i∈{1,2,...,n})作为主特征。将确定好的主特征往下与余下特征f
j
(j∈{i 1,i 2,...,n})依次比较特征间的对称不确定性值,设立阈值λ,若特征间的su
i,j
大于λ,则将被比较的特征f
j
删除,反之则保留。每轮确定出的主特征不用再参与下一轮的比较,并把主特征挑出放入优化的特征集中。被删除的特征f
j
将被标记并累计删除的次数d
j

[0058]
(3)若d
j
不大于3则将上一轮所有未彻底删除的特征依次按删除的顺序放入现存特征集f
u
的末端,刷新现存的特征集f
u
。若d
j
大于3,则该特征f
j
将被彻底地删除,不用再参与比较。
[0059]
(4)按现存排序的顺序重新确定下一个主特征,重复步骤(2)至(3)。直至不再有主特征产生。
[0060]
整合所有被挑出的主特征,该特征集便是最优维度的特征集。
[0061]
为了验证本发明的有效性,本发明所用的改进的特征维度优化的方法在国际公开的数据库deap(a database for emotion analysis using physiological signals)上进行验证。对于多人的四分类情绪辨识问题,本发明方法和传统的特征维度优化方法relieff及fcbf进行对比,统一选用支持向量机分类器进行辨识分类,三种维度优化方法的正确率
及所对应的最优维度如表1所示。
[0062]
表1.本发明改进的特征维度优化方法与fcbf和relieff方法正确率的比较。
[0063][0064]
从表1可以明显看出relieff算法整体要优于fcbf,而本发明改进的特征维度优化的方法整体又要优于relieff,而且relieff算法需手动的挑选最优维度,本发明改进的特征维度优化的方法自适应的筛选出了最优维度。对于s23

s32(10人)和s01

s22(22人)的最优维度区间分别在[131,141]、[143,151],对应的平均精度分别为81.27%和82.32%。
[0065]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜