一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于高斯混合模型的数据过采样方法与流程

2022-03-22 23:07:56 来源:中国专利 TAG:


1.本发明属于不平衡数据处理技术领域,具体涉及一种基于高斯混合模型的数据过采样方法。


背景技术:

2.传统机器学习算法假设数据在类别上是大致均衡的,当遇到非均衡的数据集时会倾向于将不确定的样本判定为多数类样本,影响了少数类样本的查全率。虽然少数类样本数量较少,但重要程度更高,将少数类样本错分的代价远高于将多数类样本错分的代价。在实际生活中人们接触到的数据集绝大部分是非均衡数据集,需要处理的数据往往是非均衡数据偏多,如金融欺诈交易检测、雷达信号识别、医学诊断、基因序列中一些编码信息、文本分类等等。因此研究如何解决机器学习中的类不平衡问题是很有必要的。数据过采样是机器学习领域解决数据不平衡问题的重要方法。数据重采样主要有欠采样和过采样两种策略。已有研究表明欠采样可能使数据集丢失关于多数类的重要信息,其对分类器总体性能的改善往往低于过采样。


技术实现要素:

3.为了解决现有过采样技术的缺陷与不足,本发明提出了一种基于高斯混合模型的数据过采样方法。首先,用高斯混合模型对少数类样本的概率建模,并用em算法迭代求解模型参数;再根据求得的gmm概率分布对少数类样本进行聚类并过滤低概率噪点;接着采用交叉验证并利用相关分类器分别对各个簇进行训练并预测,引入代价敏感学习的思想,将错误率与过采样的数量对应起来,赋予预测错误率较高的簇相对更高的采样权重;最后,采用smote算法对每个少数类样本簇进行过采样,生成新数据使数据集中少数类与多数类样本数量相等。
4.本发明在保证数据信息完整性的前提下,利用数据本身的分布信息与代价敏感学习思想对过采样的原样本与数量进行精确控制,增加了过采样样本的泛化信息,降低了分类器分类难度。
5.一种基于高斯混合模型的数据过采样方法,其特征在于,步骤如下:
6.步骤1:用高斯混合模型对样本集中的少数类样本生成概率进行建模;
7.步骤2:在完成聚类处理后,通过预训练分类器进行簇间交叉验证计算出每个簇的分类错误率,并根据每个簇错误率的相对大小决定其过采样的数量;
8.步骤3:按照上一步确定的过采样数量,利用smote算法依次为每个簇合成新的样本。
9.进一步,步骤1具体包括:假设该混合模型由m个单高斯模型组成,模型形式如下:
[0010][0011]
其中p(x|θi)为第i个高斯分模型,αi表示第i个分模型的权重,θi=(ui,σi)表示第
i个分模型的均值和协方差参数,θ=(α1,α2,...,αm;θ1,θ2,...,θm),用em算法对参数θ进行求解。
[0012]
参数θ确定后,计算每个少数类样本在该参数下的生成概率,过滤一定数量的低概率样本(预先设定一个概率阈值),提高整体样本的泛化性;接着按如下方式对剩余样本进行聚类划分:假设需聚类处理的总样本数为n,引入变量γ
jm
,表示第j个样本由第m个分模型生成的后验概率:
[0013][0014]
其中j∈{1,2,...,n},i∈{1,2,...,m};高斯混合聚类把少数类样本集划分为m个簇c={c1,c2,...,cm},每个样本xj的簇标记λj按如下方式确定:
[0015][0016]
更进一步,m的取值依据“肘部”法则确定:依次为k取值2至8去拟合样本并绘制模型对数似然损失值的变化曲线,选择曲线“肘部”位置点对应的取值为m的最终取值。
[0017]
进一步,步骤2具体包括:
[0018]
步骤2-1:用m-1个簇的少数类样本与所有多数类样本一起训练分类器,用剩下一个少数类簇的样本去评估分类器预测效果,计算分类错误率(错误率是分类错误的样本数占分类样本总数的的比例),如此循环m次,记录各簇的分类错误率(记为ε1,ε2,...,εm);
[0019]
步骤2-2:按照下式计算类比率(class ratio,cr):
[0020][0021]
其中nj是少数类簇cj中的样本数量,n是总体少数类样本数量;然后对上式乘以混合权重,得到簇cj对于总体少数类样本的描述度dj,计算公式如下:
[0022]dj
=αj·
crjꢀꢀꢀ
(5)
[0023]
其中αj是步骤1中计算出的簇cj的权重;
[0024]
步骤2-3:根据代价敏感学习思想,按下式计算出簇j的过采样权重:
[0025][0026]
其中εj是簇cj的分类错误率;
[0027]
最后按上述采样权重对过采样数量进行分配,计算公式如下:
[0028]
δj=(s
maj-s
min
)
×
wjꢀꢀꢀ
(7)
[0029]
其中δj为簇cj的最终过采样数量,s
maj
为数据集中多数类样本总数,s
min
为少数类样本总数。
[0030]
进一步,步骤3具体包括:首先在簇cj中随机选择δj个样本,如果δj大于簇cj的样本总数,会出现多次选择同一样本的情况;然后对于其中每一个样本,找出其在簇cj中的k近邻样本,k值依据采样效果确定,任选其一作为合成样本的来源;最后在两个少数类样本点间进行线性插值合成新样本,新样本位置按如下公式计算:
[0031]
x
syn
=x rand(0,1)
×
(x
t-x)
ꢀꢀꢀ
(8)
[0032]
其中x为簇cj中的任一样本,x
syn
为x对应合成的新样本,x
t
,t∈{1,2,...,k}为x的k近邻样本之一,rand(0,1)表示0与1之间的随机数。
[0033]
本发明的有益效果为:由于本发明根据样本的概率分布函数过滤了噪点,从而避免这些噪点降低分类器的预测性能。然后利用代价敏感的思想对不同簇的样本分配了不同的采样权重,优化了分类器的训练方向。而且,本发明将合成新样本的原样本选择范围控制在各簇的内部,这样可以降低分类器的分类难度,因为不同簇之间可能分布着一些多数类样本,以簇间样本为来源合成的新样本在属性上可能更接近这些多数类样本。
附图说明
[0034]
图1是本发明方法的流程图。
具体实施方式
[0035]
下面结合实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
[0036]
在电子侦察领域,识别所截获雷达信号的辐射源类型是一项基本任务。电子侦察系统在发现雷达信号后,先从密集的信号流中分离出各种有用信号,然后通过电讯技术精确测定信号的特征参数,包括脉冲宽度、射频、功率电平和扫描周期等。而进一步根据特征参数识别信号类型的任务,过去往往依靠人工经验比对分析完成,近年来随着计算机和人工智能技术的发展,越来越多的研究将机器学习方法应用于信号类型识别,以建立精确识别信号类型的量化模型。然而现实中,由于技术限制和样本的稀缺性等原因,侦收到的信号数量在类别上是不平衡的,用于目标探测、远程预警之类的信号更容易被侦收到,而用于制导和火控等的信号却很少被侦收到,这类信号往往威胁性更大,判错代价更高。
[0037]
本实施例提供了一种应用了前文过采样方法的雷达信号识别方法。该方法包括信号特征降维、过采样和建立svm识别模型等过程,具体步骤如下:
[0038]
步骤1:使用电子侦察系统数据库中已经识别的信号特征和类型作为原始数据集,信号特征为通过电讯技术对过去收集信号进行测定得来,包括射频及其变化特性、功率电平、脉冲重复间隔及其调制特性、脉冲宽度及其调制特性、脉内频率或相位调制特性、天线扫描类型、扫描周期、方向图和极化特性,信号类型是人工分析得出的,设定一个数量阈值,将所有信号划分为两类,将数量大于阈值的每个类型的信号划分进多数类,反之划分进少数类。划分好类别后,利用lle(局部线性嵌入)算法对信号特征进行降维处理,使得特征降维至三维空间;
[0039]
步骤2:用高斯混合模型对降维后的少数类信号样本的生成概率进行建模,假设该混合模型由m个单高斯模型组成(m的取值依据“肘部”法则确定:可依次为k取值2至8去拟合样本并绘制模型对数似然损失值的变化曲线,选择曲线“肘部”位置点对应的取值为m的最终取值),模型形式如下:
[0040][0041]
其中p(x|θi)为第i个高斯分模型,αi表示第i个分模型的权重,θi=(ui,σi)表示第i个分模型的均值和协方差参数,θ=(α1,α2,...,αm;θ1,θ2,...,θm),用em算法对参数θ进行
求解。
[0042]
参数θ确定后,计算每个少数类信号样本在该参数下的生成概率,过滤一定数量的低概率样本,提高整体信号样本的泛化性;接着按如下方式对剩余信号进行聚类划分:假设需聚类处理的总样本数为n,引入变量γ
jm
,表示第j个样本由第m个分模型生成的后验概率:
[0043][0044]
其中j∈{1,2,...,n},i∈{1,2,...,m};高斯混合聚类把少数类样本集划分为m个簇c={c1,c2,...,cm},每个样本xj的簇标记λj按如下方式确定:
[0045][0046]
步骤3:在完成聚类处理后,通过预训练分类器进行簇间交叉验证计算出每个信号样本簇的分类错误率,并根据每个簇错误率的相对大小决定其过采样的数量,以簇cj为例,具体过程如下:
[0047]
步骤3-1:用k-1个簇的少数类信号与所有多数类信号样本一起训练svm分类模型(核函数选择径向基函数),用剩下一个少数类簇的样本去评估svm分类器预测效果,计算分类错误率(错误率是分类错误的样本数占分类样本总数的的比例),如此循环m次,记录各簇的分类错误率(记为ε1,ε2,...,εm);
[0048]
步骤3-2:按照下式计算类比率(class ratio,cr):
[0049][0050]
其中nj是少数类簇cj中的样本数量,n是总体少数类样本数量;然后对上式乘以混合权重,得到簇cj对于总体少数类样本的描述度dj,计算公式如下:
[0051]dj
=αj·
crjꢀꢀꢀ
(5)
[0052]
其中αj是步骤2中计算出的簇cj的权重;
[0053]
步骤3-3:根据代价敏感学习思想,按下式计算出簇j的过采样权重:
[0054][0055]
其中εj是簇cj的分类错误率;
[0056]
最后按上述采样权重对过采样数量进行分配,计算公式如下:
[0057]
δj=(s
maj-s
min
)
×
wjꢀꢀꢀ
(7)
[0058]
其中δj为簇cj的最终过采样数量,s
maj
为数据集中多数类样本总数,s
min
为少数类样本总数;
[0059]
步骤4:按照上一步确定的过采样数量,利用smote算法依次为每个簇合成新的信号样本,以簇cj为例,具体过程如下:首先在簇cj中随机选择δj个样本(如果δj大于簇cj的样本总数,会出现多次选择同一样本的情况);然后对于其中每一个样本,找出其在簇cj中的k近邻样本(k值可以依据采样效果确定),任选其一作为合成样本的来源;最后在两个少数类样本点间进行线性插值合成新样本,新样本位置按如下公式计算
[0060]
x
syn
=x rand(0,1)
×
(x
t-x)
ꢀꢀꢀ
(8)
[0061]
其中x为簇cj中的任一信号样本,x
syn
为x对应合成的新信号样本,x
t
,t∈{1,2,...,k}为x的k近邻样本之一,rand(0,1)表示0与1之间的随机数;
[0062]
步骤5:利用svm模型为信号识别建模,由于径向基核函数(radial basis function,rbf)能直观反映数据之间聚类,同时分类效果优于其他核函数,故本实施例选用rbf作为svm核函数;然后用上一步平衡处理后的数据集训练该模型,并在一定范围内对svm惩罚因子c和核参数σ这两个模型超参数进行网格搜索,选择效果最优者。最终将训练好的模型用于新侦收信号的识别。
[0063]
本实施例在保证数据完整性的前提下,对于雷达信号数据中存在的不平衡问题,采用基于高斯混合模型的过采样方法对数据进行增广,以提高识别的准确率。
[0064]
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献