一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

考虑集成误差和集成多样性的分类方法和装置与流程

2022-03-26 14:01:16 来源:中国专利 TAG:


1.本发明涉及集成学习技术领域,具体涉及一种考虑集成误差和集成多样性的分类方法和装置。


背景技术:

2.机器学习为首的人工智能技术目前正被广泛用于数据分类中。其中多分类器系统(multiple classifier system,mcs),又称集成学习,作为主流的机器学习模型,更是受到了广泛的关注。mcs的核心思想在于使用多个基分类器对样本数据进行分类,然后基于所有基分类器的分类结果,通过设计某种策略对所有结果进行合成来确定最终的分类结果,以确保最终的样本数据分类精度。常见的分类器加权合成策略主要包括sum rule方法、product rule方法以及平均合成方法。
3.基分类器的个体精度以及不同分类器之间的多样性一直以来被认为是影响mcs性能的两个关键要素,但是由于两者是一种相互权衡的关系,导致在使用上述三种策略来合成不同基分类器的输出结果时,经常出现最终的集成表现不能满足预期的情况,而且上述合成策略也由于缺少考虑每个样本的特点,泛化效果较差。


技术实现要素:

4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种考虑集成误差和集成多样性的分类方法和装置,解决了现有的加权集成方法在对基分类器输出结果进行集结时,缺少考虑样本特点、单个分类器的性能差异以及不同分类器之间多样性的问题。
6.(二)技术方案
7.为实现以上目的,本发明通过以下技术方案予以实现:
8.第一方面,提供了一种考虑集成误差和集成多样性的分类方法,该方法包括:
9.获取包含m个历史样本以及对应的特征向量和分类标签的训练集;
10.利用所述训练集训练得到包含u个基分类器的多分类器系统;
11.根据待分类样本的特征向量,并计算各个历史样本与待分类样本的相似性;
12.筛选出k个待分类样本的最相似的历史样本得到每个xk对应的特征向量和分类标签;
13.获取每个基分类器对各个xk的分类结果;所述分类结果为样本xk属于各分类的概率;
14.将xk的分类标签转换成标签类别向量;
15.获取以集成误差最小为目标的凸优化模型,并基于每个基分类器对各个xk的分类结果和所述标签类别向量求解凸优化模型,得到使用多分类器系统对各个xk进行加权集成预测时分配给各个基分类器的初始权重;
16.获取每个基分类器对待分类样本的分类结果;
17.获取以集成多样性最大为目标的非线性优化模型,并基于凸优化模型的全局最小值和每个基分类器对xk的分类结果求解非线性优化模型,得到每个基分类器的最优权重;
18.基于最优权重得到待分类样本的最终分类结果。
19.进一步的,所述历史样本和待分类样本的数据类型均为文本形式且包含多个特征值的向量。
20.进一步的,所述将xk的分类标签转换成标签类别向量,包括:
[0021][0022]
其中,yk表示第k个历史样本xk的分类标签;
[0023]
分类标签的类别集合为θh表示第h个分类。
[0024]
进一步的,所述凸优化模型为:
[0025][0026][0027]
0≤αu≤1
[0028]
其中,αu为决策变量,表示使用多分类器系统c对xk进行加权集成预测时分配给基分类器cu的初始权重;xk表示xk的特征向量,yk表示xk的分类标签。
[0029]
进一步的,所述非线性优化模型为:
[0030][0031][0032][0033]
0≤αu≤1
[0034]
其中,en表示凸优化模型的全局最小值。
[0035]
第二方面,提供了一种考虑集成误差和集成多样性的分类装置,该装置包括:
[0036]
训练集获取模块,用于获取包含m个历史样本以及对应的特征向量和分类标签的训练集;
[0037]
多分类器系统训练模块,用于利用所述训练集训练得到包含u个基分类器的多分类器系统;
[0038]
相似历史样本筛选模块,用于根据待分类样本的特征向量,并计算各个历史样本与待分类样本的相似性;筛选出k个待分类样本的最相似的历史样本得到每个xk对应的特征向量和分类标签;
[0039]
标签类别向量转换模块,用于将xk的分类标签转换成标签类别向量;
[0040]
初始权重生成模块,获取以集成误差最小为目标的凸优化模型,并基于每个基分类器对各个xk的分类结果和所述标签类别向量求解凸优化模型,得到使用多分类器系统对
各个xk进行加权集成预测时分配给各个基分类器的初始权重;
[0041]
基分类器分类结果获取模块,用于获取每个基分类器对待分类样本的分类结果;
[0042]
最优权重生成模块,用于获取以集成多样性最大为目标的非线性优化模型,并基于凸优化模型的全局最小值和每个基分类器对xk的分类结果求解非线性优化模型,得到每个基分类器的最优权重;
[0043]
最终分类结果生成模块,用于基于最优权重得到待分类样本的最终分类结果。
[0044]
进一步的,所述历史样本和待分类样本的数据类型均为文本形式且包含多个特征值的向量。
[0045]
进一步的,所述将xk的分类标签转换成标签类别向量,包括:
[0046][0047]
其中,yk表示第k个历史样本xk的分类标签;
[0048]
分类标签的类别集合为θh表示第h个分类。
[0049]
进一步的,所述凸优化模型为:
[0050][0051][0052]
0≤αu≤1
[0053]
其中,αu为决策变量,表示使用多分类器系统c对xk进行加权集成预测时分配给基分类器cu的初始权重;xk表示xk的特征向量,yk表示xk的分类标签。
[0054]
进一步的,所述非线性优化模型为:
[0055][0056][0057][0058]
0≤αu≤1
[0059]
其中,en表示凸优化模型的全局最小值。
[0060]
(三)有益效果
[0061]
本发明提供了一种考虑集成误差和集成多样性的分类方法和装置。与现有技术相比,具备以下有益效果:
[0062]
1)本发明首先获取包括m个历史样本数据x
l
的特征向量x
l
和对应的分类标签y
l
的训练集,再基于所述训练集,采用集成学习算法得到多分类器系统c={c1,

,cu},然后计算训练集中各个样本x
l
的与待分类样本之间的平均相似性as
l
;再基于as
l
的值选出与最相似的k个历史样本,组成近邻区域再基于多分类器系统c中各个基分类器在近邻
区域上的预测表现,优化求出一组最优权重;最后根据最优权重确定待分类样本的最终分类结果。不仅考虑了一组分类器的集成性能以及不同分类器之间的多样性,而且还能够根据每个待分类样本的特点产生一组最优权重,用于加权合成不同分类器的预测结果,以保证最终分类的精度和稳定性。
附图说明
[0063]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0064]
图1为本发明实施例的流程图。
具体实施方式
[0065]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0066]
本技术实施例通过提供一种考虑集成误差和集成多样性的分类方法和装置,解决了现有的加权集成方法在对基分类器输出结果进行集结时,缺少考虑样本特点,单个分类器的性能差异以及不同分类器之间多样性的问题。
[0067]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0068]
实施例1:
[0069]
如图1所示,本发明提供了一种考虑集成误差和集成多样性的分类方法,该方法由计算机执行,该方法包括:
[0070]
获取包含m个历史样本以及对应的特征向量和分类标签的训练集;
[0071]
利用所述训练集训练得到包含u个基分类器的多分类器系统;
[0072]
根据待分类样本的特征向量,并计算各个历史样本与待分类样本的相似性;
[0073]
筛选出k个待分类样本的最相似的历史样本得到每个xk对应的特征向量和分类标签;
[0074]
获取每个基分类器对各个xk的分类结果;所述分类结果为样本xk属于各分类的概率;
[0075]
将xk的分类标签转换成标签类别向量;
[0076]
获取以集成误差最小为目标的凸优化模型,并基于每个基分类器对各个xk的分类结果和所述标签类别向量求解凸优化模型,得到使用多分类器系统对各个xk进行加权集成预测时分配给各个基分类器的初始权重;
[0077]
获取每个基分类器对待分类样本的分类结果;
[0078]
获取以集成多样性最大为目标的非线性优化模型,并基于凸优化模型的全局最小
值和每个基分类器对xk的分类结果求解非线性优化模型,得到每个基分类器的最优权重;
[0079]
基于最优权重得到待分类样本的最终分类结果。
[0080]
本实施例的有益效果为:
[0081]
1)本发明不仅考虑了一组分类器的集成性能以及不同分类器之间的多样性,而且还能够根据每个待分类样本的特点产生一组最优权重,用于加权合成不同分类器的预测结果,以保证最终分类的精度和稳定性。
[0082]
下面对本发明实施例的实现过程进行详细说明:
[0083]
s1、获取训练集所述训练集包括m个历史样本x
l
的特征向量x
l
和对应的分类标签y
l
,其中l=1,

,m;分类标签的类别集合为表示当前分类问题是一个ω(ω≥2)类分类问题。
[0084]
其中,样本为文本形式的向量,一个样本由多个特征组成,每个特征上有个值,多个特征的值组成向量。
[0085]
s2、基于所述训练集,采用集成学习算法得到包含u个基分类器的多分类器系统c={c1,

,cu};cu表示第u个基分类器,u=1,

,u;
[0086]
s3、获取待分类样本的特征向量利用训练集和欧式距离测度,计算各个历史样本x
l
与待分类样本的相似性,记为as
l
,l=1,

,m;
[0087][0088]
这里和x
l,i
分别表示新样本和历史样本x
l
的第i个特征值;
[0089]
s4、按照as
l
的大小筛选出k个与最相似的历史样本,记为并得到xk的特征向量xk和分类标签yk;
[0090]
s5、将每个xk的特征向量xk分别输入给多分类器系统的每个基分类器cu,得到每个基分类器cu对每个xk的特征向量xk的分类结果cu(xk)={c
u,1
(xk),

,c
u,h
(xk),

,c
u,ω
(xk)},c
u,h
(xk)表示基分类器cu认为历史样本xk属于第h类的概率,h=[1,ω];
[0091]
s6、将k个历史样本的分类标签yk转换成标签类别向量转换成标签类别向量且具体公式如下:
[0092][0093]
s7、为确保集成误差最小,基于cu(xk)和yk求解凸优化模型;且凸优化模型为:
[0094][0095][0096]
0≤αu≤1
[0097]
其中,αu表示决策变量,表示使用多分类器系统c对xk进行加权集成预测时分配给基分类器cu的初始权重;
[0098]
通过根据分类器的集成误差来确定各个分类器在集成中的重要性,也就是每个分类器的权重,因为构建的凸优化模型不是严格意义上的非凸模型,所以不可能只存在一组权重使得全局最小,会存在很多组权重满足凸优化模型的全局最小值,需要从中进一步选择最优。
[0099]
s8、将的特征向量分别输入给多分类器系统c中的每个基分类器cu,得到每个基分类器cu对待分类样本的特征向量的分类结果
[0100]
s9、设凸优化模型的全局最小值记为en,则继续求解以集成多样性最大为目标的非线性优化模型,得到最优权重;且非线性优化模型为:
[0101][0102][0103][0104]
0≤αu≤1
[0105]
第二次优化是为了在第一优化的前提下,设计了一个多样性测度,保证集成多样性最大。即在第一次优化能够求出的所有解中再找一组能够让集成多样性最大的解。
[0106]
s10、通过非线性优化模型求得的最优权重记为利用合成得到待分类样本的最终分类结果为θ
η

[0107][0108]
为验证所提方法的优越性,从两个机器学习公开数据仓库keel和uci收集了30个标准分类数据集,数据集基本信息见表1。从每个数据集中随机抽取90%的数据作为训练集,余下的10%作为测试集。
[0109]
表1
[0110][0111][0112]
利用bagging算法从训练集中产生十个基分类器,组成多分类器系统c,选择决策树作为基分类器。对于每个数据集,上述过程重复十次。根据十次重复实验上的平均表现,比较所提出的分类器动态加权集成分类方法与现有的三种合成策略(和规则、积规则、平均合成规则)以及六种常见集成算法(bagging算法、随机森林算法、adaboosting算法、梯度集成树算法以及xgboost算法)之间的性能差异。
[0113]
相关实验结果如表2所示。在表2中:
[0114]
bag表示bagging算法
[0115]
rf表示随机森林算法
[0116]
abt表示adaboosting算法
[0117]
gb表示梯度集成树算法
[0118]
xgb表示xgboost算法
[0119]
sum表示和规则
[0120]
product表示积规则
[0121]
sac表示平均合成规则
[0122]
pwe表示本发明所提方法。
[0123]
表2实验结果
[0124][0125][0126]
由表2可知,本实施例的方法在大部分的情况下都优于现有的合成策略以及集成方法,而且所提方法能够根据每个样本的特点,获得一组最优权重,用于合成不同分类器的输出结果。
[0127]
实施例2:
[0128]
一种考虑集成误差和集成多样性的分类装置,该装置包括:
[0129]
训练集获取模块,用于获取包含m个历史样本以及对应的特征向量和分类标签的训练集;
[0130]
多分类器系统训练模块,用于利用所述训练集训练得到包含u个基分类器的多分类器系统;
[0131]
相似历史样本筛选模块,用于根据待分类样本的特征向量,并计算各个历史样本与待分类样本的相似性;筛选出k个待分类样本的最相似的历史样本得到每个xk对应的特征向量和分类标签;
[0132]
标签类别向量转换模块,用于将xk的分类标签转换成标签类别向量;
[0133]
初始权重生成模块,获取以集成误差最小为目标的凸优化模型,并基于每个基分类器对各个xk的分类结果和所述标签类别向量求解凸优化模型,得到使用多分类器系统对各个xk进行加权集成预测时分配给各个基分类器的初始权重;
[0134]
基分类器分类结果获取模块,用于获取每个基分类器对待分类样本的分类结果;
[0135]
最优权重生成模块,用于获取以集成多样性最大为目标的非线性优化模型,并基于凸优化模型的全局最小值和每个基分类器对xk的分类结果求解非线性优化模型,得到每个基分类器的最优权重;
[0136]
最终分类结果生成模块,用于基于最优权重得到待分类样本的最终分类结果。
[0137]
可理解的是,本发明实施例提供的考虑集成误差和集成多样性的分类装置与上述考虑集成误差和集成多样性的分类方法相对应,其有关内容的解释、举例、有益效果等部分可以参考考虑集成误差和集成多样性的分类方法中的相应内容,此处不再赘述。
[0138]
综上所述,与现有技术相比,本发明具备以下有益效果:
[0139]
1)本发明不仅考虑了一组分类器的集成性能以及不同分类器之间的多样性,而且还能够根据每个待分类样本的特点产生一组最优权重,用于加权合成不同分类器的预测结果,以保证最终分类的精度和稳定性。首先获取包括m个历史样本数据x
l
的特征向量x
l
和对应的分类标签y
l
的训练集,再基于所述训练集,采用集成学习算法得到多分类器系统c={c1,

,cu},然后计算训练集中各个样本x
l
的与待分类样本之间的平均相似性as
l
;再基于as
l
的值选出与最相似的k个历史样本,组成近邻区域再基于多分类器系统c中各个基分类器在近邻区域上的预测表现,优化求出一组最优权重最后根据确定待分类样本的最终分类结果。
[0140]
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操
作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0141]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献