一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

分类模型特征选取方法、装置及设备与流程

2022-07-20 16:51:06 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,具体涉及分类模型特征选取方法和装置,以及电子设备。


背景技术:

2.分类模型是用于预测数据对象为某一类别的概率的模型,输入为数据对象相关的信息,输出为数据对象所属类别。以小样本的分类模型进行训练为例,共有2万个样本量,选取了训练样本的100多个属性值作为输入特征。
3.由于从应用角度无法对输入特征进行有效性甄别,对输入特征进行模型训练时,因存在较多无效、相似的输入特征,导致模型多次运行结果有较大差异,需要对这些输入特征进行过滤。目前,主要采用以下特征选取方法:
4.1)方差分析法,即:计算输入特征之间的方差,保留方差大的特征。该方法存在误差较大,方差小的特征也可能是有效特征。
5.2)皮尔逊相关系数单变量分析法,即:计算输入特征与分类目标之间的相关性,保留与分类目标相关性较高的特征。该方法也存在误差,在模型训练中,特征与分类目标一般都不是线性相关;并且该方法受分类目标影响,小样本情况下存在不稳定性。
6.3)递归特征淘汰法,即:模型训练完成后,评估各特征对模型的权重,不断删减权重低的特征。该方法运算量较大,需要对模型进行多次递归训练;同时,在小样本情况下,会存在不稳定性。
7.综上所述,现有技术存在特征选取不准确的问题,从而影响小样本情况下模型的稳定性和准确性。


技术实现要素:

8.本技术提供分类模型特征选取方法,以解决现有技术存在的特征选取不准确的问题。本技术另外提供分类模型特征选取装置,以及电子设备。
9.本技术提供一种分类模型特征选取方法,包括:
10.获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;
11.根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量;
12.针对属性的两两组合,根据所述属性向量,确定任意两个属性之间的相关度;
13.根据所述相关度,确定第一目标属性和待去重的属性组合;
14.从待去重的属性组合中选取第二目标属性;
15.从第一目标属性和第二目标属性中选取第三目标属性,作为分类模型的输入特征。
16.可选的,所述根据所述相关度,确定第一目标属性和待去重的属性组合,包括:
17.将所述相关度小于相关度阈值的属性组合中的属性作为第一目标属性;
18.将所述相关度大于或者等于相关度阈值的属性组合作为待去重的属性组合。
19.可选的,所述根据所述相关度,确定第一目标属性和待去重的属性组合,包括:
20.根据所述相关度,确定属性组合的相关度排名数据;
21.根据所述排名数据和属性组合选取比例,选取第一目标属性。
22.可选的,所述从待去重的属性组合中选取第二目标属性,包括:
23.确定待去重属性在不同分类样本之间的属性差异度和/或待去重属性与第一目标属性之间的非相关度;
24.根据待去重属性的所述属性差异度和/或所述非相关度,从所述待去重的属性组合中选取一个属性,作为第二目标属性。
25.可选的,所述属性差异度采用如下方式获取:
26.根据属性数据对应的样本分类状态,获取属性在各类样本的属性数据总和;
27.针对样本分类的两两组合,根据所述属性数据总和,确定两类样本之间的属性数据总和的差距;
28.将多个分类的两两组合对应的所述差距的统计数据,作为所述属性差异度。
29.可选的,所述非相关度采用如下方式获取:
30.确定待去重属性与各个第一目标属性之间的非相关度;
31.将各个第一目标属性对应的所述非相关度的统计数据作为待去重属性与第一目标属性的非相关度。
32.可选的,所述从待去重的属性组合中选取第二目标属性,还包括:
33.确定待去重属性与训练样本分类状态的相关度和/或待去重属性的方差;
34.根据待去重属性的所述属性差异度和/或所述非相关度,以及所述与训练样本分类状态的相关度和/或所述方差,确定所述第二目标属性。
35.可选的,所述从第一目标属性和第二目标属性中选取第三目标属性,包括:
36.针对第一目标属性和第二目标属性,根据所述属性向量,获取属性的所述属性差异度和/或属性与训练样本的分类状态之间的相关度;
37.根据所述属性差异度和/或所述属性与训练样本分类状态之间的相关度,从第一目标属性和第二目标属性中选取第三目标属性。
38.本技术还提供一种分类模型特征选取方法,包括:
39.获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;
40.根据多个训练样本在各个属性上的特征数据,形成各个属性的属性向量;
41.针对属性的两两组合,根据所述特征向量,确定属性在不同分类样本之间的属性差异度;
42.根据所述属性差异度,从属性组合中选取目标属性,作为分类模型的输入特征。
43.可选的,还包括:
44.确定特征与训练样本分类状态的相关度;
45.根据所述属性差异度和所述与训练样本分类状态的相关度,从属性组合中选取目标属性。
46.本技术还提供一种分类模型特征选取装置,包括:
47.训练样本获取单元,用于获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;
48.属性向量生成单元,用于根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量;
49.属性相关度确定单元,用于针对属性的两两组合,根据所述属性向量,确定任意两个属性之间的相关度;
50.第一选取单元,用于根据所述相关度,确定第一目标属性和待去重的属性组合;
51.第二选取单元,用于从待去重的属性组合中选取第二目标属性;
52.第三选取单元,用于从第一目标属性和第二目标属性中选取第三目标属性,作为分类模型的输入特征。
53.本技术还提供一种分类模型特征选取装置,包括:
54.训练样本获取单元,用于获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;
55.属性向量生成单元,用于根据多个训练样本在各个属性上的特征数据,形成各个属性的属性向量;
56.属性差异度确定单元,用于针对属性的两两组合,根据所述特征向量,确定属性在不同分类样本之间的属性差异度;
57.特征选取单元,用于根据所述属性差异度,从属性组合中选取目标属性,作为分类模型的输入特征。
58.本技术还提供一种电子设备,包括:
59.处理器和存储器;
60.存储器,用于存储实现根据上述分类模型特征选取方法的程序,该设备通电并通过所述处理器运行该方法的程序。
61.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
62.本技术还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
63.与现有技术相比,本技术具有以下优点:
64.本技术实施例提供的分类模型特征选取方法,通过获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量;针对属性的两两组合,根据所述属性向量,确定任意两个属性之间的相关度;根据所述相关度,确定第一目标属性和待去重的属性组合;从待去重的属性组合中选取第二目标属性;从第一目标属性和第二目标属性中选取第三目标属性,作为分类模型的输入特征。采用这种处理方式,使得先选取相关性较低的两两组合的属性(第一目标特征),再对相关性较高的两两组合的属性(待去重的属性组合),基于每个属性在不同分类样本之间的属性差异度、属性与第一目标属性的非相关性、属性与样本分类状态的相关性,自动过滤分类模型的输入特征,可有效去除无效、重复的特征,从而减少对分类模型稳定性、准确性的干扰,进而提升分类模型的稳定性和准确性。
65.本技术实施例提供的分类模型特征选取方法,通过获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量;针对属性的两两组合,根据所述属性向量,确定属性在不同分类样本
之间的属性差异度;根据所述属性差异度,从属性组合中选取目标属性,作为分类模型的输入特征。采用这种处理方式,使得基于训练样本的属性在不同分类样本之间的属性差异度分析,自动过滤分类模型的输入特征,可有效去除无效、重复的特征,从而减少对分类模型稳定性、准确性的干扰,进而提升分类模型的稳定性和准确性。
附图说明
66.图1本技术提供的分类模型特征选取方法的流程示意图;
67.图2本技术提供的分类模型特征选取方法的具体流程示意图;
68.图3本技术提供的分类模型特征选取方法的具体流程示意图;
69.图4本技术提供的分类模型特征选取方法的流程示意图。
具体实施方式
70.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
71.在本技术中,提供了分类模型特征选取方法和装置,以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
72.第一实施例
73.请参考图1,其为本技术的分类模型特征选取方法的实施例的流程示意图。在本实施例中,所述方法可包括如下步骤:
74.步骤s101:获取用于训练分类模型的多个训练样本的属性数据和分类标注数据。
75.所述分类模型是根据数据对象的多方面特征数据来预测数据对象的类别的机器学习模型。所述数据对象,可以是用户、商品、语音、文本等。所述数据对象的特征数据来源于数据对象的属性数据(又称为属性值)。在数据对象的所有属性数据中,一部分属性数据之间差异较大,且对数据对象的分类产生较为重要影响,另一部分属性数据与前一部分属性数据对数据对象分类的影响方式较为相似,采用本技术实施例提供的方法,可从数据对象的所有属性数据中自动筛选出前一部分属性数据,将这类属性数据称为数据对象的特征数据,将自动筛选出的特征数据作为分类模型的输入数据,通过分类模型输出数据对象的类别预测信息。
76.所述分类模型,可通过机器学习方式,根据多个训练样本的特征数据和分类标注数据学习得到。训练样本也是数据对象,本实施例的分类模型是有监督的机器学习模型,训练样本的数据包括数据对象的多个特征数据和分类标注数据。所述分类标注数据可由人工标注得到。根据分类标注数据,可以将训练样本分为不同的类别,如果只有两个分类,则可将训练样本分为正样本和负样本;如果有多个分类,则可将训练样本分为多个类别。所述分类模型,可以是基于神经网络的分类模型,也可以是采用其它结构的分类模型。
77.所述分类模型,包括但不限于小样本分类模型,即训练样本数量较少。例如,分类模型是一个用来预测用户是否会签约的模型,基于大约2万个样本训练分类模型。在这种情况下,数据对象为用户,数据对象的属性信息包括用户信息,如用户性别、年龄、受教育程度等。分类标注数据为用户是否签约。本实施例的训练样本数据如下表1所示:
[0078][0079]
表1、训练样本数据
[0080]
步骤s103:根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量。
[0081]
每个训练样本均包括多个属性数据(属性值),将多个训练样本的同一属性的数据构成该属性的属性向量,由此形成每个属性的属性向量。
[0082]
本步骤可形式化表达为:选取m个样本训练分类模型,每个样本均包含m个属性数据,将m个样本的同一属性的数据构成一个包括m个属性数据的属性向量,共形成m个属性向量。
[0083]
例如,要基于2万个用户样本来训练用户是否会签约的分类模型,执行本步骤的处理后,可得到性别属性:{0,1,1,1,1,0,

1},该向量包括2万个用户的性别值,男性用0表示,女性用1表示。此外,还可得到受教育程度等其它属性对应的属性向量,此处不再赘述。
[0084]
步骤s105:针对属性的两两组合,根据所述属性向量,确定任意两个属性之间的相关度。
[0085]
本步骤对训练样本的所有属性进行两两组合,对任意一组属性组合,根据两个属性的属性向量,计算两个属性之间的相关度,以衡量两个属性的相关性。
[0086]
所述相关度,可以是皮尔逊相关系数,也可以采用其它方式计算两个属性之间的相关度。
[0087]
在本实施例中,计算两个属性的属性向量之间的皮尔逊相关系数。皮尔逊相关系数是用于度量两个变量x和y之间的相关,其值介于-1与1之间。两个属性向量之间的皮尔逊相关系数为两个属性向量之间的协方差和标准差的商。
[0088]
皮尔逊相关系数可采用如下公式表示:
[0089][0090]
其中σx分别是对xi样本的标准分数、样本平均值和样本标准差。在本实施例中,x表示一个属性的属性向量,该属性向量的维数为训练样本的数量。
[0091]
步骤s107:根据所述相关度,确定第一目标属性和待去重的属性组合。
[0092]
本步骤根据任意两个属性之间的相关度,将属性的两两组合划分为高相关的属性组合和低相关的属性组合,将低相关的属性组合中的两个属性作为第一目标属性。例如,年龄和受教育程度这两个属性是低相关的属性,将这两个属性作为第一目标属性;年龄和出生日期这两个属性是高相关的属性,将这两个属性的组合作为待去重的属性组合。
[0093]
在一个示例中,高相关的属性组合可以是两个属性之间的相关度大于或者等于相关度阈值的属性组合,低相关的属性组合可以是两个属性之间的相关度小于相关度阈值的属性组合。其中相关度阈值可以根据应用需求设置。例如,将相关度阈值设置为50%,则如果两个属性之间的相关度达到50%,就表示这两个属性高度相关,需要进行去重处理;如果两个属性之间的相关度在50%以下,则表示两个属性不相关,将不相关的两个属性作为第一目标属性。
[0094]
在另一个示例中,步骤s107可采用如下方式实现:根据所述相关度,确定特征组合的相关度排名数据;根据所述排名数据和特征组合选取比例,选取第一目标特征。例如,设置高相关性数量占比p=5%,相关度排名阈值n=floor(m*(m-1)/2*p),floor为向下取整函数。假设有一百个属性,高相关性数量占比p=5%,则n=247,相关度排名在247之前的两两组合的属性就是高相关的属性组合,排名在247之后的两两组合的属性为低相关的属性组合。采用这种处理方式,可以按比例对属性相关性的高低进行划分,无论样本量有多大或者多小,都能够选取一定比例的属性组合进行后续去重处理;因此,可以有效平衡特征选取的计算量和准确性。
[0095]
在一个示例中,所述方法还可包括如下步骤:获取用户指定的相关度阈值或者高相关性数量占比。采用这种处理方式,可由用户指定相关参数,可以有效提升特征选取的灵活性。
[0096]
步骤s109:从所述待去重的属性组合中选取第二目标属性。
[0097]
本步骤对于相关度较高的属性组合(待去重的属性组合)中的两个属性进行对比,从每对属性组合中选取一个属性作为第二目标属性。
[0098]
如图2所示,在一个示例中,步骤s109可包括如下子步骤:
[0099]
步骤s109-1:确定待去重属性在不同分类样本之间的属性差异度和/或待去重属性与第一目标属性之间的非相关度。
[0100]
将待去重的属性组合中的属性称为待去重属性,本步骤可以确定待去重属性在不同分类样本之间的属性差异度,也可以确定待去重属性与第一目标属性之间的非相关度,还可以是同时确定待去重属性在不同分类样本之间的属性差异度和待去重属性与第一目标属性之间的非相关度。
[0101]
1)确定待去重属性的不同分类样本之间的属性差异度。
[0102]
待去重的属性组合包括两个属性(属性x和属性y),任意一个属性在不同分类样本之间的属性差异度,可以定义为:获取各个分类的样本对应的该属性的数据和;针对分类的两两组合,计算两个分类的属性数据和的差距;计算各种分类两两组合对应的属性数据和的差距的统计值,如平均值、最大值或者最小值等。一个属性的属性差异度越大,表示该属性对样本分类的影响力越大,越应该保留。
[0103]
在一个示例中,所述属性差异度可采用如下方式获取:根据属性数据对应的样本分类状态,获取属性在各类样本的属性数据总和;针对样本分类的两两组合,根据所述属性数据总和,确定两类样本之间的属性数据总和的差距;将多个分类的两两组合对应的所述差距的统计数据,作为所述属性差异度。
[0104]
在一个示例中,所述属性差异度可采用如下方式获取:对所述属性向量进行归一化处理;根据归一化的属性数据和属性数据对应的样本分类状态,获取属性在各类样本的
归一化属性数据总和;针对样本分类的两两组合,根据所述归一化属性数据总和,确定两类样本之间的属性数据总和的差值绝对值;将多个两两组合对应的所述差值绝对值的平均值,作为所述属性差异度。
[0105]
在实际应用中,一个属性组合中的两个属性的数据可能具有不同的数据量级,这样的两个属性数据之间没有直接的可对比性。为了使得不同数据之间具有可对比性,具体实施时,对需要去重的属性分别进行差异化计算,可先对属性的属性向量做归一化计算,归一化后的每个属性均包括m个归一化的属性数据,根据训练样本的分类状态对归一化后的属性数据分别求和,再对多种分类的两两组合,计算对应的所述属性数据的和的差值,最后对多个分类两两组合对应的差值的绝对值求平均。
[0106]
例如,属性x和属性y是两个需要去重的属性,对应的属性向量分别为[x1,x2...xn],[y1,y2...yn];将这两个属性向量进行归一化处理后,分别为[x1/sum(x),x2/sum(x)...xn/sum(x)],[y1/sum(y),y2/sum(y)...yn/sum(y)];根据每个训练样本的分类状态(如第一类、第二类、第三类等),将这两个属性向量进行拆分,假设x1~xm、y1~ym为第一类(如签约),xm 1~xn、ym 1~yn为第二类(如不签约),则属性x对应的第一类的和为sum(x1/sum(x)~xm/sum(x)),第二类的和为sum(xm 1/sum(x)~xn/sum(x));属性y对应的第一类的和为sum(y1/sum(y)~ym/sum(y)),第二类的和为sum(ym 1/sum(y)~yn/sum(y));第一类对应的差值绝对值为abs(sum(x1/sum(x)~xm/sum(x))-sum(xm 1/sum(x)~xn/sum(x))),第二类对应的差值绝对值为abs(sum(y1/sum(y)~ym/sum(y))-sum(ym 1/sum(y)~yn/sum(y)))。具体实施时,还可以有第三类及其对应的差值绝对值。
[0107]
2)确定待去重属性与第一目标属性之间的非相关度。
[0108]
所述非相关度,是指待去重属性与第一目标属性之间的不相关的程度。所述非相关度,可采用如下方式获取:确定待去重属性与各个第一目标属性之间的非相关度;将各个第一目标属性对应的所述非相关度的统计数据作为待去重属性与第一目标属性的非相关度。
[0109]
在本实施例中,对需要去重的属性,分别计算其与第一目标属性(也称为保留特征)的相关度,分别用1减去相关性的绝对值之后,对绝对值(两个属性之间的非相关度)求和取平均(一种统计数据,也可以是最大值或者最小值等),作为该属性与保留属性的平均非相关度。在计算两个属性之间的相关度是,可采用皮尔逊相关系数。
[0110]
例如,属性x和属性y是两个需要去重的属性,这两个与第一目标属性a、b、c之间的相关度分别为[pxa,pxb,pxc],[pya,pyb,pyc],其中pxa表示属性x和属性a之间的相关度,pxb表示属性x和属性b之间的相关度,其余不再赘述。在获得待去重属性分别与第一目标属性之间的相关度后,用1减去相关度的绝对值为:[1-abs(pxa),1-abs(pxb),1-abs(pxc)],[1-abs(pya),1-abs(pyb),1-abs(pyc)];再求和取平均为:对于属性x,对应的差值平均是(1-abs(pxa) 1-abs(pxb) 1-abs(pxc))/3,表示属性x与保留属性a、b、c的平均非相关度;对于属性y,对应的差值平均是(1-abs(pya) 1-abs(pyb) 1-abs(pyc))/3,表示属性y与保留属性a、b、c的平均非相关度。
[0111]
步骤s109-3:根据待去重属性的所述属性差异度和/或所述非相关度,从所述待去重的属性组合中选取一个属性,作为第二目标属性。
[0112]
本步骤可根据所述属性差异度来选取第二目标属性,也可以根据所述非相关度来
选取第二目标属性,还可以是同时根据所述属性差异度和所述非相关度来选取第二目标属性。
[0113]
具体实施时,步骤s1093可采用如下方式实现:根据待去重属性的所述属性差异度和/或所述非相关度,确定待去重属性的得分;根据所述得分,从所述待去重的属性组合中选取一个属性,作为第二目标属性。在计算得分时,可以对所述属性差异度和所述非相关度设置不同的权重,这样待去重属性的得分为加权平均值或者加权求和。在本实施例中,选取得分高的属性作为第二目标属性,即选取在不同分类样本之间的属性差异度更大、且与第一目标属性之间的非相关度越高的属性。
[0114]
在一个示例中,步骤s109还可包括如下子步骤:
[0115]
步骤s109-2:确定待去重属性与训练样本分类状态的相关度和/或待去重属性的方差。
[0116]
1)确定待去重属性与训练样本的分类状态之间的相关度。
[0117]
在本实施例中,所述待去重属性与训练样本的分类状态之间的相关度,可采用如下方式计算:确定待去重属性的属性向量和样本分类向量之间的相关度。所述样本分类向量包括各个训练样本的分类标注数据。
[0118]
具体实施时,可将m个训练样本的分类状态与需要去重的属性进行相关度计算,取计算结果的绝对值,可采用皮尔逊相关系数。例如,其中属性x的属性向量为{x1,x2...xn},分类状态的向量为{y1,y2...yn},则属性向量与分类向量之间的相关度可采用皮尔逊相关系数来计算:
[0119][0120]
其中x表示一个属性的属性向量,y表示样本分类向量。
[0121]
2)确定待去重属性的方差。
[0122]
具体实施时,可采用现有方式计算待去重属性的方差,此处不再赘述。
[0123]
相应的,步骤s109-3可采用如下方式实现:根据待去重属性的所述属性差异度和/或所述非相关度,以及所述与训练样本分类状态的相关度和/或所述方差,确定所述第二目标属性。
[0124]
在本实施例中,根据所述属性差异度、所述非相关度、所述与训练样本分类状态的相关度和所述方差,确定待去重属性的得分。对需要去重的属性的差异化计算值(所述属性差异度)、与保留属性(第一目标属性)的平均非相关度(所述非相关度)、与分类状态的相关度和归一化后的方差进行加权平均计算,得到每个需要去重的属性的加权平均值,按照重要性从大到小的顺序:所述属性差异度,所述非相关度,与分类状态的相关度,可使用45%,35%,20%的权重分布。
[0125]
例如,属性x和属性y是两个需要去重的属性;属性x的属性差异度为50,属性x对应的平均非相关度为80,属性x与分类状态的相关度为15,属性x的归一化后的方差为10;属性y的属性差异度为80,属性x对应的平均非相关度为75,属性x与分类状态的相关度为50,属
性x的归一化后的方差为20;则属性x的加权平均值小于属性y的加权平均值,选取属性y作为第二目标属性,滤除属性x。
[0126]
步骤s111:从第一目标属性和第二目标属性中选取第三目标属性,作为分类模型的输入特征。
[0127]
本步骤将第一目标属性和第二目标属性结合,再从中选取第三目标特征,作为分类模型的输入特征。
[0128]
在一个示例中,步骤s111可包括如下子步骤:
[0129]
步骤s111-1:针对第一目标属性和第二目标属性,根据所述属性向量,获取属性的所述属性差异度和/或属性与训练样本的分类状态之间的相关度。
[0130]
其中第二目标属性的所述属性差异度和所述与训练样本的分类状态之间的相关度,在上述步骤s109-1和s109-2中已经获得,采用相同的处理方式可获得第一目标属性的所述属性差异度和所述与训练样本的分类状态之间的相关度,此处不再赘述。
[0131]
本步骤可获取各属性的属性差异度,或者获取各属性与训练样本的分类状态之间的相关度,还可以是同时获取各属性的属性差异度和所述与训练样本的分类状态之间的相关度。
[0132]
步骤s111-3:根据所述属性差异度和/或所述属性与训练样本分类状态之间的相关度,从第一目标属性和第二目标属性中选取第三目标属性。
[0133]
本步骤可根据各属性的属性差异度来选取第三目标属性,或者根据各属性与训练样本的分类状态之间的相关度来选取第三目标属性,还可以是同时根据各属性的属性差异度和所述与训练样本的分类状态之间的相关度来选取第三目标属性。
[0134]
在一个示例中,步骤s111-3可包括如下子步骤:
[0135]
步骤s111-3-1:获取属性差异度排名数据,并根据属性差异度排名数据和属性选取比例,确定属性差异度阈值。
[0136]
本步骤根据第一目标属性和第二目标属性中的所有属性的属性差异度,进行属性差异度阈值筛选;属性差异度阈值可取所有属性的前90%(属性选取比例)的值。例如,将所有属性的属性差异度从大到小排列,取前90%的属性。
[0137]
步骤s111-3-3:获取所述与训练样本分类状态之间的相关度的排名数据,并根据所述与训练样本分类状态之间的相关度的排名数据和属性选取比例,确定所述与训练样本分类状态之间的相关度的阈值。
[0138]
步骤s111-3-5:根据属性差异度阈值和所述与训练样本分类状态之间的相关度的阈值,从第一目标属性和第二目标属性中选取第三目标属性。
[0139]
例如,去除属性差异度和所述与训练样本分类状态之间的相关度均低于对应的阈值的属性,其余属性为三目标属性。
[0140]
在本实施例中,将第三目标属性的属性数据及对应样本的分类状态带入小样本分类模型进行训练,使用训练后的小样本分类模型对待分类数据的分类状态进行预测。
[0141]
从上述实施例可见,本技术实施例提供的分类模型特征选取方法,通过获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量;针对属性的两两组合,根据所述属性向量,确定任意两个属性之间的相关度;根据所述相关度,确定第一目标属性和待去重的属性组合;从
待去重的属性组合中选取第二目标属性;从第一目标属性和第二目标属性中选取第三目标属性,作为分类模型的输入特征。采用这种处理方式,使得先选取相关性较低的两两组合的属性(第一目标特征),再对相关性较高的两两组合的属性(待去重的属性组合),基于每个属性在不同分类样本之间的属性差异度、属性与第一目标属性的非相关性、属性与样本分类状态的相关性,自动过滤分类模型的输入特征,可有效去除无效、重复的特征,从而减少对分类模型稳定性、准确性的干扰,进而提升分类模型的稳定性和准确性。
[0142]
第二实施例
[0143]
在上述的实施例中,提供了一种特征选取方法,与之相对应的,本技术还提供一种特征选取装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
[0144]
本技术提供的一种特征选取装置包括:
[0145]
训练样本获取单元,用于获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;
[0146]
属性向量生成单元,用于根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量;
[0147]
属性相关度确定单元,用于针对属性的两两组合,根据所述属性向量,确定任意两个属性之间的相关度;
[0148]
第一选取单元,用于根据所述相关度,确定第一目标属性和待去重的属性组合;
[0149]
第二选取单元,用于从待去重的属性组合中选取第二目标属性;
[0150]
第三选取单元,用于从第一目标属性和第二目标属性中选取第三目标属性,作为分类模型的输入特征。
[0151]
可选的,所述第一选取单元,具体用于将所述相关度小于相关度阈值的属性组合中的属性作为第一目标属性;将所述相关度大于或者等于相关度阈值的属性组合作为待去重的属性组合。
[0152]
可选的,所述第一选取单元,具体用于根据所述相关度,确定属性组合的相关度排名数据;根据所述排名数据和属性组合选取比例,选取第一目标属性。
[0153]
可选的,所述第二选取单元,具体用于确定待去重属性在不同分类样本之间的属性差异度和/或待去重属性与第一目标属性之间的非相关度;根据待去重属性的所述属性差异度和/或所述非相关度,从所述待去重的属性组合中选取一个属性,作为第二目标属性。
[0154]
可选的,所述属性差异度采用如下方式获取:
[0155]
根据属性数据对应的样本分类状态,获取属性在各类样本的属性数据总和;
[0156]
针对样本分类的两两组合,根据所述属性数据总和,确定两类样本之间的属性数据总和的差距;
[0157]
将多个分类的两两组合对应的所述差距的统计数据,作为所述属性差异度。
[0158]
可选的,所述非相关度采用如下方式获取:
[0159]
确定待去重属性与各个第一目标属性之间的非相关度;
[0160]
将各个第一目标属性对应的所述非相关度的统计数据作为待去重属性与第一目标属性的非相关度。
[0161]
可选的,所述第二选取单元,还用于确定待去重属性与训练样本分类状态的相关度和/或待去重属性的方差;根据待去重属性的所述属性差异度和/或所述非相关度,以及所述与训练样本分类状态的相关度和/或所述方差,确定所述第二目标属性。
[0162]
可选的,所述第三选取单元,具体用于针对第一目标属性和第二目标属性,根据所述属性向量,获取属性的所述属性差异度和/或属性与训练样本的分类状态之间的相关度;根据所述属性差异度和/或所述属性与训练样本分类状态之间的相关度,从第一目标属性和第二目标属性中选取第三目标属性。
[0163]
第三实施例
[0164]
在上述的实施例中,提供了一种特征选取方法,与之相对应的,本技术还提供一种特征选取方法。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
[0165]
本技术提供的一种特征选取方法包括:
[0166]
步骤s401:获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;
[0167]
步骤s403:根据多个训练样本在各个属性上的特征数据,形成各个属性的属性向量;
[0168]
步骤s405:针对属性的两两组合,根据所述特征向量,确定属性在不同分类样本之间的属性差异度;
[0169]
步骤s407:根据所述属性差异度,从属性组合中选取目标属性,作为分类模型的输入特征。
[0170]
在一个示例中,所述方法还可包括如下步骤:
[0171]
步骤s406:确定特征与训练样本分类状态的相关度;
[0172]
相应的,步骤s405可采用如下方式实现:根据所述属性差异度和所述与训练样本分类状态的相关度,从属性组合中选取目标属性。
[0173]
从上述实施例可见,本技术实施例提供的分类模型特征选取方法,通过获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;根据多个训练样本在各个属性上的属性数据,形成各个属性的属性向量;针对属性的两两组合,根据所述属性向量,确定属性在不同分类样本之间的属性差异度;根据所述属性差异度,从属性组合中选取目标属性,作为分类模型的输入特征。采用这种处理方式,使得基于训练样本的属性在不同分类样本之间的属性差异度分析,自动过滤分类模型的输入特征,可有效去除无效、重复的特征,从而减少对分类模型稳定性、准确性的干扰,进而提升分类模型的稳定性和准确性。
[0174]
第四实施例
[0175]
在上述的实施例中,提供了一种特征选取方法,与之相对应的,本技术还提供一种特征选取装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
[0176]
本技术提供的一种特征选取装置包括:
[0177]
训练样本获取单元,用于获取用于训练分类模型的多个训练样本的属性数据和分类标注数据;
[0178]
属性向量生成单元,用于根据多个训练样本在各个属性上的特征数据,形成各个属性的属性向量;
[0179]
属性差异度确定单元,用于针对属性的两两组合,根据所述特征向量,确定属性在不同分类样本之间的属性差异度;
[0180]
特征选取单元,用于根据所述属性差异度,从属性组合中选取目标属性,作为分类模型的输入特征。
[0181]
可选的,所述装置还包括:
[0182]
相关度确定单元,用于确定特征与训练样本分类状态的相关度;
[0183]
所述特征选取单元,具体用于根据所述属性差异度和所述与训练样本分类状态的相关度,从属性组合中选取目标属性。
[0184]
第五实施例
[0185]
本技术还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
[0186]
本实施例的一种电子设备,该电子设备包括:处理器和存储器;存储器,用于存储实现特征选取方法的程序,该设备通电并通过所述处理器运行该方法的程序。
[0187]
本技术虽然以较佳实施例公开如上,但其并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
[0188]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0189]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0190]
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0191]
2、本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献