一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于生成模型的方法和装置与流程

2021-12-14 21:24:00 来源:中国专利 TAG:


1.本公开的实施例涉及计算机技术领域,具体涉及用于生成模型的方法和装置。


背景技术:

2.现有的模型训练过程中,特征量巨大,给模型训练造成困难。比较典型的情况,例如在电商用户性别标签预测场景中,模型特征包含:用户属性,用户级别,用户下单的商品属性相关特征,以及用户下单,加购,点击,浏览等用户行为特征,特别是行为特征,尤其稀疏,每个用户在不同的品类下仅购买,点击,加购了几个商品,其余的特征都为0,这样导致了特征量巨大的问题,在电商场景下可达到数千万甚至上亿级别,给模型训练造成困难,急需进行特征筛选。


技术实现要素:

3.本公开的实施例提出了用于生成模型的方法和装置。
4.第一方面,本公开的实施例提供了一种用于生成模型的方法,包括:获取原始的特征集;计算特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列;从特征序列中确定出评估指标的突变点作为评估指标阈值;从特征序列中筛选出评估指标大于评估指标阈值的特征作为用于模型训练的特征;根据所述用于模型训练的特征获取训练样本集;使用所述训练样本集进行模型训练,得到训练完成的模型。
5.在一些实施例中,从特征序列中确定出评估指标的突变点作为评估指标阈值,包括:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与前一个特征之间的斜率作为每个特征对应的斜率;以排序后每个特征的下标索引作为自变量,对应的斜率作为因变量,进行多项式函数拟合,得到所有特征斜率的拟合曲线;分析出拟合曲线的斜率突变点,并将斜率突变点对应的评估指标作为评估指标阈值。
6.在一些实施例中,从特征序列中确定出评估指标的突变点作为评估指标阈值,包括:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与其它特征之间的斜率;从特征序列中找到一个目标特征,使得通过目标特征将特征序列划分成第一区间和第二区间,第一区间中各特征之间的平均斜率与第二区间中各特征之间的平均斜率之比最大;将目标特征对应的评估指标确定为评估指标阈值。
7.在一些实施例中,该方法还包括:根据评估指标对每个特征进行显著性检验。
8.在一些实施例中,所述模型为性别预测模型,模型的输入为用户的特征,输出为用户的性别。
9.在一些实施例中,该方法还包括:对训练完成的模型进行性能评估,得到评估结果;如果评估结果达不到目标期望,则重新确定评估指标阈值。
10.在一些实施例中,评估指标包括卡方值或信息熵。
11.第二方面,本公开的实施例提供了一种用于生成模型的装置,包括:获取单元,被配置成获取原始的特征集;计算单元,被配置成计算特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列;确定单元,被配置成从特征序列中确定出评估指标的突变点作为评估指标阈值;筛选单元,被配置成从特征序列中筛选出评估指标大于评估指标阈值的特征作为用于模型训练的特征;训练单元,被配置成根据所述用于模型训练的特征获取训练样本集,使用训练样本集进行模型训练,得到训练完成的模型。
12.在一些实施例中,确定单元进一步被配置成:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与前一个特征之间的斜率作为每个特征对应的斜率;以排序后每个特征的下标索引作为自变量,对应的斜率作为因变量,进行多项式函数拟合,得到所有特征斜率的拟合曲线;分析出拟合曲线的斜率突变点,并将斜率突变点对应的评估指标作为评估指标阈值。
13.在一些实施例中,确定单元进一步被配置成:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与其它特征之间的斜率;从特征序列中找到一个目标特征,使得通过目标特征将特征序列划分成第一区间和第二区间,第一区间中各特征之间的平均斜率与第二区间中各特征之间的平均斜率之比最大;将目标特征对应的评估指标确定为评估指标阈值。
14.在一些实施例中,该装置还包括检验单元,被配置成:根据评估指标对每个特征进行显著性检验。
15.在一些实施例中,所述模型为性别预测模型,模型的输入为用户的特征,输出为用户的性别。
16.在一些实施例中,该装置还包括评估单元,被配置成:对训练完成的模型进行性能评估,得到评估结果;如果评估结果达不到目标期望,则重新确定评估指标阈值。
17.在一些实施例中,评估指标包括卡方值或信息熵。
18.第三方面,本公开的实施例提供了一种用于生成模型的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一项的方法。
19.第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一项的方法。
20.本公开的实施例提供的用于生成模型的方法和装置,通过计算出特征的评估指标,再找到评估指标的突变点,进行特征筛选,提取了特征筛选的准确性和效率,从而可以减少模型训练时间,即使用较少的特征进行训练仍能得到精度高的模型。
附图说明
21.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
22.图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
23.图2是根据本公开的用于生成模型的方法的一个实施例的流程图;
24.图3a

3c是根据本公开的用于生成模型的方法的评估指标的突变点的示意图;
25.图4是根据本公开的用于生成模型的方法的又一个实施例的流程图;
26.图5是根据本公开的用于生成模型的装置的一个实施例的结构示意图;
27.图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
28.下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
29.需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
30.图1示出了可以应用本技术实施例的用于生成模型的方法和装置的示例性系统架构100。
31.如图1所示,系统架构100可以包括终端101、102,网络103、数据库服务器104和服务器105。网络103用以在终端101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
32.用户110可以使用终端101、102通过网络103与服务器105进行交互,以接收或发送消息等。终端101、102上可以安装有各种客户端应用,例如模型训练类应用、购物类应用、支付类应用、网页浏览器和即时通讯工具等。
33.这里的终端101、102可以是硬件,也可以是软件。当终端101、102为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、膝上型便携计算机和台式计算机等等。当终端101、102为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
34.数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有样本集。样本集中包含有大量的样本。其中,每个样本可以包括各种特征。这样,用户110也可以通过终端101、102,从数据库服务器104所存储的样本集中选取样本的特征。
35.服务器105也可以是提供各种服务的服务器,例如对终端101、102上显示的各种应用提供支持的后台服务器。后台服务器可以利用终端101、102发送的样本集中的样本的特征,对初始模型进行训练,并可以将训练结果(如生成的购物者性别识别模型)发送给终端101、102。这样,用户可以应用生成的模型进行性别检测。
36.这里的数据库服务器104和服务器105同样可以是硬件,也可以是软件。当它们为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当它们为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
37.需要说明的是,本技术实施例所提供的用于生成模型的方法一般由服务器105执行。相应地,用于生成模型的装置一般也设置于服务器105中。
38.需要指出的是,在服务器105可以实现数据库服务器104的相关功能的情况下,系统架构100中可以不设置数据库服务器104。
39.应该理解,图1中的终端、网络、数据库服务器和服务器的数目仅仅是示意性的。根
据实现需要,可以具有任意数目的终端、网络、数据库服务器和服务器。
40.继续参考图2,示出了根据本公开的用于生成模型的方法的一个实施例的流程200。该用于生成模型的方法,包括以下步骤:
41.步骤201,获取原始的特征集。
42.在本实施例中,用于生成模型的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从数据库服务器获取原始的特征集。不同用途的模型涉及的原始的特征集不同,以电商用户性别识别模型为例,提取电商用户性别相关特征及对特征记录进行打标得到模型训练数据,提取的原始的特征集涵盖如下:
43.1、用户相关特征:
44.√用户属性
45.√用户级别
46.√用户年龄
47.√用户品类偏好
48.√用户价值得分
49....
50.2、用户商品相关特征:
51.√用户下单的商品颜色
52.√用户下单的商品销量
53.√用户下单的商品热销程度
54.√用户下单的商品体重
55.√用户下单的商品大小
56.√用户下单的商品点击数
57....
58.3、用户行为相关的交叉特征:
59.√用户在所有的商品,多级品类,品牌的下单,加购,点击,浏览等用户行为特征等,特征的数量同商品,品类,品牌的数量,可达到上千万;
60.对数据进行打标数据,标记出用户的性别。如下表1所示:
[0061][0062]
表1
[0063]
步骤202,计算特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列。
[0064]
在本实施例中,评估指标可以是卡方值或信息熵等。可参考现有技术中filter方法使用的评估指标及其计算方法。然后将特征按评估指标由大到小的顺序排序,得到的特征序列的下标索引是由小到大的顺序排序的,即,评估指标越大的特征其下标索引越小。
[0065]
表1中数据计算出的卡方值如表2所示,排序结果如表3所示。
[0066][0067]
表2
[0068][0069]
表3
[0070]
卡方计算对所有展开的商品,品类,品牌特征进行筛选,因为这部分特征量巨大,无用特征太多,计算方法如下示例:
[0071]
下表中,训练集数据对应分别是用户名称,多个商品特征,以及性别标识(1:男性,0:女性):
[0072]
用户剃须刀笔记本口红性别张m2101汪h1001李y0140...............
[0073]
表4
[0074]
首先计算每个特征字段与性别对应的用户数:
[0075][0076][0077]
表5
[0078]
再根据卡方计算公式进行计算(其中,a,b,c,d,n即表中对应字母):
[0079][0080]
于是得到了每个商品特征的卡方值。
[0081]
其他评估指标的计算方法:
[0082]
例如,信息增益法,信息增益表示训练集中类与特征的互信息,与卡方计算过程略不同,是直接对训练集二维表进行计算,计算过程如下:
[0083]
(1)输入训练数据集
[0084]
(2)计算数据集d的经验熵:(其中c是对应的类别)
[0085]
(3)计算特征a对数据集d的经验熵条件熵h(d|a)
[0086]
(其中k是类别数,n是数据集记录数)
[0087]
(4)计算信息增益:g(d,a)=h(d)

h(d|a)
[0088]
(5)输出特征a对训练数据集d的信息增益g(d,a)
[0089]
步骤203,从特征序列中确定出评估指标的突变点作为评估指标阈值。
[0090]
在本实施例中,可直接将评估指标作为因变量,将排序后每个特征的下标索引作为自变量,进行多项式函数拟合,得到评估指标的曲线,然后通过数学方法求解评估指标的突变点。或者将求解评估指标的突变点转换为求解斜率的突变点。因为曲线开始加速下降,到某个点以后突然减缓速度下降而逐渐趋于平缓。该转折点即为斜率变点。
[0091]
在本实施例的一些可选的实现方式中,从所述特征序列中确定出评估指标的突变点作为评估指标阈值,包括:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与其它特征之间的斜率;从所述特征序列中找到一个目标特征,使得通过所述目标特征将所述特征序列划分成第一区间和第二区间,所述第一区间中各特征之间的平均斜率与所述第二区间中各特征之间的平均斜率之比最大;将所述目标特征对应的评估指标确定为评估指标阈值。
[0092]
用两点线段的斜率表征类别区分度的下降趋势:
[0093][0094]
表示区间的[i,i n]的类别区分度的平均变化率,该参数描述了某一区间内类别区分度的总体变化趋势。
[0095]
可采用以下公式计算得到斜率变点:
[0096][0097]
表示第1个点到第i个点的斜率,即id为{1,2,...,i}的平均变化率;表示第i个点到第i 1个点的斜率,即id为{i,i 1}的平均斜率。
[0098]
该方法求解得到的是局部突变点。
[0099]
在本实施例的一些可选的实现方式中,从特征序列中确定出评估指标的突变点作为评估指标阈值,包括:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与前一个特征之间的斜率作为每个特征对应的斜率;以排序后每个特征的下标索引作为自变量,对应的斜率作为因变量,进行多项式函数拟合,得到所有特征斜率的拟合曲线;分析出拟合曲线的斜率突变点,并将斜率突变点对应的评估指标作为评估指标阈值。
[0100]
首先,要计算斜率。降序后,计算每个特征与前一个特征在坐标图中构成的线段的斜率,作为当前特征对应的斜率。
[0101]
计算公式如下:
[0102][0103]
其中,x
i
表示当前的特征的下标索引,y
i
表示当前的特征的评估指标,x
i
‑1表示前一个特征的下标索引,y
i
‑1表示前一个特征的评估指标。对于第一个特征,由于没有前一个特征,因此第一个特征对应的斜率为一个超大值。
[0104]
计算出的斜率如表6所示:
[0105][0106]
表6
[0107]
然后,以排序后每个特征的下标索引作为自变量,对应的斜率作为因变量,进行多项式函数拟合,得到所有特征斜率拟合函数f(x)。拟合可以利用随机梯度下降等优化算法取得多项式函数。
[0108]
运用本发明所提出的全局突变点分析方法,计算得到卡方的阈值,具体公式如下:
[0109][0110]
其中,max:表示所有特征按照评估指标排序后第一个特征对应的下标索引,min:表示所有特征按照评估指标排序后最后一个特征对应的下标索引,t表示待求的突变点。
[0111]
【公式推导过程】:
[0112]
拟合曲线,得到了该函数的近似函数表示,假设为f(x);
[0113]
求全局突变点,问题转化为求函数中的某点到第一点间以及该点到最后一个点间的平均斜率,令前者表示为:afore_fun,后者表示为:after_fun。由于是连续函数,求某范围内的平均斜率可以转用积分求法:
[0114][0115][0116]
最终目标=afore_fun/after_fun
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0117][0118]
于是得到了目标计算公式:
[0119][0120]
其中,t表示最终全局突变点对应的特征id及评估指标值,max:表示所有特征按照评估指标排序后第一个特征对应的下标索引,min:表示所有特征按照评估指标排序后最后一个特征对应的下标索引,t表示待求的突变点,f(x)表示评估指标拟合函数。
[0121]
数据分布如图3a所示,拟合函数图如图3b所示,对应于表6。其中,横坐标为特征的索引,横坐标1、2、3...依次代表的是特征的名称item_ord2,item_ord3,item_ord4...。纵坐标代表斜率。
[0122]
拟合函数为:
[0123]
f(x)=0.67x^5 0.82x^4

0.7x^3 0.2x^2

0.004x

0.0046967953
[0124]
最后,进行阈值计算:
[0125][0126]
下标为7对应的卡方值为4。
[0127]
如果采用其它评估指标也是可行的,结果如图3c所示。
[0128]
该方法能够在计算效率高且占用资源小的前提下得到曲线的全局突变点。
[0129]
步骤204,从特征序列中筛选出评估指标大于评估指标阈值的特征作为用于模型训练的特征。
[0130]
在本实施例中,根据上步骤中得到的卡方阈值,从卡方排序表中提取大于卡方阈值的特征如表5所示:
[0131][0132]
表7
[0133]
步骤205,根据用于模型训练的特征获取训练样本集。
[0134]
在本实施例中,例如选择出的特征包括用户属性,用户级别,用户下单的商品属性相关特征,以及用户下单,加购,点击,浏览。构造的样本集中每个样本都包括步骤204所选择出的特征。并且样本中还包括具备这些特征的类别标签(例如,在性别预测模型中,0代表男,1代表女)。
[0135]
步骤206,使用训练样本集进行模型训练,得到训练完成的模型。
[0136]
在本实施例中,将训练样本的特征作为输入,类别标签作为期望输出,训练神经网络模型,该模型可根据输入的特征进行分类。对于性别预测模型,输入用户的特征(例如用户相关特征、用户商品相关特征、用户行为相关的交叉特征等),得到的预测结果为用户的性别,将预测的性别与期望输出进行比较,计算损失值,如果损失值大于预定阈值则调整模型的网络参数,继续进行训练。训练过程为现有技术,在此不再赘述。
[0137]
本公开的上述实施例提供的方法,提供一种全局突变点统计分析方法。通过分析出全局突变点找到合格的阈值进行特征筛选。解决了现有技术中filter算法中特征评估指标阈值设定只能通过定性方式设定而导致算法稳定性差的问题。
[0138]
在本实施例的一些可选的实现方式中,该方法还包括:根据评估指标对每个特征进行显著性检验(如p

value等)。
[0139]
进一步参考图4,其示出了用于生成模型的方法的又一个实施例的流程400。该用于生成模型的方法的流程400,包括以下步骤:
[0140]
步骤401,获取原始的特征集。
[0141]
步骤402,计算特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列。
[0142]
步骤403,从特征序列中确定出评估指标的突变点作为评估指标阈值。
[0143]
步骤404,从特征序列中筛选出评估指标大于评估指标阈值的特征作为用于模型训练的特征。
[0144]
步骤401

404与步骤201

204基本相同,因此不再赘述。
[0145]
步骤405,根据所选择的特征获取训练样本集。
[0146]
在本实施例中,所选择的特征即为步骤404得到的用于模型训练的特征。例如选择出的特征包括用户属性,用户级别,用户下单的商品属性相关特征,以及用户下单,加购,点
击,浏览。构造的样本集中每个样本都包括步骤404所选择出的特征。并且样本中还包括具备这些特征的类别标签(例如,在性别预测模型中,0代表男,1代表女)。
[0147]
步骤406,使用训练样本集进行模型训练,得到训练完成的模型。
[0148]
在本实施例中,将训练样本的特征作为输入,类别标签作为期望输出,训练神经网络模型,该模型可根据输入的特征进行分类。对于性别预测模型,输入用户的特征,得到的预测结果为用户的性别,将预测的性别与期望输出进行比较,计算损失值,如果损失值大于预定阈值则调整模型的网络参数,继续进行训练。训练过程为现有技术,在此不再赘述。
[0149]
步骤407,对训练完成的模型进行性能评估,得到评估结果。
[0150]
在本实施例中,可通过现有技术常用技术手段评估模型的性能,例如,通过验证集进行模型验证,得到召回率、准确率等评估结果。
[0151]
步骤408,如果评估结果达不到目标期望,则重新确定评估指标阈值。
[0152]
在本实施例中,目标期望可包括多项指标都达到预定阈值,例如,召回率达到80%以上,准确率达到80%以上等。如果评估结果达不到目标期望,则说明模型的性能不达标,可能是由于评估指标阈值选择的不对。可重新执行步骤403,得到新的评估指标阈值,然后重新选择评估指标,重新根据新的评估指标选择样本来重新训练模型。步骤403

408可重复执行,直到找到合适的评估阈值,训练出评估结果达到目标期望的模型。
[0153]
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于生成模型的方法的流程400体现了对模型进行评估的步骤。由此,本实施例描述的方案可以根据评估结果重新筛选特征,从而提高模型的准确性。
[0154]
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于生成模型的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0155]
如图5所示,本实施例的用于生成模型的装置500包括:获取单元501、计算单元502、确定单元503、筛选单元504、训练单元505。其中,获取单元501,被配置成获取原始的特征集;计算单元502,被配置成计算所述特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列;确定单元503,被配置成从所述特征序列中确定出评估指标的突变点作为评估指标阈值;筛选单元504,被配置成从所述特征序列中筛选出评估指标大于所述评估指标阈值的特征作为用于模型训练的特征;训练单元505,被配置成:根据用于模型训练的特征获取训练样本集;使用训练样本集进行模型训练,得到训练完成的模型。
[0156]
在本实施例中,用于生成模型的装置500的获取单元501、计算单元502、确定单元503、筛选单元504、训练单元505的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204、步骤205、步骤206。
[0157]
在本实施例的一些可选的实现方式中,确定单元503进一步被配置成:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与前一个特征之间的斜率作为每个特征对应的斜率;以排序后每个特征的下标索引作为自变量,对应的斜率作为因变量,进行多项式函数拟合,得到所有特征斜率的拟合曲线;分析出拟合曲线的斜率突变点,并将斜率突变点对应的评估指标作为评估指标阈值。
[0158]
在本实施例的一些可选的实现方式中,确定单元503进一步被配置成:将排序后每个特征的下标索引作为横坐标,将每个特征的评估指标作为纵坐标确定出每个特征在坐标系中的位置,计算每个特征与其它特征之间的斜率;从特征序列中找到一个目标特征,使得通过目标特征将特征序列划分成第一区间和第二区间,第一区间中各特征之间的平均斜率与第二区间中各特征之间的平均斜率之比最大;将目标特征对应的评估指标确定为评估指标阈值。
[0159]
在本实施例的一些可选的实现方式中,该装置还包括检验单元(附图中未示出),被配置成:根据评估指标对每个特征进行显著性检验。
[0160]
在本实施例的一些可选的实现方式中,所述模型为性别预测模型,模型的输入为用户的特征,输出为用户的性别。
[0161]
在本实施例的一些可选的实现方式中,该装置还包括评估单元(附图中未示出),被配置成:对训练完成的模型进行性能评估,得到评估结果;如果评估结果达不到目标期望,则重新确定评估指标阈值。
[0162]
在一些实施例中,评估指标包括卡方值或信息熵。
[0163]
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器)600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
[0164]
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom 602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0165]
通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
[0166]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从rom 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器
(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0167]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取原始的特征集;计算特征集中每个特征的评估指标,并将特征按评估指标由大到小的顺序排序,得到特征序列;从特征序列中确定出评估指标的突变点作为评估指标阈值;从特征序列中筛选出评估指标大于评估指标阈值的特征作为用于模型训练的特征;根据所述用于模型训练的特征获取训练样本集;使用所述训练样本集进行模型训练,得到训练完成的模型。
[0168]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0169]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0170]
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、计算单元、确定单元、筛选单元、训练单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取原始的特征集的单元”。
[0171]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献