一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户类型预测模型训练方法、资源分配方法、介质及装置与流程

2022-02-22 03:10:12 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,尤其涉及用户类型预测模型训练方法、资源分配方法、介质及装置。


背景技术:

2.相关技术中,为避免用户成为不稳定因素,社交平台可以采用为用户分配电子资源的方式以提高用户的稳定性。
3.申请人在研究本发明创造的过程中发现,社交平台在为用户分配电子资源的过程中,并未结合用户需求为用户分配电子资源,导致分配的电子资源并不匹配用户需求,用户的稳定性并未得到明显提高。如何分配与用户需求匹配的电子资源,是本领域技术人员需要解决的问题。


技术实现要素:

4.本公开提供一种电子资源分配策略确定方法、装置、服务器、介质及产品,以至少解决相关技术中如何为用户分配电子资源以更好的提高用户的活跃度且降低电子资源的额外支出的问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种用户类型预测模型训练方法,包括:
6.获取多个候选属性特征分别对应的重要程度,所述候选属性特征对应的重要程度表征所述候选属性特征影响用户账户对电子资源的需求程度,所述候选属性特征包括表征用户账户针对客户端的使用行为的行为特征、以及表征用户账户被分配的电子资源的电子资源分配特征;
7.从所述多个候选属性特征中获得所述重要程度大于或等于第一阈值的属性特征;
8.获取多个样本用户账户分别对应的样本数据集合,所述样本数据集合包括所述样本用户账户对应的所述属性特征的属性值;
9.以多个样本用户账户分别对应的样本数据集合作为机器学习模型的输入,以多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到所述用户类型预测模型,所述样本用户账户的标注用户类型为所述样本用户账户对电子资源的需求程度。
10.结合第一方面,在第一种可能实现方式中,所述获取多个候选属性特征分别对应的重要程度步骤包括:
11.获取多个样本用户账户分别对应的候选数据集合,所述候选数据集合包括样本用户账户对应的多个候选属性特征的属性值;
12.将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括非叶子结点以及叶子结点,所述非叶子结点与所述候选属性特征相关联,所述叶子节点与所述标注用户类型相关联;
13.基于所述重要度预测模型包含的决策树,获得所述多个候选属性特征分别对应的
重要程度。
14.结合第一方面,在第二种可能实现方式中,所述获取多个候选属性特征分别对应的重要程度步骤包括:
15.获取多个候选属性特征以及预设的至少一个干扰属性特征,所述干扰属性特征为与用户账户对电子资源的需求程度无关的特征;
16.获取多个样本用户账户分别对应的候选数据集合,所述样本用户账户的所述候选数据集合包括所述样本用户账户对应的多个候选属性特征的属性值以及所述至少一个干扰属性特征的属性值;
17.将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括第一非叶子结点、第二非叶子结点以及叶子结点,所述第一非叶子结点与所述候选属性特征相关联,所述第二非叶子结点与所述干扰属性特征相关联,所述叶子结点与所述标注用户类型相关联;
18.基于所述重要度预测模型包含的决策树,获得多个所述候选属性特征分别对应的重要程度以及所述干扰属性特征对应的重要程度。
19.结合第一方面,在第三种可能实现方式中,所述从所述多个候选属性特征中获得所述重要程度大于或等于第一阈值的属性特征步骤包括:
20.基于所述干扰属性特征的重要程度,获得所述第一阈值;
21.从多个所述候选属性特征中获得重要程度大于所述第一阈值的所述属性特征。
22.结合第一方面,在第四种可能实现方式中,设定属性特征为所述候选属性特征或所述干扰属性特征,基于所述重要度预测模型包含的决策树,获得所述设定属性特征的重要程度步骤包括:
23.从所述重要度预测模型包含的决策树中,获得与所述设定属性特征关联的目标非叶子结点;
24.获得第一数值,所述第一数值表征所述目标非叶子结点的数据集对应的概率,所述目标非叶子结点的数据集包括多个样本用户账户,所述数据集对应的概率为所述数据集包含的多个样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率;
25.获得第二数值,所述第二数值为所述目标非叶子结点的子结点对应的数据集的概率之和,每个子结点对应的数据集包含的样本用户账户为所述目标非叶子结点的数据集中满足所述设定属性特征关联的相应设定条件的样本用户账户,不同子结点对应的设定条件不同;
26.将所述第一数值与所述第二数值的差值,确定为所述设定属性特征的重要程度。
27.结合第一方面,在第五种可能实现方式中,所述至少一个干扰属性特征包括与属于离散变量的候选属性特征对应的第一干扰属性特征和/或与属于连续变量的候选属性特征对应的第二干扰属性特征;所述从多个所述候选属性特征中获得重要程度大于所述第一阈值的所述属性特征步骤包括:
28.从属于离散变量的多个候选属性特征中,获得重要程度大于属于离散变量的候选属性特征对应的第一阈值的所述属性特征,属于离散变量的候选属性特征对应的第一阈值为所述第一干扰属性特征的重要程度;和/或,
29.从属于连续变量的多个候选属性特征中,获得重要程度大于属于连续变量的候选属性特征对应的第一阈值的所述属性特征,属于连续变量的候选属性特征对应的第一阈值为所述第二干扰属性特征的重要程度。
30.结合第一方面,在第六种可能实现方式中,获取多个候选属性特征步骤包括:
31.获取多个待定属性特征;
32.将多个待定属性特征中线性无关的多个待定属性特征确定为所述候选属性特征。
33.结合第一方面,在第七种可能实现方式中,所述将多个待定属性特征中线性无关的多个待定属性特征确定为所述候选属性特征步骤包括:
34.若所述多个待定属性特征中包括多个线性相关的待定属性特征,去除多个线性相关的待定属性特征中至少一个待定属性特征,保留线性无关的目标待定属性特征;
35.将所述目标待定属性特征确定为所述候选属性特征。
36.根据本公开实施例的第二方面,提供一种资源分配方法,包括:
37.获取待测用户账户的待测数据集合,所述待测数据集合包括所述待测用户账户对应的属性特征的属性值;
38.将所述待测数据集合输入至用户类型预测模型,通过所述用户类型预测模型获得所述待测用户账户的用户类型,所述用户类型预测模型采用如权利要求1至9任一所述用户类型预测模型训练方法进行训练;
39.基于所述待测用户账户的用户类型,为所述待测用户账户分配电子资源。
40.结合第二方面,在第一种可能实现方式中,所述获取待测用户账户的待测数据集合步骤包括:
41.获取所述待测用户账户对应的多个原始属性特征的属性值;
42.基于所述待测用户账户对应的多个原始属性特征的属性值,获得多个衍生属性特征的属性值,所述衍生属性特征由至少一个所述原始属性特征衍生得到;
43.从多个所述原始属性特征的属性值以及多个所述衍生属性特征的属性值中,筛选出预设的多个候选属性特征的属性值,预设的所述多个候选属性特征线性无关;
44.从预设的候选属性特征与重要程度的对应关系中,获得所述多个候选属性特征分别对应的重要程度;
45.从多个候选属性特征的属性值中,筛选出重要程度大于或等于所述第一阈值的属性特征的属性值。
46.结合第二方面,在第二种可能实现方式中,所述用户类型预测模型为逻辑回归模型,所述资源分配方法还包括:
47.基于所述用户类型预测模型,获得所述属性特征的影响程度,所述影响程度表征所述属性特征影响用户账户倾向的用户类型;
48.从所述属性特征中获得影响程度大于或等于第二阈值的目标属性特征;
49.获取变化规律信息,所述变化规律信息表征用户账户的标注用户类型与所述目标属性特征的关联关系;
50.若所述待测用户账户的用户类型为对电子资源需求程度高于或等于预设阈值的用户类型,通过所述变化规律信息,确定指标属性特征;
51.其中,所述指标属性特征包括第一目标属性特征和/或第二目标属性特征,所述第
一目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度低于所述预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第一目标属性特征的属性值低于预设第三阈值,所述第二目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度高于或等于预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第二目标属性特征的属性值高于预设第四阈值。
52.根据本公开实施例的第三方面,提供一种用户类型预测模型训练装置,包括:
53.第一获取模块,被配置为获取多个候选属性特征分别对应的重要程度,所述候选属性特征对应的重要程度表征所述候选属性特征影响用户对电子资源的需求程度,所述候选属性特征包括表征用户账户针对客户端的使用行为的行为特征、以及表征客户端向用户账户分配电子资源的电子资源分配特征中的任一个;
54.第二获取模块,被配置为从所述多个候选属性特征中获得所述重要程度大于或等于第一阈值的属性特征;
55.第三获取模块,被配置为获取多个样本用户账户分别对应的样本数据集合,所述样本数据集合包括所述样本用户账户对应的所述属性特征的属性值;
56.训练模块,被配置为以多个样本用户账户分别对应的样本数据集合作为机器学习模型的输入,以多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到所述用户类型预测模型,所述样本用户账户的标注用户类型为所述样本用户账户对电子资源的需求程度。
57.结合第三方面,在第一种可能实现方式中,所述第一获取模块具体被配置为:
58.第一获取单元,被配置为获取多个样本用户账户分别对应的候选数据集合,所述候选数据集合包括样本用户账户对应的多个候选属性特征的属性值;
59.第一训练单元,被配置为将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括非叶子结点以及叶子结点,所述非叶子结点与所述候选属性特征相关联,所述叶子节点与所述标注用户类型相关联;
60.第二获取单元,被配置为基于所述重要度预测模型包含的决策树,获得所述多个候选属性特征分别对应的重要程度。
61.结合第三方面,在第二种可能实现方式中,所述第一获取模块具体被配置为:
62.第三获取单元,被配置为获取多个候选属性特征以及预设的至少一个干扰属性特征,所述干扰属性特征为与用户账户对电子资源的需求程度无关的特征;
63.第四获取单元,被配置为获取多个样本用户账户分别对应的候选数据集合,所述样本用户账户的所述候选数据集合包括所述样本用户账户对应的多个候选属性特征的属性值以及所述至少一个干扰属性特征的属性值;
64.第二训练单元,被配置为将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括第一非叶子结点、第二非叶子结点以及叶子结点,所述第一非叶子结点与所述候选属性特征相关联,所述第二非叶子结点与所述干扰属性特征相关联,所述叶子结点与所述标注用户类型相关联;
65.第五获取单元,被配置为基于所述重要度预测模型包含的决策树,获得多个所述候选属性特征分别对应的重要程度以及所述干扰属性特征对应的重要程度。
66.结合第三方面,在第三种可能实现方式中,所述第二获取模块具体被配置为:
67.第六获取单元,被配置为基于所述干扰属性特征的重要程度,获得所述第一阈值;
68.第七获取单元,被配置为从多个所述候选属性特征中获得重要程度大于所述第一阈值的所述属性特征。
69.结合第三方面,在第四种可能实现方式中,设定属性特征为所述候选属性特征或所述干扰属性特征,所述第二获取单元或所述第五获取单元具体被配置为:
70.第一获取子单元,被配置为从所述重要度预测模型包含的决策树中,获得与所述设定属性特征关联的目标非叶子结点;
71.第二获取子单元,被配置为获得第一数值,所述第一数值表征所述目标非叶子结点的数据集对应的概率,所述目标非叶子结点的数据集包括多个样本用户账户,所述数据集对应的概率为所述数据集包含的多个样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率;
72.第三获取子单元,被配置为获得第二数值,所述第二数值为所述目标非叶子结点的子结点对应的数据集的概率之和,每个子结点对应的数据集包含的样本用户账户为所述目标非叶子结点的数据集中满足所述设定属性特征关联的相应设定条件的样本用户账户,不同子结点对应的设定条件不同;
73.第一确定子单元,被配置为将所述第一数值与所述第二数值的差值,确定为所述设定属性特征的重要程度。
74.结合第三方面,在第五种可能实现方式中,所述至少一个干扰属性特征包括与属于离散变量的候选属性特征对应的第一干扰属性特征和/或与属于连续变量的候选属性特征对应的第二干扰属性特征;所述第七获取单元具体被配置为:
75.第四获取子单元,被配置为从属于离散变量的多个候选属性特征中,获得重要程度大于属于离散变量的候选属性特征对应的第一阈值的所述属性特征,属于离散变量的候选属性特征对应的第一阈值为所述第一干扰属性特征的重要程度;和/或,
76.第五获取子单元,被配置为从属于连续变量的多个候选属性特征中,获得重要程度大于属于连续变量的候选属性特征对应的第一阈值的所述属性特征,属于连续变量的候选属性特征对应的第一阈值为所述第二干扰属性特征的重要程度。
77.结合第三方面,在第六种可能实现方式中,其特征在于,还包括:
78.第四获取模块,被配置为获取多个待定属性特征;
79.第一确定模块,被配置为将多个待定属性特征中线性无关的多个待定属性特征确定为所述候选属性特征。
80.结合第三方面,在第七种可能实现方式中,还包括:
81.筛选模块,被配置为若所述多个待定属性特征中包括多个线性相关的待定属性特征,去除多个线性相关的待定属性特征中至少一个待定属性特征,保留线性无关的目标待定属性特征;
82.第二确定模块,被配置为将所述目标待定属性特征确定为所述候选属性特征。
83.根据本公开实施例的第四方面,提供一种资源分配装置,包括:
84.第五获取模块,被配置为获取待测用户账户的待测数据集合,所述待测数据集合包括所述待测用户账户对应的属性特征的属性值;
85.第六获取模块,被配置为将所述待测数据集合输入至用户类型预测模型,通过所述用户类型预测模型获得所述待测用户账户的用户类型,所述用户类型预测模型采用如第一方面所述用户类型预测模型训练方法进行训练;
86.分配资源模块,被配置为基于所述待测用户账户的用户类型,为所述待测用户账户分配电子资源。
87.结合第四方面,在第一种可能实现方式中,所述第五获取模块具体被配置为:
88.第十获取单元,被配置为获取所述待测用户账户对应的多个原始属性特征的属性值;
89.第十一获取单元,被配置为基于所述待测用户账户对应的多个原始属性特征的属性值,获得多个衍生属性特征的属性值,所述衍生属性特征由至少一个所述原始属性特征衍生得到;
90.第一筛选单元,被配置为从多个所述原始属性特征的属性值以及多个所述衍生属性特征的属性值中,筛选出预设的多个候选属性特征的属性值,预设的所述多个候选属性特征线性无关;
91.第十二获取单元,被配置为从预设的候选属性特征与重要程度的对应关系中,获得所述多个候选属性特征分别对应的重要程度;
92.第二筛选单元,被配置为从多个候选属性特征的属性值中,筛选出所述重要程度大于或等于所述第一阈值的属性特征的属性值。
93.结合第四方面,在第二种可能实现方式中,所述用户类型预测模型为逻辑回归模型,所述资源分配装置还包括:
94.第七获取模块,被配置为基于所述用户类型预测模型,获得所述属性特征的影响程度,所述影响程度表征所述属性特征影响用户账户倾向的用户类型;
95.第八获取模块,被配置为从所述属性特征中获得影响程度大于或等于第二阈值的目标属性特征;
96.第九获取模块,被配置为获取变化规律信息,所述变化规律信息表征用户账户的标注用户类型与所述目标属性特征的关联关系;
97.控制模块,被配置为若所述待测用户账户的用户类型为对电子资源需求程度高于或等于预设阈值的用户类型,通过所述变化规律信息,确定指标属性特征;
98.其中,所述指标属性特征包括第一目标属性特征和/或第二目标属性特征,所述第一目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度低于所述预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第一目标属性特征的属性值低于预设第三阈值,所述第二目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度高于或等于预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第二目标属性特征的属性值高于预设第四阈值。
99.根据本公开实施例的第五方面,提供一种服务器,包括:
100.处理器;
101.用于存储所述处理器可执行指令的存储器;
102.其中,所述处理器被配置为执行所述指令,以实现第一方面所述的用户类型预测模型训练方法,或,以实现如第二方面所述的资源分配方法。
103.根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如第一方面所述的用户类型预测模型训练方法,或者,使得服务器能够执行如第二方面所述的资源分配方法。
104.根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现第一方面所述的用户类型预测模型训练方法,或者,所述计算机程序 /指令被处理器执行时实现第二方面所述的资源分配方法。
105.本公开的实施例提供的技术方案至少带来以下有益效果:
106.本公开实施例中,获取多个候选属性特征分别对应的重要程度,候选属性特征对应的重要程度表征候选属性特征影响用户账户对电子资源的需求程度;从多个候选属性特征中获得重要程度大于或等于第一阈值的属性特征;获取多个样本用户账户分别对应的样本数据集合,样本数据集合包括样本用户账户对应的属性特征的属性值,以多个样本用户账户分别对应的样本数据集合作为机器学习模型的输入,以多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到用户类型预测模型。由于训练机器学习模型的样本用户账户的样本数据集合为属性特征的属性值,属性特征的重要程度高于或等于第一阈值。重要程度较低的候选属性特征对于机器学习模型的训练并无益处,若候选属性特征的重要程度小于或等于第一阈值,说明该候选属性特征对于确定样本用户账户的用户类型没有任何影响或影响较小。若使用包含重要程度小于或等于第一阈值的候选属性特征的样本数据集合训练机器学习模型,不仅会降低机器学习模型输出的用户类型的准确性,还会增大训练机器学习模型过程中的数据量。所以从多个候选属性特征中筛选出重要程度大于第一阈值的多个属性特征,使用包含多个属性特征的样本数据集合训练机器学习模型,大大降低了训练机器学习模型过程中的数据量,且,提高了机器学习模型输出用户类型的准确性。由于用户类型预测模型输出的用户类型比较准确,所以可以得到准确的用户需求,从而可实现分配与用户需求匹配的电子资源的目的。
107.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
108.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
109.图1是根据一示例性实施例示出的本公开实施例涉及的硬件环境的示意图;
110.图2是根据一示例性实施例示出的一种用户类型预测模型训练方法的流程图;
111.图3是根据一示例性实施例示出的一种重要度预测模型的一种实现方式的结构图;
112.图4是根据一示例性实施例示出的一种重要度预测模型的另一种实现方式的结构图;
113.图5为本技术实施例提供的资源分配方法的流程图;
114.图6是根据一示例性实施例示出的一种用户类型预测模型训练装置的框图;
115.图7是根据一示例性实施例示出的一种资源分配装置的框图;
116.图8是根据一示例性实施例示出的一种用于服务器的框图。
具体实施方式
117.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
118.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
119.本公开实施例提供了用户类型预测模型训练方法、资源分配方法、装置、服务器、计算机可读存储介质以及计算机程序产品,在介绍本公开实施例提供的技术方案之前,先对本公开实施例涉及硬件环境进行介绍。
120.图1是根据一示例性实施例示出的本公开实施例涉及的硬件环境的示意图,该硬件环境包括:服务器 11以及至少一个电子设备12。
121.示例性的,电子设备12可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视等。
122.示例性的,服务器11可以为一台服务器,也可以是由多台服务器组成的服务器集群,或者,是一个云计算服务中心。
123.示例性的,电子设备12与服务器11可以通过无线网络建立连接并通信。
124.应当注意的是,图1仅为示例,图1中示出了2个电子设备和1个服务器,示例性的,电子设备和服务器的数目可以基于实际情况而定,本公开实施例并不限定电子设备和服务器的数目。
125.电子设备12用于运行客户端,示例性的,客户端可以为应用程序客户端或网页版客户端。用户可以通过用户账户登陆该客户端,并对该客户端进行操作。
126.示例性的,客户端可以为视频类客户端、短视频类客户端、新闻类客户端、小说类客户端、支付类客户端、购物类客户端中的任一种。
127.示例性的,用户可以针对电子设备运行的客户端展示的对象进行操作,示例性的,客户端的类型不同,客户端展示的对象不同,示例性的,若客户端为视频类客户端那么对象为视频,若客户端为新闻类客户端那么对象为新闻。
128.在一可选实现方式中,用户能够针对电子设备运行的客户端展示的对象进行各种操作行为,从而使得服务器11可以通过客户端得到多种特征,本技术实施例提供但不限于以下三种特征。
129.第一种,表征针对客户端展示的对象的观看行为的观看行为特征。
130.示例性的,表征针对客户端展示的对象的观看行为的观看行为特征包括但不限于
以下至少一个:预设时间段内观看对象的总数目、预设时间段内观看对象的总时长、预设时间段内使用该客户端的总时长、预设时间段内观看对象所属类型、预设时间段内观看对象的数目随时间的变化情况、预设时间段内观看对象的时长随时间的变化情况、预设时间段内观看对象所属类型随时间变化情况。
131.示例性的,对象所属类型与对象的具体内容相关,例如,若对象为视频,则对象所属类型可以为视频的分类标签,例如,综艺类型、穿越剧类型、家庭伦理剧类型;示例性的,若对象为新闻,则对象所属类型可以为时政类型、娱乐八卦类型。
132.第二种,表征针对所述客户端展示的对象的社交行为的社交行为特征。
133.示例性的,表征针对所述客户端展示的对象的社交行为的社交行为特征包括但不限于以下至少一个:预设时间段内下载对象的总数目、预设时间段内收藏对象的总数目、预设时间段内分享对象的总数目、预设时间段内关注生产对象的作者的总数目、预设时间段内针对对象进行评论的总数目、预设时间段内针对对象点赞的总次数、预设时间段内观看其他用户的个人主页的总次数、预设时间段内下载对象的数目随时间的变化情况、预设时间段内收藏对象的数目随时间变化的情况、预设时间段内分享对象的数目随时间的变化情况、预设时间段内关注生成对象的作者的数目随时间的变化情况、预设时间段内针对对象进行评论的数目随时间的变化情况、预设时间段内针对对象的点赞次数随时间的变化情况、预设时间段内观看其他用户的个人主页的次数随时间变化情况。
134.第三种,表征针对所述客户端展示的对象的生产行为的生产行为特征。
135.示例性的,表征针对所述客户端展示的对象的生产行为的生产行为特征包括但不限于以下至少一个:预设时间段内上传对象的总数目、预设时间段内上传视频的频率、预设时间段内上传对象的数目随时间的变化情况。
136.示例性的,预设时间段可以为[当前时间-固定时长,当前时间],随着时间流逝,当前时间在不断发生变化,所以预设时间段在不断发生变化。示例性的,预设时间段可以为[用户注册该客户端的注册时间,当前时间]。
[0137]
本技术实施例中将上述三种特征统称为“用户账户针对客户端的使用行为的行为特征”。
[0138]
本技术实施例中,将三种类型的特征划分为原始属性特征以及衍生属性特征。
[0139]
其中,原始属性特征是指针对用户账户对客户端的操作行为的统计特征,与用户账户的操作行为有关,与用户账户操作的具体对象无关,例如,预设时间段内观看对象的总数目、预设时间段内观看对象的总时长、使用该客户端的总时长、预设时间段内下载对象的总数目、预设时间段内收藏对象的总数目、预设时间段内分享对象的总数目、预设时间段内关注生产对象的作者的总数目、预设时间段内针对对象进行评论的总数目、预设时间段内针对对象点赞的总次数、预设时间段内观看其他用户的个人主页的总次数、预设时间段内上传对象的总数目、预设时间段内上传视频的频率,本技术实施例这些特征为原始属性特征。
[0140]
其中,衍生属性特征是指针对用户账户对客户端操作的对象进行分析的分析特征,示例性的,衍生属性特征基于至少一个或多个原始属性特征衍生得到。
[0141]
例如,衍生属性特征可以为:预设时间段内观看对象所属类型、预设时间段内观看对象的数目随时间的变化情况、预设时间段内观看对象的时长随时间的变化情况、预设时
间段内观看对象所属类型随时间变化情况、预设时间段内下载对象的数目随时间的变化情况、预设时间段内收藏对象的数目随时间变化的情况、预设时间段内分享对象的数目随时间的变化情况、预设时间段内关注生成对象的作者的数目随时间的变化情况、预设时间段内针对对象进行评论的数目随时间的变化情况、预设时间段内针对对象的点赞次数随时间的变化情况、预设时间段内观看其他用户的个人主页的次数随时间变化情况、预设时间段内上传对象的数目随时间的变化情况。
[0142]
下面举例对衍生属性特征和原始属性特征进行说明,衍生属性特征“预设时间段内观看对象的数目随时间的变化情况”是通过原始属性特征“预设时间段内观看对象的总数目”得到的,因为预设时间段内观看对象的总数目=各个时间观看的数目之和,所以基于各个时间观看的数目,即可得到衍生属性特征“预设时间段内观看对象的数目随时间的变化情况”。
[0143]
本技术实施例中称原始属性特征和衍生属性特征统一为待定属性特征。
[0144]
可以理解的是,多个待定属性特征中可能具有线性相关的多个待定属性特征,由于线性相关的多个待定属性特征可以彼此相互表征,因此可以去除多个线性相关的待定属性特征中至少一个待定属性特征,保留线性无关的目标待定属性特征。
[0145]
本技术实施例中,将线性无关的多个目标待定属性特征称为候选属性特征,即候选属性特征为多个待定属性特征中线性无关的待定属性特征。
[0146]
假设,多个待定属性特征包括:待定属性特征1、待定属性特征2、待定属性特征3、待定属性特征4。
[0147]
假设,待定属性特征4与待定属性特征1、待定属性特征2、待定属性特征3均线性无关,且存在不全为零的系数a、b、c,使得a*待定属性特征1 b*待定属性特征2 c*待定属性特征3=0,则待定属性特征1、待定属性特征2与待定属性特征3线性相关,若删除待定属性特征3后,不存在不全为零的系数d、e,使得d*待定属性特征1 e*待定属性特征2=0,即待定属性特征1、待定属性特征2线性无关,则待定属性特征1、待定属性特征2、待定属性特征4为目标待定属性特征,此三个特征均为候选属性特征。
[0148]
在一可选实现方式中,用户可以基于电子设备运行的客户端登录自己的用户账户,并通过登录有用户账户的客户端查看自己获得的电子资源的情况,即客户端可以获得表征用户账户被分配的电子资源的电子资源分配特征。
[0149]
示例性的,表征用户账户被分配的电子资源的电子资源分配特征包括但不限限于以下至少一个:预设时间段内获得电子资源的总数目、预设时间段内用户访问电子资源页面的次数、预设时间段内将第一类型的电子资源兑换为第二类型的电子资源的总次数、预设时间段内获得电子资源的数目随时间的变化情况。
[0150]
针对预设时间段的说明可参见上述对预设时间段的说明,这里不再赘述。
[0151]
示例性的,第一类型的电子资源和第二类型的电子资源具有一定的转换比例。
[0152]
示例性的,电子资源可以为虚拟财产。
[0153]
示例性的,表征用户账户被分配的电子资源的电子资源分配特征也可以被划分为原始属性特征以及衍生属性特征两大类。示例性的,原始属性特征包括:预设时间段内获得电子资源的总数目、预设时间段内用户访问电子资源页面的次数、预设时间段内将第一类型的电子资源兑换为第二类型的电子资源的总次数;衍生属性特征包括:预设时间段内获
得电子资源的数目随时间的变化情况。
[0154]
本技术实施例中,候选属性特征还包括:上述表征用户账户被分配的电子资源的电子资源分配特征中线性无关的特征。
[0155]
本技术实施例中,每一候选属性特征具有重要程度,所述重要程度表征所述候选属性特征影响用户账户对电子资源的需求程度。一个示例中,重要程度越大,表征候选属性特征影响用户账户对电子资源的需求程度越大,重要程度越小,表征候选属性特征影响用户账户对电子资源的需求程度越小。
[0156]
本技术实施例中,称重要程度大于或等于第一阈值的候选属性特征为属性特征。
[0157]
在一可选实现方式中,电子设备12运行的客户端可以获得登陆该客户端的用户账户对应的数据集合,数据集合包括属性特征的属性值。
[0158]
可以理解的是,若用户账户为样本用户账户,则数据集合为样本数据集合;若用户账户为待测用户账户,则数据集合为待测数据集合。
[0159]
下面举例对属性特征的属性值进行说明。
[0160]
对应不同用户账户而言,同一属性特征的属性值可能不同,也可能相同。
[0161]
若属性特征为预设时间段内观看对象的总时长,假设用账户a预设时间段内观看对象的总时长为3小时,用户账户b预设时间段内观看对象的总时长为4小时,那么,用户账户a对应的该属性特征的属性值为3,用户账户b对应的该属性特征的属性值为4。
[0162]
示例性的,上述任一“变化情况”的属性值可以为逐渐降低,或,逐渐升高,或,稳定不变。
[0163]
示例性的,若上述任一“变化情况”符合一定的概率分布,该“变化情况”的属性值可以为概率分布的曲线上的元素。
[0164]
示例性的,电子设备12运行的客户端可以将登陆该客户端的用户账户对应的数据集合发送至服务器 11。
[0165]
服务器11可以接收到一个或多个用户账户对应的数据集合,对于每一用户账户,将用户账户对应的数据集合输入至用户类型预测模型,以得到用户账户对应的用户类型,所述用户类型是指用户账户对电子资源的需求程度。
[0166]
示例性的,用户账户对电子资源的需求程度可以用数字表征,示例性的,用户账户对电子资源的需求程度的数值范围为[0,1],其中,0表征用户账户对电子资源无需求(即用户账户不是为了电子资源来使用客户端的),1表征用户账户对电子资源的需求程度100%(即用户账户就是为了电子资源才使用客户端的)。
[0167]
示例性的,可以划分上述数值范围,以得到多个子范围,每一子范围对应一个用户类型,例如,将上述数值范围划分为两个子范围,分别为[0,预设阈值)以及(预设阈值,1],若用户类型预测模型输出的数值属于[0,预设阈值),则用户账户对应用户类型0(即对电子资源需求程度较低的用户类型),若用户类型预测模型输出的数值属于(预设阈值,1](即对电子资源需求程度较高的用户类型),则用户账户对应用户类型1。
[0168]
示例性的,预设阈值可以基于实际情况而定。
[0169]
在一可选实现方式中,服务器11可以基于用户账户的用户类型,为用户账户分配电子资源。
[0170]
示例性的,训练用户类型预测模型的服务器与为用户账户分配资源的服务器可以
为同一服务器,或不同服务器。
[0171]
本领域技术人员应能理解上述电子设备和存储设备仅为举例,其他现有的或今后可能出现的电子设备或存储设备如可适用于本公开,也应包含在本公开保护范围以内,并在此以引用方式包含于此。
[0172]
下面结合附图对本公开实施例提供的方案进行说明。
[0173]
图2是根据一示例性实施例示出的一种用户类型预测模型训练方法的流程图,如图2所示,用户类型预测模型训练方法可以用于服务器11中,该方法在实施过程中包括以下步骤s21至步骤s24。
[0174]
在步骤s21中,获取多个候选属性特征分别对应的重要程度。
[0175]
所述候选属性特征对应的重要程度表征所述候选属性特征影响用户账户对电子资源的需求程度,所述候选属性特征包括表征用户账户针对客户端的使用行为的行为特征、以及表征用户账户被分配的电子资源的电子资源分配特征。
[0176]
示例性的,候选属性特征可以包括表征用户账户针对客户端的使用行为的行为特征、以及表征用户账户被分配的电子资源的电子资源分配特征中的至少一个。
[0177]
在步骤s22中,从所述多个候选属性特征中获得所述重要程度大于或等于第一阈值的属性特征。
[0178]
在步骤s23中,获取多个样本用户账户分别对应的样本数据集合,所述样本数据集合包括所述样本用户账户对应的所述属性特征的属性值。
[0179]
在步骤s24中,以多个样本用户账户分别对应的样本数据集合作为机器学习模型的输入,以多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到所述用户类型预测模型。
[0180]
所述样本用户账户的标注用户类型为所述样本用户账户对电子资源的需求程度。
[0181]
候选属性特征对应的重要程度越大,说明候选属性特征越能够体现用户账户所属的用户类型。下面举例进行说明。
[0182]
假设多个用户账户的总数目为15,如表1所示,为15个用户账户的具体情况。
[0183]
表1样本用户账户的具体情况表
[0184][0185]
如表1所示,用户类型0表示对电子资源的需求程度较低的用户类型,用户类型1表示对电子资源需求较高的用户类型。
[0186]
15个样本用户账户中有6个样本用户账户属于用户类型0,9个样本用户账户属于用户类型1,说明15个样本用户账户对应的用户类型不一致。从表1中可知,15个样本用户账户对应的候选属性特征包括:年龄、月收入以及性别共三个候选属性特征。从表1中可以看出,候选属性特征“年龄”、候选属性特征“月收入”与候选属性特征“性别”相比,候选属性特征“性别”的重要程度<候选属性特征“年龄”的重要程度<候选属性特征“月收入”的重要
程度。理由如下:
[0187]
可以通过候选属性特征“月收入”将15个用户账户划分为两个用户账户集合,即候选属性特征“月收入”的属性值为“≥1w”的用户账户属于用户账户集合a,即用户账户集合a为{用户账户1、用户账户2、用户账户5、用户账户6、用户账户7、用户账户15};候选属性特征“月收入”的属性值为“<1w”的用户账户属于用户账户集合b,即用户账户集合b为{用户账户3、用户账户4、用户账户8、用户账户9、用户账户10、用户账户11、用户账户12、用户账户13、用户账户14}。用户账户集合a中所有用户账户均属于用户类型0;用户账户集合b中所有用户账户均属于用户类型1。所以候选属性特征“月收入”能够体现用户账户所属的用户类型。
[0188]
候选属性特征“年龄”的属性值为青年或中年或老年时,虽然也能够将15个用户账户划分为两个用户账户集合,但是每个用户账户集合中的用户账户所属用户类型并不一致。下面以候选属性特征“年龄”的属性值为青年为例进行说明。
[0189]
候选属性特征“年龄”的属性值为青年的用户账户属于用户账户集合c,即用户账户集合c为{用户账户1、用户账户2、用户账户3、用户账户4、用户账户5},候选属性特征“年龄”的属性值为非青年(即中年或老年)的用户账户属于用户账户集合d,即用户账户集合d为{用户账户6、用户账户7、用户账户 8、用户账户9、用户账户10、用户账户11、用户账户12、用户账户13、用户账户14、用户账户15},用户账户集合c或用户账户集合d中的用户账户所属用户类型并不一致。但是用户账户集合d和用户账户集合c中包含的各用户账户所属用户类型与表1中15个用户账户所属用户类型相比更加集中,如用户账户集合c和用户账户集合d的基尼不纯度之和小于表1所示的集合的基尼不纯度。
[0190]
候选属性特征“性别”的属性值为男或女,候选属性特征“性别”的属性值为男的用户账户属于用户账户集合e,即用户账户集合e为{用户账户2、用户账户4、用户账户6、用户账户9、用户账户11、用户账户13、用户账户15};候选属性特征“性别”的属性值为女的用户账户属于用户账户集合f,即用户账户集合f为{用户账户1、用户账户3、用户账户5、用户账户7、用户账户8、用户账户10、用户账户12、用户账户14}。用户账户集合e或用户账户集合f的用户账户所属用户类型并不一致。且用户账户集合e 和用户账户集合f分别包含的用户账户所属用户类型与表1中15个用户账户所属用户类型相比更加分散,或,集中程度一样(用户账户集合e和用户账户集合f的基尼不纯度之和大于或等于表1所示的集合的基尼不纯度),说明候选属性特征“性别”并不能表征用户账户所属类别。即用户账户所属用户类别,与用户账户的性别无关。
[0191]
综上,候选属性特征“性别”的重要程度<候选属性特征“年龄”的重要程度<候选属性特征“月收入”的重要程度。
[0192]
可以理解的是,重要程度较低的候选属性特征对于机器学习模型的训练并无益处,例如上述候选属性特征“性别”,由于用户账户属于哪种用户类型与候选属性特征“性别”无关,即候选属性特征“性别”对于用户账户成为哪种用户类型没有任何影响,若候选属性特征的重要程度小于或等于第一阈值,说明该候选属性特征对于确定样本用户账户的用户类型没有任何影响或影响较小。若使用包含重要程度小于或等于第一阈值的候选属性特征的样本数据集合训练机器学习模型,不仅会降低机器学习模型输出的用户类型的准确性,还会增大训练机器学习模型过程中的数据量。所以从多个候选属性特征中筛选出重要
程度大于第一阈值的多个属性特征,使用包含多个属性特征的样本数据集合训练机器学习模型,大大降低了训练机器学习模型过程中的数据量,且,提高了机器学习模型输出用户类型的准确性。
[0193]
本公开实施例中,获取多个候选属性特征分别对应的重要程度,候选属性特征对应的重要程度表征候选属性特征影响用户账户对电子资源的需求程度;从多个候选属性特征中获得重要程度大于或等于第一阈值的属性特征;获取多个样本用户账户分别对应的样本数据集合,样本数据集合包括样本用户账户对应的属性特征的属性值,以多个样本用户账户分别对应的样本数据集合作为机器学习模型的输入,以多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到用户类型预测模型。由于训练机器学习模型的样本用户账户的样本数据集合为属性特征的属性值,属性特征的重要程度高于或等于第一阈值。重要程度较低的候选属性特征对于机器学习模型的训练并无益处,若候选属性特征的重要程度小于或等于第一阈值,说明该候选属性特征对于确定样本用户账户的用户类型没有任何影响或影响较小。若使用包含重要程度小于或等于第一阈值的候选属性特征的样本数据集合训练机器学习模型,不仅会降低机器学习模型输出的用户类型的准确性,还会增大训练机器学习模型过程中的数据量。所以从多个候选属性特征中筛选出重要程度大于第一阈值的多个属性特征,使用包含多个属性特征的样本数据集合训练机器学习模型,大大降低了训练机器学习模型过程中的数据量,且,提高了机器学习模型输出用户类型的准确性。由于用户类型预测模型输出的用户类型比较准确,所以可以得到准确的用户需求,从而可实现分配与用户需求匹配的电子资源的目的。
[0194]
在一可选实现方式中,步骤s21的实现方式有多种,本公开实施例提供但不限于以下两种方式。
[0195]
第一种步骤s21的实现方式包括以下步骤a11至步骤a13。
[0196]
在步骤a11中,获取多个样本用户账户分别对应的候选数据集合,所述候选数据集合包括样本用户账户对应的所述多个候选属性特征的属性值。
[0197]
针对候选属性特征的属性值的说明可以参见针对属性特征的属性值的说明,这里不进行赘述。
[0198]
在步骤a12中,将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括非叶子结点以及叶子结点,所述非叶子结点与所述候选属性特征相关联,所述叶子节点与所述标注用户类型相关联。
[0199]
在步骤a13中,基于所述重要度预测模型包含的决策树,获得所述多个候选属性特征分别对应的重要程度。
[0200]
示例性的,提升树模型可以为xgboost模型、gbdt(gradient boosting decision tree,梯度下降树) 模型、boosting tree模型、随机森林模型中的任一模型。
[0201]
示例性的,决策树为cart树(classification and regression tree,分类回归树),示例性的,cart 树可以为二叉树。
[0202]
在一可选实现方式中,训练提升树模型的方法包括:基于多个候选属性特征获得至少一个决策树。其中,每个决策树包含非叶子结点以及叶子结点。决策树中每个非叶子结点关联一个候选属性特征,决策树中每个叶子结点关联一个用户类型。可以理解的是,非叶
子结点的子结点可能是叶子结点,也可能是非叶子结点。每个结点(非叶子结点或叶子结点)对应一个数据集,数据集包括多个样本用户账户。
[0203]
非叶子结点和非叶子结点的子结点(非叶子结点的子结点是指非叶子结点的下级结点,不包括非叶子结点的孙子结点)的关系如下:将非叶子结点对应的数据集按照非叶子结点关联的候选属性特征a的属性值a进行划分,以得到每个子结点对应的数据集,例如,将非叶子结点对应的数据集包含的多个样本用户账户中候选属性特征a的属性值为属性值a的样本用户账户划分至左侧子结点对应的数据集,将多个样本用户账户中该候选属性特征a的属性值为非属性值a的样本用户账户划分至右侧子结点对应的数据集。
[0204]
示例性的,获取决策树的方法有多种,例如,xgboost中的贪心算法或近似算法,或,cart分类树算法中的最优特征选择方法,下面以cart分类树算法中的最优特征选择方法为例进行说明。对于每一个决策树,获得该决策树的实现方式包括以下步骤b1至步骤b6。
[0205]
在步骤b1中,获取当前结点对应的数据集,数据集包括一个或多个样本用户账户。
[0206]
可以理解的是,在第一次执行步骤b1至步骤b6的过程中,步骤b1提及的结点为决策树的根结点。根结点对应的数据集包括所有的样本用户账户。
[0207]
在第n次执行步骤b1至步骤b6的过程中,n为大于或等于2的正整数,步骤b1提及的结点为根结点的子结点或孙子结点。
[0208]
在步骤b2中,若步骤b1确定的数据集包含的样本用户账户的数目小于或等于预设的第三阈值,或者当前结点对应的剩余特征集合包含的候选属性特征为0,或者,表征当前结点对应的数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率小于或等于预设的第四阈值,确定该当前结点为叶子结点,该当前结点停止分裂,否则执行步骤b3。
[0209]
示例性的,第三阈值可以基于实际情况而定,这里不再赘述,例如第三阈值可以为5,若数据集包含的样本用户账户的数目小于或等于5则停止分裂。
[0210]
示例性的,数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率可以用基尼指数,或,熵,或,信息增益表示,下面以基尼指数为例进行说明。示例性的,基尼指数的计算公式如下:
[0211]
其中,k是决策树的分叉数目,例如,若决策树为二叉树,则k=2,若决策树为三叉树,则k=3,pi为当前结点对应的数据集中属于第i分类的样本用户账户的数目与当前结点对应的数据集包含的所有样本用户账户的总数目的比值。
[0212]
仍以表1为例,属于用户类型1(假设i=1)的样本用户账户的数目为9,属于用户类型0(假设i=2) 的样本用户账户的数目为6,那么k=2,p1=9/15,p2=6/15。
[0213]
示例性的,第四阈值可以基于实际情况而定,本公开实施例对此不进行限定,例如,第四阈值可以为 0.2,若当前结点对应的数据集的基尼不纯度小于或等于0.2,则该当前结点停止分裂。
[0214]
示例性的,剩余特征集合包括多个候选属性特征中除当前结点的前续结点对应的候选属性特征以外的候选属性特征。
[0215]
示例性的,当前结点的前续结点包括:当前结点的父结点、当前结点的父结点的父
结点、

、直至根结点。
[0216]
假设当前结点的前续结点包括:当前结点的父结点a以及父结点a的父结点b。假设父结点b为根结点。父结点a对应候选属性特征a,父结点b对应候选属性特征b,假设多个候选属性特征包括:候选属性特征a、候选属性特征b以及候选属性特征c,那么,当前结点对应的剩余特征集合包括候选属性特征 c。
[0217]
在步骤b3中,对于剩余特征集合包括的每一候选属性特征,获取基于所述候选属性特征的切分点对步骤b1获得的数据集进行划分后,得到的当前结点的子结点对应的数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率。
[0218]
本技术实施例将“数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率”简称为概率。
[0219]
下面对候选属性特征的属性值和切分点的关系进行说明。候选属性特征对应一个或多个属性值,例如候选属性特征“性别”对应的属性值为男或女,对于性别而言,如果不是男,就是女,所以候选属性特征“性别”的切分点为“男”或“女”。再例如,候选属性特征“年龄”对应的属性值为“中年”、或“老年”、或“青年”三个属性值,那么候选属性特征的切分点为“青年”,或者切分点为“中年”,或者,切分点为“老年”。
[0220]
在步骤b4中,对于每一候选属性特征的切分点,计算基于候选属性特征的切分点划分后的当前结点的子结点的数据集对应的概率之和(后续统称为不纯度),以得到各候选属性特征的切分点对应的不纯度,从各不纯度中,确定最小不纯度对应的最优候选属性特征以及最优切分点。
[0221]
对于任一候选属性特征而言,得到候选属性特征的最优切分点的示例如下:
[0222]
表1所示的15个样本用户账户属于根结点的数据集,若当前结点为根结点,则可以基于候选属性特征“年龄”的切分点“青年”划分当前结点对应的数据集,切分点为“青年”的样本用户账户划分至数据集 a1,切分点为“非青年”的样本用户账户划分至数据集a2,候选属性特征“年龄”的切分点“青年”对应的不纯度=数据集a1对应的概率 数据集a2对应的概率;基于候选属性特征“年龄”的切分点“中年”划分当前结点对应的数据集,切分点为“中年”的样本用户账户划分至数据集a3,切分点为“非中年”的样本用户账户划分至数据集a4,候选属性特征“年龄”的切分点“中年”对应的不纯度=数据集a3对应的概率 数据集a4对应的概率;基于候选属性特征“年龄”的切分点“老年年”划分当前结点对应的数据集,切分点为“老年”的样本用户账户划分至数据集a5,切分点为“非老年”的样本用户账户划分至数据集 a6,候选属性特征“年龄”的切分点“老年”对应的不纯度=数据集a5对应的概率 数据集a6对应的概率。
[0223]
从上述三个不纯度中找出最小不纯度,假设为候选属性特征“年龄”的切分点“青年”对应的不纯度为最小不纯度,则最优切分点为“青年”。
[0224]
从多个候选属性特征中得到最优候选属性特征的方法,即为从多个候选属性特征分别对应的最优切分点对应的不纯度中,得到最小不纯度对应的候选属性特征,即为最优候选属性特征。
[0225]
示例性的,候选属性特征的类型可能为离散变量或连续变量。例如,若候选属性特征为性别,该候选属性特征为离散变量,若候选属性特征为单位时间内观看对象的总时长,该候选属性特征为连续变量。
[0226]
示例性的,若候选属性特征的类型为离散变量,候选属性特征对应的切分点的数目为候选属性特征能够取得的属性值的总数目,例如,候选属性特征的属性值的取值范围为{字符1、字符2、字符3},那么,该候选属性特征对应3个切分点,3个切分点分别为字符1、字符2、字符3。
[0227]
示例性的,若候选属性特征的类型为连续变量,可以将该连续变量离散化。下面举例进行说明。假设 n个样本用户账户对应的类型为连续变量的候选属性特征的取值有m个,其中,n大于或等于m,假设m 个数值从小到大依次为a1,a2,......,am,则可以将每两个相邻数值的平均数做切分点,一共有m-1切分点,其中第i个切分点ti表示为:ti=(ai a
i 1
)/2,这样就做到了连续变量的离散化。分别计算这m-1个切分点对应的不纯度。不纯度最小的切分点为该候选属性特征的最优切分点。比如取到的不纯度最小的切分点为 a
t
,则将该候选属性特征的属性值小于a
t
的样本用户账户划分至数据集1,该候选属性特征的属性值大于a
t
的样本用户账户划分至数据集2。
[0228]
在一可选实现方式中,多个候选属性特征包括属于离散变量的候选属性特征以及属于连续变量的候选属性特征。
[0229]
示例性的,对于属于离散变量的候选属性特征而言,需要对候选属性特征哑变量化。
[0230]
哑变量(dummy variable),又称为虚拟变量、虚设变量或名义变量,是人为虚设的变量,通常取值为0或1,来反映某个候选属性特征的不同属性。对于有l个分类的候选属性特征,通常需要选取1个分类作为参照,因此可以产生l-1个哑变量,l为大于或等于2的正整数。
[0231]
下面举例对哑变量化的过程进行说明。假设候选属性特征为职业,职业共分为学生、农民、工人、公务员、其他,共5个分类,针对职业这一候选属性特征,可以设定学生、农民、工人、公务员共4个哑变量,其中,“其它”这个分类,当4个哑变量的赋值均为0,职业的属性值即为“其它”。
[0232]
示例性的,对于属性连续变量的候选属性特征而言,可能不需要对候选属性特征哑变量化。
[0233]
示例性的,对于属性连续变量的候选属性特征而言,也可能需要对候选属性特征哑变量化。
[0234]
下面举例对哑变量化的过程进行说明。
[0235]
假设候选属性特征为年龄,假设年龄的最大值为60,年龄属于连续变量,可以将年龄进行离散化,例如,按照10岁一个年龄段进行划分,如[0,10],[11,20],[21,30],[31,40],[41,50],[51,60],将每一组范围赋值为1、2、3、4、5、6,即将年龄划分6个分类。
[0236]
示例性的,本公开实施例中,将候选属性特征进行哑变量化,可以应用于训练提升树模型的过程中。
[0237]
在步骤b5中,确定当前结点对应的候选属性特征为最优候选属性特征,当前结点对应的切分点为最优候选属性特征的最优切分点。
[0238]
在步骤b6中,将当前结点按照最优候选属性特征的最优切分点将当前结点对应的数据集进行划分,以得到当前结点的两个子结点分别对应的数据集,对于每一子结点,将该子结点作为当前结点返回步骤b1。
[0239]
下面举例对上述获得决策树的过程进行说明。下面以多个候选属性特征包括年龄、性别、预设时间段内用户账户访问电子资源页面的次数为例进行说明,假设多个样本用户账户的数目为15。决策树的根结点的数据集d如表2所示。
[0240]
表2数据集d
[0241][0242]
本公开实施例中以“数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率”为基尼指数为例进行说明。
[0243]
假设第三阈值为3,第四阈值为0.1为例进行说明。
[0244]
针对根结点,在步骤b1中,当前结点即为根结点,根结点对应的数据集为数据集d;在步骤b2中,数据集d包含的样本用户账户的数目为15大于第三阈值,根结点对应的剩余特征集合包括的候选属性特征分别为:年龄、性别、预设时间段内用户账户访问电子资源页面的次数,数据集d对应的基尼指数大于第四阈值,所以需要继续分裂。
[0245]
针对根结点,在步骤b3中,计算上述三个候选属性特征的基尼指数,用a1表示年龄、用a2表示性别、用a3表示预设时间段内用户账户访问电子资源页面的次数。
[0246]
用a1=1表征年龄的属性值为青年,a1=2表征年龄的属性值为中年,a1=3表征年龄的属性值为老年,用a2=1表征性别的属性值为女,用a2=2表征性别的属性值为男,用用a3=1表征预设时间段内用户账户访问电子资源页面的次数的属性值为低,用a3=2表征预设时间内用户账户访问电子资源页面的次数的属性值为高。
[0247]
求取候选属性特征a1针对数据集d的基尼指数:
[0248]
gini(d,a1=1)=0.44
[0249]
gini(d,a1=2)=0.48;
[0250]
gini(d,a1=3)=0.44
[0251]
求取候选属性特征a2针对数据集d的基尼指数,由于候选属性特征a2对应一个切分点,例如,男或女,所以gini(d,a2=1)=gini(d,a2=2)=0.32。
[0252]
求取候选属性特征a3针对数据集d的基尼指数,由于候选属性特征a3对应一个切分点,例如,高或低,所以gini(d,a3=1)=gini(d,a3=2)=0.27。
[0253]
针对根结点,在步骤b4和步骤b5中,在上述三个候选属性特征中,gini(d,a3=1)=0.27最小,所以候选属性特征a3为根结点对应的最优候选属性特征,且由于候选属性特
征a3只有一个切分点,即高或低,该切分点就是最优切分点。
[0254]
针对根结点,在步骤b6中,将根结点分裂成两个子结点,对应a3=1的子结点1的数据集d1如表3 所示,对应a3=2的子结点2的数据集d2如表4所示。将子结点1和子结点2分别作为当前结点返回步骤 b1。
[0255]
表3数据集d1
[0256][0257][0258]
表4数据集d2
[0259][0260]
对于子结点1,在步骤b1中,得到数据集d1。在步骤b2中,数据集d1包含的样本用户账户数目为 9大于第三阈值,子结点1对应的剩余特征集合包括:性别、年龄,子结点1对应的数据集d1的基尼指数大于第四阈值,所以继续分裂。
[0261]
对于子结点1,在步骤b3中,求取候选属性特征a1针对数据集d1的基尼指数:
[0262][0263]
求取候选属性特征a2针对数据集d1的基尼指数:
[0264]
gini(d1,a2=1)=gini(d1,a2=2)=0;
[0265]
对于子结点1,在步骤b4和步骤b5中,在候选属性特征a1、候选属性特征a2中,由于 gini(d1,a2=1)=0最小,所以选择候选属性特征a2为最优候选属性特征,由于候选属性特征a2只有一个切分点,即男或女,则最优切分点位男或女,于是该子结点1被分裂成两个子结点,其中,对应a2=1 的子结点3的数据集d3包括{样本用户账户1、样本用户账户2、样本
用户账户5、样本用户账户6、样本用户账户7、样本用户账户15},对应a2=2的子结点4的数据集d4包括{样本用户账户3、样本用户账户 13、样本用户账户14};将子结点3和子结点4分别作为当前结点返回步骤b1。
[0266]
对于子结点2,在步骤b1中,获得子结点2对应的数据集d2,在步骤b2中,由于数据集d2包含的所有样本用户账户的所属类别相同,数据集d2对应的基尼指数为0小于第四阈值,因此停止分裂,该子结点2为叶子结点。
[0267]
经过上述步骤b1至步骤b6的计算,子结点3以及子结点4均为叶子结点,从而得到了一个决策树。
[0268]
示例性的,提升树模型可以包括一个或多个决策树,若包括多个决策树,那么,多个决策树集成在一起形成一个强分类器。
[0269]
图3是根据一示例性实施例示出的一种重要度预测模型的一种实现方式的结构图。
[0270]
图3中是以重要度预测模型包括两个决策树为例进行说明的。图3中左侧所示的决策树是表2至表4 的示例对应的决策树,图3右侧所示的决策树是假设基于图3中左侧所示的决策树的残差学习得到的一个决策树。
[0271]
示例性的,将样本用户账户的候选数据集合输入至重要度预测模型后,重要度预测模型包含的一个或多个决策树基于候选数据集合得到的各叶子结点的分数。
[0272]
示例性的,将重要度预测模型包含的决策树中各叶子结点的分数叠加即得到样本用户账户的用户类型。
[0273]
示例性的,用户类型对应的分数=分数1*w0 分数2*w1 分数2*w2 分数3*w3 分数5*w4,示例性的,若用户类型对应的分数小于或等于预设阈值,则用户类型为用户类型0,若用户类型对应的分数大于预设阈值,则用户类型为用户类型1。
[0274]
示例性的,不同叶子结点对应的权重值完全不同,例如,上述w0、w1、w2、w3、w4完全不同,示例性的,不同叶子结点对应的权重值可能完全相同,例如,w0、w1、w2、w3、w4完全相同,示例性的,不同叶子结点对应的权重值不完全相同,例如,w0、w1相同,但是w0与w3不同。
[0275]
在第一种步骤s21的实现方式中,步骤s22的实现方式包括但不限于以下两种。
[0276]
第一种步骤s22的实现方式包括以下步骤s221至步骤s222。
[0277]
在步骤s221中,将多个候选属性特征按照重要程度从大至小排序,得到排序结果。
[0278]
在步骤s222中,将排序结果中前预设数目个候选属性特征分别确定为属性特征。
[0279]
其中,第一阈值为排序结果中第预设数目 1个候选属性特征的重要程度。
[0280]
第二种步骤s22的实现方式包括以下步骤s223至步骤s224。
[0281]
在步骤s223中,获取预先设定的第一阈值。
[0282]
示例性的,第一阈值为预先设定的固定值。
[0283]
在步骤s224中,从多个候选属性特征中获得重要程度大于所述第一阈值的多个属性特征。
[0284]
可以理解的是,重要度预测模型包含的决策树是基于多个样本用户账户的候选数据集合将多个样本用户账户划分至相应用户类型的过程。理想状态下,每通过一个候选属性特征划分多个样本用户账户后,会使得划分后的数据集的基尼指数降低,但是多个候选属性特征中可能存在干扰项,即通过某个候选属性特征划分多个样本用户账户后,并未使
得划分后的数据集的基尼指数降低,那么,该候选属性特征即为干扰项,使用包含干扰项的候选特征集合训练得到的用户类型预测模型输出的用户类型不准确。
[0285]
示例性的,数据集包含的一个或多个样本用户账户所属的用户类型越集中,数据集的基尼指数越低,例如,数据集a包括1000个样本用户账户,其中500个样本用户账户属于用户类型1,500个样本用户账户属于用户类型0,将该数据集a通过候选属性特征a划分后得到两个数据集a1和数据集a2,其中,数据集a1包括500个样本用户账户,其中,240个样本用户账户属于用户类型1,260个样本用户账户属于用户类型0,数据集a2包括500个样本用户账户,其中,260个样本用户账户属于用户类型0,240个样本用户账户属于用户类型1,数据集a1和数据集a2的基尼指数之和与数据集a的基尼指数几乎一样,所以候选属性特征a为干扰项。
[0286]
在第一种步骤s21的实现方式中,可能为干扰项的候选属性特征的重要程度为第一阈值或者小于第一阈值,由于第一阈值是经验值,所以可能出现第一阈值确定不准确的情况,例如,第一阈值确定的较小,使得将干扰项确定为属性特征,或者,第一阈值确定的较大,未将一个或多个非干扰项确定为属性特征,这样都会降低训练得到的用户类型预测模型输出的用户类型的准确性。基于此提供了第二种实现方式。
[0287]
第二种步骤s21的实现方式包括以下步骤a21至步骤a24。
[0288]
在步骤a21中,获取多个候选属性特征以及预设的至少一个干扰属性特征,所述干扰属性特征为与用户账户对电子资源的需求程度无关的特征。
[0289]
示例性的,干扰属性特征的类型可以为连续变量或离散变量。
[0290]
在步骤a22中,获取多个样本用户账户分别对应的候选数据集合,所述样本用户账户的所述候选数据集合包括样本用户账户对应的多个候选属性特征的属性值以及所述至少一个干扰属性特征的属性值。
[0291]
示例性的,干扰属性特征的属性值是从干扰属性特征对应的预设范围中随机得到一个属性值,所述预设范围包括多个属性值。
[0292]
可以理解的是,每一干扰属性特征对应一预设范围,在对多个样本用户账户的干扰属性特征的属性值进行赋值时,是从预设范围内随机得到一个属性值并赋值的,由于是随机选择属性值,所以对于大量样本用户账户而言,该干扰属性特征对于确定样本用户账户属于哪种用户类型没有任何影响,例如上述示例中的候选属性特征a。
[0293]
可以理解的是,样本用户账户的数目越大,该干扰属性特征对确定样本用户账户属于哪种用户类型的影响就越小。
[0294]
在步骤a23中,将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括第一非叶子结点、第二非叶子结点以及叶子结点,所述第一非叶子结点与所述候选属性特征相关联,所述第二非叶子结点与所述干扰属性特征相关联,所述叶子结点与所述标注用户类型相关联。
[0295]
训练得到重要度预测模型的过程可以结合针对步骤a13的说明。示例性的,获取步骤a23提及的重要度预测模型包含的决策树的方法有多种,本公开实施例提供但不限于以下方法。对于每一个决策树,获得该决策树的实现方式包括以下步骤c1至步骤c6。
[0296]
在步骤c1中,获取当前结点对应的数据集,数据集包括一个或多个样本用户账户。
[0297]
针对步骤c1的描述可以参见针对步骤b1的描述,这里不进行赘述。
[0298]
在步骤c2中,若步骤c1确定的数据集包含的样本用户账户的数目小于或等于预设的第三阈值,或者当前结点对应的剩余特征集合包含的设定属性特征为0,或者,表征当前结点对应的数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率小于或等于预设的第四阈值,确定该当前结点为叶子结点,该当前结点停止分裂,否则执行步骤c3。
[0299]
示例性的,设定属性特征为干扰属性特征或候选属性特征,即剩余特征集合包括干扰属性特征和候选属性特征。
[0300]
示例性的,剩余特征集合包括多个候选属性特征以及干扰属性特征中除当前结点的前续节点对应的设定属性特征以外的设定属性特征。
[0301]
示例性的,当前结点的前续结点包括:当前结点的父结点、当前结点的父结点的父结点、

、直至根结点。
[0302]
假设当前结点的前续结点包括:当前结点的父结点a以及父结点a的父结点b。假设父结点b为根结点。父结点a对应候选属性特征a,父结点b对应干扰属性特征b,假设多个候选属性特征包括:候选属性特征a、候选属性特征b以及候选属性特征c,多个干扰属性特征包括:干扰属性特征a、干扰属性特征b,那么,当前结点对应的剩余特征集合包括:候选属性特征b、候选属性特征c、干扰属性特征a。
[0303]
在步骤c3中,对于剩余特征集合包括的每一设定属性特征,获取基于所述设定属性特征的切分点对步骤c1获得的数据集进行划分后,得到的当前结点的子结点对应的数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率。
[0304]
本技术实施例将“数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率”简称为概率。
[0305]
针对步骤c3的说明,请参见针对步骤b3的说明,这里不再赘述。
[0306]
计算基于干扰属性特征的切分点划分得到的数据集的概率的方法,与计算基于候选属性特征的切分点划分得到的数据集的概率的方法相同,这里不再赘述。
[0307]
在步骤c4中,对于每一设定属性特征的切分点,计算基于设定属性特征的切分点划分后的当前结点的子结点的数据集对应的概率之和(后续统称为不纯度),以得到各设定属性特征的切分点对应的不纯度,从各不纯度中,确定最小纯度对应的最优设定属性特征以及最优切分点。
[0308]
示例性的,干扰属性特征的类型可能为离散变量或连续变量。对于干扰属性特征的切分点的获取过程可以参见候选属性特征的切分点的获取过程,这里不再赘述。
[0309]
在步骤c5中,确定当前结点对应的设定属性特征为最优设定属性特征,当前结点对应的切分点为最优设定属性特征的最优切分点。
[0310]
在步骤c6中,将当前结点按照最优设定选属性特征的最优切分点将当前结点对应的数据集进行划分,以得到当前结点的两个子结点分别对应的数据集,对于每一子结点,将该子结点作为当前结点返回步骤c1。
[0311]
下面以表2的例子对上述步骤c1至步骤c6的过程进行说明。假设预先设置的干扰属性特征为年龄,候选属性特征为性别、预设时间段内用户账户访问电子资源页面的次数。则依据候选属性特征以及干扰属性特征得到决策树的过程如针对表2的描述,这里不再赘
述。
[0312]
在步骤a24中,基于所述重要度预测模型包含的决策树,获得多个所述候选属性特征分别对应的重要程度以及所述干扰属性特征对应的重要程度。
[0313]
相应的步骤s22的实现方式包括以下步骤a25至步骤a26。
[0314]
在步骤a25中,基于所述干扰属性特征的重要程度,获得所述第一阈值。
[0315]
在步骤a26中,从多个所述候选属性特征中获得重要程度大于所述第一阈值的所述属性特征。
[0316]
图4是根据一示例性实施例示出的一种重要度预测模型的另一种实现方式的结构图。
[0317]
图4是以预设的至少一个干扰属性特征包括两个干扰属性特征,多个候选属性特征为三个候选属性特征为例进行说明的,假设重要度预测模型包括两个决策树,假设三个候选属性特征用a1、a2、a3表示,两个干扰属性特征分别用a4和a5表示。
[0318]
示例性的,分类1可以为用户类型0,分类2可以为用户类型1。
[0319]
可以理解的是,由于干扰属性特征对于确定样本用户账户属于哪种用户类型没有任何影响,若某个候选属性特征的重要程度小于或等于第一阈值,说明该候选属性特征对于确定样本用户账户属于哪种用户类型没有任何影响。若使用包含重要程度小于或等于第一阈值的候选属性特征的样本数据集合训练机器学习模型,不仅不会提高机器学习模型输出的用户类型的准确性,还会增大训练机器学习模型过程中的数据量。所以从多个候选属性特征中筛选出重要程度大于第一阈值的多个属性特征,使用仅包含多个属性特征的样本数据集合训练机器学习模型,大大降低了训练机器学习模型过程中的数据量。且由于第一阈值不是经验值,所以不会出现第一种步骤s22或第二种步骤s22的实现方式中由于第一阈值是经验值导致的问题。
[0320]
在一可选实现方式中,步骤a13和步骤a24的具体实现方式有多种,本公开实施例提供但不限于以下实现方式。可以理解的是,获得干扰属性特征的重要程度的过程与获得候选属性特征的重要程度的过程相同,下面将干扰属性特征和候选属性特征统称为设定属性特征进行说明,即设定属性特征为候选属性特征或干扰属性特征。
[0321]
对于每一设定属性特征,基于所述重要度预测模型包含的决策树,获得所述设定属性特征的重要程度在实施过程中涉及以下步骤d11至步骤d14。
[0322]
在步骤d11中,从所述重要度预测模型包含的决策树中,获得与所述设定属性特征关联的目标非叶子结点。
[0323]
在步骤d12中,获得第一数值,所述第一数值表征所述目标非叶子结点的数据集对应的概率,所述目标非叶子结点的数据集包括多个样本用户账户,所述数据集对应的概率为所述数据集包含的多个样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率。
[0324]
在步骤d13中,获得第二数值,所述第二数值为所述目标非叶子结点的子结点对应的数据集的概率之和,每个子结点对应的数据集包含的样本用户账户为所述目标非叶子结点的数据集中满足所述设定属性特征关联的相应设定条件的样本用户账户,不同子结点对应的设定条件不同。
[0325]
示例性的,子结点包含的样本用户账户满足的设定条件与设定属性特征的属性值
有关,例如,假设目标非叶子结点为图3中的根结点,设定属性特征为候选属性特征a3,根结点的两个子结点分别为子结点1 (对应数据集d1)和子结点2(对应数据集d2);则子结点1对应的数据集d1包含的样本用户账户满足的设定条件为候选属性特征a3的属性值为高;子结点2对应的数据集d2包含的样本用户账户满足的设定条件为候选属性特征a3的属性值为低。
[0326]
在步骤d14中,将所述第一数值与所述第二数值的差值,确定为所述设定属性特征的重要程度。
[0327]
示例性的,数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率可以为基尼不纯度(即基尼指数),或,熵,或,信息增益。
[0328]
下面举例对上述步骤d11至步骤d14的实现过程进行说明。该例子中以“数据集包含的各样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率”为基尼指数为例进行说明。
[0329]
假设,设定属性特征为图3中的候选属性特征a3,图3所示的重要度预测模型与候选属性特征a3关联的目标非叶子结点的数目为1,且为根结点,根结点对应的数据集为数据集d,集d,
[0330]
基于候选属性特征a3对应的数据集d进行划分后,得到两个子结点,分别为子结点1(对应数据集 d1)和子结点2(对应数据集d2),详细可参见表3和表4。
[0331]
子结点1对应数据集d1,即图3所示的候选属性特征a3对应的结点的左侧子结点的数据集的基尼指数的计算公式如下:
[0332][0333]
子结点2对应数据集d2,图3所示的候选属性特征a3对应的节点的右侧子结点的数据集的基尼指数的计算公式如下:
[0334][0335]
第二数值=目标非叶子结点的子结点对应的数据集的概率之和=目标非叶子结点的子结点对应的数据集的基尼指数之和,即为:
[0336][0337]
仍以上述为例,候选属性特征a3对应的重要程度=第一数值-第二数值=0.48-0.27=0.21。
[0338]
示例性的,目标非叶子结点的数目可以为一个或多个。若目标非叶子结点的数目为1,那么,第一数值即为目标非叶子结点对应的数据集的概率;第二子数值为目标非叶子结点的子结点对应的数据集的概率之和。若目标非叶子结点的数目为多个,那么,第一数值为多个目标非叶子节点分别对应的数据集的概率的均值,第二数值为多个目标非叶子节点分别对应的子结点的数据集的概率之和的均值。
[0339]
例如,若目标非叶子结点的数目为3个,且分别为:目标非叶子结点1、目标非叶子结点2和目标非叶子结点3,则第一数值=(目标非叶子结点1对应的数据集的概率 目标非叶子结点2对应的数据集的概率 目标非叶子结点3对应的数据集的概率)/3。
[0340]
第二数值=(目标非叶子结点1对应的子结点的数据集的概率之和 目标非叶子结点2对应的子结点的数据集的概率之和 目标非叶子结点3对应的子结点的数据集的概率之和)/3。
[0341]
示例性的,可以结合eli5库mean decrease impurity(平均精确度减少)可视化所述设定属性特征对应的重要程度。
[0342]
在一可选实现方式中,由于设定属性特征对应的第一数值和第二数值的差值,更能够体现设定属性特征对于消除数据集的混乱度的贡献水平,将该差值作为设定属性特征的重要程度,使得从多个候选属性特征中筛选得到的多个属性特征更加符合后续训练机器学习模型的需求,使得训练得到的用户类型预测模型输出的用户类型更加准确。
[0343]
可以理解的是,由于离散变量和连续变量确定切分点的过程不同,在训练提升树模型时具有一定的差别,针对于此,在一可选实现方式中,所述至少一个干扰属性特征包括与属于离散变量的候选属性特征对应的至少一个第一干扰属性特征,和/或,与属于连续变量的候选属性特征对应的至少一个第二干扰属性特征。
[0344]
第一干扰属性特征属于离散变量,第二干扰属性特征属于连续变量。所述第一干扰属性特征对应的预设范围包括多个离散的值,所述第二干扰属性特征对应的预设范围包括多个连续的值。
[0345]
示例性的,步骤a25具体包括以下步骤e1和/或步骤e2。
[0346]
在步骤e1中,确定所述第一干扰属性特征的重要程度为属于离散变量的候选属性特征对应的第一阈值。
[0347]
示例性的,若第一干扰属性特征的数目为1,属于离散变量的候选属性特征对应的第一阈值即为该第一干扰属性特征的重要程度;示例性的,所述第一干扰属性特征的数目大于1,属于离散变量的候选属性特征对应的第一阈值可以为多个第一干扰属性特征的重要程度的均值。
[0348]
在步骤e2中,确定所述第二干扰属性特征的重要程度为属于连续变量的候选属性特征对应的第一阈值。
[0349]
示例性的,若第二干扰属性特征的数目为1,属于连续变量的候选属性特征对应的第一阈值即为该第二干扰属性特征的重要程度;示例性的,第二干扰属性特征的数目大于1,属于连续变量的候选属性特征对应的第一阈值可以为多个第二干扰属性特征的重要程度的均值。
[0350]
示例性的,相应的,步骤a26具体包括以下步骤f1和/或步骤f2。
[0351]
在步骤f1中,从属于离散变量的多个候选属性特征中,获得重要程度大于属于离散变量的候选属性特征对应的第一阈值的所述属性特征。
[0352]
在步骤f2中,从属于连续变量的多个候选属性特征中,获得重要程度大于属于连续变量的候选属性特征对应的第一阈值的所述属性特征。
[0353]
可以理解的是,由于离散变量和连续变量确定切分点的过程不同,在训练提升树模型时具有一定的差别,所以第一干扰属性特征的重要程度可能与第二干扰属性特征的重
要程度不同,为了能够从属于离散变量的多个候选属性特征获得所有的非干扰项,从属于连续变量的多个候选属性特征获得多有的非干扰项,从而训练得到更加准确的用户依赖程度预测模型,提供了上述步骤f1和/或步骤f2所示方法。
[0354]
在一可选实现方式中,为了使得训练得到的提升树模型更加准确,即得到的多个候选属性特征的重要程度、干扰属性特征的重要程度比较准确,需要上述多个候选属性特征不存在多重共线性。多重共线性是指训练机器学习模型的多个候选属性特征之间由于存在精确相关关系或高度相关关系而使机器学习模型估计失真或难以估计准确的情况。基于此,本公开实施例还提供了获得多个候选属性特征的方法,该方法在实施过程中包括以下步骤g1至步骤g2。
[0355]
在步骤g1中,获取多个待定属性特征。
[0356]
多个候选属性特征是从多个待定属性特征中筛选得到的,示例性的,多个待定属性特征的数目大于或等于多个候选属性特征的数目。
[0357]
示例性的,多个待定属性特征的获取方法包括以下步骤g11至步骤g13。
[0358]
在步骤g11中,获取多个原始属性特征。
[0359]
在步骤g12中,获取多个衍生属性特征,所述衍生属性特征由至少一个所述原始属性特征衍生得到。
[0360]
在步骤g13中,确定多个所述原始属性特征以及多个所述衍生属性特征分别为所述待定属性特征。
[0361]
针对原始属性特征和衍生属性特征的说明,可以参见针对图1的说明,这里不再赘述。
[0362]
在步骤g2中,将多个待定属性特征中线性无关的多个待定属性特征确定为所述候选属性特征。
[0363]
示例性的,检验多个待定属性特征是否线性相关的方法有多种,本公开实施例提供但不限于以下两种,第一种,通过容忍度(tolerance)校验;第二种,通过方差膨胀系数(variance inflation factor,vif)校验。
[0364]
在一可选实现方式中,还包括以下步骤g3至步骤g4。
[0365]
在步骤g3中,若所述多个待定属性特征中包括多个线性相关的待定属性特征,去除多个线性相关的待定属性特征中至少一个待定属性特征,保留线性无关的目标待定属性特征。
[0366]
示例性的,对于多个线性相关的待定属性特征,可以删除多个线性相关的待定属性特征中的一个或多个待定属性特征,使得剩余的一个或多个待定属性特征之间线性无关,剩余的一个或多个待定属性特征为目标待定属性特征。
[0367]
在步骤g4中,将所述目标待定属性特征确定为所述候选属性特征。
[0368]
示例性的,若预设的至少一个干扰属性特征包括多个干扰属性特征,多个干扰属性特征之间也应该线性无关。示例性的,预设的干扰属性特征与多个候选属性特征之间线性无关。
[0369]
本公开实施例中,由于多个候选属性特征之间线性无关所以训练得到的重要度预测模型更加准确。
[0370]
在一可选实现方式中,获得多个样本用户账户的候选数据集合后,可能存在一个
或多个样本用户账户的候选数据集合包含的一个或多个候选属性特征的属性值缺失或异常的情况。
[0371]
示例性的,候选属性特征的属性值异常的情况包括但不限于以下两种:第一种,候选属性特征的属性值超出候选属性特征的正常范围,例如,若候选属性特征为预设时间段内观看对象的总时长,若该候选属性特征的属性值大于预设时间段,则该属性值为异常值;第二种,样本用户账户的候选数据集合包含的候选属性特征的属性值远远大于其他样本用户账户的候选数据集合包含的该候选属性特征的属性值,例如,若候选属性特征为预设时间段内收藏对象的总数目,样本用户账户a的候选数据集合包含的该候选属性特征的属性值为10万,其他样本用户账户的候选数据集合包含的该候选属性特征的属性值的范围均属于 [100,500],则样本用户账户a的候选数据集合包含的该候选属性特征的属性值为异常值。
[0372]
示例性的,对于候选属性特征的属性值缺失或异常的情况,可以为该候选属性特征赋值,例如,可以将多个样本用户账户的候选数据集合包含的该候选属性特征的属性值的均值赋值给缺失属性值或属性值异常的候选属性特征。
[0373]
示例性的,若某个样本用户账户的候选数据集合包含有缺失属性值或异常属性值的候选属性特征,则可以删除该样本用户账户的候选数据集合,即不将该样本用户账户作为训练模型的训练样本。
[0374]
在一可选实现方式中,本公开实施例中从多个待定属性特征获得多个不存在多重共线性的多个候选属性特征;从多个候选属性特征中获得多个重要程度大于第一阈值的多个属性特征。获得多个样本用户账户的样本数据集合,样本数据集合包括所述多个属性特征的属性值。在一可选实现方式中,若多个样本用户账户的样本数据集合中存在样本用户账户的样本数据集合包含缺少属性值或属性值异常的属性特征,则可以将所述样本用户账户删除,或者,赋予相应的值。因此,本公开实施例获得的多个样本用户账户的样本数据集合更加能够表征样本用户账户对电子资源的需求程度,基于多个样本用户账户的样本数据集合训练得到的用户类型预测模型更加准确。
[0375]
下面对用户依赖程度预测模型的训练过程进行说明,该训练过程包括:将多个样本用户账户的样本数据集合作为机器学习模型的输入,将多个样本用户账户分别对应的所述标注用户类型作为训练目标,训练得到用户类型预测模型。
[0376]
示例性的,在训练机器学习模型的过程中涉及机器学习中的人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术中至少一种。
[0377]
示例性的,机器学习模型可以为神经网络模型、逻辑回归模型、线性回归模型、支持向量机(svm)、 adaboost、提升树模型、transformer-encoder模型中任一种模型。
[0378]
示例性的,神经网络模型可以为基于循环神经网络的模型、基于卷积神经网络的模型、基于 transformer-encoder的分类模型中的任一种。
[0379]
示例性的,机器学习模型可以为基于循环神经网络的模型、基于卷积神经网络的模型以及基于 transformer-encoder的分类模型的深度混合模型。
[0380]
示例性的,机器学习模型可以为基于注意力的深度模型、基于记忆网络的深度模型、基于深度学习的短文本分类模型中任一种。
[0381]
基于深度学习的短文本分类模型为循环神经网络(rnn)或卷积神经网络(cnn)或
者基于循环神经网络或卷积神经网络的变种。
[0382]
示例性的,可以在已经预训练好的模型上做一些简单的领域适应性改造,以得到机器学习模型。
[0383]
示例性的,“简单的领域适应性改造”包括但不限于在已经预训练好的模型上,再次利用大规模无监督领域语料进行二次预训练,和/或,通过模型蒸馏的方式对已经预训练好的模型进行模型压缩。
[0384]
示例性的,上述训练机器学习模型的过程可以为有监督学习。示例性的,还可以对机器学习模型进行半监督学习。半监督学习是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据以及同时使用标记数据,来进行模式识别工作。
[0385]
综上,属性特征的重要程度表征使用属性特征将多个样本用户账户划分到至少两个数据集后,所述至少两个数据集的概率之和的降低程度,可以理解的是,属性特征的重要程度越大,说明使用该属性特征划分得到的至少两个数据集的概率之和的降低程度越大。但是并不确定该属性特征是使得该样本用户账户倾向于哪种用户类型,例如,用户类型1或用户类型0。基于此,若用户类型预测模型为逻辑回归模型,本公开实施例还提供了以下步骤h1至步骤h3。示例性的,若用户类型预测模型不是逻辑回归模型,可以按照训练得到用户类型预测模型的方法,训练逻辑回归模型,以得到步骤h1至步骤h3提及的用户类型预测模型。
[0386]
在步骤h1中,基于所述用户类型预测模型,获得所述属性特征的影响程度。
[0387]
所述影响程度表征所述属性特征影响用户账户倾向的用户类型。
[0388]
示例性的,影响程度的符号表征所述属性特征影响用户账户倾向成为的用户类型,影响程度的绝对值的大小表征所述属性特征影响用户账户成为相应用户类型的程度。
[0389]
示例性的,假设用户类型1表征对电子资源需求程度高于预设阈值的用户类型,用户类型0表征对电子资源需求程度低于或等于预设阈值的用户类型,则属性特征的影响程度为正表征所述属性特征影响所述用户账户倾向成为用户类型1,属性特征的影响程度为负表征所述属性特征影响所述用户账户倾向成为用户类型0。若属性特征的影响程度为正,且,影响程度的绝对值较大,则表征该属性特征影响用户账户成为用户类型1的程度较大。若属性特征的影响程度为正,且,影响程度的绝对值较小,则表征该属性特征影响用户账户成为用户类型1的程度较小。若属性特征的影响程度为负,且,影响程度的绝对值较大,则表征该属性特征影响用户账户成为用户类型0的程度较大。若属性特征的影响程度为负,且,影响程度的绝对值较小,则表征该属性特征影响用户账户成为用户类型0的程度较小。
[0390]
在一可选实现方式中,用户类型预测模型为逻辑回归模型,属性特征对应的影响程度可以为该属性特征的逻辑回归系数。
[0391]
在一可选实现方式中,用户类型预测模型为逻辑回归模型,属性特征对应的影响程度可以为该属性特征的逻辑回归系数与该属性特征对应的标准误差的比值。
[0392]
其中,属性特征对应的标准误差是用于衡量该属性特征的逻辑回归系数的准确性,示例性的,若属性特征对应的标准误差越大,该属性特征的逻辑回归系数的准确性越低。
[0393]
可以理解的是,该属性特征的逻辑回归系数与该属性特征对应的标准误差的比值比表征了增加或删除该属性特征后用户类型预测模型的偏差的变化情况,也表征了属性特
征对于消除用户类型预测模型的混乱度的贡献水平。
[0394]
在一可选实现方式中,可以使用相应的函数从用户类型预测模型中获得多个属性特征分别对应的逻辑回归系数以及多个属性特征分别对应的标准误差。示例性的,可以使用函数coef()或summary()获得多个属性特征分别对应的逻辑回归系数以及多个属性特征分别对应的标准误差。
[0395]
在步骤h2中,从所述属性特征中获得影响程度的绝对值大于或等于第二阈值的目标属性特征。
[0396]
示例性的,第二阈值可以基于实际情况而定,这里不再赘述。
[0397]
在步骤h3中,获取变化规律信息,所述变化规律信息表征用户账户的标注用户类型与所述目标属性特征的关联关系。
[0398]
示例性的,可以将多个样本用户账户对应的所述目标属性特征的属性值随所述多个样本用户账户的所述标注用户类型的变化规律信息绘制成曲线。
[0399]
示例性的,可以获得曲线的拐点,基于该拐点对应的属性值确定引导用户账户转变为对电子资源的需求程度较小的用户类型的方式。
[0400]
示例性的,可以基于变化规律信息引导用户账户由用户类型1向用户类型0转换。
[0401]
假设目标属性特征的数目为多个,且多个目标属性特征分别为年龄以及观看对象的时间,通过多个样本用户账户对应的年龄的属性值和观看对象的时间的属性值随多个样本用户账户的标注用户类型的变化规律信息可知,观看对象的时间为下午且年龄的属性值为青年或中年的样本用户账户,大部分属于用户类型 0。
[0402]
示例性的,引导用户账户(样本用户账户或待测用户账户)转变为对电子资源的需求程度较小的用户类型的方式为:引导用户账户尽量下午登录客户端并观看对象。
[0403]
例如,用户下午基于用户账户登录客户端并观看对象得到的电子资源与上午登录客户端并观看对象相比,得到的电子资源更多。或者,下午登录客户端并观看对象可以免广告等一系列的优惠措施。
[0404]
假设目标属性特征为预设时间段内关注生产对象的作者的总数目,基于多个样本用户账户对应的预设时间段内关注生产对象的作者的总数目的属性值随多个样本用户账户的标注用户类型的变化规律信息可知,预设时间段内关注生产对象的作者的总数目大于或等于阈值b的用户账户,大部分属于用户类型0。
[0405]
示例性的,引导用户账户(样本用户账户或待测用户账户)转变为对电子资源的需求程度较小的用户类型的方式为:获取预设时间段内关注生产对象的作者的总数目低于阈值b的用户账户;获得用户账户感兴趣的对象类型a;向其推荐产生属于对象类型a的对象的作者。以使得在预设时间段内用户账户关注的作者的总数目等于或高于阈值b,以使得该用户账户向用户类型0转变。
[0406]
本技术实施例提供的上述用户类型预测模型训练方法的得到的用户类型预测模型可以应用于资源分配方法中。如图5所示,为本技术实施例提供的资源分配方法的流程图,该方法可以应用于服务器中,该方法在实施过程中涉及以下步骤s51至步骤s53。
[0407]
可以理解的是,训练得到用户类型预测模型的服务器与用于资源分配的服务器可以为同一服务器,也可以为不同服务器。
[0408]
在步骤s51中,获取待测用户账户的待测数据集合,所述待测数据集合包括所述待
测用户账户对应的属性特征的属性值。
[0409]
针对待测用户账户的待测数据集合的说明,可以参见针对样本用户账户的样本数据集合的说明。
[0410]
在一可选实现方式中,获得待测用户账户的待测数据集合的过程包括以下步骤j1至步骤j5。
[0411]
在步骤j1中,获取所述待测用户账户对应的多个原始属性特征的属性值。
[0412]
示例性的,可以参照样本用户账户对应的多个原始属性特征,得到待测用户账户对应的多个原始属性特征,即,样本用户账户对应的多个原始属性特征即为待测用户账户对应的多个原始属性特征。
[0413]
在步骤j2中,基于所述待测用户账户对应的多个原始属性特征的属性值,获得多个衍生属性特征的属性值,所述衍生属性特征由至少一个所述原始属性特征衍生得到。
[0414]
待测用户账户对应的衍生属性特征的方法与样本用户账户对应的衍生属性特征的计算方法相同,这里不再赘述。
[0415]
在步骤j3中,从多个所述原始属性特征的属性值以及多个所述衍生属性特征的属性值中,筛选出预设的多个候选属性特征的属性值,预设的所述多个候选属性特征线性无关。
[0416]
示例性的,由于通过大量样本用户账户的候选数据集合已经从多个待定属性特征(多个所述原始属性特征以及多个所述衍生属性特征分别为所述待定属性特征)中确定出多个线性无关的候选属性特征,即已经获知哪些候选属性特征线性无关,所以在步骤j3中,可以从多个待定属性特征中查找出多个线性无关的候选属性特征。
[0417]
多重共线性是指输入至用户类型预测模型的多个候选属性特征之间由于存在精确相关关系或高度相关关系而使用户类型预测模型估计失真或难以估计准确的情况。基于此,本公开实施例获得线性无关的多个候选属性特征的方法,从而提高用户类型预测模型输出的用户类型的准确性。
[0418]
在步骤j4中,从预设的候选属性特征与重要程度的对应关系中,获得所述多个候选属性特征分别对应的重要程度。
[0419]
可以理解的是,通过大量样本用户账户的候选数据集合,已经得到多个候选属性特征的重要程度,所以可以存储候选属性特征对应的重要程度,在执行步骤j4时,可以从预先存储的候选属性特征与重要程度的对应关系中,查找多个候选属性特征分别对应的重要程度。
[0420]
在步骤j5中,从多个候选属性特征的属性值中,筛选出所述重要程度大于或等于所述第一阈值的属性特征的属性值。
[0421]
第一阈值的确定方法参见针对样本用户账户进行说明中涉及的第一阈值的确定方法,这里不再赘述。
[0422]
若某个候选属性特征的重要程度小于或等于第一阈值,说明该候选属性特征对于确定待测用户账户属于哪种用户类型没有任何影响。若使用包含重要程度小于或等于第一阈值的候选属性特征的待测数据集合作为用户类型预测模型的输入,不仅不会提高用户类型预测模型输出的用户类型的准确性,还会增大用户类型预测模型的处理数据量。所以从多个候选属性特征中筛选出重要程度大于第一阈值的多个属性特征,使用仅包含多个属性
特征的待测数据集合作为用户类型预测模型的输入,大大降低了用户类型预测模型的处理数据量,且提高了用户类型预测模型输出的用户类型的准确度。
[0423]
在步骤s52中,将所述待测数据集合输入至用户类型预测模型,通过所述用户类型预测模型获得所述待测用户账户的用户类型。
[0424]
所述用户类型预测模型采用上述任一所述用户类型预测模型训练方法实施例描述的步骤进行训练。
[0425]
在步骤s53中,基于所述待测用户账户的用户类型,为所述待测用户账户分配电子资源。
[0426]
示例性的,基于待测用户账户的用户类型,为待测用户账户分配电子资源的实现方式有多种,本技术实施例提供但不限于以下方法,该方法包括以下步骤q1至步骤q2。
[0427]
在步骤q1中,从预先设置的用户类型、活跃程度信息与电子资源分配策略的对应关系中,查找待测用户账户的用户类型以及活跃程度信息对应的目标电子资源分配策略。
[0428]
在步骤q2中,按照所述目标电子资源分配策略,为待测用户账户分配资源。
[0429]
预先设置的用户类型、活跃程度信息与电子资源分配策略的对应关系的存储方式有多种,例如,函数、链表、表格。下面以表格为例进行说明。如表5所示。
[0430]
表5预设的对应关系表
[0431][0432]
表5中是以用户类型有两种为例进行说明的,即用户类型1、用户类型0。不同的用户类型分别对应有 m个活跃程度信息。不同用户类型下的同一活跃程度信息对应的电子资源分配策略不同,如,用户类型1 对应的活跃程度信息1对应的电子资源分配策略a1,与,用户类型0对应的活跃程度信息1对应的电子资源分配策略b1不同。
[0433]
下面对活跃程度信息进行说明。
[0434]
示例性的,活跃程度信息包括但不限于:在预设时间段内的累计待测用户账户处于活跃状态的天数和在预设时间段内的累计待测用户账户连续处于活跃状态的天数中的一个或多个。
[0435]
示例性的,在一天之内,运行登录有待测用户账户的客户端的总时长高于或等于预设阈值a,则确定待测用户账户在这天处于活跃状态。
[0436]
示例性的,若同一客户端有两个或多个版本,例如,极速版和主站版,示例性的,待测用户在同一客户端的不同版本使用的待测用户账号相同,或者,待测用户在同一客户端的不同版本使用的待测用户账号不同,但是在同一客户端的不同版本使用的待测用户账号具有关联关系。
[0437]
示例性的,上述运行登录有待测用户账户的客户端的总时长可以包括:运行登录有相同待测用户账户 (或相关联的待测用户账户)的至少一个版本的客户端的总时长。
[0438]
下面举例对电子资源分配策略进行说明。
[0439]
在一可选实现方式中,电子资源分配策略包括各层级分别对应的能够分配的电子资源的最大数目,以及,时间相邻的两个层级分别对应的电子资源的最大数目的差值。
[0440]
示例性的,每一层级对应的时长可以为1天、2天,

等。
[0441]
示例性的,时间相邻的两个层级分别对应的电子资源的最大数目的差值可以为正值,可以为负值。
[0442]
下面以一个层级为一天,电子资源分配策略包含的层级的总数目为5,且时间相邻的两个层级分别对应的电子资源的最大数目的差值为负值为例,对电子资源分配策略进行说明。一个用户账户单日能够得到的电子资源的最大数目随着天数的增加而递减,直至天数累加至第5天时,用户账户单日能够得到的电子资源的最大数目不再变化。
[0443]
示例性的,对电子资源的需求程度不同的用户账户,同一活跃程度信息对应的电子资源分配策略不同,不同的电子资源分配策略可以表现在以下至少一方面:同一层级对应的最大数目不同,时间相邻的两个层级分别对应的电子资源的最大数目的差值不同,电子资源分配策略包含的层级的总数目不同。
[0444]
下面对每个方面进行说明。同一层级对应的最大数目不同,示例性的,电子资源分配策略a1包含的层级a1对应的最大数目a1与电子资源分配策略b1包含的层级a1对应的最大数目b1不同。假设,用户类型1表征的用户账户对电子资源的需求程度高于用户类型0表征的用户账户对电子资源的需求程度,则最大数目a1大于最大数目b1。
[0445]
时间相邻的两个层级分别对应的电子资源的最大数目的差值不同,示例性的,电子资源分配策略a1 包含的时间相邻的层级a1与层级a2对应的最大数目的差值a12与电子资源分配策略b1包含的层级a1 与层级a2对应的最大数目的差值a21不同。假设,用户类型1表征的用户账户对电子资源的需求程度高于用户类型0表征的用户账户对电子资源的需求程度,示例性的,若时间相邻的两个层级分别对应的电子资源的最大数目的差值为负值,则差值a12的绝对值小于差值a21的绝对值;若时间相邻的两个层级分别对应的电子资源的最大数目的差值为正值,则差值a12的绝对值大于差值a21的绝对值。
[0446]
同一层级对应的最大数目不同,示例性的,电子资源分配策略a1包含的层级a1对应的最大数目与电子资源分配策略b1包含的层级a1对应的最大数目不同。假设,用户类型1表征的用户账户对电子资源的需求程度高于用户类型0表征的用户账户对电子资源的需求程度,则电子资源分配策略a1包含的层级a1 对应的最大数目大于电子资源分配策略b1包含的层级a1对应的最大数目。
[0447]
综上,对电子资源的需求程度不同用户账户,若用户账户的活跃程度信息相同,则对电子资源的需求程度较高的用户账户,相对于对电子资源的需求程度较低的用户账户而言,得到的电子资源越多。
[0448]
本公开实施例中,由于用户类型预测模型得到的待测用户账户的用户类型比较准确,所以基于待测用户账户的用户类型,为待测用户账户分配的电子资源与用户需求会更加匹配,从而可以明显提高用户的稳定性。示例性的,对于电子资源的需求程度较低的用户账户分配较少数目的电子资源,对于电子资源的需求程度较高的用户账户分配较多数目的电子资源,对于电子资源的需求程度较高的用户而言,由于被分配的电子资源的数目较多,为了能够获得更多的电子资源,会提升自己的活跃度,从而提高了用户的粘性,减少了用户
的流失。对于电子资源的需求程度较低的用户分配较少的电子资源,由于电子资源的多少,对用户的粘性影响程度较小,甚至不影响用户粘性,所以不会使得该用户成为流失用户,且降低了电子资源的额外支出。
[0449]
本技术实施例中,由于训练得到的用户类型预测模型比较准确,所以基于用户类型预测模型得到的待测用户账户的用户类型比较准确,所以基于待测用户账户的用户类型为所述待测用户账户分配电子资源比较符合待测用户账户的需求。
[0450]
在一可选实现方式中,由于已经得到了变化规律信息。所以可以基于待测用户账户的用户类型引导待测用户账户成为对电子资源需求程度较低的用户类型,例如,若待测用户账户为对电子资源需求程度高于或等于预设阈值的用户类型,通过所述变化规律信息,可以控制所述待测用户账户向对电子资源需求程度低于所述预设阈值的用户类型转变。
[0451]
示例性的,可以将多个样本用户账户对应的目标属性特征的属性值随多个样本用户账户的标注用户类型的变化规律信息绘制成曲线。
[0452]
示例性的,可以获得曲线的拐点,基于该拐点对应的属性值确定引导用户账户转变为对电子资源的需求程度较小的用户类型的方式。
[0453]
下面举例对“通过所述变化规律信息,控制所述待测用户账户向对电子资源需求程度低于所述预设阈值的用户类型转变”进行说明。
[0454]
示例性的,若待测用户账户的用户类型为对电子资源需求程度高于或等于预设阈值的用户类型,通过所述变化规律信息,确定指标属性特征。
[0455]
其中,所述指标属性特征包括第一目标属性特征和/或第二目标属性特征,所述第一目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度低于所述预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第一目标属性特征的属性值低于预设第三阈值,所述第二目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度高于或等于预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第二目标属性特征的属性值高于预设第四阈值。
[0456]
示例性的,不同第一目标属性特征对应的第三阈值不同;示例性的,不同第二目标属性特征对应的第四阈值不同。
[0457]
示例性的,第三阈值与属于对电子资源需求程度低于所述预设阈值的用户类型的多个样本用户账户分别对应的第一目标属性特征的属性值有关。
[0458]
如,第三阈值为属于对电子资源需求程度低于所述预设阈值的用户类型的多个样本用户账户分别对应的第一目标属性特征的属性值的均值。
[0459]
如,可以将属于对电子资源需求程度低于所述预设阈值的用户类型的多个样本用户账户分别对应的目标属性特征的属性值绘制成曲线;将该曲线的拐点对应的数值确定为第三阈值。
[0460]
示例性的,第四阈值与属于对电子资源需求程度高于或等于所述预设阈值的用户类型的多个样本用户账户分别对应的第二目标属性特征的属性值有关。
[0461]
如,第四阈值为属于对电子资源需求程度高于或等于所述预设阈值的用户类型的多个样本用户账户分别对应的第二目标属性特征的属性值的均值。
[0462]
如,可以将属于对电子资源需求程度高于或等于所述预设阈值的用户类型的多个
样本用户账户分别对应的目标属性特征的属性值绘制成曲线;将该曲线的拐点对应的数值确定为第四阈值。
[0463]
下面举例对上述确定指标属性特征的过程进行说明。
[0464]
假设得到的目标属性特征的数目为多个,且多个目标属性特征分别为:预设时间段内收藏对象的总数目、预设时间段内观看对象的总数目、预设时间段内观看对象所属类型、预设时间段内用户访问电子资源页面的次数、预设时间段内将第一类型的电子资源兑换为第二类型的电子资源的总次数。
[0465]
若通过多个样本用户账户对应的多个目标属性特征的属性值随多个样本用户账户的标注用户类型的变化规律信息得到:预设时间段内收藏对象的总数目的属性值大于或等于阈值c、预设时间段内观看对象的总数目的属性值大于或等于阈值d、预设时间段内观看对象所属类型的属性值包括灵异类型的样本用户账户属于用户类型0;若预设时间段内用户访问电子资源页面的次数的属性值大于或等于阈值e、预设时间段内将第一类型的电子资源兑换为第二类型的电子资源的总次数的属性值大于或等于阈值f的样本用户账户属于用户类型1。
[0466]
若待测用户账户的用户类型为对电子资源需求程度高于或等于所述预设阈值的用户类型的。待测用户账户的预设时间段内收藏对象的总数目的属性值为数值a,预设时间段内观看对象的总数目的属性值为数值b,预设时间段内观看对象所属类型的属性值包括灵异类型。若数值a小于阈值c,数值b小于阈值d,则可以将预设时间段内收藏对象的总数目以及预设时间段内观看对象的总数目确定为第一目标属性特征。
[0467]
若待测用户账户的预设时间段内用户访问电子资源页面的次数的属性值为数值c,预设时间段内将第一类型的电子资源兑换为第二类型的电子资源的总次数的属性值为数值d,数值c高于阈值e,数值d高于阈值f,则可以将预设时间段内用户访问电子资源页面的次数、预设时间段内将第一类型的电子资源兑换为第二类型的电子资源的总次数确定为第二目标属性特征。
[0468]
可以理解的是,针对待测用户账户,确定指标属性特征后,可以利用指标属性特征引导待测用户账户从用户类型1向用户类型0转变。
[0469]
如引导待测用户账户在预设时间段内收藏对象的总数目从数值a增大甚至超过阈值c;如引导待测用户账户在预设时间段内观看对象的总数目从数值b增大甚至超过阈值d;如引导待测用户账户在预设时间段内用户访问电子资源页面的次数由数值c降低甚至小于阈值e;如引导待测用户账户在预设时间段内将第一类型的电子资源兑换为第二类型的电子资源的总次数由阈值d降低到阈值f或小于阈值f的数值。
[0470]
上述本公开的实施例中详细描述了方法,对于本公开实施例提供的方法可采用多种形式的装置实现,因此本技术还公开了多种装置,下面给出具体的实施例进行详细说明。
[0471]
图6是根据一示例性实施例示出的一种用户类型预测模型训练装置的框图,该装置包括:第一获取模块61、第二获取模块62、第三获取模块63以及训练模块64。
[0472]
第一获取模块61,被配置为获取多个候选属性特征分别对应的重要程度,所述候选属性特征对应的重要程度表征所述候选属性特征影响用户对电子资源的需求程度,所述候选属性特征包括表征用户账户针对客户端的使用行为的行为特征、以及表征客户端向用户账户分配电子资源的电子资源分配特征中的任一个;
[0473]
第二获取模块62,被配置为从所述多个候选属性特征中获得所述重要程度大于或等于第一阈值的属性特征;
[0474]
第三获取模块63,被配置为获取多个样本用户账户分别对应的样本数据集合,所述样本数据集合包括所述样本用户账户对应的所述属性特征的属性值;
[0475]
训练模块64,被配置为以多个样本用户账户分别对应的样本数据集合作为机器学习模型的输入,以多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到所述用户类型预测模型,所述样本用户账户的标注用户类型为所述样本用户账户对电子资源的需求程度。
[0476]
在一可选实现方式中,所述第一获取模块具体被配置为:
[0477]
第一获取单元,被配置为获取多个样本用户账户分别对应的候选数据集合,所述候选数据集合包括样本用户账户对应的多个候选属性特征的属性值;
[0478]
第一训练单元,被配置为将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括非叶子结点以及叶子结点,所述非叶子结点与所述候选属性特征相关联,所述叶子节点与所述标注用户类型相关联;
[0479]
第二获取单元,被配置为基于所述重要度预测模型包含的决策树,获得所述多个候选属性特征分别对应的重要程度。
[0480]
在一可选实现方式中,所述第一获取模块具体被配置为:
[0481]
第三获取单元,被配置为获取多个候选属性特征以及预设的至少一个干扰属性特征,所述干扰属性特征为与用户账户对电子资源的需求程度无关的特征;
[0482]
第四获取单元,被配置为获取多个样本用户账户分别对应的候选数据集合,所述样本用户账户的所述候选数据集合包括所述样本用户账户对应的多个候选属性特征的属性值以及所述至少一个干扰属性特征的属性值;
[0483]
第二训练单元,被配置为将多个样本用户账户分别对应的候选数据集合作为提升树模型的输入,将多个样本用户账户分别对应的标注用户类型作为训练目标,训练得到重要度预测模型,所述重要度预测模型包括决策树,所述决策树包括第一非叶子结点、第二非叶子结点以及叶子结点,所述第一非叶子结点与所述候选属性特征相关联,所述第二非叶子结点与所述干扰属性特征相关联,所述叶子结点与所述标注用户类型相关联;
[0484]
第五获取单元,被配置为基于所述重要度预测模型包含的决策树,获得多个所述候选属性特征分别对应的重要程度以及所述干扰属性特征对应的重要程度。
[0485]
在一可选实现方式中,所述第二获取模块具体被配置为:
[0486]
第六获取单元,被配置为基于所述干扰属性特征的重要程度,获得所述第一阈值;
[0487]
第七获取单元,被配置为从多个所述候选属性特征中获得重要程度大于所述第一阈值的所述属性特征。
[0488]
在一可选实现方式中,设定属性特征为所述候选属性特征或所述干扰属性特征,所述第二获取单元或所述第五获取单元具体被配置为:
[0489]
第一获取子单元,被配置为从所述重要度预测模型包含的决策树中,获得与所述设定属性特征关联的目标非叶子结点;
[0490]
第二获取子单元,被配置为获得第一数值,所述第一数值表征所述目标非叶子结点的数据集对应的概率,所述目标非叶子结点的数据集包括多个样本用户账户,所述数据集对应的概率为所述数据集包含的多个样本用户账户分别对应的标注用户类型不属于同一标注用户类型的概率;
[0491]
第三获取子单元,被配置为获得第二数值,所述第二数值为所述目标非叶子结点的子结点对应的数据集的概率之和,每个子结点对应的数据集包含的样本用户账户为所述目标非叶子结点的数据集中满足所述设定属性特征关联的相应设定条件的样本用户账户,不同子结点对应的设定条件不同;
[0492]
第一确定子单元,被配置为将所述第一数值与所述第二数值的差值,确定为所述设定属性特征的重要程度。
[0493]
在一可选实现方式中,所述至少一个干扰属性特征包括与属于离散变量的候选属性特征对应的第一干扰属性特征和/或与属于连续变量的候选属性特征对应的第二干扰属性特征;所述第七获取单元具体被配置为:
[0494]
第四获取子单元,被配置为从属于离散变量的多个候选属性特征中,获得重要程度大于属于离散变量的候选属性特征对应的第一阈值的所述属性特征,属于离散变量的候选属性特征对应的第一阈值为所述第一干扰属性特征的重要程度;和/或,
[0495]
第五获取子单元,被配置为从属于连续变量的多个候选属性特征中,获得重要程度大于属于连续变量的候选属性特征对应的第一阈值的所述属性特征,属于连续变量的候选属性特征对应的第一阈值为所述第二干扰属性特征的重要程度。
[0496]
在一可选实现方式中,还包括:
[0497]
第四获取模块,被配置为获取多个待定属性特征;
[0498]
第一确定模块,被配置为将多个待定属性特征中线性无关的多个待定属性特征确定为所述候选属性特征。
[0499]
在一可选实现方式中,还包括:
[0500]
筛选模块,被配置为若所述多个待定属性特征中包括多个线性相关的待定属性特征,去除多个线性相关的待定属性特征中至少一个待定属性特征,保留线性无关的目标待定属性特征;
[0501]
第二确定模块,被配置为将所述目标待定属性特征确定为所述候选属性特征。
[0502]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0503]
图7是根据一示例性实施例示出的一种资源分配装置的框图,该装置包括:第五获取模块71、第六获取模块72以及分配资源模块73。
[0504]
第五获取模块71,被配置为获取待测用户账户的待测数据集合,所述待测数据集合包括所述待测用户账户对应的属性特征的属性值。
[0505]
第六获取模块72,被配置为将所述待测数据集合输入至用户类型预测模型,通过所述用户类型预测模型获得所述待测用户账户的用户类型,所述用户类型预测模型采用如任一所述用户类型预测模型训练方法进行训练。
[0506]
分配资源模块73,被配置为基于所述待测用户账户的用户类型为所述待测用户账户分配电子资源。
[0507]
在一可选实现方式中,所述第五获取模块具体被配置为:
[0508]
第十获取单元,被配置为获取所述待测用户账户对应的多个原始属性特征的属性值;
[0509]
第十一获取单元,被配置为基于所述待测用户账户对应的多个原始属性特征的属性值,获得多个衍生属性特征的属性值,所述衍生属性特征由至少一个所述原始属性特征衍生得到;
[0510]
第一筛选单元,被配置为从多个所述原始属性特征的属性值以及多个所述衍生属性特征的属性值中,筛选出预设的多个候选属性特征的属性值,预设的所述多个候选属性特征线性无关;
[0511]
第十二获取单元,被配置为从预设的候选属性特征与重要程度的对应关系中,获得所述多个候选属性特征分别对应的重要程度;
[0512]
第二筛选单元,被配置为从多个候选属性特征的属性值中,筛选出所述重要程度大于或等于所述第一阈值的属性特征的属性值。
[0513]
在一可选实现方式中,所述用户类型预测模型为逻辑回归模型,所述资源分配装置还包括:
[0514]
第七获取模块,被配置为基于所述用户类型预测模型,获得所述属性特征的影响程度,所述影响程度表征所述属性特征影响用户账户倾向的用户类型;
[0515]
第八获取模块,被配置为从所述属性特征中获得影响程度大于或等于第二阈值的目标属性特征;
[0516]
第九获取模块,被配置为获取变化规律信息,所述变化规律信息表征用户账户的标注用户类型与所述目标属性特征的关联关系;
[0517]
控制模块,被配置为若所述待测用户账户的用户类型为对电子资源需求程度高于或等于预设阈值的用户类型,通过所述变化规律信息,确定指标属性特征;
[0518]
其中,所述指标属性特征包括第一目标属性特征和/或第二目标属性特征,所述第一目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度低于所述预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第一目标属性特征的属性值低于预设第三阈值,所述第二目标属性特征为影响所述待测用户账户倾向为对电子资源需求程度高于或等于预设阈值的用户类型的目标属性特征,且,所述待测用户账户的第二目标属性特征的属性值高于预设第四阈值。
[0519]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0520]
图8是根据一示例性实施例示出的一种用于服务器的框图,该服务器用于执行上述的用户类型预测模型训练方法,和/或,上述资源分配方法。
[0521]
如图8所示,服务器包括但不限于:处理器801、存储器802、网络接口803、i/o控制器804以及通信总线805。
[0522]
需要说明的是,本领域技术人员可以理解,图8中示出的服务器的结构并不构成对服务器的限定,服务器可以包括比图8所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0523]
下面结合图8对服务器11的各个构成部件进行具体的介绍:
[0524]
处理器801是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。处理器801可包括一个或多个处理单元;可选的,处理器801 可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。
[0525]
处理器801可能是一个中央处理器(central processing unit,cpu),或者是特定集成电路asic (application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0526]
存储器802可能包含内存,例如高速随机存取存储器(random-access memory,ram)8021和只读存储器(read-only memory,rom)8022,也可能还包括大容量存储设备8023,例如至少1个磁盘存储器等。当然,存储器802还可能包括其他业务所需要的硬件。
[0527]
其中,上述的存储器802,用于存储上述处理器801可执行指令。上述处理器801被配置为执行应用于服务器的电子资源分配策略确定方法实施例中任一步骤。
[0528]
一个有线或无线网络接803被配置为将服务器11连接到网络。
[0529]
处理器801、存储器802、网络接口803和i/o控制器804可以通过通信总线805相互连接,该通信总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral componentinterconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构) 总线等。所述总线可以分为地址总线、数据总线、控制总线等。
[0530]
在示例性实施例中,服务器可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述电子资源传输方法。
[0531]
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器802,上述指令可由服务器的处理器801执行以完成上述的用户类型预测模型训练方法,和/或,上述资源分配方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0532]
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述的用户类型预测模型训练方法,和/或,上述资源分配方法。
[0533]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0534]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献