年龄识别模型的训练方法、装置及年龄识别方法、装置与流程

2022-02-20 19:28:18 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种年龄识别模型的训练方法、装置及年龄识别方法、装置。

背景技术：

2.随着互联网技术的不断发展，很多基于互联网的服务应运而生。目前来说，很多基于互联网的业务需要采集用户的年龄，以广告投放业务为例，通常需要获取用户的年龄信息，以便基于用户的年龄，向用户投放更为合适的广告。在相关技术中，一般是根据多个用户的特征数据来训练年龄识别模型。然而，发明人发现，现有技术在根据多个用户的特征数据来训练年龄识别模型时，由于用户的特征数据较多，且需要收集非常多的用户的特征数据，导致在训练过程中需要耗费大量的时间来训练模型，模型的训练效率较低。

技术实现要素：

3.有鉴于此，现提供一种年龄识别模型的训练方法、装置、年龄识别方法、装置、计算机设备及计算机可读存储介质，以解决现有的年龄识别模型训练效率较低的问题。
4.本技术提供了一种年龄识别模型的训练方法，包括：
5.获取多个用户的特征数据，其中，每个用户的特征数据包括用户静态特征数据以及用户历史行为特征数据，所述用户静态特征数据至少包括用户的年龄数据；
6.对各个用户的特征数据进行特征签名处理，以将各个用户的特征数据转换为对应的数值化的高维特征空间数据；
7.对各个用户对应的数值化的高维特征空间数据进行降维处理，得到多个训练样本数据，其中，每个样本数据以用户的年龄数据作为样本标签；
8.将所述多个训练样本数据输入至预设的算法模型中进行训练，得到年龄识别模型。
9.可选地，获取预先建立的第一高维特征空间数据映射表，其中，所述第一高维特征空间数据映射表包含有高维特征空间数据与低维空间数据的对应关系；
10.根据所述第一高维特征空间数据映射表将各个用户对应的数值化的高维特征空间数据转换为对应的低维空间数据。
11.可选地，所述对各个用户对应的数值化的高维特征空间数据进行降维处理包括：
12.将所有用户对应的数值化的高维特征空间数据进行去重处理，并将去重处理后得到的高维特征空间数据进行映射编码，以建立第二高维特征空间数据映射表，其中，所述第二高维特征空间数据映射表包含有高维特征空间数据与低维空间数据的对应关系；
13.根据所述第二高维特征空间数据映射表将各个用户对应的数值化的高维特征空间数据转换为对应的低维空间数据。
14.可选地，所述算法模型为xgboost算法模型，所述xgboost算法具体为：
15.其中，k为树的总个数，fk表示第k颗树，表示样本数据xi的预测结果；
16.所述xgboost算法模型的损失函数为：
17.其中为样本数据xi的训练误差，ω(fk)表示第k棵树的正则项。
18.可选地，所述对各个用户的特征数据进行特征签名处理，以将各个用户的特征数据转换为对应的数值化的高维特征空间数据包括：
19.从各个用户的特征数据中抽取出与所述年龄识别模型相关联的目标特征数据；
20.对抽取到的各个用户的目标特征数据进行特征签名处理，以将各个用户的目标特征数据转换为对应的数值化的高维特征空间数据。
21.本技术还提供了一种年龄识别方法，包括：
22.获取目标用户的特征数据，其中，所述特征数据包括用户静态特征数据以及用户历史行为特征数据；
23.对所述特征数据进行特征签名处理，以将所述特征数据转换为对应的数值化的高维特征空间数据；
24.对所述高维特征空间数据进行降维处理，得到稀疏矩阵；
25.将所述稀疏矩阵输入至预先训练好的年龄识别模型中，以通过所述年龄识别模型输出所述目标用户的年龄，其中，所述年龄识别模型为通过上述所述的年龄识别模型的训练方法进行训练得到的。
26.本技术还提供了一种年龄识别模型的训练装置，包括：
27.获取装置，用于获取多个用户的特征数据，其中，每个用户的特征数据包括用户静态特征数据以及用户历史行为特征数据，所述用户静态特征数据至少包括用户的年龄数据；
28.转换模块，用于对各个用户的特征数据进行特征签名处理，以将各个用户的特征数据转换为对应的数值化的高维特征空间数据；
29.降维模块，用于对各个用户对应的数值化的高维特征空间数据进行降维处理，得到多个训练样本数据，其中，每个样本数据以用户的年龄数据作为样本标签；
30.输入模块，用于将所述多个训练样本数据输入至预设的算法模型中进行训练，得到年龄识别模型。
31.本技术还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
32.本技术还提供了一种年龄识别装置，包括：
33.获取模块，用于获取目标用户的特征数据，其中，所述特征数据包括用户静态特征数据以及用户历史行为特征数据；
34.转换模块，用于对所述特征数据进行特征签名处理，以将所述特征数据转换为对
应的数值化的高维特征空间数据；
35.降维模块，用于对所述高维特征空间数据进行降维处理，得到稀疏矩阵；
36.输入模块，用于将所述稀疏矩阵输入至预先训练好的年龄识别模型中，以通过所述年龄识别模型输出所述目标用户的年龄，其中，所述年龄识别模型为通过上述所述的年龄识别模型的训练方法进行训练得到的
37.本技术还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
38.本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。
39.上述技术方案的有益效果：
40.本技术实施例中，通过在获取到用户的特征数据之后，先将其进行特征签名处理，以转换为可以被直接输入至模型中进行训练的高维特征空间数据，之后对高维特征空间数据进行降维处理，得到多个训练样本数据，最后，将得到的训练样本数据输入至预设的决策树模型中进行训练，得到年龄识别模型。在本技术实施例中，由于转换得到的高维特征空间数据因维度较高的原因需要占用较多的存储空间进行存储，因此，在本实施例中在得到该高维特征空间数据之后，通过将该高维特征空间数据转换为低维特征空间数据，从而可以减少数据占用的存储空间，降低数据量，进而可以在对模型训练时，使用较少的数据对决策树模型进行训练，得到年龄识别模型，提高模型的训练效率。
附图说明
41.图1为本技术所述年龄识别模型的训练方法的系统框架图的一种实施例的框架图；
42.图2为本技术所述的年龄识别模型的训练方法的一种实施例的流程图；
43.图3为本技术一实施方式中对各个用户对应的数值化的高维特征空间数据进行降维处理的步骤细化流程图；
44.图4为本技术一实施方式中对各个用户对应的数值化的高维特征空间数据进行降维处理的步骤细化流程图；
45.图5为本技术一实施方式中对各个用户的特征数据进行特征签名处理，以将各个用户的特征数据转换为对应的数值化的高维特征空间数据的步骤细化流程图；
46.图6为本技术所述的年龄识别方法的一种实施例的流程图；
47.图7为本技术所述的年龄识别模型的训练装置的一种实施例的模块图；
48.图8为本技术所述的年龄识别装置的一种实施例的模块图；
49.图9为本技术实施例提供的执行年龄识别模型的训练方法或年龄识别方法的计算机设备的硬件结构示意图。
具体实施方式
50.以下结合附图与具体实施例进一步阐述本技术的优点。
51.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及
附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
52.在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
53.应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
54.在本技术的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本技术及区别每一步骤，因此不能理解为对本技术的限制。
55.图1示意性示出了根据本技术实施例的年龄识别模型的训练方法的应用环境示意图。在示例性的实施例中，该应用环境的系统可包括用户终端10、后台服务器20。其中，用户终端10与后台服务器20形成无线或有线连接，且用户终端10具有相应的应用客户端或网页客户端。其中，用户终端10可以为pc、手机、ipad，平板电脑、笔记本电脑、个人数字助理等。后台服务器20可以为机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。
56.参阅图2，其为本技术一实施例的年龄识别模型的训练方法的流程示意图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，从图中可以看出，本实施例中所提供的年龄识别模型的训练方法包括：
57.步骤s20、获取多个用户的特征数据，其中，每个用户的特征数据包括用户静态特征数据以及用户历史行为特征数据，所述用户静态特征数据至少包括用户的年龄数据。
58.具体地，可以获取预设时长内的多个用户的特征数据，所述预设时长可以根据实际情况进行设定，比如30天、60天等，所述多个用户包括至少两个用户。
59.在实际应用中，该每个用户的特征数据可以包括用户静态特征数据以及用户历史行为特征数据，其中，用户静态特征数据指的是用户的相对不变的特征数据，比如用户注册平台应用时所填写的信息，包括用户的年龄数据、性别数据、常住地数据等，该平台应用可以为视频类平台应用、电商类平台应用、社交类平台应用等，在本实施例中，该平台应用以哔哩哔哩(bilibili)平台应用为例。
60.用户历史行为数据为用户在预设时长内在平台应用中的行为数据。在该平台应用为哔哩哔哩(bilibili)平台应用时，该行为数据可以包括用户观看视频的行为数据，具体可以包括用户对视频的点赞行为数据，用户的投币行为数据、用户对稿件的转发行为数据，用户观看视频的时长数据等。
61.在一实施方式中，该行为数据还可以包括用户在观看平台中广告所产生的行为数据。
62.可以理解的是，为了区分不同的用户，各个用户的特征数据还包括用户的标识信息，例如用户的id，该用户的id可以为用户的账号信息。
63.步骤s21，对各个用户的特征数据进行特征签名处理，以将各个用户的特征数据转换为对应的数值化的高维特征空间数据。
64.具体地，特征签名处理指的是将用户的特征数据进行数值化转化的操作，即将用户的文本特征数据数值化为稀疏矩阵的形式。
65.在一实施方式中，可以采用独热编码(one-hot)的方式对用户的特征数据进行特征签名处理，以将用户的特征数据转换为对应的数值化的高维特征空间数据。
66.在另一实施方式中，可以采用tf-idf(词频-逆文档频次)算法对用户的特征数据进行特征签名处理，以将用户的特征数据转换为对应的数值化的高维特征空间数据。
67.在本实施例中，在对用户的特征数据进行特征签名处理时，需要对用户的各个特征数据分别进行特征签名处理，比如，用户的特征数据包括用户的年龄数据、用户的性别特征数据，用户的点赞行为数据，用户的投币行为数据，则需要分别对用户的年龄数据、用户的性别特征数据，用户的点赞行为数据，用户的投币行为数据进行特征签名处理。
68.需要说明的是，在本实施例中，经过特征签名处理后的数值类型优选为bigint。
69.步骤s22，对各个用户对应的数值化的高维特征空间数据进行降维处理，得到多个训练样本数据，其中，每个样本数据以用户的年龄数据作为样本标签。
70.具体地，一个训练样本数据为一个用户对应的数值化的高维特征空间数据进行降维处理后得到的数据，即用户的数量与训练样本数据的数量相同，且在对用户的特征数据进行处理时，以用户的年龄数据作为该样本数据的样本标签。经过处理后的得到的训练样本数据可以表示成(features,label)。
71.在本实施例中，该降维处理指的是将高维度的数据转换为低维度的数据。在一具体场景中，将高纬度的数据转换为低纬度的数据指的是将bigint类型的特征数据重新索引到低维，比如某一类型的特征数据总共有n个特征，则在进行索引时，就可以将该类型的特征数据对应的高维特征空间数据索引为0～n-1中的一个数据，例如，性别特征数据只会包含“男”和“女”两个特征，而现有技术在对“男”和“女”两个特征进行特征签名处理后得到的bigint类型的特征数据是一个位数比较多的高维特征空间数据，示例性的，特征数据“男”、“女”经过特征签名后处理得到的高维特征空间数据分别为123456789，125845209，则在对这两个高纬度特征空间数据进行索引时，可以将其分别索引为“0”和“1”。
72.又比如，对于用户的常住地特征数据，只会包含有n个可能的常住地址，即只包含有n个特征。在本实施例中，为了便于理解，假设常住地特征数据只会包含有10个常住地址，分别为a、b、c、d、e、f、g、h、i、j。现有技术在对这10个特征进行特征签名后处理得到的高维特征空间数据分别为1234567890，1258452095，12558452095，12588452095，10258452095，125845209599，125845209523，125845209585，1258452095455，1258452095678，则在对这10个高纬度特征空间数据进行索引时，可以将其分别索引为“0”、“1”、“2”、“3”“4”、“5”、“6”、“7”、“8”、“9”。
73.进一步地，参照图3，在一实施方式中，所述对各个用户对应的数值化的高维特征空间数据进行降维处理，得到多个训练样本数据，其中，每个样本数据以用户的年龄数据作为样本标签包括：
74.步骤s30，获取预先建立的第一高维特征空间数据映射表，其中，所述第一高维特征空间数据映射表包含有高维特征空间数据与低维空间数据的对应关系。
75.具体地，可以预先建立好包含有高维特征空间数据与低维空间数据的对应关系的第一高维特征空间数据映射表。比如用户的性别数据(gender)男、女经过特征签名后处理得到的高维特征空间数据分别为123456789，125845209，则可以预先建立如下表所述的映射表：
76.gendergender’12345678911258452092
77.又比如，用户的点赞行为数据(click)a、b、c经过特征签名后处理得到的高维特征空间数据分别为1546479178254556，4757248687564564，4757248613564569，则可以预先建立如下表所述的映射表：
78.clickclick’154647917825455610475724868756456411475724861356456912
79.同理，用户的其他特征行为数据可以参照上述方式建立映射表。
80.本实施例中，为了使得用户不同的特征数据经过特征签名处理后的高维特征空间数据都能够转换为对应的低维空间数据，则在建立映射表时，需要预先将所有可能出现的高维特征空间数据都对应一个不同的低维空间数据。
81.需要说明的是，上述映射表中的对应关系仅为示例性的，具体建立的映射表时的各个高维特征空间数据与低维空间数据的对应关系可以根据实际情况进行确定。
82.步骤s31，根据所述第一高维特征空间数据映射表将各个用户对应的数值化的高维特征空间数据转换为对应的低维空间数据。
83.具体地，在得到用户对应的数值化的高维特征空间数据之后，即可以通过查询映射表的方式将高维特征空间数据转换为对应的低维空间数据。比如，用户的高维特征空间数据为123456789，125845209，1546479178254556，4757248687564564，4757248613564569，则通过查询映射表可知，对应的低维空间数据为：1，2，10，11，12。
84.本技术实施例中，在将用户各个特征数据对应的高维特征空间数据转换为对应的低维空间数据之后，将该用户所有的低维空间数据组成起来，得到一个稀疏矩阵，并将该稀疏矩阵作为一个训练样本数据。
85.本技术实施例，通过预先建立高维特征空间数据映射表，从而可以快速地将高维特征空间数据转换为对应的低维空间数据。
86.示例性地，在另一实施方式中，参照图4，所述对各个用户对应的数值化的高维特征空间数据进行降维处理包括：
87.步骤s40，将所有用户对应的数值化的高维特征空间数据进行去重处理，并将去重处理后得到的高维特征空间数据进行映射编码，以建立第二高维特征空间数据映射表，其中，所述第二高维特征空间数据映射表包含有高维特征空间数据与低维空间数据的对应关系。
88.具体地，在对所有用户对应的数值化的高维特征空间数据进行去重处理时，由于用户不同的特征数据转换得到的高维特征空间数据的维度一般都不同，因此，本实施例在进行去重处理时，可以无需根据特征数据的类别进行去重，可以直接将所有的用户的高维特征空间数据进行合并，然后将合并后得到的数据进行去重处理，最后将得到的没有重复的高维特征空间数据进行映射编码，以建立第二高维特征空间数据映射表。其中，映射编码指的是将一个高维特征空间数据转换为一个对应的低维空间数据。
89.需要说明的是，在进行去重处理时，也可以根据特征数据的类别进行去重，例如用户的特征数据包括用户的性别特征数据，用户的点赞行为数据，用户的投币行为数据，则可以对所有用户对应的数值化的高维特征空间数据按照性别，点赞行为，投币行为三类分别对对应的高维特征空间数据进行去重处理，然后根据去重后得到的高维特征空间数据分别按照性别，点赞行为，投币行为三类进行映射编码，以建立第二高维特征空间数据映射表。可以理解的是，按照上述三类进行映射编码时，可以建立3个第二高维特征空间数据映射表。
90.在一实施方式中，在进行映射编码时，可以按照高维特征空间数据的次序对所有的去重后得到的高维特征空间数据进行自增编码，具体进行映射编码后建立的第二高维特征空间数据映射表可以参照下表：
91.高维特征空间数据低维空间数据12345678911258452092154647917825455634757248687564564447572486135645695
92.其中，以下5个高维特征空间数据：123456789，125845209，1546479178254556，4757248687564564，4757248613564569是经过去重处理后得到的高维特征空间数据，经过映射编码处理后得到的低维空间数据依次为1，2，3，4，5。
93.步骤s41，根据所述第二高维特征空间数据映射表将各个用户对应的数值化的高维特征空间数据转换为对应的低维空间数据。
94.具体地，在得到用户对应的数值化的高维特征空间数据之后，即可以通过查询映射表的方式将高维特征空间数据转换为对应的低维空间数据。比如，用户的高维特征空间数据为123456789，125845209，1546479178254556，4757248687564564，4757248613564569，则通过查询映射表可知，对应的低维空间数据为：1，2，3，4，5。
95.本实施例与上述实施例中的降维处理方法的区别点在于，本实施例在建立高维特征空间数据映射表时，无需考虑所有可能出现的高维特征空间数据，而只需要为出现的高维特征空间数据建立映射关系，通过本实施例中的方式建立映射表，可以节省存储空间。
96.步骤s23，将所述多个训练样本数据输入至预设的算法模型中进行训练，得到年龄识别模型。
97.具体地，所述算法模型可以为回归模型，决策树模型等，在本实施例中，该算法模型优选为决策树模型。
98.其中，决策树(decision tree)是在已知各种情况发生概率的基础上，通过构成决
策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树模型是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。entropy为系统的凌乱程度，使用算法id3,c4.5和c5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
99.决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
100.本技术实施例将多个训练样本数据输入至预设的决策树模型中进行训练，从而不断更新模型中的参数，直到模型收敛为止，停止对模型的训练，即可得到年龄识别模型。
101.需要说明的是，本技术实施例在得到年龄识别模型后，可以采用测试样本数据集对该年龄识别模型进行验证，其中，验证样本数据集包括多个验证样本数据。
102.本技术实施例中，通过在获取到用户的特征数据之后，先将其进行特征签名处理，以转换为可以被直接输入至模型中进行训练的高维特征空间数据，之后对高维特征空间数据进行降维处理，得到多个训练样本数据，最后，将得到的训练样本数据输入至预设的决策树模型中进行训练，得到年龄识别模型。在本技术实施例中，由于转换得到的高维特征空间数据因维度较高的原因需要占用较多的存储空间进行存储，因此，在本实施例中在得到该高维特征空间数据之后，通过将该高维特征空间数据转换为低维特征空间数据，从而可以减少数据占用的存储空间，降低数据量，进而可以在对模型训练时，使用较少的数据对决策树模型进行训练，得到年龄识别模型，提高模型的训练效率。
103.在示例性的实施例中，该决策树模型优选为xgboost算法模型，所述xgboost算法具体为：
104.其中，k为树的总个数，fk表示第k颗树，表示样本数据xi的预测结果；
105.所述xgboost算法模型的损失函数为：
106.其中为样本数据xi的训练误差，ω(fk)表示第k棵树的正则项。
107.由于xgboost算法模型支持并行化处理，因此，本技术实施例通过将xgboost算法模型作为训练年龄识别模型的训练模型，可以提高模型的训练效率。
108.通过将本技术实施例中的年龄识别模型的训练方法训练得到的年龄识别模型应用于哔哩哔哩(bilibili)平台应用时，可以对该平台中的所有用户进行年龄预测识别，相对于现有的年龄识别模型训练任务频率为周，采样本实施例的模型训练方法，模型的预测任务更新频率可以从周优化为每天，从而保证可以对平台中所有用户均可年龄定向预测识别。
109.在一示例性的实施方式中，参照图5，所述对各个用户的特征数据进行特征签名处理，以将各个用户的特征数据转换为对应的数值化的高维特征空间数据包括：
110.步骤s50，从各个用户的特征数据中抽取出与所述年龄识别模型相关联的目标特
征数据。
111.步骤s51，对抽取到的各个用户的目标特征数据进行特征签名处理，以将各个用户的目标特征数据转换为对应的数值化的高维特征空间数据。
112.具体地，由于用户的特征数据包含有用户的各种各样的特征，比如，在一示例性的场景中，获取到的用户的特征数据除了包含有用户的年龄数据、性别数据、常住地数据，用户对视频的点赞行为数据，用户的投币行为数据、用户对稿件的转发行为数据，还包含有用户的消费水平数据，而用户的消费水平数据是与训练年龄识别模型无关的特征。因而，在本实施例中，可以预先设定与年龄识别模型相关联的目标特征数据，这样，在得到各个用户的特征数据之后，为了减少数据处理量，可以在获取到用户的特征数据之后，只从用户的特征数据中抽取该目标特征数据，对于该用户的特征数据中除所述目标特征数据之外的特征数据丢弃。
113.本实施例中，在抽取到用户的目标特征数据之后，即可以直接抽取到的各个用户的目标特征数据进行特征签名处理，以将各个用户的目标特征数据转换为对应的数值化的高维特征空间数据。
114.本技术实施例，通过将用户的目标特征数据从用户的所有特征数据中抽取出来，这样，可以只对抽取到的目标特征数据进行特征签名处理，从而可以减少数据的处理量，提高数据处理效率。
115.参阅图6，其为本技术一实施例的年龄识别方法的流程示意图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，从图中可以看出，本实施例中所提供的年龄识别方法包括：
116.步骤s60，获取目标用户的特征数据，其中，所述特征数据包括用户静态特征数据以及用户历史行为特征数据；
117.步骤s61，对所述特征数据进行特征签名处理，以将所述特征数据转换为对应的数值化的高维特征空间数据；
118.步骤s62，对所述高维特征空间数据进行降维处理，得到稀疏矩阵；
119.具体地，上述步骤s60-s63与上述步骤s20-s23类似，在本实施例中不再赘述。
120.需要说明的是，本实施例中的目标用户为待进行年龄识别的用户。稀疏矩阵类似与上述实施例中的训练样本数据，与上述实施例中的训练样本数据不同在于，该稀疏矩阵不包含有样本标签。
121.步骤s63，将所述稀疏矩阵输入至预先训练好的年龄识别模型中，以通过所述年龄识别模型输出所述目标用户的年龄。
122.具体地，本实施例中的稀疏矩阵为通过将高维特征空间数据重新索引到低维空间数据后所组成的矩阵。本实施例中的年龄识别模型可以根据用户的特征数据对用户的年龄进行预测识别。
123.示例性地，对于用户mid_a，经过特征签名处理后可形成高维特征空间数据feature space1_a，在对该高维特征空间数据feature space1_a进行降维处理后，可以得到低维空间数据feature1，即得到所述稀疏矩阵。将该稀疏矩阵输入至年龄识别模型中，即可以输出目标用户的年龄。
124.在本技术实施例中，可以每天对年龄识别模型进行更新，对于在年龄识别模型更
新之前的用户，可以采用该未更新的年龄识别模型对用户的年龄进行识别。对于年龄识别模型更新后的用户，可以采用更新后的年龄识别模型对用户的年龄进行识别。比如，比如，年龄识别模型每天零点进行更新，则对于零点后的平台中的所有用户，包括之前的老用户，以及在零点之后产生的新用户，都可以采用该年龄识别模型对用户的年龄进行预测识别。
125.需要说明的是，在本实施例中在对用户的年龄进行预测识别之后，可以根据识别出的年龄进行广告定向投放。
126.本技术实施例中的年龄识别模型可以根据用户的特征数据，对用户的年龄进行准确的预测识别。
127.参阅图7所示，是本技术年龄识别模型的训练装置700一实施例的程序模块图。
128.本实施例中，所述年龄识别模型的训练装置700包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本技术各实施例的年龄识别模型的训练功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，年龄识别模型的训练装置700可以被划分为一个或多个模块。例如，在图7中，所述年龄识别模型的训练装置700可以被分割成获取模块701、转换模块702、降维模块703、输入模块704。其中：
129.获取模块701，用于获取多个用户的特征数据，其中，每个用户的特征数据包括用户静态特征数据以及用户历史行为特征数据，所述用户静态特征数据至少包括用户的年龄数据。
130.具体地，可以获取预设时长内的多个用户的特征数据，所述预设时长可以根据实际情况进行设定，比如30天、60天等，所述多个用户包括至少两个用户。
131.在实际应用中，该每个用户的特征数据可以包括用户静态特征数据以及用户历史行为特征数据，其中，用户静态特征数据指的是用户的相对不变的特征数据，比如用户注册平台应用时所填写的信息，包括用户的年龄数据、性别数据、常住地数据等，该平台应用可以为视频类平台应用、电商类平台应用、社交类平台应用等，在本实施例中，该平台应用以哔哩哔哩(bilibili)平台应用为例。
132.用户历史行为数据为用户在预设时长内在平台应用中的行为数据。在该平台应用为哔哩哔哩(bilibili)平台应用时，该行为数据可以包括用户观看视频的行为数据，具体可以包括用户对视频的点赞行为数据，用户的投币行为数据、用户对稿件的转发行为数据，用户观看视频的时长数据等。
133.在一实施方式中，该行为数据还可以包括用户在观看平台中广告所产生的行为数据。
134.可以理解的是，为了区分不同的用户，各个用户的特征数据还包括用户的标识信息，例如用户的id，该用户的id可以为用户的账号信息。
135.转换模块702，用于对各个用户的特征数据进行特征签名处理，以将各个用户的特征数据转换为对应的数值化的高维特征空间数据。
136.具体地，特征签名处理指的是将用户的特征数据进行数值化转化的操作，即将用户的文本特征数据数值化为稀疏矩阵的形式。
137.在一实施方式中，可以采用独热编码(one-hot)的方式对用户的特征数据进行特征签名处理，以将用户的特征数据转换为对应的数值化的高维特征空间数据。
138.在另一实施方式中，可以采用tf-idf(词频-逆文档频次)算法对用户的特征数据进行特征签名处理，以将用户的特征数据转换为对应的数值化的高维特征空间数据。
139.在本实施例中，在对用户的特征数据进行特征签名处理时，需要对用户的各个特征数据分别进行特征签名处理，比如，用户的特征数据包括用户的年龄数据、用户的性别特征数据，用户的点赞行为数据，用户的投币行为数据，则需要分别对用户的年龄数据、用户的性别特征数据，用户的点赞行为数据，用户的投币行为数据进行特征签名处理。
140.需要说明的是，在本实施例中，经过特征签名处理后的数值类型优选为bigint。
141.降维模块703，用于对各个用户对应的数值化的高维特征空间数据进行降维处理，得到多个训练样本数据，其中，每个样本数据以用户的年龄数据作为样本标签。
142.具体地，一个训练样本数据为一个用户对应的数值化的高维特征空间数据进行降维处理后得到的数据，即用户的数量与训练样本数据的数量相同，且在对用户的特征数据进行处理时，以用户的年龄数据作为该样本数据的样本标签。经过处理后的得到的训练样本数据可以表示成(features,label)。
143.在本实施例中，该降维处理指的是将高维度的数据转换为低维度的数据。在一具体场景中，将高纬度的数据转换为低纬度的数据指的是将bigint类型的特征数据重新索引到低维，比如某一类型的特征数据总共有n个特征，则在进行索引时，就可以将该类型的特征数据对应的高维特征空间数据索引为0～n-1中的一个数据，例如，性别特征数据只会包含“男”和“女”两个特征，而现有技术在对“男”和“女”两个特征进行特征签名处理后得到的bigint类型的特征数据是一个位数比较多的高维特征空间数据，示例性的，特征数据“男”、“女”经过特征签名后处理得到的高维特征空间数据分别为123456789，125845209，则在对这两个高纬度特征空间数据进行索引时，可以将其分别索引为“0”和“1”。
144.又比如，对于用户的常住地特征数据，只会包含有n个可能的常住地址，即只包含有n个特征。在本实施例中，为了便于理解，假设常住地特征数据只会包含有10个常住地址，分别为a、b、c、d、e、f、g、h、i、j。现有技术在对这10个特征进行特征签名后处理得到的高维特征空间数据分别为1234567890，1258452095，12558452095，12588452095，10258452095，125845209599，125845209523，125845209585，1258452095455，1258452095678，则在对这10个高纬度特征空间数据进行索引时，可以将其分别索引为“0”、“1”、“2”、“3”“4”、“5”、“6”、“7”、“8”、“9”。
145.进一步地，在一实施方式中，降维模块703，还用于获取预先建立的第一高维特征空间数据映射表，其中，所述第一高维特征空间数据映射表包含有高维特征空间数据与低维空间数据的对应关系。
146.具体地，可以预先建立好包含有高维特征空间数据与低维空间数据的对应关系的第一高维特征空间数据映射表。比如用户的性别数据(gender)男、女经过特征签名后处理得到的高维特征空间数据分别为123456789，125845209，则可以预先建立如下表所述的映射表：
147.gendergender’12345678911258452092
148.又比如，用户的点赞行为数据(click)a、b、c经过特征签名后处理得到的高维特征
空间数据分别为1546479178254556，4757248687564564，4757248613564569，则可以预先建立如下表所述的映射表：
149.clickclick’154647917825455610475724868756456411475724861356456912
150.同理，用户的其他特征行为数据可以参照上述方式建立映射表。
151.本实施例中，为了使得用户不同的特征数据经过特征签名处理后的高维特征空间数据都能够转换为对应的低维空间数据，则在建立映射表时，需要预先将所有可能出现的高维特征空间数据都对应一个不同的低维空间数据。
152.需要说明的是，上述映射表中的对应关系仅为示例性的，具体建立的映射表时的各个高维特征空间数据与低维空间数据的对应关系可以根据实际情况进行确定。
153.降维模块703，还用于根据所述第一高维特征空间数据映射表将各个用户对应的数值化的高维特征空间数据转换为对应的低维空间数据。
154.具体地，在得到用户对应的数值化的高维特征空间数据之后，即可以通过查询映射表的方式将高维特征空间数据转换为对应的低维空间数据。比如，用户的高维特征空间数据为123456789，125845209，1546479178254556，4757248687564564，4757248613564569，则通过查询映射表可知，对应的低维空间数据为：1，2，10，11，12。
155.本技术实施例中，在将用户各个特征数据对应的高维特征空间数据转换为对应的低维空间数据之后，将该用户所有的低维空间数据组成起来，得到一个稀疏矩阵，并将该稀疏矩阵作为一个训练样本数据。
156.本技术实施例，通过预先建立高维特征空间数据映射表，从而可以快速地将高维特征空间数据转换为对应的低维空间数据。
157.示例性地，在另一实施方式中，降维模块703，还用于将所有用户对应的数值化的高维特征空间数据进行去重处理，并将去重处理后得到的高维特征空间数据进行映射编码，以建立第二高维特征空间数据映射表，其中，所述第二高维特征空间数据映射表包含有高维特征空间数据与低维空间数据的对应关系。
158.具体地，在对所有用户对应的数值化的高维特征空间数据进行去重处理时，由于用户不同的特征数据转换得到的高维特征空间数据的维度一般都不同，因此，本实施例在进行去重处理时，可以无需根据特征数据的类别进行去重，可以直接将所有的用户的高维特征空间数据进行合并，然后将合并后得到的数据进行去重处理，最后将得到的没有重复的高维特征空间数据进行映射编码，以建立第二高维特征空间数据映射表。其中，映射编码指的是将一个高维特征空间数据转换为一个对应的低维空间数据。
159.需要说明的是，在进行去重处理时，也可以根据特征数据的类别进行去重，例如用户的特征数据包括用户的性别特征数据，用户的点赞行为数据，用户的投币行为数据，则可以对所有用户对应的数值化的高维特征空间数据按照性别，点赞行为，投币行为三类分别对对应的高维特征空间数据进行去重处理，然后根据去重后得到的高维特征空间数据分别按照性别，点赞行为，投币行为三类进行映射编码，以建立第二高维特征空间数据映射表。可以理解的是，按照上述三类进行映射编码时，可以建立3个第二高维特征空间数据映射
表。
160.在一实施方式中，在进行映射编码时，可以按照高维特征空间数据的次序对所有的去重后得到的高维特征空间数据进行自增编码，具体进行映射编码后建立的第二高维特征空间数据映射表可以参照下表：
161.高维特征空间数据低维空间数据12345678911258452092154647917825455634757248687564564447572486135645695
162.其中，以下5个高维特征空间数据：123456789，125845209，1546479178254556，4757248687564564，4757248613564569是经过去重处理后得到的高维特征空间数据，经过映射编码处理后得到的低维空间数据依次为1，2，3，4，5。
163.降维模块703，还用于根据所述第二高维特征空间数据映射表将各个用户对应的数值化的高维特征空间数据转换为对应的低维空间数据。
164.具体地，在得到用户对应的数值化的高维特征空间数据之后，即可以通过查询映射表的方式将高维特征空间数据转换为对应的低维空间数据。比如，用户的高维特征空间数据为123456789，125845209，1546479178254556，4757248687564564，4757248613564569，则通过查询映射表可知，对应的低维空间数据为：1，2，3，4，5。
165.本实施例与上述实施例中的降维处理方法的区别点在于，本实施例在建立高维特征空间数据映射表时，无需考虑所有可能出现的高维特征空间数据，而只需要为出现的高维特征空间数据建立映射关系，通过本实施例中的方式建立映射表，可以节省存储空间。
166.输入模块704，用于将所述多个训练样本数据输入至预设的算法模型中进行训练，得到年龄识别模型。
167.具体地，所述算法模型可以为回归模型，决策树模型等，在本实施例中，该算法模型优选为决策树模型。
168.其中，决策树(decision tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树模型是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。entropy为系统的凌乱程度，使用算法id3,c4.5和c5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
169.决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
170.本技术实施例将多个训练样本数据输入至预设的决策树模型中进行训练，从而不断更新模型中的参数，直到模型收敛为止，停止对模型的训练，即可得到年龄识别模型。
171.需要说明的是，本技术实施例在得到年龄识别模型后，可以采用测试样本数据集对该年龄识别模型进行验证，其中，验证样本数据集包括多个验证样本数据。
172.本技术实施例中，通过在获取到用户的特征数据之后，先将其进行特征签名处理，
以转换为可以被直接输入至模型中进行训练的高维特征空间数据，之后对高维特征空间数据进行降维处理，得到多个训练样本数据，最后，将得到的训练样本数据输入至预设的决策树模型中进行训练，得到年龄识别模型。在本技术实施例中，由于转换得到的高维特征空间数据因维度较高的原因需要占用较多的存储空间进行存储，因此，在本实施例中在得到该高维特征空间数据之后，通过将该高维特征空间数据转换为低维特征空间数据，从而可以减少数据占用的存储空间，降低数据量，进而可以在对模型训练时，使用较少的数据对决策树模型进行训练，得到年龄识别模型，提高模型的训练效率。
173.在示例性的实施例中，该决策树模型优选为xgboost算法模型，所述xgboost算法具体为：
174.其中，k为树的总个数，fk表示第k颗树，表示样本数据xi的预测结果；
175.所述xgboost算法模型的损失函数为：
176.其中为样本数据xi的训练误差，ω(fk)表示第k棵树的正则项。
177.由于xgboost算法模型支持并行化处理，因此，本技术实施例通过将xgboost算法模型作为训练年龄识别模型的训练模型，可以提高模型的训练效率。
178.通过将本技术实施例中的年龄识别模型的训练方法训练得到的年龄识别模型应用于哔哩哔哩(bilibili)平台应用时，可以对该平台中的所有用户进行年龄预测识别，相对于现有的年龄识别模型训练任务频率为周，采样本实施例的模型训练方法，模型的预测任务更新频率可以从周优化为每天，从而保证可以对平台中所有用户均可年龄定向预测识别。
179.在一示例性的实施方式中，转换模块702，还用于从各个用户的特征数据中抽取出与所述年龄识别模型相关联的目标特征数据，以及用于对抽取到的各个用户的目标特征数据进行特征签名处理，以将各个用户的目标特征数据转换为对应的数值化的高维特征空间数据。
180.具体地，由于用户的特征数据包含有用户的各种各样的特征，比如，在一示例性的场景中，获取到的用户的特征数据除了包含有用户的年龄数据、性别数据、常住地数据，用户对视频的点赞行为数据，用户的投币行为数据、用户对稿件的转发行为数据，还包含有用户的消费水平数据，而用户的消费水平数据是与训练年龄识别模型无关的特征。因而，在本实施例中，可以预先设定与年龄识别模型相关联的目标特征数据，这样，在得到各个用户的特征数据之后，为了减少数据处理量，可以在获取到用户的特征数据之后，只从用户的特征数据中抽取该目标特征数据，对于该用户的特征数据中除所述目标特征数据之外的特征数据丢弃。
181.本实施例中，在抽取到用户的目标特征数据之后，即可以直接抽取到的各个用户的目标特征数据进行特征签名处理，以将各个用户的目标特征数据转换为对应的数值化的高维特征空间数据。
182.本技术实施例，通过将用户的目标特征数据从用户的所有特征数据中抽取出来，这样，可以只对抽取到的目标特征数据进行特征签名处理，从而可以减少数据的处理量，提高数据处理效率。
183.参阅图8所示，是本技术年龄识别装置800一实施例的程序模块图。
184.本实施例中，所述年龄识别8装置800包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本技术各实施例的年龄识别模型的训练功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，年龄识别装置800可以被划分为一个或多个模块。例如，在图8中，所述年龄识别装置800可以被分割成获取模块801、转换模块802、降维模块803、输入模块804。其中：
185.获取模块801，用于获取目标用户的特征数据，其中，所述特征数据包括用户静态特征数据以及用户历史行为特征数据；
186.转换模块802，用于对所述特征数据进行特征签名处理，以将所述特征数据转换为对应的数值化的高维特征空间数据；
187.降维模块803，用于对所述高维特征空间数据进行降维处理，得到稀疏矩阵；
188.具体地，上述获取模块801、转换模块802、降维模块803与上述实施例中的获取模块701、转换模块702、降维模块703类似，在本实施例中不再赘述。
189.需要说明的是，本实施例中的目标用户为待进行年龄识别的用户。稀疏矩阵类似与上述实施例中的训练样本数据，与上述实施例中的训练样本数据不同在于，该稀疏矩阵不包含有样本标签。
190.输入模块804，用于将所述稀疏矩阵输入至预先训练好的年龄识别模型中，以通过所述年龄识别模型输出所述目标用户的年龄。
191.具体地，本实施例中的稀疏矩阵为通过将高维特征空间数据重新索引到低维空间数据后所组成的矩阵。本实施例中的年龄识别模型可以根据用户的特征数据对用户的年龄进行预测识别。
192.示例性地，对于用户mid_a，经过特征签名处理后可形成高维特征空间数据feature space1_a，在对该高维特征空间数据feature space1_a进行降维处理后，可以得到低维空间数据feature1，即得到所述稀疏矩阵。将该稀疏矩阵输入至年龄识别模型中，即可以输出目标用户的年龄。
193.在本技术实施例中，可以每天对年龄识别模型进行更新，对于在年龄识别模型更新之前的用户，可以采用该未更新的年龄识别模型对用户的年龄进行识别。对于年龄识别模型更新后的用户，可以采用更新后的年龄识别模型对用户的年龄进行识别。比如，比如，年龄识别模型每天零点进行更新，则对于零点后的平台中的所有用户，包括之前的老用户，以及在零点之后产生的新用户，都可以采用该年龄识别模型对用户的年龄进行预测识别。
194.需要说明的是，在本实施例中在对用户的年龄进行预测识别之后，可以根据识别出的年龄进行广告定向投放。
195.本技术实施例中的年龄识别模型可以根据用户的特征数据，对用户的年龄进行准确的预测识别。
196.图9示意性示出了根据本技术实施例的适于实现年龄识别模型的训练方法或实现年龄识别方法的计算机设备9的硬件架构示意图。本实施例中，计算机设备9是一种能够按
照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图9所示，计算机设备9至少包括但不限于：可通过系统总线相互通信链接存储器901、处理器902、网络接口903。其中：
197.存储器901至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器901可以是计算机设备9的内部存储模块，例如该计算机设备9的硬盘或内存。在另一些实施例中，存储器901也可以是计算机设备9的外部存储设备，例如该计算机设备9上配备的插接式硬盘，智能存储卡(smart media card，简称为smc)，安全数字(secure digital，简称为sd)卡，闪存卡(flash card)等。当然，存储器901还可以既包括计算机设备9的内部存储模块也包括其外部存储设备。本实施例中，存储器901通常用于存储安装于计算机设备9的操作系统和各类应用软件，例如年龄识别模型的训练方法的程序代码或年龄识别方法的程序代码等。此外，存储器901还可以用于暂时地存储已经输出或者将要输出的各类数据。
198.处理器902在一些实施例中可以是中央处理器(central processing unit，简称为cpu)、控制器、微控制器、微处理器、或其它数据处理芯片。该处理器902通常用于控制计算机设备9的总体操作，例如执行与计算机设备9进行数据交互或者通信相关的控制和处理等。本实施例中，处理器902用于运行存储器901中存储的程序代码或者处理数据。
199.网络接口903可包括无线网络接口或有线网络接口，该网络接口903通常用于在计算机设备9与其它计算机设备之间建立通信链接。例如，网络接口903用于通过网络将计算机设备9与外部终端相连，在计算机设备9与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(global system of mobile communication，简称为gsm)、宽带码分多址(wideband code division multiple access，简称为wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。
200.需要指出的是，图9仅示出了具有部件901～903的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。
201.在本实施例中，存储于存储器901中的年龄识别模型的训练方法或年龄识别方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器902)所执行，以完成本技术。
202.本技术实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的年龄识别模型的训练方法的步骤。
203.本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算
机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，简称为smc)，安全数字(secure digital，简称为sd)卡，闪存卡(flash card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的年龄识别模型的训练方法或年龄识别方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
204.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
205.通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。
206.最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、设备及介质与流程

年龄识别模型的训练方法、装置及年龄识别方法、装置与流程

相关文献

最热文献