一种用户分类方法和装置与流程

2021-11-26 21:16:00 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种用户分类方法和装置。

背景技术：

2.目前针对未注册用户的价值识别主要是采用层次分析法，该方法赋予每个层次相应的权重，并通过实验效果不断调整每个层次的权重，最后加权平均后得到未注册用户的价值。由于该方法通过实验效果不断调整每个层次的权重，并最终计算出未注册用户的价值，实现起来比较死板，不能挖掘出未注册用户深层次的抽象特征，使得确定出的未注册用户的价值分类信息在应用到业务活动中时，无法针对性地对各类未注册用户开展业务活动，影响业务活动的执行效率，例如，在做广告投放(尤其是拉新活动)时，无法有针对性地进行用户选择，影响拉新率并提高了广告投放成本。
3.在实现本发明过程中，发明人发现现有技术中至少存在如下问题：
4.不能挖掘出未注册用户深层次的抽象特征，确定出的未注册用户的价值分类信息在应用到业务活动中时，使得业务活动缺乏针对性，影响业务活动的执行效率，并提高了活动成本。

技术实现要素：

5.有鉴于此，本发明实施例提供一种用户分类方法和装置，能够挖掘出未注册用户深层次的抽象特征，使得业务活动具有针对性，提高业务活动的执行效率，并降低活动成本。
6.为实现上述目的，根据本发明实施例的一个方面，提供了一种用户分类方法。
7.一种用户分类方法，包括：根据第一用户数据集中用户的行为数据，确定所述第一用户数据集中用户的价值分类标签；以所述第一用户数据集的用户特征和所述价值分类标签作为训练数据，训练用户价值分类器；将第二用户数据集的用户特征输入训练后的所述用户价值分类器，以计算所述第二用户数据集的用户特征对于每一价值分类的吻合度，并将所述吻合度转换为对应某一价值类别的概率，以根据所述概率确定所述第二用户数据集中用户的价值分类信息。
8.可选地，所述根据第一用户数据集中用户的行为数据，确定所述第一用户数据集中用户的价值分类标签，包括：计算所述第一用户数据集中每一用户的至少一种行为指标值，并基于得到的所有所述行为指标值按照种类分别计算均值，得到每种行为指标值均值；根据计算得到的所述行为指标值和所述行为指标值均值，利用预设的用户价值模型，确定所述第一用户数据集中用户的价值分类标签。
9.可选地，所述至少一种行为指标值包括最近一次行为时间距离当前的时长、行为频次和行为相关金额；所述根据计算得到的所述行为指标值和所述行为指标值均值，利用预设的用户价值模型，确定所述第一用户数据集中用户的价值分类标签，包括：将所述第一用户数据集中每一用户的所述最近一次行为时间距离当前的时长、所述行为频次和行为相
关金额，分别与对应的行为指标值均值比较，以确定所述第一用户数据集中每一用户在最近一次行为、行为频次和行为相关金额三个方面的价值评价等级；根据所述第一用户数据集中每一用户在所述三个方面的价值评价等级，按照所述预设的用户价值模型中价值评价等级组合与价值类别之间的对应关系，确定所述第一用户数据集中每一用户的价值类别，其中，所述价值评价等级组合为所述三个方面的价值评价等级的有序组合；对所述第一用户数据集中每一用户的价值类别编码，得到所述第一用户数据集中用户的价值分类标签。
10.可选地，通过如下方式提取一个用户数据集的用户特征，所述用户数据集为所述第一用户数据集或所述第二用户数据集：对所述用户数据集中用户的用户设备信息、浏览器信息、所在区域、职业、小区价格中的一种或多种信息编码，将得到的编码向量作为所述用户数据集的用户特征。
11.可选地，所述用户价值分类器基于两层或两层以上的神经网络实现。
12.根据本发明实施例的另一方面，提供了一种用户分类装置。
13.一种用户分类装置，包括：标签确定模块，用于根据第一用户数据集中用户的行为数据，确定所述第一用户数据集中用户的价值分类标签；训练模块，用于以所述第一用户数据集的用户特征和所述价值分类标签作为训练数据，训练用户价值分类器；分类确定模块，用于将第二用户数据集的用户特征输入训练后的所述用户价值分类器，以计算所述第二用户数据集的用户特征对于每一价值分类的吻合度，并将所述吻合度转换为对应某一价值类别的概率，以根据所述概率确定所述第二用户数据集中用户的价值分类信息。
14.可选地，所述标签确定模块还用于：计算所述第一用户数据集中每一用户的至少一种行为指标值，并基于得到的所有所述行为指标值按照种类分别计算均值，得到每种行为指标值均值；根据计算得到的所述行为指标值和所述行为指标值均值，利用预设的用户价值模型，确定所述第一用户数据集中用户的价值分类标签。
15.可选地，所述至少一种行为指标值包括最近一次行为时间距离当前的时长、行为频次和行为相关金额；所述标签确定模块包括价值分类标签确定子模块，用于：将所述第一用户数据集中每一用户的所述最近一次行为时间距离当前的时长、所述行为频次和行为相关金额，分别与对应的行为指标值均值比较，以确定所述第一用户数据集中每一用户在最近一次行为、行为频次和行为相关金额三个方面的价值评价等级；根据所述第一用户数据集中每一用户在所述三个方面的价值评价等级，按照所述预设的用户价值模型中价值评价等级组合与价值类别之间的对应关系，确定所述第一用户数据集中每一用户的价值类别，其中，所述价值评价等级组合为所述三个方面的价值评价等级的有序组合；对所述第一用户数据集中每一用户的价值类别编码，得到所述第一用户数据集中用户的价值分类标签。
16.可选地，还包括用户特征提取模块，用于通过如下方式提取一个用户数据集的用户特征，所述用户数据集为所述第一用户数据集或所述第二用户数据集：对所述用户数据集中用户的用户设备信息、浏览器信息、所在区域、职业、小区价格中的一种或多种信息编码，将得到的编码向量作为所述用户数据集的用户特征。
17.可选地，所述用户价值分类器基于两层或两层以上的神经网络实现。
18.根据本发明实施例的又一方面，提供了一种电子设备。
19.一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发
明实施例所提供的用户分类方法。
20.根据本发明实施例的又一方面，提供了一种计算机可读介质。
21.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的用户分类方法。
22.上述发明中的一个实施例具有如下优点或有益效果：根据第一用户数据集中用户的行为数据，确定第一用户数据集中用户的价值分类标签；以第一用户数据集的用户特征和价值分类标签作为训练数据，训练用户价值分类器；将第二用户数据集的用户特征输入训练后的用户价值分类器，以计算第二用户数据集的用户特征对于每一价值分类的吻合度，并将吻合度转换为对应某一价值类别的概率，以根据该概率确定第二用户数据集中用户的价值分类信息。能够挖掘出未注册用户深层次的抽象特征，使得业务活动具有针对性，提高业务活动的执行效率，并降低活动成本。
23.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
24.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
25.图1是根据本发明一个实施例的用户分类方法的主要步骤示意图；
26.图2是根据本发明一个实施例的用户分类流程示意图；
27.图3是根据本发明一个实施例的用户价值分类器的结构示意图；
28.图4是根据本发明一个实施例的用户分类装置的主要模块示意图；
29.图5是本发明实施例可以应用于其中的示例性系统架构图；
30.图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
31.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
32.图1是根据本发明一个实施例的用户分类方法的主要步骤示意图。
33.如图1所示，根据本发明一个实施例的用户分类方法主要包括如下的步骤s101至步骤s103。
34.步骤s101：根据第一用户数据集中用户的行为数据，确定第一用户数据集中用户的价值分类标签。
35.步骤s102：以第一用户数据集的用户特征和价值分类标签作为训练数据，训练用户价值分类器。
36.步骤s103：将第二用户数据集的用户特征输入训练后的用户价值分类器，以计算第二用户数据集的用户特征对于每一价值分类的吻合度，并将计算得到的吻合度转换为对应某一价值类别的概率，以根据该概率确定第二用户数据集中用户的价值分类信息。
37.在一个实施例中，第一用户数据集例如已注册用户的集合，第二用户数据集例如未注册用户的集合。
38.行为数据包括多种行为指标，例如最近一次行为时间距离当前的时长、行为频次、行为相关金额。以行为数据是消费行为数据为例，其包括多种消费行为指标，例如最近一次消费时间距离当前的时长、消费频次和消费金额等。
39.用户的价值分类标签指示了用户的价值类别，价值分类标签具体可以为n位的价值类别编码，n为价值类别的数量，价值类别编码的形式可以为one-hot编码(独热编码)、label编码(标签编码)等。
40.在一个实施例中，根据第一用户数据集中用户的行为数据，确定第一用户数据集中用户的价值分类标签，具体包括：计算第一用户数据集中每一用户的至少一种行为指标值，并基于得到的所有行为指标值按照种类分别计算均值，得到每种行为指标值均值；根据计算得到的行为指标值和行为指标值均值，利用预设的用户价值模型，确定第一用户数据集中用户的价值分类标签。
41.在一个实施例中，至少一种行为指标值包括最近一次行为时间距离当前的时长、行为频次和行为相关金额。以消费行为为例，最近一次行为时间距离当前的时长即最近一次消费时间距离当前的时长，行为频次即消费频次，行为相关金额即消费金额。其中，消费频次具体是指最近预设时间段内的消费次数，消费金额具体是指用户在最近预设时间段内的平均消费金额，其等于用户在最近预设时间段内的总消费金额除以该用户在最近预设时间段内的下单数。
42.在电商平台中，行为指标值均值可以包括消费金额均值、最近一次消费时间距离当前的时长均值、消费频次均值。消费金额均值可以是最近预设时间段内的平台客单价，其等于最近预设时间段内电商平台的总消费金额除以最近预设时间段内电商平台中所有付费用户下单总数。预设时间段可以根据需求定义。最近一次消费时间距离当前的时长均值通过对电商平台所有用户的最近一次消费时间距离当前的时长求平均得到。消费频次均值通过对电商平台所有用户最近预设时间段内的消费次数求平均得到。
43.根据计算得到的行为指标值和行为指标值均值，利用预设的用户价值模型，确定第一用户数据集中用户的价值分类标签，具体可以包括：将第一用户数据集中每一用户的最近一次行为时间距离当前的时长、行为频次和行为相关金额，分别与对应的行为指标值均值比较，以确定第一用户数据集中每一用户在最近一次行为、行为频次和行为相关金额三个方面的价值评价等级；根据第一用户数据集中每一用户在上述三个方面的价值评价等级，按照预设的用户价值模型中价值评价等级组合与价值类别之间的对应关系，确定第一用户数据集中每一用户的价值类别，其中，价值评价等级组合为上述三个方面的价值评价等级的有序组合；对第一用户数据集中每一用户的价值类别编码，得到第一用户数据集中用户的价值分类标签。
44.在一个实施例中，将第二用户数据集的用户特征输入训练后的用户价值分类器，以计算第二用户数据集的用户特征对于每一价值分类的吻合度，并将吻合度转换为对应某一价值类别的概率；根据该概率确定第二用户数据集中用户的价值分类信息。该确定出的用户的价值分类信息为n位的价值类别编码，n为价值类别的数量，以one-hot编码为例，对应“1”的那一位表示该用户的价值类别。
45.在一个实施例中，通过如下方式提取一个用户数据集的用户特征，该用户数据集为第一用户数据集或第二用户数据集：对用户数据集中用户的用户设备信息、浏览器信息、所在区域、职业、小区价格中的一种或多种信息编码，将得到的编码向量作为用户数据集的用户特征。
46.本发明实施例的用户价值分类器可以基于两层或两层以上的神经网络实现。
47.图2是根据本发明一个实施例的用户分类流程示意图。
48.如图2所示，以对电商平台的未注册用户进行价值分类为例，介绍本发明实施例的用户分类流程。其中对未注册用户进行价值分类即确定未注册用户具体属于哪个价值类别。
49.电商平台的已注册用户和广告平台通常只有一小部分(例如20-30％)的重合用户，换言之，大部分广告平台的触达用户未在电商平台注册，属于电商平台的未注册用户，如何确定出这些未注册用户的价值是本发明实施例要解决的问题。
50.本发明实施例通过训练已注册用户的用户特征与rfm(r指最近一次消费，f指消费频次，m指消费金额)价值分类的相关性，来推导未注册用户的用户特征对应的rfm价值分类。
51.rfm模型是最典型的用户价值模型，其中，r即最近一次消费(recency)，其代表用户最近一次消费时间距离当前的时长，该时长越短越好。f即消费频次(frequency)，是用户在最近一段时间内的消费次数，该一段时间即预设时间段，具体长度根据需要定义，例如定义为最近半年。m即消费金额(monetary)，其代表用户的价值贡献，具体是指用户在最近一段时间内的平均消费金额，其等于在最近一段时间内用户的总消费金额除以该用户最近一段时间内的下单数。该一段时间即上述的预设时间段，例如定义为最近半年。
52.r、f、m为三种消费行为指标，在电商平台中，可以对已注册用户计算该三种消费行为指标值，并且根据所有已注册用户的三种消费行为指标值可以分别统计得到每种消费行为指标均值，即r均值、f均值、m均值。
53.可以把本发明实施例的rfm模型中的r、f、m三个方面均定义为高和低两个价值评价等级，那么r、f、m三个方面的价值评价等级可能有2
×2×
2＝8种组合，即8个价值评价等级组合，每个价值等级组合与一个价值类别相对应，即总计有8个价值类别，本发明实施例的8个价值类别包括：重要价值用户、重要发展用户、重要保持用户、重要挽留用户、一般价值用户、一般发展用户、一般保持用户、一般挽留用户。rfm模型中价值评价等级组合与价值类别之间的对应关系如表1所示，其中表1的第2行至第9行每行的r、f、m列为一个价值评价等级组合，例如“重要价值用户”对应的行中，价值评价等级组合为：高；高；高。
54.表1
55.价值类别r(最近一次消费)f(消费频次)m(消费金额)重要价值用户高高高重要发展用户高低高重要保持用户低高高重要挽留用户低低高一般价值用户高高低一般发展用户高低低
一般保持用户低高低一般挽留用户低低低
56.其中，如果用户的r值小于r均值，则在r方面的价值评价等级为高，反之该价值评价等级为低；如果用户的f值大于f均值，则在f方面的价值评价等级为高，反之该价值评价等级为低；如果用户的m值大于m均值，则在m方面的价值评价等级为高，反之该价值评价等级为低。例如，某个用户最近一次消费的时间距离现在的时长小于r均值、最近半年内的消费频次小于f均值、最近半年内的平均消费金额大于m均值(即最近半年的平台客单价，其等于最近半年电商平台的总消费金额除以最近半年电商平台的所有付费用户下单总数))，那么，根据表1，该用户在r、f、m三个方面的价值评价等级分别为高、低、高，即该用户属于重要发展用户。
57.可以使用8位的one-hot编码(独热编码)：[0 1 0 0 0 0 0 0]表示该用户的价值类别编码，其中“1”表示该用户的价值类别是重要发展用户，“0”表示该用户不是其余7种价值类别。每个已注册用户都会对应rfm模型的一个价值类别，并具有一个价值类别编码，所有已注册用户构成的集合为第一用户数据集，那么每个已注册用户的价值类别编码为该用户的价值分类标签，而对于未注册用户是没有价值分类标签的，因为未注册用户没有在电商平台的消费行为数据，消费行为数据例如包括但不限于上述的三种消费行为指标。
[0058]
而无论是已注册用户还是未注册用户都具有用户特征，因此，用户特征的定义需要既能表征已注册用户，又能表征未注册用户。本发明实施例中，未注册用户的用户特征可以从曝光数据收集到的数据中挖掘出来，对于未注册用户而言，电商广告投放系统都会建立曝光数据来收集用户的基本信息，里面可以包括手机设备号信息、user-agent信息(user-agent即用户代理，简称ua，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)以及用户的经纬度信息。本发明实施例定义用户特征为52位，可以通过手机型号分析、所处地域分析来定义用户特征，具体可以根据手机品牌、手机价格、用户的职业、用户所在区域、用户所在小区价格等来进行定义，下面分别进行说明。
[0059]
手机型号分析：
[0060]
手机品牌占12位(包含市面上最常用的手机品牌)，采用one-hot编码(也叫做独热编码，简单而言就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。例如h牌手机的编码是：[1 0 0 0 0 0 0 0 0 0 0 0])。通过user-agent信息可以清洗出用户的手机型号，这条user-agent信息mozilla/5.0(linux；android 8.1；eml-al00 build/heml-al00；wv)applewebkit/537.36(khtml,like gecko)version/4.0 chrome/53.0.2785.143 crosswalk/24.53.595.0 xw eb/358 mmwebsdk/23 mobile safari/537.36 micromessenger/6.7.2.1340(0x2607023a)nettype/4g language/zh_cn，里面的heml-al00表示h牌p20型号，得到手机的型号便可以得到手机的品牌为h牌。
[0061]
手机价格占11位([0,500)、[500,1000)、[1000,1500)、[1500,2000)、[2000,2500)、[2500,3000)、[3000,3500)、[3500,4000)、[4000,4500)、[4500,5000)、>＝5000)，同样采用one-hot编码。已知了手机型号，便可以推测出手机的价格，如果手机型号有多个内存版本，可以取中位数作为手机价格。
[0062]
所处地域分析：
[0063]
用户的职业占9位(金融从业者、医务人员、公务员/事业单位、白领/一般职员、工人/服务业人员、教师、农民、学生、未识别)，同样采用one-hot编码。对于已注册用户而言，用户职业是很容易获取的，在用户画像模型中便可以获取。而对于未注册用户，可以从曝光数据中进行挖掘，曝光数据中会记录用户每次请求的经纬度，通过经纬度可以计算出用户位置(包括居民区、学校、医院、政府机构、工作园区等，通过数据分析，误差100米以内，比较准确)，例如某用户白天经常出现在医院，那么该用户的职业大概率是医务人员。
[0064]
用户所在区域占9位(华北、华东、东北、华中、华南、西南、西北、北京、上海)，同样采用one-hot编码。
[0065]
用户所在小区价格占11位(单位：每平米，[0,5000)、[5000,10000)、[10000,15000)、[15000,20000)、[20000,25000)、[25000,30000)、[30000,35000)、[35000,40000)、[40000,45000)、[45000,50000)、>＝50000)，同样采用one-hot编码。首先根据经纬度获取用户所在的小区，进而可以可以获取相应的小区价格。
[0066]
按照上述方法，例如，对于某个用户的手机品牌、手机价格、用户的职业、用户所在区域、用户所在小区价格分别对应为(p品牌手机,3000,金融从业者,北京,>＝50000)，那么该用户特征定义为如下的52位编码：[0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1]。
[0067]
以第一用户数据集(即已注册用户构成的集合)的用户特征和价值分类标签作为训练数据，训练用户价值分类器，如图2所示，即具体训练得到用户价值分类器的参数w和b，然后根据未注册用户(即第二用户数据集中的用户)的用户特征，利用训练后的用户价值分类器，便可以推导出未注册用的价值分类信息(rfm价值分类)。
[0068]
下面详细介绍用户价值分类器的训练过程。
[0069]
已注册用户都会对应rfm模型的一个价值类别和价值分类标签，但是未注册用户没有价值分类标签。为了得到给定的用户特征属于某个价值分类的证据，可以对用户特征进行加权求和。因此对于给定的用户特征x，它代表价值分类i的证据e
i
可以表示为：
[0070][0071]
其中w
i
代表权重，b
i
代表价值分类i的偏置量，j代表给定用户特征x的索引，j用于用户特征求和。w
i
和b
i
可以通过训练用户价值分类器确定。e
i
也可以称为用户特征x对于价值分类i的吻合度。
[0072]
最后用softmax(归一化)函数可以把这些证据转换成概率y：
[0073]
y＝softmax(relu(e
i
))
[0074]
其中relu即线性整流函数(rectified linear unit)，又称修正线性单元，是一个激励函数，能够把定义的线性函数的输出非线性化，从而转换成需要的格式，对于本发明实施例即转换成8个价值类别的概率分布。
[0075]
因此，给定一个用户特征，可以计算出该用户特征对于每一个价值分类的吻合度，并将该吻合度通过上述的softmax函数转换成为一个概率值，该概率值指示该用户属于各个价值类别的概率。
[0076]
为了提升训练的效率，可以采用批量训练，一次输入100000的用户特征向量，因此输入可以定义为[100000,52]的二维矩阵，而对应每个用户的输出是8位的one-hot价值分
类信息，因此输出是一个[100000,8]的二维矩阵。本发明实施例构建了一个两层的神经网络，用户特征是52位的向量，因此输入层包含52个神经元，该两层的神经网络中具有一层隐藏层，其中包含93个神经元(即2
×
输入层神经元个数 1)，而输出层是一个8位的价值分类信息，因此输出层为8个神经元。
[0077]
用户价值分类器的训练完成后，可以得到训练参数w和b，本发明实施例的两层的神经网络中，每一层都会有相应的训练参数，每层都按照上述介绍的方式计算e
i
。其中第一层的w是一个[52,93]的二维矩阵，b是一个93位的一维向量。而第二层的w是一个[93,8]的二维矩阵，b是一个8位的一维向量，即用户特征与rfm价值分类的相关性。
[0078]
图3是根据本发明一个实施例的用户价值分类器的结构示意图。如图3所示，本发明实施例的用户价值分类器为一个两层的神经网络，其中，relu是隐藏层的激活函数，softmax是输出层的激活函数，输入用户特征包括通过手机型号分析得到的用户特征和通过所处地域分析得到的用户特征，从而得到输入的52位编码的用户特征，对应图中输入层one-hot(52)，relu(93)对应隐藏层，包括93个神经元，softmax(8)对应输出层，包括8个神经元。
[0079]
由于未注册用户也有用户特征，那么就可以将未注册用户的用户特征输入训练好的用户价值分类器，得到每个未注册用户属于各个价值类别的概率，进而根据得到的该概率确定每个未注册用户的rfm价值分类，为8位的one-hot价值分类信息(8位的one-hot编码，其中等于1的一位指示该未注册用户对应的价值类别)。
[0080]
本发明实施例中的one-hot编码方式还可以替换为label编码等其他编码方式。
[0081]
根据本发明实施例的用户分类流程，能够挖掘出未注册用户深层次的抽象特征，使得广告投放(尤其是拉新活动，拉新即：使未注册用户成为已注册用户)时，可以具有针对性地进行用户选择，提高广告投放效率，提高拉新率，并降低拉新等业务活动成本。
[0082]
图4是根据本发明一个实施例的用户分类装置的主要模块示意图。
[0083]
如图4所示，本发明一个实施例的用户分类装置400主要包括：标签确定模块401、训练模块402、分类确定模块403。
[0084]
标签确定模块401，用于根据第一用户数据集中用户的行为数据，确定第一用户数据集中用户的价值分类标签。
[0085]
训练模块402，用于以第一用户数据集的用户特征和价值分类标签作为训练数据，训练用户价值分类器。
[0086]
分类确定模块403，用于将第二用户数据集的用户特征输入训练后的所述用户价值分类器，以计算第二用户数据集的用户特征对于每一价值分类的吻合度，并将计算得到的吻合度转换为对应某一价值类别的概率，以根据该概率确定第二用户数据集中用户的价值分类信息。
[0087]
标签确定模块401具体可以用于：计算第一用户数据集中每一用户的至少一种行为指标值，并基于得到的所有行为指标值按照种类分别计算均值，得到每种行为指标值均值；根据计算得到的行为指标值和行为指标值均值，利用预设的用户价值模型，确定第一用户数据集中用户的价值分类标签。
[0088]
至少一种行为指标值包括最近一次行为时间距离当前的时长、行为频次和行为相关金额。
[0089]
标签确定模块可以包括价值分类标签确定子模块，用于：将第一用户数据集中每一用户的最近一次行为时间距离当前的时长、行为频次和行为相关金额，分别与对应的行为指标值均值比较，以确定第一用户数据集中每一用户在最近一次行为、行为频次和行为相关金额三个方面的价值评价等级；根据第一用户数据集中每一用户在上述三个方面的价值评价等级，按照预设的用户价值模型中价值评价等级组合与价值类别之间的对应关系，确定第一用户数据集中每一用户的价值类别，其中，价值评价等级组合为上述三个方面的价值评价等级的有序组合；对第一用户数据集中每一用户的价值类别编码，得到第一用户数据集中用户的价值分类标签。
[0090]
用户分类装置400还可以包括用户特征提取模块，用于通过如下方式提取一个用户数据集的用户特征，用户数据集为第一用户数据集或第二用户数据集：对用户数据集中用户的用户设备信息、浏览器信息、所在区域、职业、小区价格中的一种或多种信息编码，将得到的编码向量作为用户数据集的用户特征。
[0091]
本发明实施例的用户价值分类器可以基于两层或两层以上的神经网络实现。
[0092]
另外，在本发明实施例中所述用户分类装置的具体实施内容，在上面所述用户分类方法中已经详细说明了，故在此重复内容不再说明。
[0093]
图5示出了可以应用本发明实施例的用户分类方法或用户分类装置的示例性系统架构500。
[0094]
如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0095]
用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
[0096]
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0097]
服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息
--
仅为示例)反馈给终端设备。
[0098]
需要说明的是，本发明实施例所提供的用户分类方法一般由服务器505执行，相应地，用户分类装置一般设置于服务器505中。
[0099]
应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
[0100]
下面参考图6，其示出了适于用来实现本技术实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0101]
如图6所示，计算机系统600包括中央处理单元(cpu)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中，还存储有系统600操作所需的各种程序和数据。
cpu 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0102]
以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0103]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时，执行本技术的系统中限定的上述功能。
[0104]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0105]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0106]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬
件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括标签确定模块、训练模块、分类确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，标签确定模块还可以被描述为“用于根据第一用户数据集中用户的行为数据，确定第一用户数据集中用户的价值分类标签的模块”。
[0107]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据第一用户数据集中用户的行为数据，确定所述第一用户数据集中用户的价值分类标签；以所述第一用户数据集的用户特征和所述价值分类标签作为训练数据，训练用户价值分类器；将第二用户数据集的用户特征输入训练后的所述用户价值分类器，以计算所述第二用户数据集的用户特征对于每一价值分类的吻合度，并将所述吻合度转换为对应某一价值类别的概率，以根据所述概率确定所述第二用户数据集中用户的价值分类信息。
[0108]
根据本发明实施例的技术方案，根据第一用户数据集中用户的行为数据，确定第一用户数据集中用户的价值分类标签；以第一用户数据集的用户特征和价值分类标签作为训练数据，训练用户价值分类器；将第二用户数据集的用户特征输入训练后的用户价值分类器，以计算第二用户数据集的用户特征对于每一价值分类的吻合度，并将计算得到的吻合度转换为对应某一价值类别的概率，以根据该概率确定第二用户数据集中用户的价值分类信息。能够挖掘出未注册用户深层次的抽象特征，使得业务活动具有针对性，提高业务活动的执行效率，并降低活动成本。
[0109]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：彩屏阅读器的刷新方法、彩屏阅读器及计算机存储介质与流程

一种用户分类方法和装置与流程

相关文献

最热文献