用户分类方法、设备、存储介质及装置与流程

2022-12-23 20:46:58 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种用户分类方法、设备、存储介质及装置。

背景技术：

2.目前，通信企业在对用户进行分类时，往往通过用户办理业务时的登记地址确定用户分类。但是，由于用户登记地址以散列的方式存储，无法确定各用户登记地址之间的关系，从而导致容易出现漏判与错判。
3.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

4.本发明的主要目的在于提供一种用户分类方法、设备、存储介质及装置，旨在解决现有技术中在通过用户登记地址确定用户分类时，由于用户登记地址以散列的方式存储，无法确定各用户登记地址之间的关系，从而导致容易出现漏判与错判的技术问题。
5.为实现上述目的，本发明提供一种用户分类方法，所述用户分类方法包括以下步骤：
6.获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配；
7.根据匹配结果以及预设度量学习模型确定所述用户登记地址与各分级地址之间的相似性距离；
8.根据所述相似性距离对分级地址进行筛选，获得目标分级地址；
9.在预设地址层次树上查找所述目标分级地址对应的位置信息，并根据所述位置信息对所述待分类用户进行分类。
10.可选地，所述根据匹配结果以及预设度量学习模型确定所述用户登记地址与各分级地址之间的相似性距离的步骤，具体包括：
11.根据匹配结果确定各分级地址的参考分值，并根据所述参考分值生成分级矩阵；
12.根据所述分级矩阵以及预设度量学习模型确定所述用户登记地址与各分级地址之间的相似性距离。
13.可选地，所述获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配的步骤，具体包括：
14.获取待分类用户的用户登记地址；
15.对预设分级地址表中各分级地址进行标识提取，获得分级标识，并根据所述分级标识确定各分级地址对应的待匹配分级；
16.在预设同义词集中查找所述待匹配分级对应的特征字符，并将所述用户登记地址与所述特征字符进行匹配。
17.可选地，所述获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配的步骤之前，还包括：
18.对预设分级地址表中各分级地址进行模式化处理，获得模式文本；
19.通过预设聚类模型对所述模式文本进行层次聚类，获得预设同义词集；
20.基于所述预设同义词集对分级地址进行分层聚类，获得层次结构信息，并根据所述层次结构信息构建预设地址层次树。
21.可选地，所述通过预设聚类模型对所述模式文本进行层次聚类，获得预设同义词集的步骤，具体包括：
22.通过预设聚类模型对所述模式文本进行层次聚类，获得各聚类节点之间的聚类距离；
23.判断所述聚类距离是否大于预设阈值，并根据判断结果对所述模式文本进行分类，获得预设同义词集。
24.可选地，所述对预设分级地址表中各分级地址进行模式化处理，获得模式文本的步骤之前，所述用户分类方法还包括：
25.对预设分级地址表中各分级地址进行字符提取，获得各分级地址的地址字符；
26.查找所述地址字符对应的字符种类，并基于所述字符种类对各分级地址进行预处理，获得标准分级地址；
27.相应地，所述对预设分级地址表中各分级地址进行模式化处理，获得模式文本的步骤，具体包括：
28.对所述标准分级地址进行模式化处理，获得模式文本。
29.可选地，所述获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配的步骤之前，所述用户分类方法还包括：
30.在待分类用户为预设移动用户时，获取所述待分类用户的用户信息；
31.根据所述用户信息通过预设家庭模型确定所述待分类用户对应的关联用户；
32.相应地，所述获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址进行匹配的步骤，具体包括：
33.获取所述关联用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配。
34.此外，为实现上述目的，本发明还提出一种用户分类设备，所述用户分类设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户分类程序，所述用户分类程序配置为实现如上文所述的用户分类方法的步骤。
35.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有用户分类程序，所述用户分类程序被处理器执行时实现如上文所述的用户分类方法的步骤。
36.此外，为实现上述目的，本发明还提出一种用户分类装置，所述用户分类装置包括：匹配模块、确定模块、筛选模块和分类模块；
37.所述匹配模块，用于获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配；
38.所述确定模块，用于根据匹配结果以及预设度量学习模型确定所述用户登记地址与各分级地址之间的相似性距离；
39.所述筛选模块，用于根据所述相似性距离对分级地址进行筛选，获得目标分级地址；
40.所述分类模块，用于在预设地址层次树上查找所述目标分级地址对应的位置信息，并根据所述位置信息对所述待分类用户进行分类。
41.本发明中，公开了获取待分类用户的用户登记地址，并将用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配，根据匹配结果以及预设度量学习模型确定用户登记地址与各分级地址之间的相似性距离，根据相似性距离对分级地址进行筛选，获得目标分级地址，在预设地址层次树上查找目标分级地址对应的位置信息，并根据位置信息对待分类用户进行分类。相较于现有技术中用户登记地址以散列的方式存储，无法确定各用户登记地址之间的关系的方式，由于本发明中，通过度量学习确定分级地址与用户登记地址之间的相似性距离，利用相似性距离确定用户登记地址对应的目标分级地址，并基于目标分级地址在预设地址层次树上的位置信息对待分类用户进行分类，从而能够将用户按照树形组织分类归档，提高用户分类的准确性和可靠性。
附图说明
42.图1是本发明实施例方案涉及的硬件运行环境的用户分类设备的结构示意图；
43.图2为本发明用户分类方法第一实施例的流程示意图；
44.图3为本发明用户分类方法第二实施例的流程示意图；
45.图4为本发明用户分类方法第三实施例的流程示意图；
46.图5为本发明用户分类装置第一实施例的结构框图。
47.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
48.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
49.参照图1，图1为本发明实施例方案涉及的硬件运行环境的用户分类设备结构示意图。
50.如图1所示，该用户分类设备可以包括：处理器1001，例如中央处理器(central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为usb接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)存储器，也可以是稳定的存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
51.本领域技术人员可以理解，图1中示出的结构并不构成对用户分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
52.如图1所示，认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及用户分类程序。
53.在图1所示的用户分类设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述用户分类设备通过处理器1001调用存储器1005中存储的用户分类程序，并执行本发明实施例提供的用户分类方法。
54.基于上述硬件结构，提出本发明用户分类方法的实施例。
55.参照图2，图2为本发明用户分类方法第一实施例的流程示意图，提出本发明用户分类方法第一实施例。
56.步骤s10：获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配。
57.应当理解的是，本实施例的执行主体可以是上述用户分类设备，其中，所述用户分类设备可为具备数据处理、网络通信以及程序运行功能的计算服务设备，例如智能手机、平板电脑以及个人电脑等，该执行主体还可是其他可实现相同或相似功能的电子设备，本实施例对此不作限制，在本实施例以及下述各实施例中，以用户分类设备为例对本发明用户分类方法进行说明。
58.需要说明的是，用户登记地址可以是用户办理宽带业务时的登记地址，例如，用户的常住地址等。该用户登记地址可以存放在用户分类设备的预设数据库中，也可以存放在用户分类设备对应的云端服务器中，本实施例对此不加以限制。
59.预设分级地址表中各分级地址可以由用户分类设备的管理人员通过用户分类设备录入。
60.应当理解的是，特征字符可以是用于区分用户登记地址中不同层级地址的字符，例如，户号分级对应的特征字符为号以及室。
61.进一步地，考虑到在实际应用中通信企业一般不会登记移动业务用户的地址。这些通信企业通常通过基站信令确定移动业务用户的位置，并根据该位置对移动业务用户进行分类。但是，由于基站信令定位存在误差，从而导致无法准确定位用户的具体位置，进而导致无法准确对用户进行分类。为了克服上述缺陷，本实施例步骤s10之前，还包括：
62.在待分类用户为预设移动用户时，获取所述待分类用户的用户信息；
63.根据所述用户信息通过预设家庭模型确定所述待分类用户对应的关联用户；
64.相应地，所述步骤s10，包括：
65.获取所述关联用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配。
66.需要说明的是，预设移动用户可以是无法获得用户登记地址的用户。例如，通信企业一般不会登记移动业务用户的地址。因此，移动业务用户可以为预设移动用户。
67.用户信息可以包括通话记录信息、网络使用信息以及通信业务信息等。预设家庭模型可以是用于分析用户之间关联关系的模型，可以由用户分类设备的管理人员预先设置。
68.关联用户可以是与待分类用户存在关联关系，且具备宽带地址的用户。例如，待分类用户a在一周内与用户b通话10次，与用户c通话15次，那么用户b、c可能为待分类用户a的亲人，与待分类用户a存在关联关系。但是，用户b未登记宽带地址，用户c登记了宽带地址。因此，只能将用户c作为待分类用户a对应的关联用户。
69.应当理解的是，相较于现有的通过基站信令确定移动业务用户的位置，并根据该位置对移动业务用户进行分类的方式。由于本实施例中，在待分类用户为预设移动用户时，根据待分类用户的用户信息确定待分类用户对应的关联用户，并基于关联用户的用户登记地址来对待分类用户进行分类，从而能够高效、准确地对移动业务用户进行用户分类。
70.步骤s20：根据匹配结果以及预设度量学习模型确定所述用户登记地址与各分级地址之间的相似性距离。
71.需要说明的是，预设度量学习模型可以是用于计算地址之间相似性距离的模型。例如，基于度量学习的匹配模型。其中，相似性距离用于表示地址之间的相似程度，相似性距离越小，地址之间越相似。
72.应当理解的是，根据匹配结果以及预设度量学习模型确定用户登记地址与各分级地址之间的相似性距离可以是根据匹配结果生成各分级地址的参考分值，并将参考分值输入预设度量学习模型，以获得用户登记地址与各分级地址之间的相似性距离。
73.需要说明的是，参考分值可以为布尔值，在本实施例以及其他实施例中，以表示布尔值，上标k表示分级地址k，下标i表示分级地址k中第i个分级。
74.应当理解的是，在匹配结果为匹配成功时，在匹配结果为匹配失败时，
75.步骤s30：根据所述相似性距离对分级地址进行筛选，获得目标分级地址。
76.需要说明的是，目标分级地址可以是与用户登记地址最相似的分级地址。
77.应当理解的是，根据相似性距离对分级地址进行筛选可以是根据相似性距离从小到大对分级地址进行排序，并将排序最靠前的分级地址作为目标分级地址。
78.步骤s40：在预设地址层次树上查找所述目标分级地址对应的位置信息，并根据所述位置信息对所述待分类用户进行分类。
79.需要说明的是，预设地址层次树可以用于对预设分级地址表中各分级地址进行分类。预设地址层次树可以基于预设分级地址表中各分级地址通过预设聚类算法生成。其中，预设聚类算法可以是用于将分级地址聚类为树状层次结构的算法。
80.应当理解的是，预设地址层次树中包含分级地址与位置信息的对应关系，分级地址与位置信息的对应关系可以由用户分类设备在生成预设地址层次树时自动生成。
81.可以理解的是，根据位置信息对待分类用户进行分类可以是将位置信息对应的用户分类作为待分类用户对应的用户分类。
82.本实施例中，公开了获取待分类用户的用户登记地址，并将用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配，根据匹配结果以及预设度量学习模型确定用户登记地址与各分级地址之间的相似性距离，根据相似性距离对分级地址进行筛选，获得目标分级地址，在预设地址层次树上查找目标分级地址对应的位置信息，并根据位置信息对待分类用户进行分类。相较于现有技术中用户登记地址以散列的方式存储，无法确定各用户登记地址之间的关系的方式，由于本实施例中，通过度量学习确定分级地址与用户登记地址之间的相似性距离，利用相似性距离确定用户登记地址对应的目标分级地址，并基于目标分级地址在预设地址层次树上的位置信息对待分类用户进行分类，从而能够将用户按照树形组织分类归档，提高用户分类的准确性和可靠性。
83.参照图3，图3为本发明用户分类方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明用户分类方法的第二实施例。
84.在第二实施例中，所述步骤s10，包括：
85.步骤s101：获取待分类用户的用户登记地址。
86.需要说明的是，用户登记地址可以是用户办理宽带业务时的登记地址，例如，用户的常住地址等。该用户登记地址可以存放在用户分类设备的预设数据库中，也可以存放在用户分类设备对应的云端服务器中，本实施例对此不加以限制。
87.步骤s102：对预设分级地址表中各分级地址进行标识提取，获得分级标识，并根据所述分级标识确定各分级地址对应的待匹配分级。
88.需要说明的是，分级标识用于表示分级地址各分级的标识，本实施例对此不加以限制。例如，分级地址中，下标i表示分级地址中第i个分级。
89.应当理解的是，根据分级标识确定各分级地址对应的待匹配分级可以是根据分级标识对分级地址进行提取，获得分级地址对应的待匹配分级。在具体实现中，例如，分级地址对应的待匹配分级为
90.步骤s103：在预设同义词集中查找所述待匹配分级对应的特征字符，并将所述用户登记地址与所述特征字符进行匹配。
91.需要说明的是，预设同义词集中包含分级与特征字符的对应关系，分级与特征字符的对应关系可以预先设置。例如，户号分级对应的特征字符为号、室以及#。
92.应当理解的是，将用户登记地址与特征字符进行匹配可以是判断用户登记地址中是否包含特征字符，若是，则判定匹配成功；若否，则判定匹配失败。
93.在具体实现中，例如，在分级地址为时，上标k表示分级地址k，下标i表示分级地址k中第i个分级。对分级地址进行分级，获得待匹配分级查找待匹配分级对应的特征字符，判断用户登记地址中是否包含特征字符，若是，则判定匹配成功；若否，则判定匹配失败。
94.在第二实施例中，通过获取待分类用户的用户登记地址，对预设分级地址表中各分级地址进行标识提取，获得分级标识，并根据分级标识确定各分级地址对应的待匹配分级，在预设同义词集中查找待匹配分级对应的特征字符，并将用户登记地址与特征字符进行匹配，从而能够提高用户登记地址与分级地址的匹配可靠性。
95.在第二实施例中，所述步骤s20，包括：
96.步骤s201：根据匹配结果确定各分级地址的参考分值，并根据所述参考分值生成分级矩阵。
97.需要说明的是，参考分值可以为布尔值，在本实施例以及其他实施例中，以表示布尔值，上标k表示分级地址k，下标i表示分级地址k中第i个分级。
98.应当理解的是，在匹配结果为匹配成功时，在匹配结果为匹配失败时，
99.在具体实现中，例如，参考分值为则根据参考分值生成的分级矩阵为
100.步骤s202：根据所述分级矩阵以及预设度量学习模型确定所述用户登记地址与各分级地址之间的相似性距离。
101.需要说明的是，预设度量学习模型可以是用于计算地址之间相似性距离的模型。例如，基于度量学习的匹配模型。其中，相似性距离用于表示地址之间的相似程度，相似性距离越小，地址之间越相似。
102.在具体实现中，例如，按下标i排列可以获得分级地址k与用户登记地址a的距离为：
[0103][0104]
式中，dist(k,a)为分级地址k与用户登记地址a的相似性距离，为分级矩阵，m是一个i*i的(半)正定的对称方阵，以下称为度量矩阵。
[0105]
其中，预先收集分级地址与用户登记地址的关联关系，并根据该关联关系将度量矩阵m的学习转化为求解下面这个凸优化问题：
[0106][0107][0108]
m≥0
[0109]
式中，是分级地址与用户登记地址的一个匹配向量，g为分级地址与用户登记地址的匹配向量集合，y是用于度量学习训练集，s是其中一条分级地址与用户登记地址的匹配向量
[0110]
在第二实施例中，通过根据匹配结果确定各分级地址的参考分值，并根据参考分值生成分级矩阵，根据分级矩阵以及预设度量学习模型确定用户登记地址与各分级地址之间的相似性距离，从而能够提高相似性距离的准确性。
[0111]
参照图4，图4为本发明用户分类方法第三实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明用户分类方法的第三实施例。
[0112]
在第三实施例中，所述步骤s10之前，还包括：
[0113]
步骤s01：对预设分级地址表中各分级地址进行模式化处理，获得模式文本。
[0114]
应当理解的是，对预设分级地址表中各分级地址进行模式化处理可以是将预设分级地址表中各分级地址中的所有的数字替换为\d，所有的连续空白字符替换为\s，其他字符替换为\w，并在文本末尾添加一个^作为文本的结束标记。
[0115]
在具体实现中，例如，对分级地址{57号，103号，105室，103}进行模式化处理，获得模式文本可以是分级地址{57号，103号，105室，103}被替换成模式文本m＝{\d\d\w^,\d\d\d\w^,\d\d\d\w^,\d\d\d^}。
[0116]
进一步地，在实际应用中，预设分级地址表中各分级地址可能包含大量的无用信息以及干扰信息，从而导致分类结果错误。为了克服上述缺陷，所述步骤s01，包括：
[0117]
对预设分级地址表中各分级地址进行字符提取，获得各分级地址的地址字符；
[0118]
查找所述地址字符对应的字符种类，并基于所述字符种类对各分级地址进行预处理，获得标准分级地址；
[0119]
相应地，所述步骤s01，包括：
[0120]
对所述标准分级地址进行模式化处理，获得模式文本。
[0121]
需要说明的是，地址字符可以是组成分级地址的字符。
[0122]
应当理解的是，对预设分级地址表中各分级地址进行字符提取，获得各分级地址的地址字符可以是基于预设字符识别模型对预设分级地址表中各分级地址进行字符提取，获得各分级地址的地址字符。其中，预设字符识别模型可以是用于识别文本中的字符的模型，例如，卷积神经网络模型。
[0123]
可以理解的是，查找地址字符对应的字符种类可以是获取地址字符的字符特征，并查找字符特征对应的字符种类。其中，字符特征可以是位置特征以及形状特征等。
[0124]
需要说明的是，字符种类包括汉字数字、用户设备字符、无用备注字符以及补充地址段字符。
[0125]
应当理解的是，基于字符种类对各分级地址进行预处理可以是在预设处理策略表中查找字符种类对应的字符处理策略，并基于字符处理策略对各分级地址进行预处理。其中，预设处理策略表中包含字符种类与字符处理策略的对应关系，字符种类与字符处理策略的对应关系可以预先设置。例如，在字符种类为汉字数字时，字符处理策略为将所有的汉字数字处理为阿拉伯数字；在字符种类为用户设备字符和无用备注字符时，字符处理策略为通过正则表达式去除用户设备信息与无用备注信息；在字符种类为补充地址段字符时，字符处理策略为对补充地址段进行标识，并将补充地址段放置于最后。
[0126]
在具体实现中，例如，预设分级地址表中的分级地址为“ab市cd区ef街道gh组(沿街商铺)(移ftth)锦ij都59幢四单元401室(139xxxxxx7)”，基于字符种类对各分级地址进行预处理可以是四单元被替换为4单元，(移ftth)作为设备名称被移除，(139xxxxxx7)(沿街商铺)作为多余数据被移除，获得标准分级地址“ab市cd区ef街道gh组_锦ij都59幢4单元401室”,使用’_’表示以后文本为补充地址。
[0127]
步骤s02：通过预设聚类模型对所述模式文本进行层次聚类，获得预设同义词集。
[0128]
需要说明的是，预设聚类模型可以是用于将模式文本聚类为同义词集的模型。
[0129]
应当理解的是，通过预设聚类模型对模式文本进行层次聚类，获得预设同义词集可以是通过预设聚类模型对模式文本进行层次聚类，获得各聚类节点之间的聚类距离，判断聚类距离是否大于预设阈值，并根据判断结果对模式文本进行分类，获得预设同义词集。
[0130]
在具体实现中，例如，对m使用“均链接”算法进行层次聚类，即聚类之间的距离如下式所示：
[0131][0132]
式中，l(r,s)为聚类之间的距离，r,s为计算链接的两个簇，n为簇中不同模式文本的个数,dist(x
ri
,x
sj
)为r,s中两个模式文本的编辑距离。
[0133]
对于层次聚类的每个节点计算距离di(i为层次聚类树的节点标号)，对于事先给定的距离d，由下至上所有节点的使用相同的距离度量计算子树之间的距离，对于最低的节
点，di《d作为聚类的阈值，统计聚类中的除了数字之外出现的符号，将这些词作为该模式下的同义词。
[0134]
对于每个节点计算词w(w是连续的非数字分级地址的子串)的出现概率分布；对于根节点(\d\d\d\w^),有p(
‘
号’)＝0.5，p(
‘
室’)＝0.5，本例中其他的根节点概率分布的定义域均只有一个值，特别的记类似根节点(\d\d\d^)的概率分布为p(
‘
^’)＝1。对于非根节点用推土距离计算两个子树概率分布的差距：
[0135][0136]
式中，p1,p2为两个概率分布，γ～π(p1，p2)为,当设定d＝0.1是可以学习得{
‘
室’，
‘
号’}，当d＝0.3是可以学习得{
‘
室’，
‘
号’，
‘
^’}为同义词。
[0137]
步骤s03：基于所述预设同义词集对分级地址进行分层聚类，获得层次结构信息，并根据所述层次结构信息构建预设地址层次树。
[0138]
应当理解的是，基于预设同义词集对分级地址进行分层聚类，获得层次结构信息，并根据层次结构信息构建预设地址层次树可以是基于预设同义词集从大到小对分级地址进行聚类，将散列的数据组织为层次结构信息，并根据层次结构信息构建预设地址层次树。
[0139]
在第三实施例中，通过对预设分级地址表中各分级地址进行模式化处理，获得模式文本，通过预设聚类模型对模式文本进行层次聚类，获得预设同义词集，基于预设同义词集对分级地址进行分层聚类，获得层次结构信息，并根据层次结构信息构建预设地址层次树，从而能够通过无监督的学习方法生成同义词集，并将分级地址组织为层次结构，基于层次结构构建地址层次树，进而能够减少地址层次树上的分叉。
[0140]
此外，本发明实施例还提出一种存储介质，所述存储介质上存储有用户分类程序，所述用户分类程序被处理器执行时实现如上文所述的用户分类方法的步骤。
[0141]
此外，参照图5，本发明实施例还提出一种用户分类装置，所述用户分类装置包括：匹配模块10、确定模块20、筛选模块30和分类模块40；
[0142]
所述匹配模块10，用于获取待分类用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配。
[0143]
需要说明的是，用户登记地址可以是用户办理宽带业务时的登记地址，例如，用户的常住地址等。该用户登记地址可以存放在用户分类设备的预设数据库中，也可以存放在用户分类设备对应的云端服务器中，本实施例对此不加以限制。
[0144]
预设分级地址表中各分级地址可以由用户分类设备的管理人员通过用户分类设备录入。
[0145]
应当理解的是，特征字符可以是用于区分用户登记地址中不同层级地址的字符，例如，户号分级对应的特征字符为号以及室。
[0146]
进一步地，考虑到在实际应用中通信企业一般不会登记移动业务用户的地址。这些通信企业通常通过基站信令确定移动业务用户的位置，并根据该位置对移动业务用户进行分类。但是，由于基站信令定位存在误差，从而导致无法准确定位用户的具体位置，进而导致无法准确对用户进行分类。为了克服上述缺陷，所述用户分类装置还包括：获取模块；
[0147]
所述获取模块，用于在待分类用户为预设移动用户时，获取所述待分类用户的用户信息；
[0148]
所述获取模块，还用于根据所述用户信息通过预设家庭模型确定所述待分类用户对应的关联用户；
[0149]
相应地，所述匹配模块10，还用于获取所述关联用户的用户登记地址，并将所述用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配。
[0150]
需要说明的是，预设移动用户可以是无法获得用户登记地址的用户。例如，通信企业一般不会登记移动业务用户的地址。因此，移动业务用户可以为预设移动用户。
[0151]
用户信息可以包括通话记录信息、网络使用信息以及通信业务信息等。预设家庭模型可以是用于分析用户之间关联关系的模型，可以由用户分类设备的管理人员预先设置。
[0152]
关联用户可以是与待分类用户存在关联关系，且具备宽带地址的用户。例如，待分类用户a在一周内与用户b通话10次，与用户c通话15次，那么用户b、c可能为待分类用户a的亲人，与待分类用户a存在关联关系。但是，用户b未登记宽带地址，用户c登记了宽带地址。因此，只能将用户c作为待分类用户a对应的关联用户。
[0153]
应当理解的是，相较于现有的通过基站信令确定移动业务用户的位置，并根据该位置对移动业务用户进行分类的方式。由于本实施例中，在待分类用户为预设移动用户时，根据待分类用户的用户信息确定待分类用户对应的关联用户，并基于关联用户的用户登记地址来对待分类用户进行分类，从而能够高效、准确地对移动业务用户进行用户分类。
[0154]
所述筛选模块20，用于根据匹配结果以及预设度量学习模型确定所述用户登记地址与各分级地址之间的相似性距离。
[0155]
需要说明的是，预设度量学习模型可以是用于计算地址之间相似性距离的模型。例如，基于度量学习的匹配模型。其中，相似性距离用于表示地址之间的相似程度，相似性距离越小，地址之间越相似。
[0156]
应当理解的是，根据匹配结果以及预设度量学习模型确定用户登记地址与各分级地址之间的相似性距离可以是根据匹配结果生成各分级地址的参考分值，并将参考分值输入预设度量学习模型，以获得用户登记地址与各分级地址之间的相似性距离。
[0157]
需要说明的是，参考分值可以为布尔值，在本实施例以及其他实施例中，以表示布尔值，上标k表示分级地址k，下标i表示分级地址k中第i个分级。
[0158]
应当理解的是，在匹配结果为匹配成功时，在匹配结果为匹配失败时，
[0159]
所述筛选模块30，用于根据所述相似性距离对分级地址进行筛选，获得目标分级地址。
[0160]
需要说明的是，目标分级地址可以是与用户登记地址最相似的分级地址。
[0161]
应当理解的是，根据相似性距离对分级地址进行筛选可以是根据相似性距离从小到大对分级地址进行排序，并将排序最靠前的分级地址作为目标分级地址。
[0162]
所述分类模块40，用于在预设地址层次树上查找所述目标分级地址对应的位置信息，并根据所述位置信息对所述待分类用户进行分类。
[0163]
需要说明的是，预设地址层次树可以用于对预设分级地址表中各分级地址进行分类。预设地址层次树可以基于预设分级地址表中各分级地址通过预设聚类算法生成。其中，
预设聚类算法可以是用于将分级地址聚类为树状层次结构的算法。
[0164]
应当理解的是，预设地址层次树中包含分级地址与位置信息的对应关系，分级地址与位置信息的对应关系可以由用户分类设备在生成预设地址层次树时自动生成。
[0165]
可以理解的是，根据位置信息对待分类用户进行分类可以是将位置信息对应的用户分类作为待分类用户对应的用户分类。
[0166]
本实施例中，公开了获取待分类用户的用户登记地址，并将用户登记地址与预设分级地址表中各分级地址对应的特征字符进行匹配，根据匹配结果以及预设度量学习模型确定用户登记地址与各分级地址之间的相似性距离，根据相似性距离对分级地址进行筛选，获得目标分级地址，在预设地址层次树上查找目标分级地址对应的位置信息，并根据位置信息对待分类用户进行分类。相较于现有技术中用户登记地址以散列的方式存储，无法确定各用户登记地址之间的关系的方式，由于本实施例中，通过度量学习确定分级地址与用户登记地址之间的相似性距离，利用相似性距离确定用户登记地址对应的目标分级地址，并基于目标分级地址在预设地址层次树上的位置信息对待分类用户进行分类，从而能够将用户按照树形组织分类归档，提高用户分类的准确性和可靠性。
[0167]
本发明所述用户分类装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。
[0168]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0169]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为名称。
[0170]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像(read only memory image，rom)/随机存取存储器(random access memory，ram)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
[0171]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：数据搬迁方法、装置、设备及计算机可读存储介质与流程

用户分类方法、设备、存储介质及装置与流程

相关文献

最热文献