一种号卡使用判断方法、装置、设备及计算机存储介质与流程

2022-05-21 05:46:16 来源：中国专利 TAG：

1.本技术属于通信数据分析技术领域，尤其涉及一种号卡使用判断方法、装置、设备及计算机存储介质。

背景技术：

2.随着运营商业务的不断发展，卡号资源已不能实际代表真正的用户资源。当前以卡号为中心的运营模式难以准确评定客户价值和需求，营销资源也无法精准投放。
3.同一自然人拥有多个电话号码情况的出现，用户使用本人身份证办理多个号卡后使用情况较为复杂，可能将号卡赠于亲人使用、放置于另一手机或闲置于智能终端等，不利于运营商对用户进行准确定位和分析。目前识别多个手机号码是否归属于同一自然人的方式主要利用身份证登记信息，存在识别准确率低的问题。
4.因此，如何准确识别用户号卡情况是本领域技术人员需要解决的技术问题。

技术实现要素：

5.本技术实施例提供一种号卡使用判断方法、装置、设备及计算机存储介质，能够通过日常业务规则，现有身份证下的号卡进行归类，结合用户通话相似度和活动轨迹基站重合度，精准判断出号卡的使用情况，以实现市场一线人员对多号卡用户的精准营销，节省资源投入。
6.第一方面，本技术实施例提供一种号卡使用判断方法，方法包括：
7.提取同一身份证下的所有待甄别号卡；
8.根据待甄别号卡的业务信息，判断得到主用卡和非主用卡；
9.根据主用卡和非主用卡的通信交往信息，判断得到号卡使用结果。
10.进一步地，根据待甄别号卡的业务信息，判断得到主用卡，包括：
11.判定主套餐费用、近3月月均arpu、近3个月月均dou和近3个月月均mou，最高的号卡为主用卡；
12.判定曾办理过需本人办理业务的号卡为主用卡。
13.进一步地，根据待甄别号卡的业务信息，判断得到非主用卡，包括：
14.待甄别号卡在多卡终端里，且存在注册时间比待甄别号卡更早的号卡，则判定待甄别号卡为非主用卡；
15.判定与主用卡产生主被叫通话，且平均通话时长大于预设通话时长的号卡为非主用卡。
16.进一步地，根据主用卡和非主用卡之间的通信交往信息，判断得到号卡使用结果，包括：
17.若主用卡和非主用卡的通话行为中，不接听行为所占比例大于预设不接听阈值，则判定主用卡和非主用卡为同一人使用；
18.若用户拨打对端号码数相同的比例大于预设对端拨打阈值，则判定主用卡和非主
用卡为同一人使用。
19.进一步地，根据主用卡和非主用卡之间的通信交往信息，判断得到号卡使用结果，包括：
20.获取主用卡和非主用卡所在基站数据；
21.按照所在基站出现次数进行排序，分别生成频繁项集基站序列表；
22.计算主用卡和非主用卡所在得基站频繁项集的第一重合度；
23.若第一重合度大于预设活动重合度阈值，则判定主用卡和非主用卡为同一人使用。
24.进一步地，还包括：分别筛选出主用卡和非主用卡在预设时间段内的常驻基站；
25.判断主用卡和非主用卡在相同时间段，所在的基站的第二重合度；
26.若第二重合度大于预设停留重合度阈值，则判定主用卡和非主用卡为同一人使用。
27.进一步地，根据主用卡和非主用卡的通信交往信息，判断得到号卡使用结果，包括：
28.对待甄别号卡组成的待测数据集进行筛选；
29.得到主用卡中的非主卡用户样本，获得模型正样本；得到非主用卡中的非主卡用户样本，获得模型负样本；
30.分别计算模型正样本和模型负样本与主用卡的通话相似度及活动轨迹基站重合度；
31.基于通话相似度及活动轨迹基站重合度，建立号卡识别神经网络模型；
32.利用号卡识别神经网络模型，对待甄别号卡的数据集进行处理，得到自用概率向量；
33.根据自用概率向量判断得到号卡使用结果。
34.进一步地，分别计算模型正样本和模型负样本与主用卡的通话相似度及活动轨迹基站重合度，包括：
35.利用fp-growth算法计算活动轨迹基站重合度。
36.进一步地，还包括：
37.在待测数据集中增加类别标识向量，得到预测数据集；若待甄别号卡为与主用卡为同一终端号卡，则类别标识向量为1；若否，则类别标识向量为0；
38.根据预测数据集与自用概率向量，建立混淆矩阵；
39.根据混淆矩阵得到号卡使用结果的精确率、召回率和准确率。
40.第二方面，本技术实施例提供了一种号卡使用判断装置，装置包括：
41.数据获取模块，用于提取同一身份证下的所有待甄别号卡；
42.业务规则判定模块，用于根据待甄别号卡的业务信息，判断得到主用卡和非主用卡；
43.结果判断模块，用于根据主用卡和非主用卡的通信交往信息，判断得到号卡使用结果。
44.进一步地，结果判断模块包括：
45.通话相似度特征模块，用于根据主用卡和非主用卡的通信交往信息，判断主用卡
和非主用卡是否同一人使用；
46.活动轨迹基站重合度计算模块，用于根据主用卡和非主用卡所在基站信息的重合度，判断主用卡和非主用卡是否同一人使用。
47.进一步地，还包括：
48.特征整合模型处理模块，用于根据通话相似度特征模块和活动轨迹基站重合度计算模块输出的数据，计算得到主用卡和非主用卡为同一人使用概率的本人卡概率向量；
49.效果验证模块，用于根据本人卡概率向量，得到号卡使用结果的精确率、召回率和准确率。
50.第三方面，本技术实施例提供了一种号卡使用判断设备，设备包括：
51.处理器，以及存储有计算机程序指令的存储器；处理器读取并执行计算机程序指令，以实现如上所述的号卡使用判断方法。
52.第四方面，本技术实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如上所述的号卡使用判断方法。
53.本技术实施例的号卡使用判断方法、装置、设备及计算机存储介质，能够根据号卡的业务信息对一证多号下主用卡和非主用卡进行预判，然后基于通信交往信息，实现了对号卡使用情况的精准判断。
附图说明
54.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
55.图1是本技术一个实施例提供的一种号卡使用判断方法的流程示意图；
56.图2是本技术一个实施例提供的一种号卡使用判断方法中计算号卡通话相似度示意图；
57.图3是本技术一个实施例提供的一种号卡使用判断方法中基于基站序列表生成前缀树；
58.图4是本技术一个实施例提供的一种号卡使用判断方法流程图；
59.图5是本技术实施例提供的一种号卡使用判断装置的结构示意图；
60.图6是本技术实施例提供的一种号卡使用判断设备的结构示意图。
具体实施方式
61.下面将详细描述本技术的各个方面的特征和示例性实施例，为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本技术进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本技术，而不是限定本技术。对于本领域技术人员来说，本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
62.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖
非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
63.现有技术方案在同人识别方面，多应用于公安、银行等领域，在运营商领域涉及较少，面向一证多卡用户的自然人本人号卡使用甄别方法较少。且现有的技术方案在用户号卡间相似度评估方面，在通话行为及位置特征上没有进一步多维挖掘，且未结合已确定的号卡关系信息及业务规则预判的情况进行识别，判断方式粗犷单一。
64.为了解决现有技术问题，本技术实施例提供了一种号卡使用判断方法、装置、设备及计算机存储介质，实现了面向一证多卡用户的自然人本人使用号卡使用情况的判断。
65.本技术提供的技术方案是基于通话相似度和活动轨迹的自然人识别方法，通过日常业务规则，结合用户通话相似度和活动轨迹基站重合度对现有身份证下的号卡进行归类，精准判断出一证多卡用户号卡的使用情况，有利于市场一线人员对多号卡用户的精准营销，以便节省资源投入。
66.下面首先对本技术实施例所提供的一种一证多卡用户号卡使用方法进行介绍。
67.图1示出了本技术一个实施例提供的一种号卡使用判断方法的流程示意图。如图1所示，该方法可以包括以下步骤：
68.s1：提取同一身份证下的所有待甄别号卡；
69.根据在运营商注册的手机卡号信息，提取相同身份证下的手机号卡，即待甄别号卡；对待甄别号卡的使用情况进行判断，主要判断号卡是否为同一人使用。
70.s2：根据待甄别号卡的业务信息，判断得到主用卡和非主用卡；
71.通常，若号卡为同一人使用，主用卡的套餐资费更高，套餐量更大；因此根据号卡的运营商业务信息，可以初步估计号卡的使用情况，初步判断出主用卡和非主用卡。
72.s3：根据主用卡和非主用卡的通信交往信息，判断得到号卡使用结果。
73.基于手机业务信息判断得到的主用卡和非主用卡，再结合主用卡和非主用卡之间的通信信息，即可得到待甄别号卡的使用情况。
74.例如，一个用户自用的号卡之间通常不会进行通话或频繁通话，若主用卡和非主要卡之间存在频繁的通话，即可说明主用卡和非主用卡不是同一人使用；相反的，若主用卡和非主用卡之间不存在通话，且非主用卡也无其他通信记录，即可判断二者为同一人使用。
75.本实施例，根据已确定的号卡关系信息及业务规则结合通话行，对现有身份证下的号卡进行归类，精准判断号卡是否为同一人使用的情况，实现市场一线人员对多号卡用户的精准营销，以便节省资源投入。
76.在本技术所提供的一种实施例中，待甄别号卡的业务信息，判断得到主用卡，可以包括：判定主套餐费用、近3月月均arpu、近3个月月均dou和近3个月月均mou，最高的号卡为主用卡；判定曾办理过需本人办理业务的号卡为主用卡。
77.判断主用卡和非主用卡可以从不同的维度出发：
78.将待甄别号卡的业务信息作为判断主用卡和非主用卡的一个判断维度，通过网络运营商的统计数据，可以快速进行分析判断。其中，arpu是来自每个用户的平均收入(arpu-average revenue per user)，dou是每个客户月均流量消费额(discharge of usage)，mou
指平均每个用户每月的通话时长(minutes of usage)。可以判定多个待甄别号卡的主套餐费用、近3月月均arpu、近3个月月均dou和近3个月月均mou中最高的号卡为主用卡。
79.还包括将办理过需本人办理业务的号卡判定为主用卡；以及，获得主卡，并在多卡终端上设定为主卡，且该待甄别号卡的手机终端imei号和主卡所对应的手机终端imei号一致，则被判为本人卡。
80.对于根据待甄别号卡的业务信息，判断得到非主用卡，可以包括但不限于以下维度：
81.待甄别号卡在多卡终端里，且存在注册时间比待甄别号卡更早的号卡，则判定待甄别号卡为非主用卡；
82.判定与主用卡产生主被叫通话，且平均通话时长大于预设通话时长的号卡为非主用卡。
83.在本实施例中，通过不同维度的条件，简单有效地对号卡的情况进行了初步判断。
84.请参考图3，图2是本技术一个实施例提供的一种号卡使用判断方法中计算号卡通话相似度示意图；在本技术的一种实施例中，根据主用卡和非主用卡之间的通信交往信息，判断得到号卡使用结果，可以包括：
85.若主用卡和非主用卡的通话行为中，不接听行为所占比例大于预设不接听阈值，则判定主用卡和非主用卡为同一人使用；
86.若用户拨打对端号码数相同的比例大于预设对端拨打阈值，则判定主用卡a和非主用卡b为同一人使用。
87.还可以根据通话不接听率：基于用户通话次数挖掘区分用户本人号卡和非本人号卡，若两张号卡的通话行为里比例较高，则该卡为同一人使用的概率越高。计算公式如下：
[0088][0089]
其中代表通话行为的次数，包括通话接听情况和通话未接听的情况。
[0090]
通话对端相似度：用户拨打对端号码数相同得越多，证明这两张号卡通话越相似，为同一人使用的概率越高；计算公式如下：
[0091][0092][0093][0094]
通过业务信息的初步判断结果，得到主用卡和非主用卡的分类，再基于二者之间的通信数据，对号卡的使用情况进行判断。主要用于判断主用卡和非主用卡是否为同一个人使用。
[0095]
例如，若同一用户用同一张身份证先后办理了两张号卡且为同一人使用；对于运营商而言，若对所有号卡进行短信推送营销以及电话通知营销等，无疑增加了人力物力，造成了资源浪费。当对号卡的使用情况进行判断，只对主卡进行推送，既节约资源又实现了精准营销。
[0096]
请参考图2至图3，图2是本技术一个实施例提供的一种号卡使用判断方法中计算
号卡通话相似度示意图，图3是本技术一个实施例提供的一种号卡使用判断方法中基于基站序列表生成前缀树；
[0097]
在本技术的一个实施例中，根据主用卡和非主用卡之间的通信交往信息，判断得到号卡使用结果；具体根据主用卡和非主用卡之间活动轨迹基站重合度进行判断，包括以下步骤：
[0098]
步骤n1：获取主用卡和非主用卡所在基站数据；
[0099]
例如：获取用户每天的基站数据，将时间段分割为6块，选出用户在6个时间段的常驻基站，如表1：
[0100]
时间段常驻基站0点-4点a4点-8点b8点-12点c12点-16点d16点-20点e20点-24点f
[0101]
步骤n2：按照所在基站出现次数进行排序，分别生成频繁项集基站序列表；
[0102]
利用神经网络算法挖掘频繁项集，对n天的基站情况整理每天基站序列表，依据基站序列信息，并按照出现次数进行排序，并剔除出现次数小于n次的基站,生成频繁项集基站序列表，如表2：
[0103]
天数基站筛选1{f，d，e}2{f，d，e}3{f，d，e}4{f，d，e，b}5{f，d，b}6{f，a}
……
n{f，m}
[0104]
步骤n3：计算主用卡和非主用卡所在得基站频繁项集的第一重合度；
[0105]
步骤n3中，对于重合度的计算可以利用fp-growth算法挖掘频繁项集；根据生成基站序列表，建立一个前缀树t，依据如上述表格的前5天(设定为工作日)得到如图3；
[0106]
步骤n4：深度优先遍历t，最后得到一个号码工作日活动轨迹的基站频繁项集p1＝{{f，d}、{f，d，e}}，同理计算第二个号码的工作日活动轨迹基站频繁项集p2；
[0107]
步骤n5：计算基站频繁项集p1和p2的重合度，计算如公式(1)：
[0108][0109]
步n6：根据上述步骤n1-n5计算得到两个手机号码工作日、周六、周日的重合度值，输出形成三个维度指标：工作日基站频繁项集的重合度、周六基站频繁项集的重合度、周日基站频繁项集的重合度。
[0110]
若两张卡的活动轨迹基站重合度越高，则为同一人使用的概率越高；具体的，若重合度大于预设活动重合度阈值，则判定主用卡和非主用卡为同一人使用。
[0111]
在本技术的一种实施例中，可以根据主用卡和非主用卡之间的停留式轨迹基站重合度进行判断：
[0112]
分别筛选出主用卡和非主用卡在预设时间段内的常驻基站；
[0113]
判断主用卡和非主用卡在相同时间段，所在的基站的第二重合度；
[0114]
若第二重合度大于预设停留重合度阈值，则判定主用卡和非主用卡为同一人使用。
[0115]
例如：计算获取两个手机号码的工作日忙时、工作日闲时、周末三个时间段里，停留时间最长的基站。注：工作日忙时为工作日7:00am-7:00pm，作日闲时为工作日7:00pm-7:00am；
[0116]
分别匹配两个手机号的工作日忙时、工作日闲时、周末三个时间段常驻基站号是否一致，若一致则输出1，若不一致则输出0，输出形成三个维度指标：工作日忙时常驻基站是否一致、工作日闲时常驻基站是否一致、周末常驻基站是否一致。若停留式轨迹基站趋于一致，则为同一人使用的概率越高。若两张卡的活动轨迹基站重合度越高，则为同一人使用的概率越高；具体的，若重合度大于预设活动重合度阈值，则判定主用卡和非主用卡为同一人使用。
[0117]
本实施例从流动式轨迹和停留式轨迹两个维度出发，流动式轨迹是基于用户当天行为轨迹链条，通过fp-growth算法挖掘用户工作日，周六和周日的基站频繁项集，再通过重合度公式计算两个号码(主用卡和非主用卡)基站频繁项集的重合度；停留式基站为先挖掘出用户工作日忙时、工作日闲时和周末常驻基站，再比对两个号码的常驻基站是否一致，作为判断二者是否为同一人使用的基础。
[0118]
请参考图4，图4是本技术一个实施例提供的一种号卡使用判断方法流程图；在本技术的一种实施例中，在号卡业务信息的基础上整合通话相似度特征和活动轨迹基站重合度，得到号卡为同一人使用的概率。可以包括以下步骤：
[0119]
步骤一：整合通话相似度特征、活动轨迹基站重合度计算的数据，作为待预测样本其中s1为同一身份证下的待甄别号卡，s3为不属于主用卡和非主用的号卡；m2为样本量，n1字段特征数；
[0120]
步骤二：筛选数据集s1中的非主用卡样本s2，获得模型正样本a1；筛选数据集s2中的用户样本，获得模型负样本b1；
[0121]
步骤三：基于输入正样本a1和负样本b1数据集，分别计算和主卡号码的通话相似度和活动轨迹基站重合度，作为模型训练测试的样本特征，输出建模样本
[0122]
步骤四：输入建模样本b，将建模样本ab以7:3的比例划分，得到模型训练集a
11
、b
11
，模型测试集a
12
、b
12
；
[0123]
步骤五：使用逻辑回归、随机森林或gbdt等分类算法，输入训练数据集a
11
和b
11
进行模型训练，测试数据集a
12
、b
12
调整最优参数，输出自然人识别模型；
[0124]
步骤六：数据待预测数据集c本人卡识别模型中进行预测，输出本人卡概率向量，输出模型的预测结果。
[0125]
本实施例通过业务特征数据，结合用户号卡间通话行为相似度和轨迹重合度情况，构建面向多卡用户的本人使用及非本人使用号卡甄别模型，解决了一证多卡用户其下号卡是否本人使用的识别问题，实现面向一证多卡用户的自然人使用号卡甄别功能。
[0126]
本技术的一种实施例中，还提供了对上预测结果验证的方法，包括以下步骤：
[0127]
输入待预测数据集c、本人卡概率向量p1，输出模型的预测效果。
[0128]
步骤一：将待预测数据集c中，新增一列真实类别标识向量y,若该号卡为与主用卡s1为同一终端的号码，则真实类别标识向量y＝1，若否则y＝0，并将新数据集标记为d；
[0129]
步骤二：通过上一模块获得预测结果向量p1，与数据集d的真实类别标识向量y建立混淆矩阵，混淆矩阵格式如下表(表3)：
[0130][0131]
步骤三：计算查准率(precision)和查全率(recall)，公式如下(公式2-公式3)：
[0132][0133][0134]
步骤四：根据查准率和查全率验证号卡使用情况的预测结果。
[0135]
本实施例提供先根据号卡的业务信息对一证多号下主用卡和非主用卡进行预判，然后基于通信交往信息，实现了对号卡的使用情况的精准判断。结合用户号卡间通话行为相似度和轨迹重合度情况，构建面向多卡用户的本人使用及非本人使用号卡甄别模型，解决了一证多卡用户其下号卡是否本人使用的识别问题，实现面向一证多卡用户的自然人使用号卡甄别功能，精准判断号卡是否为同一人使用的情况，实现市场一线人员对多号卡用户的精准营销，以便节省资源投入。
[0136]
图5是本技术实施例提供的一种号卡使用判断装置结构示意图。如图5所示，该装置可以包括数据获取模块210，业务规则判定模块220，结果判断模块230，特征整合模型处理模块240和效果验证模块250。
[0137]
数据获取模块210，用于提取同一身份证下的所有待甄别号卡；
[0138]
业务规则判定模块220，用于根据待甄别号卡的业务信息，判断得到主用卡和非主用卡；
[0139]
结果判断模块230，用于根据主用卡和非主用卡的通信交往信息，判断得到号卡使用结果。
[0140]
结果判断模块230包括：
[0141]
通话相似度特征单元231，用于根据主用卡和非主用卡的通信交往信息，判断主用卡和非主用卡是否同一人使用；
[0142]
活动轨迹基站重合度计算单元232，用于根据主用卡和非主用卡所在基站信息的重合度，判断主用卡和非主用卡是否同一人使用。
integrated circuit，asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(radio frequency，rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0156]
还需要说明的是，本技术中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本技术不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
[0157]
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
[0158]
以上所述，仅为本技术的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种号卡使用判断方法、装置、设备及计算机存储介质与流程

相关文献

最热文献