一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户交际圈画像的处理方法、装置、电子设备及存储介质与流程

2022-12-07 03:00:46 来源:中国专利 TAG:


1.本发明涉及大数据分析技术领域,特别是涉及一种用户交际圈画像的处理方法、一种用户交际圈画像的处理装置、一种电子设备以及一种计算机可读存储介质。


背景技术:

2.在互联网已步入大数据时代后,为企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,企业可以通过分析用户的相关数据预测用户需求。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于如何利用大数据来为用户提供更加个性化、更符合用户需求的服务。因此,“用户画像”的概念也就应运而生,用户画像是依据用户社会属性、生活方式和消费者行为等信息抽象性出的一个标签化的用户实体模型,而搭建用户画像的关键工作中就是给用户贴“标志”,其中,标识是根据对用户信息剖析获得的高宽比精练的特点标志。当前,用户画像的应用发挥着广泛作用,如帮助企业快速找到精准用户群体以及用户需求,以便企业为相应的用户群体提供与用户需求相同的服务等。然而,对于用户交际圈画像的处理,存在分析不准确以及需要外设设备采集用户数据进行分析导致分析成本高的问题。


技术实现要素:

3.本发明实施例是提供一种用户交际圈画像的处理方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决用户交际圈画像分析过程中存在分析不准确以及成本高的问题。
4.本发明实施例公开了一种用户交际圈画像的处理方法,包括:
5.获取目标用户的用户基础数据以及用户行为数据;
6.将所述用户基础数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体,所述类家庭用户群体包括若干个关联用户;
7.根据所述用户行为数据对所述关联用户进行划分,获得与所述目标用户对应的交际圈,所述交际圈至少包括同事交际圈、朋友交际圈、家庭交际圈。
8.可选地,所述用户基础数据至少包括套餐内号码、预留号码、投诉报障信息以及通信话单数据,所述将所述用户基础数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体,包括:
9.将所述套餐内号码、所述预留号码、所述投诉报障信息以及所述通信话单数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体。
10.可选地,所述用户行为数据包括通信话单数据、所述目标用户在第一预设时间段内的工作日中执行社交通信所对应的第一通信数据,所述通信话单数据包括通信联系人,所述第一通信数据包括所述目标用户执行社交通信所使用的第一基站的基站编码,所述根据所述用户行为数据对所述类家庭用户群体进行划分,获得与所述目标用户对应的交际圈,包括:
11.按照所述第一基站的使用频率,提取topn的第一基站作为第一目标基站,并将各个所述第一目标基站的基站编码作为第一工作基站数据;
12.获取所述关联用户对应的第二工作基站数据;
13.将所述第一工作基站数据与所述第二工作基站数据分别输入词袋模型进行向量映射,获取所述第一工作基站数据对应的第一向量以及所述第二工作基站数据对应的第二向量;
14.计算所述第一向量与所述第二向量之间的相似度,并将相似度大于或等于第一预设阈值的第二向量所对应的关联用户作为所述目标用户的第一同事用户;
15.将与所述通信联系人匹配成功的第一同事用户组成所述目标用户对应的同事交际圈。
16.可选地,所述用户行为数据还包括第一应用行为数据以及所述目标用户所属用户终端在执行所述社交通信时的第一mac地址与第一ip地址,所述将与所述通信联系人匹配成功的第一关联同事组成所述目标用户对应的同事交际圈,包括:
17.将所述第一应用行为数据、所述第一mac地址、所述第一ip地址作为所述目标用户对应的第一工作行为数据;
18.获取所述关联用户对应的第二工作行为数据;
19.将所述第一工作行为数据与所述第二工作行为数据分别输入词袋模型进行向量映射,获取所述第一工作行为数据对应的第三向量以及所述第二工作行为数据对应的第四向量;
20.计算所述第三向量与所述第四向量之间的相似度,并将相似度大于或等于第二预设阈值的第四向量所对应的关联用户作为所述目标用户的第二同事用户;
21.将与所述通信联系人匹配成功的第一同事用户和/或第二同事用户组成所述目标用户对应的同事交际圈。
22.可选地,所述用户行为数据包括通信话单数据、所述目标用户在第二预设时间段内的节假日中执行社交通信所对应的第二通信数据,所述通信话单数据包括通信联系人,所述第二通信数据包括所述目标用户执行社交通信所使用的第二基站的基站编码,所述根据所述用户行为数据对所述关联用户进行划分,获得与所述目标用户对应的交际圈,包括:
23.按照所述第一基站的使用频率,提取topn的第一基站作为第一目标基站,并将各个所述第一目标基站的基站编码作为第一居家基站数据;
24.获取所述关联用户对应的第二居家基站数据;
25.将所述第一居家基站数据与所述第二居家基站数据分别输入词袋模型进行向量映射,获取所述第一居家基站数据对应的第五向量以及所述第二居家基站数据对应的第六向量;
26.计算所述第五向量与所述第六向量之间的相似度,并将相似度大于或等于第三预设阈值的第六向量所对应的关联用户作为所述目标用户的第一亲人用户;
27.将与所述通信联系人匹配成功的第一亲人用户组成所述目标用户对应的家庭交际圈。
28.可选地,所述用户行为数据还包括第二应用行为数据以及所述目标用户所属用户终端在执行所述社交通信时的第二mac地址与第二ip地址,所述将与所述通信联系人匹配
成功的第一亲人用户组成所述目标用户对应的家庭交际圈,包括:
29.将所述第二应用行为数据、所述第二mac地址、所述第二ip地址作为所述目标用户对应的第一娱乐行为数据;
30.获取所述关联用户对应的第二娱乐行为数据;
31.将所述第一娱乐行为数据与所述第二娱乐行为数据分别输入词袋模型进行向量映射,获取所述第一娱乐行为数据对应的第七向量以及所述第二娱乐行为数据对应的第八向量;
32.计算所述第七向量与所述第八向量之间的相似度,并将相似度大于或等于第四预设阈值的第八向量所对应的关联用户作为所述目标用户的第二亲人用户;
33.将与所述通信联系人匹配成功的第一亲人用户和/或第二亲人用户组成所述目标用户对应的家庭交际圈。
34.可选地,所述第二娱乐行为数据包括所述家庭交际圈中亲人用户所对应的目标基站数据、第三mac地址、第三ip地址,所述根据所述用户行为数据对所述关联用户进行划分,获得与所述目标用户对应的交际圈,还包括:
35.获取所述家庭交际圈中关联用户对应的第二流量上下行通信信息、第二常住地坐标以及第二宽带网格单元坐标;
36.将所述家庭交际圈中各个亲人用户所对应的所述目标基站数据、所述第三mac地址、所述第三ip地址以及所述第二流量上下行通信信息进行重合度比对,并将重合度大于或等于第五预设阈值的亲人用户划分为同一亲人群组;
37.采用各个所述亲人用户对应的第二常住地坐标与所述第二宽带网格单元坐标进行运算,计算各个所述亲人用户对应的通信距离;
38.将通信距离小于或等于预设距离阈值、且位于同一亲人群组的亲人用户组成所述目标用户对应的单元家庭群组。
39.可选地,还包括:
40.若所述用户行为数据中包括与儿童用户相关的儿童行为数据,则将所述儿童行为数据输入儿童用户识别模型,获得针对所述单元家庭群组的儿童标签;
41.若所述用户行为数据中包括与老人用户相关的老人行为数据,则将所述老人行为数据输入老人用户识别模型,获得针对所述单元家庭群组的老人标签;
42.其中,所述儿童行为数据为与儿童日常行为相关的数据,所述老人行为数据为与老人日常行为相关的数据。
43.可选地,所述根据所述用户行为数据对所述关联用户进行划分,获得与所述目标用户对应的交际圈,包括:
44.将除所述同事交际圈以及所述家庭交际圈对应的关联用户作为所述朋友交际圈。
45.可选地,还包括:
46.获取所述目标用户的终端呼叫数据;
47.根据所述终端呼叫数据对所述交际圈进行核心用户挖掘,获得位于所述交际圈中的社交核心用户。
48.可选地,所述根据所述终端呼叫数据对所述交际圈进行核心用户挖掘,获得位于所述交际圈中的社交核心用户,包括:
49.从所述终端呼叫数据中提取所述目标用户与所述交际圈中各个关联用户的主被叫关系、所述目标用户对所述交际圈中各个关联用户的主叫次数以及所述目标用户对同一个所述交际圈中所有关联用户的主叫总次数;
50.采用所述主被叫关系建立马尔科夫矩阵,并对所述马尔科夫矩阵进行迭代计算,获得所述交际圈中各个关联用户对应的权重分值;
51.采用所述主叫次数与所述主叫总次数,计算所述交际圈中各个关联用户对应的权重系数;
52.采用所述权重系数与所述权重分值,计算所述交际圈中各个关联用户的结果分值;
53.将每个所述交际圈中结果分值最高的关联用户作为社交核心用户。
54.可选地,所述话务圈模型通过如下方式生成:
55.获取用户话单历史数据,所述用户话单历史数据至少包括不同用户的主被叫信息,所述主被叫信息至少包括每一对通话用户之间的通话次数以及通话时长;
56.将通话次数大于或等于预设次数阈值且通话时长大于或等于预设时长阈值的一对通话用户作为活跃用户;
57.以融合套餐内的所述活跃用户对应的手机号码作为正样本,以融合套餐外、非用一用户且非同一证件下的用户所对应的手机号码作为负样本;
58.将所述正样本与所述负样本作为话务圈模型的输入层的输入,并将输入层输出的预测值作为特征向量输入话务圈模型的逻辑回归层进行模型训练;
59.其中,所述输入层包括随机森林算法、极度随机树算法以及梯度提升算法。
60.本发明实施例还公开了一种用户交际圈画像的处理装置,包括:
61.数据获取模块,用于获取目标用户的用户基础数据以及用户行为数据;
62.用户群体确定模块,用于将所述用户基础数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体,所述类家庭用户群体包括若干个关联用户;
63.交际圈确定模块,用于根据所述用户行为数据对所述关联用户进行划分,获得与所述目标用户对应的交际圈,所述交际圈至少包括同事交际圈、朋友交际圈、家庭交际圈。
64.可选地,所述用户基础数据至少包括套餐内号码、预留号码、投诉报障信息以及通信话单数据,所述用户群体确定模块具体用于:
65.将所述套餐内号码、所述预留号码、所述投诉报障信息以及所述通信话单数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体。
66.可选地,所述用户行为数据包括通信话单数据、所述目标用户在第一预设时间段内的工作日中执行社交通信所对应的第一通信数据,所述通信话单数据包括通信联系人,所述第一通信数据包括所述目标用户执行社交通信所使用的第一基站的基站编码,所述交际圈确定模块具体用于:
67.按照所述第一基站的使用频率,提取topn的第一基站作为第一目标基站,并将各个所述第一目标基站的基站编码作为第一工作基站数据;
68.获取所述关联用户对应的第二工作基站数据;
69.将所述第一工作基站数据与所述第二工作基站数据分别输入词袋模型进行向量映射,获取所述第一工作基站数据对应的第一向量以及所述第二工作基站数据对应的第二
向量;
70.计算所述第一向量与所述第二向量之间的相似度,并将相似度大于或等于第一预设阈值的第二向量所对应的关联用户作为所述目标用户的第一同事用户;
71.将与所述通信联系人匹配成功的第一同事用户组成所述目标用户对应的同事交际圈。
72.可选地,所述用户行为数据还包括第一应用行为数据以及所述目标用户所属用户终端在执行所述社交通信时的第一mac地址与第一ip地址,所述交际圈确定模块具体还用于:
73.将所述第一应用行为数据、所述第一mac地址、所述第一ip地址作为所述目标用户对应的第一工作行为数据;
74.获取所述关联用户对应的第二工作行为数据;
75.将所述第一工作行为数据与所述第二工作行为数据分别输入词袋模型进行向量映射,获取所述第一工作行为数据对应的第三向量以及所述第二工作行为数据对应的第四向量;
76.计算所述第三向量与所述第四向量之间的相似度,并将相似度大于或等于第二预设阈值的第四向量所对应的关联用户作为所述目标用户的第二同事用户;
77.将与所述通信联系人匹配成功的第一同事用户和/或第二同事用户组成所述目标用户对应的同事交际圈。
78.可选地,所述用户行为数据包括通信话单数据、所述目标用户在第二预设时间段内的节假日中执行社交通信所对应的第二通信数据,所述通信话单数据包括通信联系人,所述第二通信数据包括所述目标用户执行社交通信所使用的第二基站的基站编码,所述交际圈确定模块具体用于:
79.按照所述第一基站的使用频率,提取topn的第一基站作为第一目标基站,并将各个所述第一目标基站的基站编码作为第一居家基站数据;
80.获取所述关联用户对应的第二居家基站数据;
81.将所述第一居家基站数据与所述第二居家基站数据分别输入词袋模型进行向量映射,获取所述第一居家基站数据对应的第五向量以及所述第二居家基站数据对应的第六向量;
82.计算所述第五向量与所述第六向量之间的相似度,并将相似度大于或等于第三预设阈值的第六向量所对应的关联用户作为所述目标用户的第一亲人用户;
83.将与所述通信联系人匹配成功的第一亲人用户组成所述目标用户对应的家庭交际圈。
84.可选地,所述用户行为数据还包括第二应用行为数据以及所述目标用户所属用户终端在执行所述社交通信时的第二mac地址与第二ip地址,所述交际圈确定模块具体还用于:
85.将所述第二应用行为数据、所述第二mac地址、所述第二ip地址作为所述目标用户对应的第一娱乐行为数据;
86.获取所述关联用户对应的第二娱乐行为数据;
87.将所述第一娱乐行为数据与所述第二娱乐行为数据分别输入词袋模型进行向量
映射,获取所述第一娱乐行为数据对应的第七向量以及所述第二娱乐行为数据对应的第八向量;
88.计算所述第七向量与所述第八向量之间的相似度,并将相似度大于或等于第四预设阈值的第八向量所对应的关联用户作为所述目标用户的第二亲人用户;
89.将与所述通信联系人匹配成功的第一亲人用户和/或第二亲人用户组成所述目标用户对应的家庭交际圈。
90.可选地,所述第二娱乐行为数据包括所述家庭交际圈中亲人用户所对应的目标基站数据、第三mac地址、第三ip地址,所述交际圈确定模块具体还用于:
91.获取所述家庭交际圈中关联用户对应的第二流量上下行通信信息、第二常住地坐标以及第二宽带网格单元坐标;
92.将所述家庭交际圈中各个亲人用户所对应的所述目标基站数据、所述第三mac地址、所述第三ip地址以及所述第二流量上下行通信信息进行重合度比对,并将重合度大于或等于第五预设阈值的亲人用户划分为同一亲人群组;
93.采用各个所述亲人用户对应的第二常住地坐标与所述第二宽带网格单元坐标进行运算,计算各个所述亲人用户对应的通信距离;
94.将通信距离小于或等于预设距离阈值、且位于同一亲人群组的亲人用户组成所述目标用户对应的单元家庭群组。
95.可选地,还包括:
96.儿童标签确定模块,用于若所述用户行为数据中包括与儿童用户相关的儿童行为数据,则将所述儿童行为数据输入儿童用户识别模型,获得针对所述单元家庭群组的儿童标签;
97.老人标签确定模块,用于若所述用户行为数据中包括与老人用户相关的老人行为数据,则将所述老人行为数据输入老人用户识别模型,获得针对所述单元家庭群组的老人标签;
98.其中,所述儿童行为数据为与儿童日常行为相关的数据,所述老人行为数据为与老人日常行为相关的数据。
99.可选地,所述交际圈确定模块具体用于:
100.将除所述同事交际圈以及所述家庭交际圈对应的关联用户作为所述朋友交际圈。
101.可选地,还包括:
102.呼叫数据获取模块,用于获取所述目标用户的终端呼叫数据;
103.核心用户挖掘模块,用于根据所述终端呼叫数据对所述交际圈进行核心用户挖掘,获得位于所述交际圈中的社交核心用户。
104.可选地,所述核心用户挖掘模块具体用于:
105.从所述终端呼叫数据中提取所述目标用户与所述交际圈中各个关联用户的主被叫关系、所述目标用户对所述交际圈中各个关联用户的主叫次数以及所述目标用户对同一个所述交际圈中所有关联用户的主叫总次数;
106.采用所述主被叫关系建立马尔科夫矩阵,并对所述马尔科夫矩阵进行迭代计算,获得所述交际圈中各个关联用户对应的权重分值;
107.采用所述主叫次数与所述主叫总次数,计算所述交际圈中各个关联用户对应的权
重系数;
108.采用所述权重系数与所述权重分值,计算所述交际圈中各个关联用户的结果分值;
109.将每个所述交际圈中结果分值最高的关联用户作为社交核心用户。
110.可选地,所述话务圈模型通过如下模块生成:
111.话单历史数据获取模块,用于获取用户话单历史数据,所述用户话单历史数据至少包括不同用户的主被叫信息,所述主被叫信息至少包括每一对通话用户之间的通话次数以及通话时长;
112.活跃用户确定模块,用于将通话次数大于或等于预设次数阈值且通话时长大于或等于预设时长阈值的一对通话用户作为活跃用户;
113.样本确定模块,用于以融合套餐内的所述活跃用户对应的手机号码作为正样本,以融合套餐外、非用一用户且非同一证件下的用户所对应的手机号码作为负样本;
114.模型训练模块,用于将所述正样本与所述负样本作为话务圈模型的输入层的输入,并将输入层输出的预测值作为特征向量输入话务圈模型的逻辑回归层进行模型训练;
115.其中,所述输入层包括随机森林算法、极度随机树算法以及梯度提升算法。
116.本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
117.所述存储器,用于存放计算机程序;
118.所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的方法。
119.本发明实施例还公开了一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的方法。
120.本发明实施例包括以下优点:
121.在本发明实施例中,可以应用于大数据分析,通过获取目标用户的用户基础数据以及用户行为数据,接着可以将用户基础数据输入预先训练好的话务圈模型进行交际圈预测,获得与目标用户对应的类家庭用户群体,类家庭用户群体包括若干个与目标用户对应的关联用户,每一个关联用户可以与目标用户之间存在至少一种社交关系,然后可以根据用户行为数据对关联用户进行划分,获得与目标用户对应的交际圈,交际圈至少包括同事交际圈、朋友交际圈、家庭交际圈等,从而通过用户基础数据对用户的交际圈进行分析,得到与用户关联的类家庭用户群体之后,在基于用户行为数据对类家庭用户群体进行社交关系的划分,得到用户所对应的交际圈,基于数据分析的方式,不仅能够保证分析的准确性,而且可以降低对外设设备的依赖,降低成本。
附图说明
122.图1是本发明实施例中提供的一种用户交际圈画像的处理方法的步骤流程图;
123.图2是本发明实施例中提供的矩阵示意图;
124.图3是本发明实施例中提供的矩阵示意图;
125.图4是本发明实施例中提供的矩阵示意图;
126.图5是本发明实施例中提供的矩阵示意图;
127.图6是本发明实施例中提供的交际圈的示意图;
128.图7是本发明实施例中提供的交际圈的处理流程图;
129.图8是本发明实施例中提供的单元家庭的挖掘示意图;
130.图9是本发明实施例中提供的一种用户交际圈画像的处理装置的结构框图;
131.图10是本发明实施例中提供的一种电子设备的框图。
具体实施方式
132.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
133.需要说明的是,本技术实施例中可能会涉及到对用户数据的收集、使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
134.作为一种示例,用户画像的应用发挥着广泛作用,如帮助企业快速找到精准用户群体以及用户需求,以便企业为相应的用户群体提供与用户需求相同的服务等。然而,对于用户交际圈画像的处理,存在分析不准确以及需要外设设备采集用户数据进行分析导致分析成本高的问题。
135.对此,本发明的核心发明点之一在于基于大数据分析,通过获取目标用户的用户基础数据以及用户行为数据,接着可以将用户基础数据输入预先训练好的话务圈模型进行交际圈预测,获得与目标用户对应的类家庭用户群体,类家庭用户群体包括若干个与目标用户对应的关联用户,每一个关联用户可以与目标用户之间存在至少一种社交关系,然后可以根据用户行为数据对关联用户进行划分,获得与目标用户对应的交际圈,交际圈至少包括同事交际圈、朋友交际圈、家庭交际圈等,从而通过用户基础数据对用户的交际圈进行分析,得到与用户关联的类家庭用户群体之后,在基于用户行为数据对类家庭用户群体进行社交关系的划分,得到用户所对应的交际圈,基于数据分析的方式,不仅能够保证分析的准确性,而且可以降低对外设设备的依赖,降低成本。
136.具体的,参照图1,示出了本发明实施例中提供的一种用户交际圈画像的处理方法的步骤流程图,具体可以包括如下步骤:
137.步骤101,获取目标用户的用户基础数据以及用户行为数据;
138.对于一个用户,其可以存在多种社交关系,如同事关系、朋友关系、亲人关系等,其中,对于亲人关系,还可以细分为居住在一起的单元家庭关系以及未居住在一起的家族关系等,本发明对此不作限制。
139.其中,在大数据分析的过程中,可以通过获取目标用户的用户基础数据以及用户行为数据,对于用户基础数据,其可以为用于表征用户基础信息的数据,对于用户行为数据,其可以为用户日常通过相应手机号码进行通信、使用终端、使用应用程序等产生的相关数据,所包含的信息较为繁杂。
140.步骤102,将所述用户基础数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体,所述类家庭用户群体包括若干个关联用户;
141.在具体实现中,用户基础数据至少可以包括套餐内号码、预留号码、投诉报障信息
以及通信话单数据等,其中,套餐内号码可以为运营商提供的服务套餐所对应的手机号码;预留号码可以为用户在办理服务套餐时预留的手机号码;投诉报障信息可以为用户在办理相关服务时对应的信息;通信话单数据可以为运营商在获得用户授权的情况下结合宽带dpi(deep packet inspection,深度包检测技术)采集的数据等,则在获取了上述用户基础数据之后,可以将套餐内号码、预留号码、投诉报障信息以及话单数据输入话务圈模型进行交际圈预测,获得与目标用户对应的类家庭用户群体。
142.其中,对于类家庭用户群体,可以包括与目标用户之间存在至少一种社交关系的关联用户,如同事关系、朋友关系、亲人关系等,通过话务圈模型以及用户基础数据筛选出与目标用户存在相关社交关系的类家庭用户群体,以便后续基于类家庭用户群体做进一步的划分,得到目标用户对应的交际圈。
143.在一种可选实施例中,对于话务圈模型的训练过程,可以通过获取用户话单历史数据,用户话单历史数据至少包括不同用户的主被叫信息,主被叫信息至少包括每一对通话用户之间的通话次数以及通话时长,接着将通话次数大于或等于预设次数阈值且通话时长大于或等于预设时长阈值的一对通话用户作为活跃用户,并以融合套餐内的活跃用户对应的手机号码作为正样本,以融合套餐外、非用一用户且非同一证件下的用户所对应的手机号码作为负样本,然后将正样本与负样本作为话务圈模型的输入层输入,并将输入层输出的预测值作为特征向量输入话务圈模型的逻辑回归层进行模型训练。其中,输入层包括随机森林算法、极度随机树算法以及梯度提升算法。
144.其中,用户话单历史数据可以为不同用户所对应的手机号码的历史通话数据;融合套餐可以为运营商提供的与手机号码对应的服务套餐;证件可以为身份证、居住证等用于标识身份的证件。此外,对于话务圈模型,其可以包括输入层、逻辑回归层以及输出层等,本发明对此不作限制。
145.在一种示例中,在得到正、负样本之后,对于训练过程,可以通过基于云计算的大数据分析平台,利用spark抽取分布式计算集群中的处理好的样本数据,生成dataframe。由于样本存在不均衡的情况,在训练模型时,各随机抽取50万条作为训练集,同时基于python大数据分析所需的pandas、scikit-learn机器学习lib进行模型训练,将得到话务圈模型,具体的,stacking方法可以为一种分层模型集成框架。以二级stacking为例,假设有3个基模型m1、m2、m3。基模型m1,对训练集train训练,然后用于预测train和test的标签列,分别是p1,t1(如图2所示)。对于m2和m3,重复相同的工作,这样也得到p2、t2、p3、t3。分别把p1、p2、p3以及t1、t2、t3合并,得到一个新的训练集和测试集train2,test2(如图3、4所示)。再用第二层的模型m4训练train2,预测test2,得到最终的标签列(如图4所示)。
146.对于通过stacking训练模型可以如上所述,但由于训练集训练的模型需要反向预测训练集的标签,容易导致严重的过拟合,因此采用k折交叉验证方法来解决此过拟合的问题(例如,采用5折交叉验证),从而通过上述方式可以训练得到对应的话务圈模型。
147.步骤103,根据所述用户行为数据对所述关联用户进行划分,获得与所述目标用户对应的交际圈,所述交际圈至少包括同事交际圈、朋友交际圈、家庭交际圈。
148.对于目标用户而言,由于类家庭用户群体中包括与其存在至少一种社交关系的不同关联用户,则需要将属于同一社交关系的关联用户进行归类,以得到目标用户所对应的不同社交关系的交际圈,如同事交际圈、朋友交际圈以及家庭交际圈等,从而通过用户基础
数据对用户的交际圈进行分析,得到与用户关联的类家庭用户群体之后,在基于用户行为数据对类家庭用户群体进行社交关系的划分,得到用户所对应的交际圈,基于数据分析的方式,不仅能够保证分析的准确性,而且可以降低对外设设备的依赖,降低成本。
149.对于同事交际圈,目标用户所对应的用户行为数据可以包括通信话单数据、目标用户在第一预设时间段内的工作日中执行社交通信所对应的第一通信数据,通信话单数据包括通信联系人,第一通信数据包括目标用户执行社交通信所使用的第一基站的基站编码,则可以通过按照第一基站的使用频率,提取topn(n可以为正整数)的第一基站作为第一目标基站,并将各个第一目标基站的基站编码作为第一工作基站数据,接着获取关联用户对应的第二工作基站数据,然后将第一工作基站数据与第二工作基站数据分别输入词袋模型进行向量映射,获取第一工作基站数据对应的第一向量以及第二工作基站数据对应的第二向量,再计算第一向量与第二向量之间的相似度,并将相似度大于或等于第一预设阈值的第二向量所对应的关联用户作为目标用户的第一同事用户,将与通信联系人匹配成功的第一同事用户组成目标用户对应的同事交际圈。
150.其中,对于社交通信,其可以包括语音通信、短信通信、彩信通信以及视频通信等;通信联系人可以为目标用户在执行社交通信时的通信对象;第一基站,其可以为目标用户在工作日执行社交通信时终端所连接的基站,基站编码可以为基站的标识,不同的基站可以对应不同的标识。在一种示例中,假设目标用户在周一至周五的五个工作日中通过终端执行了相关的社交通信,涉及基站a、基站b、基站c以及基站d,各个基站的使用频率分别为15次、20次、30次、50次,则可以将top3的基站所对应的基站编码作为目标用户所对应的第一工作基站数据,同理可以得到类家庭用户群体中各个关联用户所对应的第二工作基站数据,然后可以基于两者进行相似度比较,根据比较结果结合工作日用户可能与同事进行通信,从而可以得到目标用户的第一同事用户。
151.在一种示例中,可以按月统计目标用户的用户行为数据,按照工作日9-12点、14-18点等对用户上月常使用基站进行排序,以获取用户使用的top3基站编码,并将使用频率top3的基站所对应的基站编码视为工作基站数据。
152.其次,可以以宽带为载体,对其目标用户及以及类家庭用户群体中的关联用户的基站数据通过流程处理获取相似度,并将相似度高于或等于0.4的关联用户作为同事群体a。
153.具体的,为了解决相关用户量大,基站组合庞大的问题,可以将用户基站编码利用自然语言处理nlp词袋模型(bag of words,bow)转为向量,利用欧式距离组合计算出相似度,例如:
[0154][0155]
如示例数据,通过计算对比阈值,密切1为宽带套内用户1的同事。
[0156]
进一步地,用户行为数据还包括第一应用行为数据以及目标用户所属用户终端在执行社交通信时的第一mac地址与第一ip地址,则还可以进一步将第一应用行为数据、第一mac地址、第一ip地址作为目标用户对应的第一工作行为数据,接着获取关联用户对应的第二工作行为数据,并将第一工作行为数据与第二工作行为数据分别输入词袋模型进行向量映射,获取第一工作行为数据对应的第三向量以及第二工作行为数据对应的第四向量,计算第三向量与第四向量之间的相似度,并将相似度大于或等于第二预设阈值的第四向量所对应的关联用户作为目标用户的第二同事用户,然后将与通信联系人匹配成功的第一同事用户和/或第二同事用户组成目标用户对应的同事交际圈。
[0157]
其中,第一应用行为数据可以为用户在工作日中所使用的办公应用程序所对应的行为数据;对于用户终端的第一mac地址与第一ip地址,宽带光猫与路由器可以为获得用户授权的情况下,在用户终端连接相应网络后进行数据采集所得。同理,基于前述根据基站数据进行相似度的计算,对于目标用户在工作日的工作行为数据分析,可以参考前述相关过程的描述,在此不再赘述。
[0158]
具体的,在基于工作基站数据得到与目标用户对应的第一同事用户,以及基于工作行为数据得到与目标用户对应的第二同事用户之后,在仅存在其中的一者时,则将第一同事用户或第二同事用户从类家庭用户群体中划分出来作为目标用户的同事交际圈,若两者均存在,则可以将第一同事用户和第二同事用户作为目标用户的同事交际圈。
[0159]
在上述过程中,基于相似度可以得到可能为目标用户的同事用户,而为了确定目标用户的真实同事用户,可以基于话单通信数据中所包括的通信联系人,并将与通信联系人相同的可能的同事用户作为目标用户的真实同事用户,从而得到对应的同事交际圈。
[0160]
对于家庭同事圈,目标用户所对应的用户行为数据还可以包括通信话单数据、目标用户在第二预设时间段内的节假日中执行社交通信所对应的第二通信数据,通信话单数据包括通信联系人,第二通信数据包括目标用户执行社交通信所使用的第二基站的基站编码,则可以按照第一基站的使用频率,提取topn的第一基站作为第一目标基站,并将各个第一目标基站的基站编码作为第一居家基站数据,并获取关联用户对应的第二居家基站数据,接着将第一居家基站数据与第二居家基站数据分别输入词袋模型进行向量映射,获取第一居家基站数据对应的第五向量以及第二居家基站数据对应的第六向量,然后计算第五向量与第六向量之间的相似度,并将相似度大于或等于第三预设阈值的第六向量所对应的关联用户作为目标用户的第一亲人用户,并将与通信联系人匹配成功的第一亲人用户组成目标用户对应的家庭交际圈。
[0161]
需要说明的是,对于工作基站数据与居家基站数据,其区别在于前者为用户所对应的用户终端在工作日连接并使用的基站所对应的数据,后者为用户终端在节假日连接并使用的基站所对应的数据,对于通过基站数据进行用户群体的划分得到亲人用户的过程,可以参考前述对同事用户进行划分的过程,在此不赘述。
[0162]
进一步地,用户行为数据还可以包括第二应用行为数据以及目标用户所属用户终端在执行社交通信时的第二mac地址与第二ip地址,则可以进一步将第二应用行为数据、第二mac地址、第二ip地址作为目标用户对应的第一娱乐行为数据,并获取关联用户对应的第二娱乐行为数据,接着将第一娱乐行为数据与第二娱乐行为数据分别输入词袋模型进行向量映射,获取第一娱乐行为数据对应的第七向量以及第二娱乐行为数据对应的第八向量,然后计算第七向量与第八向量之间的相似度,并将相似度大于或等于第四预设阈值的第八向量所对应的关联用户作为目标用户的第二亲人用户,再将与通信联系人匹配成功的第一亲人用户和/或第二亲人用户组成目标用户对应的家庭交际圈。同理,对于第二亲人用户的划分过程,可以参考前述第二同事用户的划分过程,在此也不赘述。
[0163]
此外,对于亲人用户的划分,还可以通过手机号码与手机终端之间的绑定关系,具体的,手机终端在插入新的sim(subscriber identity module,用户身份识别模块,用于)卡时,会记录开机终端的imei(international mobile equipment identity)编码(国际移动设备识别码,是区别移动设备的标志,储存在移动设备中,可用于监控被窃或无效的移动设备),从而形成手机号与手机终端的绑定关系,通过终端使用年限及流转的手机号信息,得到可能为第三亲人用户。
[0164]
通过上述过程可以得到同事交际圈以及家庭交际圈之后,可以将类家庭用户群体中除同事交际圈以及家庭交际圈对应的关联用户作为朋友交际圈,从而通过用户基础数据对用户的交际圈进行分析,得到与用户关联的类家庭用户群体之后,在基于用户行为数据对类家庭用户群体进行社交关系的划分,得到用户所对应的交际圈,基于数据分析的方式,不仅能够保证分析的准确性,而且可以降低对外设设备的依赖,降低成本。
[0165]
对于家庭交际圈,还可以对家庭交际圈中所涉及的亲人用户做进一步的细分,以得到更细维度的交际圈。具体的,第二娱乐行为数据包括家庭交际圈中亲人用户所对应的
目标基站数据、第三mac地址、第三ip地址,则对于家庭交际圈,可以通过获取家庭交际圈中关联用户对应的第二流量上下行通信信息、第二常住地坐标以及第二宽带网格单元坐标,接着可以将家庭交际圈中各个亲人用户所对应的目标基站数据、第三mac地址、第三ip地址以及第二流量上下行通信信息进行重合度比对,并将重合度大于或等于第五预设阈值的亲人用户划分为同一亲人群组,然后采用各个亲人用户对应的第二常住地坐标与第二宽带网格单元坐标进行运算,计算各个亲人用户对应的通信距离,并将通信距离小于或等于预设距离阈值、且位于同一亲人群组的亲人用户组成目标用户对应的单元家庭群组。
[0166]
其中,常住地坐标可以为目标用户常住地所对应的经纬度坐标等;对于宽带网格单元坐标,运营商可以将宽带划分为若干个不同的宽带网格单元,宽带网格单元坐标可以为宽带网格单元所对应的经纬度坐标,则用户终端在联网的过程中,可以获取其联网时所在的宽带网格单元坐标,以便根据常住地坐标和宽带网格单元坐标计算对应的通信距离;通信距离可以用于表征用户终端与宽带网格单元之间的位置关系,当两个用户终端分别与宽带网格单元之间的距离相近时,表明两个用户终端可以处于基本相同的位置。
[0167]
具体的,首先可以根据家庭交际圈中所有成员使用基站数据、宽带光猫及路由器连接的mac(网络中每台设备都有一个唯一的网络标识,这个地址叫mac地址或网卡地址,由网络设备制造商生产时写在硬件内部)采集数据,接着结合流量上下行通信情况进行通信重合度的比对,由重合度为每个亲人用户分配对应的成员标签,将相同标签的亲人用户作为同一用户组。接着,可以根据常住地坐标(可以通过用户长期所在的深夜通信基站分析所得)与宽带网格单元坐标计算出通信距离,并将距离最近的同标签用户组成目标用户对应的单元家庭群组,例如,将通信距离小于或等于预设距离阈值(如2公里以内)且宽带光猫、路由器常记录的上网mac地址所对应的亲人用户组成目标用户的单元家庭群组,以表征该单元家庭群组中的用户为与目标用户同居的用户。
[0168]
此外,还可以同时根据服务套餐内的客户信息、多套餐情况等,从家庭交际圈中找到多居住地的家庭;也可以根据服务套餐内的客户对其他家庭的联系紧密度,从家庭交际圈中找到亲戚的家庭,获得家庭与家庭之间的联系性;以及通过年龄性别建立图谱等,即家族圈,本发明对此不作限制。
[0169]
在本发明实施例中,通过上述过程中得到目标用户对应的交际圈之后,可以基于交际圈所对应的圈层数据进一步挖掘得到各个交际圈中的社交核心用户(该社交核心用户可以为交际圈中与目标用户联系最紧密的用户),可以通过获取所述目标用户的终端呼叫数据,接着根据所述终端呼叫数据对所述交际圈进行核心用户挖掘,获得位于所述交际圈中的社交核心用户。
[0170]
在具体实现中,可以先从终端呼叫数据中提取目标用户与交际圈中各个关联用户的主被叫关系、目标用户对交际圈中各个关联用户的主叫次数以及目标用户对同一个交际圈中所有关联用户的主叫总次数,接着采用主被叫关系建立马尔科夫矩阵,并对马尔科夫矩阵进行迭代计算,获得交际圈中各个关联用户对应的权重分值,然后采用主叫次数与主叫总次数,计算交际圈中各个关联用户对应的权重系数,并采用权重系数与权重分值,计算交际圈中各个关联用户的结果分值,再将每个交际圈中结果分值最高的关联用户作为社交核心用户。
[0171]
其中,对于主被叫关系,其可以为目标用户主叫交际圈中的关联用户,也可以为交
际圈中的关联用户主叫目标用户等;权重分值可以用于表征交际圈中的关联用户与目标用户之间的亲密程度,分值越大,则关联用户相对于目标用户而言越重要,此外,对于权重分值,由于其与主叫次数关联,因此需要结合相应的权重系数对其进行加权计算,以提高其准确性。
[0172]
在一种示例中,可以基于pagerank算法对交际圈中的社交核心用户进行挖掘,具体的,通过用户之间的主被叫关系,建立马尔科夫矩阵,再经过不断地迭代计算得到用户权值的大小排名,权值越大,用户就越重要。其计算公式为:p=(1-d)ee
t
/n db
t
p,pagerank算法的核心思想主要有以下两点:
[0173]
(1)用户的主叫通信越多,用户越重要;
[0174]
(2)用户若被某一重要的用户所高频主叫通信,那么该用户也很重要。
[0175]
例如,通过python的算法实现可以为:
[0176]
[0177]
[0178][0179]
由上述算法可得到每个用户的权重分数,通常高得分为社交核心用户,但是通信主叫是有次数因素,再通过下面的公式进行加权处理:结果分值=权重分值
×
(1 该用户主叫次数/圈层用户主叫总次数),由算法迭代并通过次数加权运算可得到圈层中最重要的手机号用户,加权得分最高的为社交核心用户。通过上述算法对各圈层的交际圈进行运算,即可得到对应交际圈、朋友圈、同事圈、家族圈、家庭圈、单元家庭圈的社交核心用户。
[0180]
此外,对于单元家庭群组,除了可以通过上述方式确定社交核心用户外,还可以对判断该群组是否包含老人和/或儿童,具体的,若用户行为数据中包括与儿童用户相关的儿童行为数据,则将儿童行为数据输入儿童用户识别模型,获得针对单元家庭群组的儿童标签,通过儿童标签可以标识该单元家庭群组中包含儿童;若用户行为数据中包括与老人用户相关的老人行为数据,则将老人行为数据输入老人用户识别模型,获得针对单元家庭群组的老人标签,通过老人标签可以标识该单元家庭群组中包含老人。其中,儿童行为数据为与儿童日常行为相关的数据,老人行为数据为与老人日常行为相关的数据。
[0181]
例如,对单元家庭群组的亲人用户进行分析,取智能腕表用户的套内其他成员5万群体为正样本,以通信行为数据、动画点播直播、教育类应用程序使用数据(含作业、搜题等)、校园基站通信数据为特征,通过随机森林算法进行模型训练得到模型,并基于该模型对儿童行为数据进行预测,即可分析出单元家庭群组是否含小孩的情况;同理,对单元家庭群组的亲人用户进行分析,可以取年龄大于60岁的5万用户为正样本,通过电视收看、手机
观看新闻咨询、健康养身类、电子书类应用,工作日公园、市场范围基站通信数据为特征,通过随机森林算法进行模型训练得到模型,并基于该模型对老人行为数据进行预测,即可分析出单元家庭群组是否含老人的情况,本发明对此不作限制。
[0182]
通过上述方式得到目标用户对应的各个交际圈之后,可以汇聚整理程表,形成对应的各层交际圈,参照图6,示出了本发明实施例中提供的交际圈的示意图,对于目标用户而言,其所涉及的交际圈可以包括同事圈、朋友圈、家族圈等,在同事圈中可以包括若干个同事,在朋友圈中可以包括若干个朋友,在家族圈中可以包括若干个亲戚以及大家庭圈,在大家庭圈中可以包括单元家庭、家人、小孩等。其中,单元家庭可以为与目标用户最为紧密的家庭圈,从而通过用户基础数据对用户的交际圈进行分析,得到与用户关联的类家庭用户群体之后,在基于用户行为数据对类家庭用户群体进行社交关系的划分,得到用户所对应的交际圈,基于数据分析的方式,不仅能够保证分析的准确性,而且可以降低对外设设备的依赖,降低成本,并对交际圈进行可视化显示,通过更为直观、简洁的方式呈现出用户的交际圈。
[0183]
此外,还可以由大数据中台建立对应的任务,并将交际圈数据下发至本地的oracle数据库,投入生产使用,提升各层级指向性营销及智慧运营的效率,本发明对此不作限制。
[0184]
在本发明实施例中,可以应用于大数据分析,通过获取目标用户的用户基础数据以及用户行为数据,接着可以将用户基础数据输入预先训练好的话务圈模型进行交际圈预测,获得与目标用户对应的类家庭用户群体,类家庭用户群体包括若干个与目标用户对应的关联用户,每一个关联用户可以与目标用户之间存在至少一种社交关系,然后可以根据用户行为数据对关联用户进行划分,获得与目标用户对应的交际圈,交际圈至少包括同事交际圈、朋友交际圈、家庭交际圈等,从而通过用户基础数据对用户的交际圈进行分析,得到与用户关联的类家庭用户群体之后,在基于用户行为数据对类家庭用户群体进行社交关系的划分,得到用户所对应的交际圈,基于数据分析的方式,不仅能够保证分析的准确性,而且可以降低对外设设备的依赖,降低成本。
[0185]
为了使本领域技术人员更好地理解本发明实施例的技术方案,下面通过一个例子进行示例性说明:
[0186]
参照图7,示出了本发明实施例中提供的交际圈的处理流程图:
[0187]
首先,可以利用通话行为数据等基础数据、宽带dpi数据进行特征加工,对客户运用一种特定的stacking融合模型算法(随机森林、极度随机树、梯度提升算法、逻辑回归)预测,形成话务圈,并结合用户的基础数据形成交际圈。对于话务圈模型输出的交际圈,可以以宽带为底座进行交际圈的信息补充,完成初步的交际圈构建,得到同事、朋友、亲人等由关系型事件进行群体划分的群体交际圈。
[0188]
其次,对于亲人圈,可以结合用户间的出行家居轨迹重合高、有终端流转情况、通信密切度高、有共用应用兴趣、均存在设备dpi数据留痕等多维度数据判定出长期处于同居的亲人,包括:
[0189]
1、挖掘实际居住地单元家庭用户情况:
[0190]
参照图8,示出了本发明实施例中提供的单元家庭的挖掘示意图,由话务圈模型输出,以宽带为底座进行交际圈的信息补充,完成初步的交际圈构建。继而结合用户间的出行
家居轨迹重合高、有终端流转情况、通信密切度高、有共用应用兴趣、均存在设备dpi数据留痕等多维度数据判定出长期处于同居的亲人。
[0191]
2、挖掘实际居住地单元家庭用户含小孩情况:
[0192]
基于单元家庭数据,加工一些存在腕表终端使用;分析电视播放教育类视频、动画节目频率高;基站轨迹常前往游乐园、校园等;用户终端含有幼中小等特定群体教育学习类软件应用等家庭用户特征数据作为正样本,训练出洞察家庭有小孩的rf(random forest)算法模型,通过该模型可分析其他家庭用户内有小孩的情况。
[0193]
3、挖掘大家庭圈中的核心人:
[0194]
基于大家庭圈层,由pagerank算法对圈内用户进行通信粘性分析,同时用户年龄等基础信息、金融类消费数据、业务决策类行为等数据,评分排序得到综合应用级的核心人数据。
[0195]
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0196]
参照图9,示出了本发明实施例中提供的一种用户交际圈画像的处理装置的结构框图,具体可以包括如下模块:
[0197]
数据获取模块901,用于获取目标用户的用户基础数据以及用户行为数据;
[0198]
用户群体确定模块902,用于将所述用户基础数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体,所述类家庭用户群体包括若干个关联用户;
[0199]
交际圈确定模块903,用于根据所述用户行为数据对所述关联用户进行划分,获得与所述目标用户对应的交际圈,所述交际圈至少包括同事交际圈、朋友交际圈、家庭交际圈。
[0200]
在一种可选实施例中,所述用户基础数据至少包括套餐内号码、预留号码、投诉报障信息以及通信话单数据,所述用户群体确定模块902具体用于:
[0201]
将所述套餐内号码、所述预留号码、所述投诉报障信息以及所述通信话单数据输入话务圈模型进行交际圈预测,获得与所述目标用户对应的类家庭用户群体。
[0202]
在一种可选实施例中,所述用户行为数据包括通信话单数据、所述目标用户在第一预设时间段内的工作日中执行社交通信所对应的第一通信数据,所述通信话单数据包括通信联系人,所述第一通信数据包括所述目标用户执行社交通信所使用的第一基站的基站编码,所述交际圈确定模块903具体用于:
[0203]
按照所述第一基站的使用频率,提取topn的第一基站作为第一目标基站,并将各个所述第一目标基站的基站编码作为第一工作基站数据;
[0204]
获取所述关联用户对应的第二工作基站数据;
[0205]
将所述第一工作基站数据与所述第二工作基站数据分别输入词袋模型进行向量映射,获取所述第一工作基站数据对应的第一向量以及所述第二工作基站数据对应的第二向量;
[0206]
计算所述第一向量与所述第二向量之间的相似度,并将相似度大于或等于第一预设阈值的第二向量所对应的关联用户作为所述目标用户的第一同事用户;
[0207]
将与所述通信联系人匹配成功的第一同事用户组成所述目标用户对应的同事交际圈。
[0208]
在一种可选实施例中,所述用户行为数据还包括第一应用行为数据以及所述目标用户所属用户终端在执行所述社交通信时的第一mac地址与第一ip地址,所述交际圈确定模块903具体还用于:
[0209]
将所述第一应用行为数据、所述第一mac地址、所述第一ip地址作为所述目标用户对应的第一工作行为数据;
[0210]
获取所述关联用户对应的第二工作行为数据;
[0211]
将所述第一工作行为数据与所述第二工作行为数据分别输入词袋模型进行向量映射,获取所述第一工作行为数据对应的第三向量以及所述第二工作行为数据对应的第四向量;
[0212]
计算所述第三向量与所述第四向量之间的相似度,并将相似度大于或等于第二预设阈值的第四向量所对应的关联用户作为所述目标用户的第二同事用户;
[0213]
将与所述通信联系人匹配成功的第一同事用户和/或第二同事用户组成所述目标用户对应的同事交际圈。
[0214]
在一种可选实施例中,所述用户行为数据包括通信话单数据、所述目标用户在第二预设时间段内的节假日中执行社交通信所对应的第二通信数据,所述通信话单数据包括通信联系人,所述第二通信数据包括所述目标用户执行社交通信所使用的第二基站的基站编码,所述交际圈确定模块903具体用于:
[0215]
按照所述第一基站的使用频率,提取topn的第一基站作为第一目标基站,并将各个所述第一目标基站的基站编码作为第一居家基站数据;
[0216]
获取所述关联用户对应的第二居家基站数据;
[0217]
将所述第一居家基站数据与所述第二居家基站数据分别输入词袋模型进行向量映射,获取所述第一居家基站数据对应的第五向量以及所述第二居家基站数据对应的第六向量;
[0218]
计算所述第五向量与所述第六向量之间的相似度,并将相似度大于或等于第三预设阈值的第六向量所对应的关联用户作为所述目标用户的第一亲人用户;
[0219]
将与所述通信联系人匹配成功的第一亲人用户组成所述目标用户对应的家庭交际圈。
[0220]
在一种可选实施例中,所述用户行为数据还包括第二应用行为数据以及所述目标用户所属用户终端在执行所述社交通信时的第二mac地址与第二ip地址,所述交际圈确定模块903具体还用于:
[0221]
将所述第二应用行为数据、所述第二mac地址、所述第二ip地址作为所述目标用户对应的第一娱乐行为数据;
[0222]
获取所述关联用户对应的第二娱乐行为数据;
[0223]
将所述第一娱乐行为数据与所述第二娱乐行为数据分别输入词袋模型进行向量映射,获取所述第一娱乐行为数据对应的第七向量以及所述第二娱乐行为数据对应的第八
向量;
[0224]
计算所述第七向量与所述第八向量之间的相似度,并将相似度大于或等于第四预设阈值的第八向量所对应的关联用户作为所述目标用户的第二亲人用户;
[0225]
将与所述通信联系人匹配成功的第一亲人用户和/或第二亲人用户组成所述目标用户对应的家庭交际圈。
[0226]
在一种可选实施例中,所述第二娱乐行为数据包括所述家庭交际圈中亲人用户所对应的目标基站数据、第三mac地址、第三ip地址,所述交际圈确定模块903具体还用于:
[0227]
获取所述家庭交际圈中关联用户对应的第二流量上下行通信信息、第二常住地坐标以及第二宽带网格单元坐标;
[0228]
将所述家庭交际圈中各个亲人用户所对应的所述目标基站数据、所述第三mac地址、所述第三ip地址以及所述第二流量上下行通信信息进行重合度比对,并将重合度大于或等于第五预设阈值的亲人用户划分为同一亲人群组;
[0229]
采用各个所述亲人用户对应的第二常住地坐标与所述第二宽带网格单元坐标进行运算,计算各个所述亲人用户对应的通信距离;
[0230]
将通信距离小于或等于预设距离阈值、且位于同一亲人群组的亲人用户组成所述目标用户对应的单元家庭群组。
[0231]
在一种可选实施例中,还包括:
[0232]
儿童标签确定模块,用于若所述用户行为数据中包括与儿童用户相关的儿童行为数据,则将所述儿童行为数据输入儿童用户识别模型,获得针对所述单元家庭群组的儿童标签;
[0233]
老人标签确定模块,用于若所述用户行为数据中包括与老人用户相关的老人行为数据,则将所述老人行为数据输入老人用户识别模型,获得针对所述单元家庭群组的老人标签;
[0234]
其中,所述儿童行为数据为与儿童日常行为相关的数据,所述老人行为数据为与老人日常行为相关的数据。
[0235]
在一种可选实施例中,所述交际圈确定模块903具体用于:
[0236]
将除所述同事交际圈以及所述家庭交际圈对应的关联用户作为所述朋友交际圈。
[0237]
在一种可选实施例中,还包括:
[0238]
呼叫数据获取模块,用于获取所述目标用户的终端呼叫数据;
[0239]
核心用户挖掘模块,用于根据所述终端呼叫数据对所述交际圈进行核心用户挖掘,获得位于所述交际圈中的社交核心用户。
[0240]
在一种可选实施例中,所述核心用户挖掘模块具体用于:
[0241]
从所述终端呼叫数据中提取所述目标用户与所述交际圈中各个关联用户的主被叫关系、所述目标用户对所述交际圈中各个关联用户的主叫次数以及所述目标用户对同一个所述交际圈中所有关联用户的主叫总次数;
[0242]
采用所述主被叫关系建立马尔科夫矩阵,并对所述马尔科夫矩阵进行迭代计算,获得所述交际圈中各个关联用户对应的权重分值;
[0243]
采用所述主叫次数与所述主叫总次数,计算所述交际圈中各个关联用户对应的权重系数;
[0244]
采用所述权重系数与所述权重分值,计算所述交际圈中各个关联用户的结果分值;
[0245]
将每个所述交际圈中结果分值最高的关联用户作为社交核心用户。
[0246]
在一种可选实施例中,所述话务圈模型通过如下模块生成:
[0247]
话单历史数据获取模块,用于获取用户话单历史数据,所述用户话单历史数据至少包括不同用户的主被叫信息,所述主被叫信息至少包括每一对通话用户之间的通话次数以及通话时长;
[0248]
活跃用户确定模块,用于将通话次数大于或等于预设次数阈值且通话时长大于或等于预设时长阈值的一对通话用户作为活跃用户;
[0249]
样本确定模块,用于以融合套餐内的所述活跃用户对应的手机号码作为正样本,以融合套餐外、非用一用户且非同一证件下的用户所对应的手机号码作为负样本;
[0250]
模型训练模块,用于将所述正样本与所述负样本作为话务圈模型的输入层的输入,并将输入层输出的预测值作为特征向量输入话务圈模型的逻辑回归层进行模型训练;
[0251]
其中,所述输入层包括随机森林算法、极度随机树算法以及梯度提升算法。
[0252]
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0253]
另外,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述用户交际圈画像的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0254]
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述用户交际圈画像的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0255]
图10为实现本发明各个实施例的一种电子设备的硬件结构示意图。
[0256]
该电子设备1000包括但不限于:射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、处理器1010、以及电源1011等部件。本领域技术人员可以理解,本发明实施例中所涉及的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
[0257]
应理解的是,本发明实施例中,射频单元1001可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器1010处理;另外,将上行的数据发送给基站。通常,射频单元1001包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元1001还可以通过无线通信系统与网络和其他设备通信。
[0258]
电子设备通过网络模块1002为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
[0259]
音频输出单元1003可以将射频单元1001或网络模块1002接收的或者在存储器1009中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元1003还可以提供与电子设备1000执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元1003包括扬声器、蜂鸣器以及受话器等。
[0260]
输入单元1004用于接收音频或视频信号。输入单元1004可以包括图形处理器(graphics processing unit,gpu)10041和麦克风10042,图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1006上。经图形处理器10041处理后的图像帧可以存储在存储器1009(或其它存储介质)中或者经由射频单元1001或网络模块1002进行发送。麦克风10042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1001发送到移动通信基站的格式输出。
[0261]
电子设备1000还包括至少一种传感器1005,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板10061的亮度,接近传感器可在电子设备1000移动到耳边时,关闭显示面板10061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器1005还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
[0262]
显示单元1006用于显示由用户输入的信息或提供给用户的信息。显示单元1006可包括显示面板10061,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板10061。
[0263]
用户输入单元1007可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板10071上或在触控面板10071附近的操作)。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1010,接收处理器1010发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板10071。除了触控面板10071,用户输入单元1007还可以包括其他输入设备10072。具体地,其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0264]
进一步的,触控面板10071可覆盖在显示面板10061上,当触控面板10071检测到在其上或附近的触摸操作后,传送给处理器1010以确定触摸事件的类型,随后处理器1010根据触摸事件的类型在显示面板10061上提供相应的视觉输出。可以理解的是,在一种实施例中,触控面板10071与显示面板10061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板10071与显示面板10061集成而实现电子设备
的输入和输出功能,具体此处不做限定。
[0265]
接口单元1008为外部装置与电子设备1000连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元1008可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备1000内的一个或多个元件或者可以用于在电子设备1000和外部装置之间传输数据。
[0266]
存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1009可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0267]
处理器1010是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器1009内的软件程序和/或模块,以及调用存储在存储器1009内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器1010可包括一个或多个处理单元;优选的,处理器1010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
[0268]
电子设备1000还可以包括给各个部件供电的电源1011(比如电池),优选的,电源1011可以通过电源管理系统与处理器1010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0269]
另外,电子设备1000包括一些未示出的功能模块,在此不再赘述。
[0270]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0271]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0272]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
[0273]
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些
功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0274]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0275]
在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0276]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0277]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0278]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0279]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献