一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于手机信令的信息聚类方法、装置、设备及介质与流程

2021-10-27 20:54:00 来源:中国专利 TAG:数据处理 介质 装置 信令 方法


1.本技术涉及数据处理领域,具体而言,涉及一种基于手机信令的信息聚类方法、装置、设备及介质。


背景技术:

2.聚类分析是一种寻找数据之间内在结构的技术。该技术中,通常将全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例之间具有一定的相似性,处于不同簇中的数据实例之间,则存在较大的差异。
3.相关依据用户出行轨迹进行聚类的方法,更多的是关注待识别用户的出行行为(例如,用户之间的出行轨迹是否相似)。发明人研究发现,该方式存在聚类精度欠佳的问题。


技术实现要素:

4.为了克服现有技术中的至少一个不足,本技术提供一种基于手机信令的信息聚类方法、装置、设备及介质,使用待识别用户的行为信息进行聚类,其中,该行为信息包括出行轨迹起点以及终点的人口分布信息,还包括待识别用户在出行轨迹起点以及终点的出现频率;将两者相结合以达到提高聚类精度的目的。
5.第一方面,本技术实施例提供一种基于手机信令的信息聚类方法,应用于数据处理设备,所述方法包括:
6.获取多个待识别用户的出行信息,其中,所述出行信息包括至少一条出行轨迹的行为信息,每条所述行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,所述第一分布信息表征出行轨迹起点的人口分布,所述第二分布信息表征出行轨迹终点的人口分布,所述第一频次信息表征对应待识别用户出现在所述出行轨迹起点的频率,所述第二频次信息表征对应待识别用户出现在所述出行轨迹终点的频率;
7.根据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果。
8.第二方面,本技术实施例提供一种基于手机信令的信息聚类装置,应用于数据处理设备,所述基于手机信令的信息聚类装置包括:
9.信息获取模块,获取多个待识别用户的出行信息,其中,所述出行信息包括至少一条出行轨迹的行为信息,每条所述行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,所述第一分布信息表征出行轨迹起点的人口分布,所述第二分布信息表征出行轨迹终点的人口分布,所述第一频次信息表征对应待识别用户出现在所述出行轨迹起点的频率,所述第二频次信息表征对应待识别用户出现在所述出行轨迹终点的频率;
10.信息聚类模块,根据所述多个待识别用户的出行信息之间的相似度,获得所述多个待识别用户的聚类结果。
11.第三方面,本技术实施例提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的基于手机信令的信息聚类方法。
12.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的基于手机信令的信息聚类方法。
13.相对于现有技术而言,本技术具有以下有益效果:
14.本技术实施例提供的基于手机信令的信息聚类方法、装置、设备及介质中,电子设备获取多个待识别用户的出行信息;其中,该出行信息包括至少一条出行轨迹的行为信息。而该行为信息包括了出行轨迹起点的人口分布、终点的人口分布、对应待识别用户出现在所述出行轨迹起点的频率以及对应待识别用户出现在所述出行轨迹终点的频率。由于出行轨迹起点以及终点的人口分布,待识别用户出现在出现轨迹起点以及终点的频率能够反应待识别用户的身份信息,因此,使用待识别用户的出行信息进行聚类,能够提高对待识别用户的聚类精度。
附图说明
15.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
16.图1为本技术实施例提供的电子设备结构示意图;
17.图2为本技术实施例提供的基于手机信令的信息聚类方法的步骤示意图;
18.图3为本技术实施例提供的步骤s101的子步骤示意图;
19.图4为本技术实施例提供的基于手机信令的信息聚类装置的结构示意图。
20.图标:120

存储器;130

处理器;140

通信装置;201

信息获取模块;202

信息聚类模块。
具体实施方式
21.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
22.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
23.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
24.在本技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描
sale,pos)设备等,或其任意组合。
31.本实施例还提供该电子设备的一种结构示意图。如图1所示,该电子设备包括存储器120、处理器130。
32.该存储器120、处理器130以及其他可能的各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
33.其中,该存储器120可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read

only memory,prom),可擦除只读存储器(erasable programmable read

only memory,eprom),电可擦除只读存储器(electric erasable programmable read

only memory,eeprom)等。其中,存储器120用于存储计算机程序,该处理器130在接收到执行指令后,执行该计算机程序,以实现本实施例提供的基于手机信令的信息聚类方法。
34.该处理器130可以是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(central processing unit,cpu)、专用集成电路(application specific integrated circuit,asic)、专用指令集处理器(application specific instruction

set processor,asip)、图形处理单元(graphics processing unit,gpu)、物理处理单元(physics processing unit,ppu)、数字信号处理器(digital signal processor,dsp)、现场可编程门阵列(field programmable gate array,fpga)、可编程逻辑器件(programmable logic device,pld)、控制器、微控制器单元、简化指令集计算机(reduced instruction set computing,risc)、或微处理器等,或其任意组合。
35.请再次参见图1,在一些实施方式中,该电子设备还包括通信装置140。该通信装置140用于通过网络收发数据。该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(local area network,lan)、广域网(wide area network,wan)、无线局域网(wireless local area networks,wlan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、公共电话交换网(public switched telephone network,pstn)、蓝牙网络、zigbee网络、或近场通信(near field communication,nfc)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
36.基于上述电子设备的介绍,本实施还提供该基于手机信令的信息聚类方法的一种步骤示意图。如图2所示,该基于手机信令的信息聚类方法包括:
37.步骤s101,获取多个待识别用户的出行信息。
38.其中,出行信息包括至少一条出行轨迹的行为信息,每条行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息。
39.本实施中的出行轨迹,可以获取自不同的轨迹数据源。例如,该轨迹数据源可以是导航服务器中记录的导航请求;还可以是依据待识别用户的手机信令信息进行分析获得。对此,本实施例不做具体的限定。
40.下面以手机信令信息为例,进行示例性说明。该实施方式中,电子设根据手机信令
信息的中基站信息以及时刻信息,确定待识别用户在通信基站的通信范围内驻留的时长,当该时长超过设定的时长阈值时,则将该通信基站的位置作为出行轨迹的起点或者终点。其中,当上一通信基站的位置是起点时,则当前通信基站的位置则为终点;同理,当上一通信基站的位置是终点时,则当前通信基站的位置则为起点。
41.此外,需要说明的是,本实施例中,若手机信令信息具有待识别用户的定位信息(例如,gps数据),该电子设备则将定位信息对应的位置作为出行轨迹的起点或者终点。
42.其中,第一分布信息表征出行轨迹起点的人口分布,第二分布信息表征出行轨迹终点的人口分布。
43.同样以上述手机信令信息为例。该示例中,为了提高聚类精度,选取的行为信息包括了出行轨迹起点以及终点的人口分部信息,并在行为信息中以第一分布信息以及第二分布信息的方式进行表示。例如,将出行轨迹起点以及终点的人口分布表示为“工作人口”、“居住人口”以及“拜访人口”。而上述不同类型的人口之间,其手机信令信息中的时间跨度存在明显的不同。
44.例如,针对同一目标区域,工作人口的手机信令信息持续出现在该区域的时间跨度通常在工作时段,即工作日的早上9点

下午6点。而居住人口的手机信令信息持续出现该区域的时间跨度则会远远超过工作时段。同理,拜访人口的手机信令信息持续出现在该区域的时间跨度则会小于工作时段。
45.本实施例中,该电子设备将不同的时间跨度作为用户身份信息,并根据手机信令中具有的用户身份信息,对不同的预设区域进行统计,以获得各预设区域的人口分布。最后,该电子设备根据出行轨迹的起点以及终端所属的预设区域,获得该出行轨迹起点以及终点的人口分布。
46.为了统计出各预设区域的人口分布,一种可能的实现方式中,针对每个预设区域,该电子设备统计预设时段(例如,在1个月内)内,工作日的工作时段,一用户出现在该预设区域的时长达到了设定的第一比例,则将该用户判定为该预设区域内的工作人口;同理,若该用户在夜间时段(例如,0

6点,20

24点)的停留时长达到了设定的第二比例,则判断该用户为该预设区域内的居住人口;其类型的用户,则判定为该预设区域内的拜访人口。
47.由于出行轨迹起点以及终点的人口分布,能够有在一定程度上反映待识别用户可能的身份类型,因此,人口分布信息的引入,能够提高聚类结果的精度。
48.第一频次信息表征对应待识别用户出现在出行轨迹起点的频率,第二频次信息表征对应待识别用户出现在出行轨迹终点的频率。
49.本实施例中,还考虑到在预设时段内,若不同的待识别用户高频出现在相同的地点,则能够在一定程度上反应待识别用户之间存在联系。例如,同事之间,会高频的同时出现在公司所在的地点。
50.步骤s102,根据多个待识别用户的出行信息之间的相似度,获得多个待识别用户的聚类结果。
51.由此,该电子设备获取多个待识别用户的出行信息;其中,该出行信息包括至少一条出行轨迹的行为信息。而该行为信息包括了出行轨迹起点的人口分布、终点的人口分布、对应待识别用户出现在出行轨迹起点的频率以及对应待识别用户出现在出行轨迹终点的频率。由于出行轨迹起点以及终点的人口分布,待识别用户出现在出现轨迹起点以及终点
的频率能够反应待识别用户的身份信息,因此,使用待识别用户的出行信息进行聚类,能够提高对待识别用户的聚类精度。
52.本实施例中,还考虑到单个待识别用户的至少一条出行轨迹的行为信息之间,存在内在的相关性。其中,该内在相关性具体表现为,多条出行轨迹之间的先后顺序;多条轨迹之间集中出现的概率等。而本实施中,出行信息则是按照预设编码方式编码后的向量,因此,对于单个待识别用户,为了发掘其至少一条出行轨迹的行为信息之间的内在联系,该电子设备通过词嵌入工具将待识别用户的出行信息转换成出行向量,然后,根据多个待识别用户的出行向量之间的相似度,获得多个待识别用户的聚类结果。
53.值得说明的是,词嵌入工具可以是,但不限于word2vec模型以及skip

gram模型等。而词嵌入工具通常用于在自然语言识别场景下,对待识别文本上下文之间的关系进行发掘。发明人研究发现,将待识别用户的出行信息经自然语言识别领域的词嵌入工具进行转换处理后,能够显著改善聚类结果的精度。
54.本实施例中,为了获得多个待识别用户的出行信息之间的相似度,并对待识别用户进行聚类。该电子设备通过聚类算法处理多个待识别用户的出行向量,以获得多个待识别用户的聚类结果。
55.其中,该聚类算法可以是,但不限于,k

means、基于密度的聚类方法(dbscan)以及均值漂移聚类等。因此,本领域技术人员可以根据需要,进行选取,本实施例不做具体的限定。
56.由上文可知,本实施例中的出行信息是按照预设编码方式编码后的向量。下面结合图3对出行信息的编码方式进行详细介绍。如图3所示,步骤s101包括:
57.步骤s101

1,获取每个待识别用户的至少一条出行轨迹;
58.步骤s101

2,针对每条出行轨迹,通过四分位数的方式对出行轨迹起点的人口分布进行编码,获得出行轨迹的第一分布信息。
59.步骤s101

3,通过四分位数的方式对出行轨迹终点的人口分布进行编码,获得出行轨迹的第二分布信息。
60.本实施例所指的四分位数,将100%划分成4个区间段,即0

25%、26%

50%、51%

75%、76%

100%;依次对应的编码为1、2、3、4。同样以上述“工作人口”、“居住人口”以及“拜访人口”为例,假定一出行轨迹的起点为混合区域,其中,居住人口占据60%,工作人口占据30%,拜访人口占据10%。则居住人口占据的60%位于51%

75%之间,其编码为3,工作人口占据的30%位于26%

50%之间,其编码为2,拜访人口占据的10%位于0

25%之间,其编码为1。
61.需要说明的是,四分位数仅是一种较佳的实施方式,本领域技术人员还可以将根据需要,将100%划分成3区间段或者5个区间段,本实施例不对此做具体的限定。
62.步骤s101

4,根据预设时段内出行轨迹对应的待识别用户出现在不同位置的频次,获得频次排序结果。
63.步骤s101

5,根据频次排序结果中出行轨迹起点对应的顺序值,获得出行轨迹的第一频次信息。
64.步骤s101

6,根据频次排序结果中出行轨迹终点对应的顺序值,获得出行轨迹的第二频次信息。
65.示例性的,以预设时段为一周为例,一待识别人员在一周以内工去了5个位置,假定是位置a去了5次,位置b去了4次,位置c去了12次,位置d,位置f去了15次。
66.考虑到次数小于设定次数阈值的位置,其参考意义小于次数大于参考阈值的位置。因此,本实施例中,电子设备将各位置按照出现次数的由小到大的顺序进行排列,将小于次数阈值的所有位置编码成相同的数字或者字符。将大于次数阈值的所有位置,则依据其频次排序结果的顺序值,将其编码成数字或者字符。其中,其排序方式可以是从大到小的方式进行排序。
67.假定该次数阈值为6,则将位置a与位置b的出现频率均编码成“#”;将位置c、位置d以及位置d依据各自对应的顺序值,编码成对应的字符。其中,该字符可以是ascii字符。
68.最后,该电子设备依据一条轨迹的起点以及终点在上述频次排序结果中的顺序值,获得对应的编码。
69.以上述ascii字符为例,由于ascii字符编码包含了比较多的特殊符号,而其中从十进制的48位开始后面主要是阿拉伯数字和英文字母,包含部分可见特殊字符。而考虑到绝大部分用户高频行为数量有限,因此为了表达需要,从第48位开始编码,即最高频排第一的对应ascii码值为48,转移为ascii字符为0,后面依次增加即可。其计算表达为ascii码值=顺序值 47;然后,将ascii码值转换成对应的字符。
70.步骤s101

7,将第一分布信息、第二分布信息、第一频次信息以及第二频次信息进行组合,获得出行轨迹的行为信息。
71.示例性的,作为一种可能的组合方式,待识别用户的一条出行轨迹对应的行为信息k
n
可以表示为:
72.k
n
=w
n1
h
n1
v
n1
_w
n2
h
n2
v
n2
_c1c2;
73.式中,w
n1
h
n1
v
n1
表示该出行轨迹起点的人口分布编码,w
n2
h
n2
v
n2
表示该出行轨迹终点的人口分布编码;n表示第n条出现轨迹,w表示工作人口,h表示居住人口,h表示拜访人口,c1c2表示表示该出行轨迹对应待识别用户在起点以及终点出现频次的编码。
74.步骤s101

8,将至少一条出行轨迹的行为信息,作为待识别用户的出行信息。
75.正如前文提到的,待识别用户的一条出行轨迹对应的行为信息用k
n
进行表示,而出行信息包括至少一条出行轨迹的行为信息,因此,作为待识别用户的出行信息可以表示为:
[0076][0077]
基于与上述方法相同的发明构思,本实施例还提供一种基于手机信令的信息聚类装置,应用于电子设备。基于手机信令的信息聚类装置包括至少一个可以软件形式存储于存储器120中的功能模块。如图4所示,从功能上划分,基于手机信令的信息聚类装置可以包括:
[0078]
信息获取模块201,获取多个待识别用户的出行信息,其中,出行信息包括至少一条出行轨迹的行为信息,每条行为信息包括第一分布信息、第二分布信息、第一频次信息以及第二频次信息,第一分布信息表征出行轨迹起点的人口分布,第二分布信息表征出行轨迹终点的人口分布,第一频次信息表征对应待识别用户出现在出行轨迹起点的频率,第二频次信息表征对应待识别用户出现在出行轨迹终点的频率。
[0079]
本实施例中,该信息获取模块201用于实现图2中的步骤s101,关于该信息获取模块201的详细描述,可以参见步骤s101的详细描述。
[0080]
信息聚类模块202,根据多个待识别用户的出行信息之间的相似度,获得多个待识别用户的聚类结果。
[0081]
本实施例中,该信息聚类模块202用于实现图2中的步骤s102,关于该信息聚类模块202的详细描述,可以参见步骤s102的详细描述。
[0082]
可选地,出行信息为按照预设编码方式编码后的向量,信息聚类模依据多个待识别用户的出行信息之间的相似度,获得多个待识别用户的聚类结果的方式,包括:
[0083]
针对每个待识别用户,通过词嵌入工具将待识别用户的出行信息转换成出行向量;
[0084]
根据多个待识别用户的出行向量之间的相似度,获得多个待识别用户的聚类结果。
[0085]
可选地,信息获取模块201获取多个待识别用户的出行信息的方式,包括:
[0086]
获取每个待识别用户的至少一条出行轨迹;
[0087]
针对每条出行轨迹,通过四分位数的方式对出行轨迹起点的人口分布进行编码,获得出行轨迹的第一分布信息;
[0088]
通过四分位数的方式对出行轨迹终点的人口分布进行编码,获得出行轨迹的第二分布信息;
[0089]
根据预设时段内出行轨迹对应的待识别用户出现在不同位置的频次,获得频次排序结果;
[0090]
根据频次排序结果中出行轨迹起点对应的顺序值,获得出行轨迹的第一频次信息;
[0091]
根据频次排序结果中出行轨迹终点对应的顺序值,获得出行轨迹的第二频次信息;
[0092]
将第一分布信息、第二分布信息、第一频次信息以及第二频次信息进行组合,获得出行轨迹的行为信息;
[0093]
将至少一条出行轨迹的行为信息,作为待识别用户的出行信息。
[0094]
值得说明的是,上述基于手机信令的信息聚类装置还可以包括其他软件功能模块,用于实现基于手机信令的信息聚类方法的其他步骤或者子步骤。同理,上述信息聚类模块202以及信息获取模块201同样还可以用于实现基于手机信令的信息聚类方法的其他步骤或者子步骤。
[0095]
本实施提供一种电子设备,电子设备包括处理器以及存储器,存储器存储有计算机程序,计算机程序被处理器执行时,实现的基于手机信令的信息聚类方法。
[0096]
本实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,实现的基于手机信令的信息聚类方法。
[0097]
综上所述,本技术实施例提供的基于手机信令的信息聚类方法、装置、设备及介质中,电子设备获取多个待识别用户的出行信息;其中,该出行信息包括至少一条出行轨迹的行为信息。而该行为信息包括了出行轨迹起点的人口分布、终点的人口分布、对应待识别用户出现在出行轨迹起点的频率以及对应待识别用户出现在出行轨迹终点的频率。由于出行
轨迹起点以及终点的人口分布,待识别用户出现在出现轨迹起点以及终点的频率能够反应待识别用户的身份信息,因此,使用待识别用户的出行信息进行聚类,能够提高对待识别用户的聚类精度。
[0098]
在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0099]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0100]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0101]
以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜