用户兴趣标签提取方法与流程

2023-02-19 02:21:27 来源：中国专利 TAG：

1.本发明涉及标签提取技术领域，尤其涉及一种用户兴趣标签提取方法。

背景技术：

2.随着互联网应用的迅猛发展，社交网络对用户的影响力越来越大。人们越来越依赖社交网络进行信息的交流与共享，带来了互联网数据的爆炸式增长，同时用户对个性化的需求也越来越强烈，例如推荐用户喜欢的商品、游戏、音乐、电影或者新闻资讯等等。用户兴趣标签通常用于描述用户的身份属性、兴趣属性，对于用户检索与推荐、用户行为分析、发现用户兴趣爱好和建立用户画像模型都有很大的帮助。
3.常用的用户兴趣标签提取技术通常先采集用户位置信息，经数据处理后，获取定位点并构筑用户位置轨迹；然后聚类处理用户位置轨迹上的各个定位点，获取停留点，并根据时间序列连接各停留点，重构成事件轨迹；最后预先定义poi地理信息数据库中各个兴趣点在不同时间规则下的兴趣标签，对各停留点进行逆地址解析，以经poi地理信息数据库处理后，获取对应的兴趣点及兴趣标签。
4.这种用户兴趣标签提取方法，依赖于用户位置信息，而对于用户位置信息通常通过全球定位系统(global positioning system，gps)等定位技术获取，由于定位时的位置点可能会出现偏差或漂移等的情况，会造成定位信息的不准确，进而影响用户兴趣标签的准确提取，降低提取结果的可信度。

技术实现要素：

5.本发明提供一种用户兴趣标签提取方法，用以解决现有技术中存在的缺陷。
6.本发明提供一种用户兴趣标签提取方法，包括：
7.基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；
8.对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；
9.基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签。
10.根据本发明提供的一种用户兴趣标签提取方法，所述基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量，具体包括：
11.对于所述各基站中的任一基站，基于所述任一基站到所述任一poi的距离以及信号衰减程度，确定所述任一poi属于所述任一基站的隶属度；
12.对所述各基站的隶属度进行归一化，确定所述各基站对所述任一poi的实际影响程度；
13.从所述各基站中确定所述经停地点基站，并基于所述经停地点基站覆盖的各poi的类别，确定所述经停地点基站对每个poi类的影响程度；
14.基于所述经停地点基站对每个poi类的影响程度，确定所述经停地点基站的poi特
征向量。
15.根据本发明提供的一种用户兴趣标签提取方法，所述经停地点基站的数量为多个；
16.相应地，所述基于所述经停地点基站的兴趣标签，确定所述用户的兴趣标签，具体包括：
17.获取所述用户在各所述经停地点基站的停留时长；
18.基于各所述经停地点基站的停留时长，将各所述经停地点基站的poi特征向量中对每个poi类的影响程度进行加权求和，得到所述用户的兴趣标签。
19.根据本发明提供的一种用户兴趣标签提取方法，所述用户的兴趣标签的数量与所述经停地点基站的数量相等；
20.相应地，所述基于所述经停地点基站的兴趣标签，确定所述用户的兴趣标签，之后还包括：将所述用户的各兴趣标签采用雷达图表示。
21.根据本发明提供的一种用户兴趣标签提取方法，所述基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签，具体包括：
22.基于所述经停地点基站的poi特征向量，确定所述经停地点基站的兴趣标签，并将所述经停地点基站的兴趣标签作为所述用户的兴趣标签。
23.根据本发明提供的一种用户兴趣标签提取方法，所述poi特征向量中包含有所述经停地点基站对每个poi类的影响程度；相应地，
24.所述基于所述经停地点基站的poi特征向量，确定所述经停地点基站的兴趣标签，具体包括：
25.基于影响程度最大的poi类的兴趣标签，确定所述经停地点基站的兴趣标签；或者，
26.基于所述poi特征向量中影响程度大于影响程度阈值的poi类的兴趣标签，确定所述经停地点基站的兴趣标签。
27.根据本发明提供的一种用户兴趣标签提取方法，所述信令数据包括所述用户接入所述基站以及离开所述基站的时间信息；相应地，
28.所述基于用户在目标区域内的信令数据，确定所述用户的经停地点基站，具体包括：
29.获取所述用户的日信令数据；
30.基于所述用户的日信令数据中的时间信息，确定所述用户在所述目标区域内各基站的停留时长，并基于所述停留时长构建无序表；
31.将预设时间段内得到的无序表进行汇总，得到汇总表，并对所述汇总表中各基站的停留时长进行日平均；
32.基于日平均结果，从所述汇总表中确定所述经停地点基站。
33.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用户兴趣标签提取方法的步骤。
34.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用户兴趣标签提取方法的步骤。
35.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述用户兴趣标签提取方法的步骤。
36.本发明提供的用户兴趣标签提取方法，首先基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；然后对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；最后基于所述poi特征向量，确定所述用户的兴趣标签。通过将用户的信令数据以及poi数据，并结合基站数据以及信号衰减程度，确定用户的兴趣标签，可以使提取到的用户的兴趣标签更加准确。而且，利用经停地点基站的poi特征向量，可以充分表示经停地点基站的兴趣标签，使提取到的用户的兴趣标签更加全面。另外，本发明实施例中还考虑了poi的覆盖范围、poi被多个基站覆盖的影响，以及基站信号衰减的影响，更能反映实际情况，进一步提高了提取得到的用户的兴趣标签的准确性。
附图说明
37.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
38.图1是本发明提供的用户兴趣标签提取方法的流程示意图之一；
39.图2是本发明提供的用户兴趣标签提取方法中目标区域内包含的poi与基站的覆盖关系示意图；
40.图3是本发明提供的用户兴趣标签提取方法中目标区域内基站对poi的营销程度随距离的变化曲线示意图；
41.图4是本发明提供的用户兴趣标签提取方法中采用的雷达图示意图；
42.图5是本发明提供的用户兴趣标签提取方法的流程示意图之二；
43.图6是本发明提供的用户兴趣标签提取系统的结构示意图；
44.图7是本发明提供的电子设备的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.目前，常用的用户兴趣标签提取技术通常需要先采集用户位置信息，而用户位置信息通常通过全球定位系统(global positioning system，gps)等定位技术获取，由于定位时的位置点可能会出现偏差或漂移等的情况，会造成定位信息的不准确，进而影响用户兴趣标签的准确提取，降低提取结果的可信度。为此，本发明实施例中提供了一种用户兴趣标签提取方法。
47.图1为本发明实施例中提供的一种用户兴趣标签提取方法的流程示意图，如图1所示，该方法包括：
48.s1，基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；
49.s2，对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；
50.s3，基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签。
51.具体地，本发明实施例中提供的用户兴趣标签提取方法，其执行主体为服务器，该服务器可以是本地服务器，也可以是云端服务器，本地服务器具体可以是计算机等，本发明实施例中对此不作具体限定。
52.本发明实施例中，考虑到能够获取的关于用户的数据可以是信令数据，能够获取的关于目标区域的数据可以是目标区域内的兴趣点(point of interest，poi)数据。其中，信令数据又称手机信令数据，是由用户通过手机发生通话、发短信或移动位置等事件时，被运营商的通信基站捕获并记录的数据。信令数据主要包含用户的手机与基站的链接数据，包括用户id、基站id、基站经纬度、接入基站时间点以及离开基站时间点四个字段。poi是指互联网电子地图中的点类数据，基本包含名称、地址、坐标、类别四个属性，能够反映某个地点的类型及功能。由于信令数据仅包含位置信息，而不清楚该位置信息背后的社会经济特征，而poi数据则能够补足该缺陷，二者的结合将有助于从用户出行的角度分析用户的兴趣倾向。为此，本发明实施例的主旨是将用户的信令数据与poi数据相结合，用以对用户的兴趣标签进行提取。
53.目前，虽然现有技术中出现了信令数据与poi数据相结合的方案，但是其用途主要用于用户的出行目的地识别与行为分析。例如，现有技术在通过手机信令数据与poi数据实现个体行为分析时，先使用手机信令数据，完成个人的出行链提取；然后基于个人出行链数据，设计出行特征，结合poi数据完成个人出行特征的计算。又例如，现有技术在通过手机信令数据进行用户的出行目的识别时，基于手机信令数据及poi数据，通过机器学习算法对居民出行目的进行划分，同时结合人群的出行行为特性对结果进行修正。
54.但是，现有技术在将信令数据与poi数据相结合时，会存在如下缺陷：
55.1)忽视了基站区域覆盖特点，关联的poi数据不准确。由于基站覆盖区域下，poi数据往往不只一个、不只一类，直接将某个poi数据和基站区域覆盖，容易以偏概全。
56.2)没有考虑poi被多个基站覆盖的问题与poi自身覆盖范围问题。由于可能存在多个基站覆盖同一个区域的情况，如商场及商场周围的区域可能同时被多个基站覆盖。同时，不同poi覆盖范围不同，一般而言，学校的poi覆盖范围会比餐饮购物的poi覆盖范围大，此时虽然地图上餐饮购物的poi离基站坐标更近，但实际上该基站覆盖的是学校，导致识别错误。
57.3)没有考虑基站信号衰减的影响。由于信号衰减会影响poi与基站的对应关系。当poi被多个基站覆盖时，虽然地理空间上该poi到各基站的距离近相差较小，但由于信号衰减的影响，各基站对该poi的影响差异远超该距离。而该影响差异，会影响poi与各基站的关联效果。
58.本发明实施例中提供的用户兴趣标签提取方法，首先执行步骤s1，根据用户在目标区域内的信令数据，确定出用户的经停地点基站。目标区域可以是用户经常活动的区域，可以是用户所在的市、省等覆盖的区域。信令数据可以包括两个维度，即可以包括用户基于目标区域内的基站进行定位得到的空间信息以及用户接入基站以及离开基站的时间信息。
空间信息可以是基站的位置信息，即可以用基站的位置信息表示用户的位置信息。基站的位置信息可以是基站经纬度，时间信息可以是用户接入基站的时刻以及用户离开基站的时刻。
59.用户的经停地点基站是指用户行为轨迹中除工作地点基站以及居住地点基站之外的经停地点所在的基站。工作地点基站是指用户的工作地点所在的基站，居住地点基站是指用户的居住地点所在的基站。其中，某一地点所在的基站是指覆盖范围内包含有该地点的基站。
60.本发明实施例中，可以通过信令数据统计用户每日经过的基站及停留时长，停留时长是指用户在经过的基站的覆盖范围内停留的时长，每个基站对应有一个经停时长，可以通过离开基站的时刻与进入基站的时刻之差确定该基站对应的经停时长。通过对空间信息进行提取，并利用时间信息以及各基站对应的经停时长息进行清洗，在去除工作地点基站以及居住地点基站后，得到用户的经停地点基站以及对应的经停时长。用户的经停地点基站的数量可以是一个或多个，所有经停地点基站可以形成经停地点基站列表。
61.然后执行步骤s2，由于目标区域内的每个基站均具有一定覆盖范围，每个poi也具有一定覆盖范围。因此对于经停地点列表中的任一(即任何一个)经停地点基站，可以均执行相同的如下操作。
62.确定经停地点基站覆盖的所有poi，对于经停地点基站覆盖的任一poii，基于poii覆盖的各基站与poii之间的距离以及信号衰减程度，确定经停地点基站的poi特征向量。
63.在确定经停地点基站覆盖的所有poi时，可以先确定经停地点基站的覆盖范围，然后确定该覆盖范围内的各poi即为经停地点基站覆盖的所有poi。经停地点基站的经纬度可以表示为《blng,blat》，对于设定半径d，经停地点基站的覆盖范围可以表示为：
64.dx

＝blng d，dx-＝blng-d，dy

＝blat d，dy-＝blat-d
65.其中，dx

为经停地点基站的覆盖范围在x轴方向的右边界，dx-为经停地点基站的覆盖范围在x轴方向的左边界，dy

为经停地点基站的覆盖范围在y轴方向的上边界，dy-为经停地点基站的覆盖范围在y轴方向的下边界。设定半径d为预先设定的经验值，可以根据实际基站的覆盖范围的半径确定，例如设定半径d可以设定为500m。
66.对于目标区域内的任一poij，设该poij的经纬度表示为《plngj，platj》，若该poii的经纬度满足dx-≤plngj≤dx

，且dy-≤platj≤dy

，则认为该poij在经停地点基站的覆盖范围内。遍历目标区域内的所有poi之后，即可得到初始选集c。初始选集c中存储有经停地点基站覆盖的所有poi。
67.对于经停地点基站覆盖的poii，确定该poii的覆盖范围。若该poii的经纬度为《plngi，plati》，该poii的覆盖范围可以表示为：
68.px

＝plngi θd，px-＝plng
i-θd
69.py

＝plati θd，py-＝plat
i-θd
70.其中，px

为poii的覆盖范围在x轴方向的右边界，px-为poii的覆盖范围在x轴方向的左边界，py

为poii的覆盖范围在y轴方向的上边界，py-为poii的覆盖范围在y轴方向的下边界，θ为每类poi的距离加权值，根据目标区域内各poi类的占地面积而定，占地面积越大则该poi类对应的θ越大。
71.一般情况下，目标区域内各poi类可以包括风景名胜、学校科教、住宿住宅、休闲娱
乐、企业公司、医疗保健、公共服务以及餐饮购物等8类。且各poi类对应的θ满足：风景名胜的poi类对应的θ＞学校科教的poi类对应的θ＞住宿住宅的poi类对应的θ＞休闲娱乐的poi类对应的θ＞企业公司的poi类对应的θ＞医疗保健的poi类对应的θ＞公共服务的poi类对应的θ＞餐饮购物的poi类对应的θ。
72.然后，确定poii覆盖的所有基站。即对于目标区域内的任一基站a，若该任一基站a的经纬度为《blnga，blata》，且满足px-≤blnga≤px

，且py-≤blata≤py

，则确定该基站a处于poii的覆盖范围内。对目标区域内的所有基站进行遍历，即得到poii的覆盖基站集合d。覆盖基站集合d中存储有poii覆盖的所有基站。
73.最后，可以计算覆盖基站集合d中各基站与poii之间的距离，并结合信号衰减程度，确定出经停地点基站的poi特征向量。本发明实施例中，在将poi与经停地点基站进行匹配时，主要通过计算二者的距离实现，即通过二者的经纬度坐标的接近程度判定。但是，由于基站的辐射覆盖并不总是线性递减的，离基站越远，信号衰减越快。为此，引入信号衰减程度，信号衰减程度用于表征离经停地点基站不同距离位置处的信号衰减量。
74.根据覆盖基站集合d中各基站与poii之间的距离以及信号衰减程度，可以确定经停地点基站对覆盖的各poi类的影响程度，通过经停地点基站对覆盖的各poi类的影响程度即可以确定出经停地点基站的poi特征向量。覆盖的各poi类的影响程度可以作为经停地点基站的poi特征向量中一个维度上的元素。
75.最后执行步骤s3，根据经停地点基站的poi特征向量，确定出用户的兴趣标签。若用户的经停地点基站为一个，则可以先通过经停地点基站的poi特征向量确定经停地点基站的兴趣标签，在确定出经停地点基站的兴趣标签后，可以直接将该经停地点基站的兴趣标签作为用户的兴趣标签。
76.若用户的经停地点基站为多个，则可以针对用户的不同兴趣倾向，将用户的所有经停地点基站的poi特征向量进行分类处理，直接得到用户的兴趣标签。
77.本发明实施例中提供的用户兴趣标签提取方法，首先基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；然后对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；最后基于所述poi特征向量，确定所述用户的兴趣标签。通过将用户的信令数据以及poi数据，并结合基站数据以及信号衰减程度，确定用户的兴趣标签，可以使提取到的用户的兴趣标签更加准确。而且，利用经停地点基站的poi特征向量，可以充分表示经停地点基站的兴趣标签，使提取到的用户的兴趣标签更加全面。另外，本发明实施例中还考虑了poi的覆盖范围、poi被多个基站覆盖的影响，以及基站信号衰减的影响，更能反映实际情况，进一步提高了提取得到的用户的兴趣标签的准确性。
78.在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取方法，所述基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量，具体包括：
79.对于所述各基站中的任一基站，基于所述任一基站到所述任一poi的距离以及信号衰减程度，确定所述任一poi属于所述任一基站的隶属度；
80.对所述各基站的隶属度进行归一化，确定所述各基站对所述任一poi的实际影响程度；
81.从所述各基站中确定所述经停地点基站，并基于所述经停地点基站覆盖的各poi的类别，确定所述经停地点基站对每个poi类的影响程度；
82.基于所述经停地点基站对每个poi类的影响程度，确定所述经停地点基站的poi特征向量。
83.具体地，本发明实施例中，可以通过如下过程确定经停地点基站的poi特征向量。
84.首先，对于经停地点基站覆盖的任一poii覆盖的各基站中的任一基站m，若基站m的经纬度为《blngm，blatm》。基于基站m到poii的距离以及信号衰减程度，确定poii属于基站m的隶属度。本发明实施例中，可以利用模糊函数计算poii属于基站m的隶属度。其中，隶属度用于表征poii在基站m的覆盖范围内，属于基站m的程度。此处，隶属度和信号衰减程度相关，隶属度越高，信号衰减程度越小。
85.poii属于基站m的隶属度可以通过如下公式计算得到：
86.dy＝[(plng
i-blngm)2 (plat
i-blatm)2]
1/2
[0087][0088]
其中，μ
i，m
为poii属于基站m的隶属度。
[0089]
然后，对poii覆盖的各基站的隶属度进行归一化，确定各基站对poii的影响程度。对于基站m，基站m对poii的影响程度可以表示为：
[0090][0091]
其中，nμm表示基站m对poii的影响程度，m为poii覆盖的各基站的总数量。
[0092]
然后从poii覆盖的各基站中确定出经停地点基站，并确定经停地点基站覆盖的各poi的类别，将经停地点基站o1对每个poi类中各poi的影响程度进行求和，通过如下公式确定出经停地点基站o1对每个poi类的影响程度。
[0093]
μ
k，o1
＝∑cnμo[0094]
其中，nμ
o1
表示经停地点基站o1对第k个poi类中各poi的影响程度，μ
k，o1
表示经停地点基站o1对第k个poi类的影响程度。
[0095]
最后根据经停地点基站o1对每个poi类的影响程度，确定经停地点基站o1的poi特征向量。即有：
[0096]
s＝{μ
1，o1
，μ
2，o1
，......，μ
k，o1
，......，μ
8，o1
}
[0097]
其中，s为经停地点基站o1的poi特征向量。s反映了经停地点基站o1下，不同的poi类的数量及影响程度。从计算过程可以看出，当某个poi被多个基站覆盖时，如图2所示，若目标区域内共包含有3个poi，分别为poi-a、poi-b以及poi-c，其中poi-a、poi-c被基站a覆盖，poi-b以及poi-c被基站b覆盖，poi-c同时被基站a以及基站b覆盖，poi-c会受到这两个基站的影响，其影响力的大小和离两个基站的距离相关，而不同的距离信号衰减程度是不同的。如图3所示，基站m对poii的影响程度nμm在poii与基站m的距离dy小于θd/10时为1，poii与基站m的距离dy在θd/10与θd之间时，基站m对poii的影响程度nμm随dy的增加而减少，
当poii与基站m的距离dy大于θd时，基站m对poii的影响程度nμm为0。
[0098]
若poi-c到基站a的经纬度距离为0.0040，到基站b的经纬度距离为0.0035。d＝0.0045(经纬度，约等于500米)，θ＝0.95。则有μ
c，b
＝0.2331，μ
c，a
＝0.1395，nμb＝0.6256，nμa＝0.3744。可以看出，虽然在地图上，poi-c到基站a和基站b的距离相差无几，但考虑信号衰减的影响，基站b对poi-c的覆盖影响几乎是基站a的两倍。
[0099]
通过利用模糊函数计算隶属度，再通过归一化的方式，计算经停地点基站对poi的影响程度，可以较为准确地描述经停地点基站对覆盖范围内poi的影响力，进而得到经停地点基站覆盖范围内实际的poi分布，用poi特征向量s表示。
[0100]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取方法，所述经停地点基站的数量为多个；
[0101]
相应地，所述基于所述经停地点基站的兴趣标签，确定所述用户的兴趣标签，具体包括：
[0102]
获取所述用户在各所述经停地点基站的停留时长；
[0103]
基于各所述经停地点基站的停留时长，将各所述经停地点基站的poi特征向量中对每个poi类的影响程度进行加权求和，得到所述用户的兴趣标签。
[0104]
具体地，本发明实施例中，经停地点基站的数量可以为多个，此时在确定每个经停地点基站的poi特征向量时，可以先获取用户在各经停地点基站的停留时长。该停留时长可以通过用户进入每个经停地点基站的时刻与离开每个经停地点基站的时刻相减得到。如果用户一天中多次出入某一经停地点基站，则用户在该经停地点基站的停留时长可以多次在该经停地点基站的停留时长之和。为提高准确率，本发明实施例中可以获取预设时间段内用户在每个经停地点基站的停留时长日均值，将用户在各经停地点基站的停留时长日均值作为用户在各经停地点基站的停留时长。
[0105]
然后根据各经停地点基站的停留时长，将各经停地点基站的poi特征向量中对每个poi类的影响程度进行加权求和，得到用户的兴趣标签。
[0106]
即有：
[0107][0108][0109]
其中，adayist.totaltime为第n(1≤n≤n，n为经停地点基站的总数量)个经停地点基站的停留时长，sum(adayist.totaltime)为所有经停地点基站的停留时长之和，μ
k，n
为第n个经停地点基站对第k个poi类的影响程度，为停留时长加权后各经停地点基站对第k个poi类的影响程度均值，为加权得到的所有经停地点基站共同影响的poi特征向量，即用户的兴趣标签。
[0110]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取方法，所述用户的兴趣标签的数量与所述经停地点基站的数量相等；
[0111]
相应地，所述基于所述经停地点基站的兴趣标签，确定所述用户的兴趣标签，之后还包括：将所述用户的各兴趣标签采用雷达图表示。
[0112]
具体地，本发明实施例中，经停地点基站的数量可以是多个，相应地，最终得到的用户的兴趣标签的数量可以与经停地点基站的数量相等。因此，在确定出用户的兴趣标签之后，可以将用户的各兴趣标签采用雷达图表示。雷达图可以如图4所示，雷达图上的维度数可以与目标区域内poi的类别数量相等，例如雷达图可以具有八个维度，雷达图中的数据即为。雷达图上的坐标轴范围为[0,1]之间，以0.2为数据间隔，坐标轴可以用第一种颜色标识，数据在不同维度上以第二种颜色的点标出，并以第三种颜色的线条连接相邻的两个维度的数据点。图4中可以看出，该用户出行兴趣偏向于“购物餐饮”与“休闲娱乐”，对于“学校科教”、“风景名胜”不感兴趣。
[0113]
本发明实施例中，利用雷达图进行可视化，雷达图根据poi的类别数量分为八个维度，反映了用户在八个poi类的兴趣程度。
[0114]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取方法，所述基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签，具体包括：
[0115]
基于所述经停地点基站的poi特征向量，确定所述经停地点基站的兴趣标签，并将所述经停地点基站的兴趣标签作为所述用户的兴趣标签。
[0116]
具体地，本发明实施例中，当用户的经停地点基站为一个，则可以先通过经停地点基站的poi特征向量确定经停地点基站的兴趣标签，确定的方式可以从poi特征向量中选取合适的poi类，并将选取的poi类对应的兴趣标签作为经停地点基站的兴趣标签。poi类的选取方式可以根据需要实现，本发明实施例中对此不作具体限定。在确定出经停地点基站的兴趣标签后，可以直接将该经停地点基站的兴趣标签作为用户的兴趣标签。
[0117]
本发明实施例中，当用户的经停地点基站为一个时，引入经停地点基站的兴趣标签，通过将经停地点基站的兴趣标签直接作为用户的兴趣标签，可以使确定用户的兴趣标签的过程更加简化，且得到的用户的兴趣标签更加准确。
[0118]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取方法，所述poi特征向量中包含有所述经停地点基站对每个poi类的影响程度；相应地，
[0119]
所述基于所述经停地点基站的poi特征向量，确定所述经停地点基站的兴趣标签，具体包括：
[0120]
基于影响程度最大的poi类的兴趣标签，确定所述经停地点基站的兴趣标签；或者，
[0121]
基于所述poi特征向量中影响程度大于影响程度阈值的poi类的兴趣标签，确定所述经停地点基站的兴趣标签。
[0122]
具体地，本发明实施例中，在确定经停地点基站的兴趣标签时，对于需要不同的营销环境，可以采用如下两种方法确定：
[0123]
(1)最大影响程度法，将经停地点基站的poi特征向量中影响程度最大的poi类的兴趣标签，作为经停地点基站的兴趣标签。即有：
[0124]
tag＝argmaxk{s}
[0125]
其中，tag表示poi特征向量s中影响程度最大的poi类的兴趣标签。
[0126]
(2)阈值划分法：根据经停地点基站的poi特征向量中影响程度大于影响程度阈值ф的poi类的兴趣标签，确定经停地点基站的兴趣标签。即有：
[0127]
tags＝argmaxk{s＞ф}
[0128]
其中，tags有可能返回0个标签，也有可能返回多个标签。影响程度阈值ф可以根据需要进行设置，本发明实施例中对此不作具体限定。
[0129]
本发明实施例中，针对不同的营销环境，给出了两种方式确定经停地点基站的兴趣标签，提高了可实现性。
[0130]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取方法，所述信令数据包括所述用户基于所述目标区域内的基站进行定位得到的空间信息以及所述用户接入所述基站以及离开所述基站的时间信息；相应地，
[0131]
所述基于用户在目标区域内的信令数据，确定所述用户的经停地点基站，具体包括：
[0132]
获取所述用户的日信令数据；
[0133]
基于所述用户的日信令数据中的时间信息，确定所述用户在所述目标区域内各基站的停留时长，并基于所述日信令数据中的空间信息以及所述停留时长构建无序表；
[0134]
将预设时间段内得到的无序表进行汇总，得到汇总表，并对所述汇总表中各基站的停留时长进行日平均；
[0135]
基于日平均结果，从所述汇总表中确定所述经停地点基站。
[0136]
具体地，本发明实施例中，在确定用户的经停地点基站时，可以先获取用户的日信令数据，然后将用户的日信令数据进行汇总，建立日表baselist，baselist为无序表。在baselist中，不记录用户接入和离开基站的时刻，而是记录用户在该基站的停留时长。停留时长为离开基站的时刻减去接入基站的时刻，停留时长的单位为小时。
[0137]
将用户的每一个日表baselist进行时间信息清洗，清洗规则可以包括：
①
如果该日内用户出现了在某个基站的多次记录，合并记录，累加用户关于该基站的所有停留时长；
②
如果该日内用户在某个基站的停留时间低于0.5小时，则删除该基站对应的所有记录；
③
如果清洗完成的baselist内，存在两个相邻距离不超过400米的基站，则保留用户停留时长最长的基站，另一个基站的停留时长合并到该基站中。
[0138]
然后将预设时间段内得到的无序表进行汇总，得到汇总表finallist。预设时间段的长度可以根据需要进行设定，例如取值范围可以是一周至三个月。
[0139]
对汇总表finallist中各基站的停留时长进行日平均，得到日平均结果汇总表adayist。adayist中停留时长前二的基站可以认为是工作地点基站与居住地点基站，因此将adayist中停留时长前二的基站及数据剔除，则可以得到用户在预设时间段内的经停地点基站集合。
[0140]
本发明实施例中，在确定用户的经停地点基站时，引入无序表，可以不考虑用户的经停顺序及停留时间的时间段，减少了计算量，提高了用户的兴趣标签的提取效率。
[0141]
如图5所示，在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取方法，包括：
[0142]
输入用户在目标区域内的信令数据；
[0143]
对用户的日信令数据进行汇总，构建无序表；
[0144]
数据清洗；
[0145]
汇总预设时间段内的无序表，得到汇总表；
[0146]
剔除工作地点基站以及居住地点基站；
[0147]
得到经停地点基站集合；
[0148]
输入目标区域内的poi数据；
[0149]
计算经停地点基站集合中各经停地点基站覆盖的poi；
[0150]
计算poi覆盖的基站；
[0151]
引入信号衰减程度计算各基站对poi的影响程度；
[0152]
计算各基站对poi类的影响程度；
[0153]
得到各经停地点基站的poi特征向量；
[0154]
计算经停地点基站的兴趣标签并作为用户的兴趣标签输出；
[0155]
加权所有经停地点基站的poi特征向量中对每个poi类的影响程度；
[0156]
绘制雷达图，输出可视化的用户的兴趣标签。
[0157]
综上所述，本发明实施例中提供的用户兴趣标签提取方法，结合生产实际需求考虑，相比现有技术具有如下的用途效果：
[0158]
1)利用poi特征向量充分表示经停地点基站的特点。将经停地点基站的信号覆盖范围内的poi都进行了统计，并考虑了信号衰减、多基站覆盖下的影响，加权形成了经停地点基站的poi特征向量，充分反映经停地点基站覆盖区域内的poi特点。
[0159]
2)设置了poi影响范围，考虑了poi被多个基站覆盖的问题。针对不同类型的poi设置了合理的覆盖范围，同时计算了poi被多个基站覆盖时，不同基站对该poi的影响程度。该计算方式能更准确地描述poi和基站的对应关系，理清基站对poi的影响力。
[0160]
3)考虑基站信号衰减的影响。结合了模糊数学的隶属度函数，构建了基于高斯分布的信号衰减函数，模拟了信号衰减对基站覆盖poi的影响。
[0161]
如图6所示，在上述实施例的基础上，本发明实施例中提供了一种用户兴趣标签提取系统，包括：
[0162]
经停地点基站确定模块61，用于基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；
[0163]
poi特征向量确定模块62，用于对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；
[0164]
兴趣标签确定模块63，用于基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签。
[0165]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取系统，所述poi特征向量确定模块，具体用于：
[0166]
对于所述各基站中的任一基站，基于所述任一基站到所述任一poi的距离以及信号衰减程度，确定所述任一poi属于所述任一基站的隶属度；
[0167]
对所述各基站的隶属度进行归一化，确定所述各基站对所述任一poi的实际影响程度；
[0168]
从所述各基站中确定所述经停地点基站，并基于所述经停地点基站覆盖的各poi的类别，确定所述经停地点基站对每个poi类的影响程度；
[0169]
基于所述经停地点基站对每个poi类的影响程度，确定所述经停地点基站的poi特征向量。
[0170]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取系统，所述经停地点基站的数量为多个；
[0171]
相应地，所述兴趣标签确定模块，具体用于：
[0172]
获取所述用户在各所述经停地点基站的停留时长；
[0173]
基于各所述经停地点基站的停留时长，将各所述经停地点基站的poi特征向量中对每个poi类的影响程度进行加权求和，得到所述用户的兴趣标签。
[0174]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取系统，所述用户的兴趣标签的数量与所述经停地点基站的数量相等；
[0175]
相应地，还包括雷达图表示模块，用于：
[0176]
将所述用户的各兴趣标签采用雷达图表示。
[0177]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取系统，所述兴趣标签确定模块，还具体用于：
[0178]
基于所述经停地点基站的poi特征向量，确定所述经停地点基站的兴趣标签，并将所述经停地点基站的兴趣标签作为所述用户的兴趣标签。
[0179]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取系统，所述poi特征向量中包含有所述经停地点基站对每个poi类的影响程度；相应地，所述兴趣标签确定模块，还具体用于：
[0180]
基于影响程度最大的poi类的兴趣标签，确定所述经停地点基站的兴趣标签；或者，
[0181]
基于所述poi特征向量中影响程度大于影响程度阈值的poi类的兴趣标签，确定所述经停地点基站的兴趣标签。
[0182]
在上述实施例的基础上，本发明实施例中提供的用户兴趣标签提取系统，所述信令数据包括所述用户接入所述基站以及离开所述基站的时间信息；相应地，
[0183]
所述经停地点基站，具体用于：
[0184]
获取所述用户的日信令数据；
[0185]
基于所述用户的日信令数据中的时间信息，确定所述用户在所述目标区域内各基站的停留时长，并基于所述停留时长构建无序表；
[0186]
将预设时间段内得到的无序表进行汇总，得到汇总表，并对所述汇总表中各基站的停留时长进行日平均；
[0187]
基于日平均结果，从所述汇总表中确定所述经停地点基站。
[0188]
具体地，本发明实施例中提供的用户兴趣标签提取系统中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。
[0189]
图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各实施例中提供的用户兴趣标签提取方法，该方法包括：基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一
poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签。
[0190]
此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0191]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的用户兴趣标签提取方法，该方法包括：基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签。
[0192]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的用户兴趣标签提取方法，该方法包括：基于用户在目标区域内的信令数据，确定所述用户的经停地点基站；对于所述经停地点基站覆盖的任一poi，基于所述任一poi覆盖的各基站与所述任一poi之间的距离以及信号衰减程度，确定所述经停地点基站的poi特征向量；基于所述经停地点基站的poi特征向量，确定所述用户的兴趣标签。
[0193]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0194]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0195]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：信息处理装置、信息处理方法以及非临时性的存储介质与流程

用户兴趣标签提取方法与流程

相关文献

最热文献