城市兴趣点类别表示的生成方法及系统与流程

2022-02-20 07:06:08 来源：中国专利 TAG：

1.本发明涉及时空数据挖掘技术领域，特别是涉及城市兴趣点类别表示的生成方法及系统。

背景技术：

2.本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。
3.城市通常由各种各样的兴趣点(point of interest，简称为poi)类别(如大学和酒吧)组成，提供各种功能来支持城市居民的各种需求，如工作、娱乐和居住。poi类别可以作为给定类别的特定位置提供的函数的代理，可以补充位置的表示。理解和表示这些poi类别在许多城市应用中非常重要，如研究功能区域，poi推荐以及识别用户的生活模式。开发关于poi类别的特性表示的嵌入模型将为此类应用程序提供便捷。
4.最新关于学习poi类别表示的研究主要分为两类方法：
5.1.从用户轨迹中获取具有语义poi类别序列信息。例如，从poi转移的角度来学习poi类别的表示，但是该方法只能捕获用户经常访问的poi类别的通用迁移模式。
6.2.利用poi的地理信息，通过对poi类别在空间中共同出现关系进行建模。例如，利用poi的坐标构造空间上poi对，建立空间邻接关系的模型来生成poi类别的表示。
7.这些现有的方法存在两点局限性。首先，他们未能有效利用不同特征的poi的空间分布，而这往往出现隐藏在具有空间信息的数据集中。例如，一些poi类别(如酒吧和餐厅)以聚集分布出现，而其他(如体育场)以离散分布出现。其次，这些方法分别对poi类别的序列模式和空间模式进行建模，没有将两种模式进行融合。

技术实现要素：

8.为了解决现有技术的不足，本发明提供了城市兴趣点类别表示的生成方法及系统；
9.第一方面，本发明提供了城市兴趣点类别表示的生成方法；
10.城市兴趣点类别表示的生成方法，包括：
11.获取城市兴趣点经纬度信息和用户轨迹数据；
12.根据城市兴趣点经纬度信息，计算每个兴趣点类别之间的局部距离；生成每个兴趣点类别的向量，并计算兴趣点类别之间的全局距离；从用户轨迹数据中提取兴趣点类别序列信息；
13.根据兴趣点类别序列信息，计算点互信息矩阵(pmi矩阵)；根据局部距离，计算局部成对相似矩阵；根据全局距离，计算全局成对相似矩阵；
14.根据兴趣点类别点互信息矩阵、局部成对相似矩阵或者全局成对相似矩阵，构建目标函数和约束条件；
15.对目标函数进行求解，得到兴趣点类别的嵌入表示矩阵；
16.兴趣点类别的嵌入表示矩阵中每一行对应的兴趣点类别嵌入向量。
17.第二方面，本发明提供了城市兴趣点类别表示的生成系统；
18.城市兴趣点类别表示的生成系统，包括：
19.获取模块，其被配置为：获取城市兴趣点经纬度信息和用户轨迹数据；
20.第一计算模块，其被配置为：根据城市兴趣点经纬度信息，计算每个兴趣点类别之间的局部距离；生成每个兴趣点类别的向量，并计算兴趣点类别之间的全局距离；从用户轨迹数据中提取兴趣点类别序列信息；
21.第二计算模块，其被配置为：根据兴趣点类别序列信息，计算点互信息矩阵(pmi矩阵)；根据局部距离，计算局部成对相似矩阵；根据全局距离，计算全局成对相似矩阵；
22.构建模块，其被配置为：根据兴趣点类别点互信息矩阵、局部成对相似矩阵或者全局成对相似矩阵，构建目标函数和约束条件；
23.求解模块，其被配置为：对目标函数进行求解，得到兴趣点类别的嵌入表示矩阵；
24.输出模块，其被配置为：兴趣点类别的嵌入表示矩阵中每一行对应的兴趣点类别嵌入向量。
25.第三方面，本发明还提供了一种电子设备，包括：
26.存储器，用于非暂时性存储计算机可读指令；以及
27.处理器，用于运行所述计算机可读指令，
28.其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。
29.第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。
30.与现有技术相比，本发明的有益效果是：
31.1.本发明提出了一种基于轨迹中的位置空间分布和自适应语义增强的poi类别嵌入方法，这是第一个明确考虑poi类别之间如此全面的空间关系的嵌入模型。
32.2.本发明设计了一个新的空间约束，分别编码poi类别的全局空间分布和局部空间聚集。
33.3.本发明加入自适应语义增强，更灵活地指导poi类别的嵌入学习，提高了poi类别嵌入的自适应能力。
34.4.本发明使用ripley's k的空间分析方法定量描述了给定区域内poi类别的空间分布。(ripley's k能够确定点的空间分布现象是分散的，聚集的，还是在整个研究区域随机分布的。)具有相似语义的poi类别往往具有相似的分布。同时，语义相似类别的poi(如酒吧和餐厅)通常位于邻近的地理区域。因此，对poi类别之间的复杂空间关系进行编码至关重要。
35.5.poi类别之间的序列语义关系(例如，train station
→
museum
→
noodel house
→
gym/fitness center)和poi类别的空间关系反映了pois的语义属性。因此，本发明考虑一种综合兼顾两者的poi类别嵌入方法更为合理。
36.本发明附加方面的优点将在下面的描述中部分给出，或通过本发明的实践了解到。
附图说明
37.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示
意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
38.图1为实施例一的方法流程图；
39.图2为实施例一的局部距离完整的计算过程；
40.图3为实施例一的训练阶段和测试阶段示意图。
具体实施方式
41.应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
42.在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
43.本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。
44.本发明提出了一种基于轨迹中位置空间分布和自适应语义增强的poi类别嵌入方法(trajectory-based poi type embedding with spatial and adaptive semantic enhancement，简称pte-sae)，该方法致力于生成保留语义属性的poi类别的有效表示。首先，本发明从用户轨迹中提取的poi类别序列中获取序列模式，学习每种类别的向量表示。接下来，从两个角度对poi类别之间的空间关系进行建模，并基于拉普拉斯特征映射设计空间约束:具有较大空间相似性的poi类别更有可能在潜在空间中为相邻嵌入表示。此外，本发明通过引入自适应语义增强来更灵活地指导嵌入学习，自适应地为嵌入空间中的每种类别选择最近邻并保持局部不变性。最后，本发明联合建模poi类别的序列模式和空间关系，以及每种类别的自适应语义邻居，以生成poi类别嵌入。
45.实施例一
46.本实施例提供了城市兴趣点类别表示的生成方法；
47.如图3所示，城市兴趣点类别表示的生成方法，包括：
48.s101：获取城市兴趣点经纬度信息和用户轨迹数据；
49.s102：根据城市兴趣点经纬度信息，计算每个兴趣点类别之间的局部距离；生成每个兴趣点类别的向量，并计算兴趣点类别之间的全局距离；从用户轨迹数据中提取兴趣点类别序列信息；
50.s103：根据兴趣点类别序列信息，计算点互信息矩阵(pmi矩阵)；根据局部距离，计算局部成对相似矩阵；根据全局距离，计算全局成对相似矩阵；
51.s104：根据兴趣点类别点互信息矩阵、局部成对相似矩阵或者全局成对相似矩阵，构建目标函数和约束条件；
52.s105：对目标函数进行求解，得到兴趣点类别的嵌入表示矩阵；
53.s106：兴趣点类别的嵌入表示矩阵中每一行对应的兴趣点类别嵌入向量。
54.进一步地，所述s101：获取城市兴趣点经纬度信息和用户轨迹数据；其中，用户轨迹数据，例如：用户到达兴趣点的签到记录形成的用户签到序列，签到记录主要包含：兴趣点id、兴趣点类别、访问时间。
55.进一步地，所述s102：根据城市兴趣点经纬度信息，计算每个兴趣点类别之间的局部距离；具体包括：
[0056][0057]
其中，ti和tj分别代表两个poi类别，代表poi类别为ti的poipm到poi类别为tj的距离，m为poi类别为ti对应poi集合的大小，d
l
(ti，tj)代表poi类别ti和tj之间的局部距离。
[0058]
进一步地，所述s102：生成每个兴趣点类别的向量，并计算兴趣点类别之间的全局距离；具体包括：
[0059]
生成每个兴趣点类别的ripley's k向量，并根据两个兴趣点类别的ripley'sk向量的欧式距离，计算兴趣点类别之间的全局距离。
[0060]
全局距离dg(ti，tj)通过计算两个poi类别对应ripley's k向量的欧式距离得到：
[0061][0062]
其中，和为poi类别ti和ti正则化后的ripley's k向量。(ripley's k空间分析方法可以定量描述给定区域内poi类别的空间分布)。
[0063]
进一步地，所述s102：从用户轨迹数据中提取兴趣点类别序列信息；具体包括：用户轨迹数据包含若干个签到记录，签到记录主要包含：兴趣点id、兴趣点类别、访问时间。提取每个签到记录中兴趣点类别，形成兴趣点类别的序列信息。
[0064]
进一步地，所述s103：根据兴趣点类别序列信息，计算点互信息矩阵；具体包括：
[0065][0066]
其中，v
t
是目标类别t的嵌入表示，v
′c是上下文类别c的嵌入表示，pmi(s)(pointwise mutual information，简称为pmi)是一个n
t
×nt
(n
t
为poi类别的总数)的pmi矩阵，pmi矩阵通过poi类别序列中poi类别共同出现的频率计算得到。
[0067][0068]
其中，#(t，c)代表类别t与类别c在poi类别序列中共同出现的次数，#(t)代表类别t在poi类别序列中单独出现的次数，|d|为所有poi类别总共出现的次数。
[0069]
进一步地，所述s103：根据局部距离，计算局部成对相似矩阵；具体包括：
[0070]
将w
l
定义为局部成对相似矩阵，局部成对相似矩阵w
l
中每个元素计算如下：
[0071][0072]
其中，d
l
(ti，tj)代表两种兴趣点类别的局部距离，通过对于poipi与兴趣点类别ti之间的m组最短距离计算均值得到d
l
(ti，tj)，其中代表poi pm与兴趣点类别ti之间最短距离。
[0073]
进一步地，所述s103：根据全局距离，计算全局成对相似矩阵；具体包括：
[0074]
矩阵中元素表示兴趣点类别之间的相似度，每个矩阵元素计算如下：
[0075][0076]
其中，dg(ti，tj)为两种poi类别的全局空间分布的差异性，max(dg)为全局空间分布差异性的最大值。
[0077]
进一步地，所述s104：根据poi类别序列特征、局部成对相似矩阵或者全局成对相似矩阵，构建目标函数和约束条件；具体包括：
[0078][0079][0080]
其中，是一个pmi矩阵，分别代表目标类别和上下文类别的嵌入矩阵(d为维度的大小，n
t
为poi类别的数量)。是一个对称的亲和力矩阵，w
i，j
为计算得到的或者0≤a
i，j
≤1代表ti和tj在嵌入空间中成为局部邻居的概率。la＝d-a代表拉普拉斯矩阵，是一个对角矩阵，对角元素为i＝1，...，n
t
.。tr代表矩阵的迹，λ2，λ2和λ3为权重平衡对应项。其中为frobenius范数，为向量二范数，代表n
t
维的向量全为1。
[0081]
进一步地，所述s105：对目标函数进行求解，得到poi类别的嵌入表示矩阵采用交替方向乘子法(altematingdirection method of multipliers，简称为admm)进行求解，具体包括：
[0082]
s1051：引入三项附加变量q＝tc
t
，y＝t，z＝c，通过增强拉格朗日算子方法重写目标函数：
[0083][0084][0085]
其中lw为矩阵w的拉普拉斯矩阵，《u，v》＝tr(u
t
v)，g1，g2，g3为拉格朗日算子，μ＞0是一个惩罚系数。
[0086]
s1052：固定其他参数，更新q，此处直接给出q
(t 1)
的解：
[0087]
[0088]
s1053：更新t，c，y，z，此处直接给出各项的解：
[0089][0090][0091][0092][0093]
s1054：更新a：
[0094][0095][0096]
其中其中中的元素与d
(t)
中元素在递增顺序上是相同的。(
·
)

操作会将负值元素转换为0元素，nk为选择向量空间中与其最近邻居的个数。
[0097]
s1055：更新g1，g2，g3，μ：
[0098][0099][0100][0101]
μ
(t 1)
＝min(ρμ
(t)
，μ
max
)，
[0102]
其中ρ＞1是一个常数，μ
max
是μ的上界。
[0103]
进一步地，所述s106：poi类别的嵌入表示矩阵中每行ti就对应的一个poi类别嵌入向量，编号i与poi类别一一对应。
[0104]
本发明提出了一种使用用户轨迹生成poi类别表示的生成方法。总体框架如图1所示。
[0105]
第一步，获取城市poi经纬度信息和用户轨迹数据，根据城市poi经纬度信息计算每个poi类别之间的局部距离，基于ripley's k向量计算poi类别之间的全局距离。从用户轨迹数据提取poi类别序列信息。
[0106]
第二步，从poi类别序列信息中计算pmi矩阵，通过全局空间分布和局部空间聚合两种角度计算得到两种相似性矩阵。通过训练，即最小化损失函数，得到poi类别的嵌入表示的矩阵。
[0107]
第三步，当使用poi类别嵌入表示时，查询对应poi类别的id，然后从训练好的嵌入
矩阵中取出对应id行的嵌入向量即可。
[0108]
首先，本发明从原始轨迹中提取poi类别序列，并对序列模式建模，以产生每种类别的向量表示。
[0109]
其次，考虑到poi类别有其内在的空间特征(如在区域内聚集或分散分布，局部相邻关系)，本发明建模了poi类别的空间关系，并设计了两种空间增强组件，以使得具有空间相似模式的类别在嵌入空间中相邻。
[0110]
此外，本发明增加了自适应语义增强组件，通过自适应定位在嵌入空间中的局部邻居并保持局部不变性，能够更灵活地指导poi类别嵌入过程。这些poi类别嵌入可用于许多下游任务，如poi类别的语义重叠、土地利用分类和城市功能聚类。按顺序把方法分成三部分来具体介绍技术内容。
[0111]
基于序列的表征。为了构建poi类别的嵌入表示，首先本发明使用poi类别序列(例如，train station
→
museum
→
noodel house
→
gym/fitness center)作为输入，并对序列模式进行建模。采用skip-gram模型，它利用一个poi类别在预测序列中上下文的类别来生成poi类别的嵌入表示。由于skip-gram模型的目标函数已被证明等价于隐式分解点互信息(pmi)矩阵，本发明通过建模poi类别序列中的类别共同出现关系来学习嵌入表示。
[0112]
考虑用户序列中所有poi类别及其上下文的共同出现，本发明最小化以下目标函数：
[0113][0114]
其中，是一个pmi矩阵。分别代表目标类别和上下文类别的嵌入矩阵(维度大小为d)。本发明通过最小化平方差损失误差，将矩阵m分解为目标poi类别嵌入和上下文poi类别嵌入的内积的形式，其中为frobenius范数。这些嵌入表示能够编码关于poi类别的语义信息。
[0115]
融合空间增强。除了编码在用户轨迹中的序列模式外，poi类别还包含了内在的空间特征(参见图1)。本发明假设可以基于序列模式和基于空间模式这两种不同但互补的角度来编码poi类别的语义。因此，本发明建议建模这些poi类别的空间关系，并添加空间相似性约束来学习poi类别嵌入。
[0116]
本发明假设：如果两种poi类别ti和tj具有相似的空间特征，那么它们的嵌入表示ti和tj也会相似。这种假设使得具有相似空间特征的poi类别在嵌入空间中是相邻的，这类似于流形学习理论中的局部不变性假设(即附近的点很可能用相似的嵌入或标签表示)。为了实现这一空间相似性假设，本发明基于拉普拉斯特征映射设计了一个新的约束，定义新的目标函数为
[0117][0118]
其中，代表一个所有poi类别对的空间相似性矩阵，λ1平衡两部分的权重。显然，如果两种类别ti和ti具有较高的空间相似值w
i，j
，则它们的嵌入表示ti和tj在向量空间中将会约束更加相似。
[0119]
本发明将会从以下两种角度来计算空间相似性矩阵：
[0120]
全局空间分布(global spatial distributions)。本发明基于ripley’s k从全局分布角度来计算poi类别之间的空间相似性。本发明将wg定义为全局成对相似矩阵。
[0121]
局部空间聚集(local spatial aggregation)。本发明采用空间最近邻的思想来计算两个poi类别之间的局部相似性。假设poi类别ti对应一个poi集合poi类别tj对应一个poi集合对于一个位置pi，本发明从中寻找计算最近的邻居q
near
，计算两个点之间的距离作为poi pi与类别ti之间的距离。类似地，本发明计算集合中每个poi到类别ti之间的距离。最后，本发明这m组距离计算均值作为类别ti和ti之间的局部距离，完整的计算过程如图2所示。
[0122]
融合自适应语义增强：相似性矩阵w对poi类别的空间特征进行编码。因此，本发明设计了一个静态和强制的空间约束。但是，在poi类别的语义中可能存在一些不确定性。因此，本发明又寻求一种灵活的方法，通过引入自适应语义增强来指导嵌入学习。由于语义相似的类别往往位于嵌入空间中的一个簇中，本发明使用拉普拉斯正则化的思想探索每个类别和它的语义邻居之间的局部连通性。具体来说，本发明根据学习到的嵌入，自适应地为每种类别选择nk个最近邻，并且定义自适应语义约束为：
[0123][0124][0125]
其中是一个对称的亲和力矩阵，0≤a
i，j
≤1代表ti和tj在嵌入空间中成为局部邻居的概率。代表n
t
维的向量全为1。本发明添加作为正则化项来避免平凡解问题。la＝d-a代表拉普拉斯矩阵，是一个对角矩阵，对角元素为i＝1，...，n
t
.。tr代表矩阵的迹，λ2和λ3为权重平衡对应项。
[0126]
结合上述提到语义约束，本发明重新定义了目标函数如下：
[0127][0128][0129]
实施例二
[0130]
本实施例提供了基于空间分布和语义增强的poi类别嵌入系统；
[0131]
城市兴趣点类别表示的生成系统，包括：
[0132]
获取模块，其被配置为：获取城市兴趣点经纬度信息和用户轨迹数据；
[0133]
第一计算模块，其被配置为：根据城市兴趣点经纬度信息，计算每个兴趣点类别之间的局部距离；生成每个兴趣点类别的向量，并计算兴趣点类别之间的全局距离；从用户轨迹数据中提取兴趣点类别序列信息；
[0134]
第二计算模块，其被配置为：根据兴趣点类别序列信息，计算点互信息矩阵(pmi矩阵)；根据局部距离，计算局部成对相似矩阵；根据全局距离，计算全局成对相似矩阵；
[0135]
构建模块，其被配置为：根据兴趣点类别点互信息矩阵、局部成对相似矩阵或者全局成对相似矩阵，构建目标函数和约束条件；
[0136]
求解模块，其被配置为：对目标函数进行求解，得到兴趣点类别的嵌入表示矩阵；
[0137]
输出模块，其被配置为：兴趣点类别的嵌入表示矩阵中每一行对应的兴趣点类别嵌入向量。
[0138]
此处需要说明的是，上述获取模块、第一计算模块、第二计算模块、构建模块、求解模块和输出模块对应于实施例一中的步骤s101至s106，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0139]
上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。
[0140]
所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。
[0141]
实施例三
[0142]
本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。
[0143]
应理解，本实施例中，处理器可以是中央处理单元cpu，处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic，现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0144]
存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类别的信息。
[0145]
在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
[0146]
实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
[0147]
本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范
围。
[0148]
实施例四
[0149]
本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。
[0150]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种计算机软件的测试装置的制作方法

城市兴趣点类别表示的生成方法及系统与流程

相关文献

最热文献