一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

门址去重方法、装置、设备和存储介质与流程

2022-07-23 04:50:53 来源:中国专利 TAG:


1.本技术涉及电子地图领域,特别是涉及一种门址去重方法、装置、计算机设备和存储介质。


背景技术:

2.门址是地图数据中的一种,通常包括街道名称、门牌号码以及经纬度等信息。用户通过输入门址,地图搜索引擎根据用户输入的门址即可查询到对应的经纬度坐标,并在电子地图中标示出。
3.由于互联网上的门址中存在大量重复冗余数据,用户使用地图服务的时候,会严重影响其体验效果。因此,如何在保证数据全面丰富的基础上,去除重复的数据成为亟需解决的问题。
4.门址去重是找出重复冗余的数据,虽然两个门址在文本描述上可能不同,但可能对应现实世界中同一门址数据。以往进行门址去重时,常是基于相似性函数的特征判重方法,如利用文本相似性,通过计算门址对名称的编辑距离来判断是否为同一门址。然而,这种去重方式效率不高,比如,假如两个门址是重复数据,但是两个门址的文本描述差异较大,这种情况下,上述方式的去重效果不佳。


技术实现要素:

5.本技术针对上述不足或缺点,提供了一种门址去重方法、装置、计算机设备和存储介质,本技术实施例能够提升门址去重的效率。
6.本技术根据第一方面提供了一种门址去重方法,在一个实施例中,该方法包括:
7.获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;
8.在上述获取的门址中选出全部门址重复对,为全部门址重复对打标,获得多个用于训练的样本门址重复对;
9.使用门址图数据结构和上述多个样本门址重复对训练门址去重模型;
10.使用训练好的门址去重模型处理门址图数据结构,得到处理结果;
11.根据处理结果确定上述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。
12.在一个实施例中,使用门址图数据结构和上述多个样本门址重复对训练门址去重模型,包括:
13.构建门址去重模型,门址去重模型是图神经网络模型;
14.使用门址图数据结构和上述多个样本门址重复对迭代训练门址去重模型,在满足预设结束训练条件时,获得训练好的门址去重模型;
15.其中,对门址去重模型的每次训练过程包括:
16.获取门址图数据结构的邻接矩阵和节点属性特征矩阵,并输入门址去重模型,获
取门址去重模型的输出数据,输出数据包括上述获取的门址中的每个门址的嵌入;
17.从上述多个样本门址重复对中获取用于本次训练的目标样本门址重复对,将目标样本门址重复对作为正重复对,并根据目标样本门址重复对构造对应的负重复对;
18.从输出数据中获取正重复对的嵌入和负重复对的嵌入,根据正重复对的嵌入和负重复对的嵌入计算本次训练的损失;
19.根据损失判断是否满足停止预设结束训练条件;
20.在判定满足时,结束训练,将本次训练好的门址去重模型作为训练好的门址去重模型;
21.在判定不满足时,根据损失更新门址去重模型的网络参数,并对更新过网络参数的门址去重模型进行下一次训练。
22.在一个实施例中,使用训练好的门址去重模型处理门址图数据结构,得到处理结果,根据处理结果确定上述获取的门址中的每个门址重复对,包括:
23.使用训练好的门址去重模型处理门址图数据结构,得到上述获取的门址中的每个门址的嵌入;
24.将上述获取的门址进行两两配对得到多个门址对;
25.确定每个门址对的嵌入距离,并将嵌入距离小于预设阈值的门址对确定为门址重复对,其中,每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离。
26.在一个实施例中,根据获取的门址构造基于地理位置的门址图数据结构,包括:
27.将上述获取的门址进行两两配对得到多个门址对;
28.根据每个门址对的地理位置信息计算每个门址对的距离,门址对的距离是指门址对中包括的两个门址之间的距离;
29.根据每个门址对的距离确定每个门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的门址图数据结构。
30.在一个实施例中,根据任一个门址对的距离确定该门址对中包括的两个门址之间的边的权重,包括:
31.当任一个门址对中包括的两个门址之间的距离小于预设阈值时,确定两个门址之间形成边关系,将两个门址之间的边的权重设置为1;
32.当任一个门址对中包括的两个门址之间的距离大于等于预设阈值时,确定两个门址之间不形成边关系,将两个门址之间的边的权重设置为0。
33.在一个实施例中,门址图数据结构的数量为多个;根据获取的门址构造基于地理位置的门址图数据结构,包括:
34.将目标地域范围划分为多个空间网格;
35.遍历上述获取的门址中的每个门址的经纬度属性,确定每个空间网格的门址集合;
36.根据每个空间网格的门址集合为每个空间网格构造基于地理位置的门址图数据结构。
37.在一个实施例中,使用训练好的门址去重模型处理门址图数据结构,得到处理结果,根据处理结果确定上述获取的门址中的每个门址重复对,包括:
38.分别将每个空间网格的门址图数据结构输入训练好的门址去重模型,得到每个空
间网格的门址集合中每个门址的嵌入;
39.将每个空间网格的门址集合中的门址进行两两配对,得到每个空间网格的门址对集合;
40.计算每个空间网格的门址对集合中的每个门址对的嵌入距离;每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离;
41.将每个空间网格的门址对集合中的,每个嵌入距离小于预设阈值的门址对确定为门址重复对。
42.本技术根据第二方面提供了一种门址去重装置,在一个实施例中,该装置包括:
43.构建模块,用于获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;
44.样本构造模块,用于在上述获取的门址中选出全部门址重复对,为全部门址重复对打标,获得多个用于训练的样本门址重复对;
45.训练模块,用于使用门址图数据结构和上述多个样本门址重复对训练门址去重模型;
46.处理模块,用于使用训练好的门址去重模型处理门址图数据结构,得到处理结果;
47.删除模块,用于根据处理结果确定上述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。
48.本技术根据第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的实施例的步骤。
49.本技术根据第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法的实施例的步骤。
50.在本技术上述实施例中,通过获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;接着在所述获取的门址中选出全部门址重复对,为所述全部门址重复对打标,获得多个用于训练的样本门址重复对;进而使用所述门址图数据结构和所述多个样本门址重复对训练门址去重模型;之后使用训练好的门址去重模型处理所述门址图数据结构,得到处理结果;最后根据所述处理结果确定所述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址,能够提升门址去重的效率。
附图说明
51.图1为一个或多个实施例中一种门址去重方法的流程示意图;
52.图2为一个或多个实施例中门址去重模型的训练流程图;
53.图3为一个或多个实施例中门址去重模型的预测流程图;
54.图4为一个或多个实施例中一种门址去重装置的结构框图;
55.图5为一个或多个实施例中计算机设备的内部结构图。
具体实施方式
56.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本技术,并不用
于限定本技术。
57.本技术提供了一种门址去重方法。在一个实施例中,该方法包括如图1所示的步骤,下面对该方法进行说明。
58.s110:获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构(也可以简称为门址图)。
59.s120:在上述获取的门址中选出全部门址重复对,为全部门址重复对打标,获得多个用于训练的样本门址重复对。
60.s130:使用门址图数据结构和上述多个样本门址重复对训练门址去重模型。
61.s140:使用训练好的门址去重模型处理门址图数据结构,得到处理结果。
62.s150:根据处理结果确定上述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。
63.示例性地,门址重复数据可以如下表一所示:
64.表一:
65.序号门址文本数据1上海市黄浦区淮海中路188号2上海淮海路188号3上海市黄浦区淮海中路1884上海市黄浦区淮海中路188弄5上海黄浦淮海188号6上海市淮海中路188号7黄浦区淮海中路188号8上海市淮海中路188
66.在应用本实施例提供的门址去重方法后,上述门址重复数据包含的8条门址最终只会保留一条门址,其他门址均会被删除。
67.本实施例通过获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;接着在所述获取的门址中选出全部门址重复对,为所述全部门址重复对打标,获得多个用于训练的样本门址重复对;进而使用所述门址图数据结构和所述多个样本门址重复对训练门址去重模型;之后使用训练好的门址去重模型处理所述门址图数据结构,得到处理结果;最后根据所述处理结果确定所述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址,能带来以下技术效果:
68.传统机器学习及预训练深度模型在门址去重问题上做了两个门址之间是无关的假设,本技术实施例则假设两个门址之间具有关联,在此基础上,结合门址自身的属性特征和门址之间的空间位置关系来进行门址去重。
69.本技术的发明人注意到,重复的门址对的周围通常有相似的邻居,基于此,可以选用基于图结构的图卷积神经网络模型来进行门址去重,使用门址名称的文本信息,以及门址之间的空间位置关系信息作为模型输入,具体地,图神经网络通过传递聚集邻居节点信息,具有识别同构图的能力,可以更好的识别相似邻居结构。如果两个门址有相似的邻居,通过卷积聚合操作,那这两个门址的嵌入表示(embedding,可简称为嵌入)也会很接近,两个门址之间的嵌入距离就会很近,通过计算两个门址之间的嵌入距离来判断两个门址是否
重复。因此,通过图神经网络来进行门址去重,可以更有效地解决门址重复的问题。
70.另一方面,传统机器学习及预训练深度模型一般只能基于样本门址对来进行模型训练,而样本门址对需要人工标注,获取成本较高,所以一般数量较少,这样就会导致训练不是很充分。本技术实施例通过图卷积神经网络模型可以使全量数据都参与训练,这样可以更加充分地训练模型,使模型的判重效果更好。
71.综上,本技术实施例能够从根本上提升门址去重的效果,使其高效、合理、适用面广。
72.在一个实施例中,上述的根据获取的门址构造基于地理位置的门址图数据结构,包括:将上述获取的门址进行两两配对得到多个门址对;根据每个门址对的地理位置信息计算每个门址对的距离,门址对的距离是指门址对中包括的两个门址之间的距离;根据每个门址对的距离确定每个门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的门址图数据结构。两个门址之间的距离是指空间距离,比如100米、50米等。
73.其中,根据任一个门址对的距离确定该门址对中包括的两个门址之间的边的权重,包括:当任一个门址对中包括的两个门址之间的距离小于预设阈值时,确定两个门址之间形成边关系,将两个门址之间的边的权重设置为1;当任一个门址对中包括的两个门址之间的距离大于等于预设阈值时,确定两个门址之间不形成边关系,将两个门址之间的边的权重设置为0。其中,预设阈值可以根据实际需要进行设置,比如设置为50米等,本实施例对此不进行具体限定。
74.在一个实施例中,使用门址图数据结构和上述多个样本门址重复对训练门址去重模型,包括:构建门址去重模型,门址去重模型是图神经网络模型;使用门址图数据结构和上述多个样本门址重复对迭代训练门址去重模型,在满足预设结束训练条件时,获得训练好的门址去重模型。
75.其中,对门址去重模型的每次训练过程包括:获取门址图数据结构的邻接矩阵和节点属性特征矩阵,并输入门址去重模型,获取门址去重模型的输出数据,输出数据包括上述获取的门址中的每个门址的嵌入;从上述多个样本门址重复对中获取用于本次训练的目标样本门址重复对,将目标样本门址重复对作为正重复对,并根据目标样本门址重复对构造对应的负重复对;从输出数据中获取正重复对的嵌入和负重复对的嵌入,根据正重复对的嵌入和负重复对的嵌入计算本次训练的损失;根据损失判断是否满足停止预设结束训练条件;在判定满足时,结束训练,将本次训练好的门址去重模型作为训练好的门址去重模型;在判定不满足时,根据损失更新门址去重模型的网络参数,并对更新过网络参数的门址去重模型进行下一次训练。
76.在一个实施例中,使用训练好的门址去重模型处理门址图数据结构,得到处理结果,根据处理结果确定上述获取的门址中的每个门址重复对,包括:使用训练好的门址去重模型处理门址图数据结构,得到上述获取的门址中的每个门址的嵌入;将上述获取的门址进行两两配对得到多个门址对;确定每个门址对的嵌入距离,并将嵌入距离小于预设阈值的门址对确定为门址重复对,其中,每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离。
77.在另一个实施例中,上述门址图的数量为多个。相应地,上述的根据获取的门址构造基于地理位置的门址图数据结构,包括:将目标地域范围划分为多个空间网格;遍历上述
获取的门址中的每个门址的经纬度属性,确定每个空间网格的门址集合;根据每个空间网格的门址集合为每个空间网格构造基于地理位置的门址图数据结构。
78.本实施例考虑到在一些场景中,目标地域范围的范围较大时,比如,目标地域范围是指整个中国,那么此时需要去重(指门址去重)的数据是全中国全量数据,此时的数据总量非常大,如果直接拿所有数据去构造一个图(指门址图)的话,该门址图的节点和邻接矩阵都非常庞大,这样对计算资源的要求会非常高。因此,在计算资源有限的情况下,将一个图根据空间网格划分成很多小图,之后再在各自小图上去进行去重,这样每个小图的节点和邻接矩阵都变得较小,在较小的计算资源情况下就可以进行数据去重。具体方法可以是如下所示:
79.按照中国的地理空间坐标,从最西端到最东端,从最北端到最南端,划分成一个个10千米*10千米的正方形空间网格(网格大小可以根据实际需要灵活调整),网格的四个顶点都有对应的经纬度坐标,而门址都有经纬度属性,根据经纬度遍历所有的门址,门址可以落到相对应的网格当中,这样每个网格就会落入距离较近的门址,后续只需要在各个空间网格中进行门址去重。
80.相应地,上述的使用训练好的门址去重模型处理门址图数据结构,得到处理结果,根据处理结果确定上述获取的门址中的每个门址重复对,包括:分别将每个空间网格的门址图数据结构输入训练好的门址去重模型,得到每个空间网格的门址集合中每个门址的嵌入;将每个空间网格的门址集合中的门址进行两两配对,得到每个空间网格的门址对集合;计算每个空间网格的门址对集合中的每个门址对的嵌入距离;每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离;将每个空间网格的门址对集合中的,每个嵌入距离小于预设阈值的门址对确定为门址重复对。
81.以下通过一个具体的应用例对上述实施例进行说明。
82.本应用例具体分为空间网格的划分、种子门址重复对获取、数据预处理、特征工程、模型训练、模型重复数据预测以及去重处理七个部分。
83.本应用例以中国作为目标地域范围。首先根据中国的地理空间坐标,将中国的地理空间划分成一个个10千米*10千米的正方形网格,然后将相应空间位置的门址落入到对应网格中形成子图。本应用例采用监督学习来训练图神经网络模型,由于是监督学习,因而需要人工标注样本门址重复对来进行模型训练。在得到样本门址重复对后,需要对数据做预处理,包括全角转半角、去除特殊符号、英文大写转小写、繁体转简体等操作,来对数据进行清洗。在训练模型之前,需要先做特征工程得到节点的属性特征以及邻接矩阵,将节点的属性特征以及邻接矩阵输入到图卷积神经网络gcn(graph convolutional network)中,通过反向传播最小化损失函数的方式来训练模型,获得权重矩阵w,这个就是模型需要学习的参数。得到参数w后,就可以通过前向传播来进行图级别的门址重复对的预测。最后,在全量的数据中,将每个门址重复对中其中一条门址数据删除,就得到去重后的门址数据。
84.以下对上述各个部分进行说明。
85.1、空间网格的划分
86.由于需要去重的数据是全中国全量数据,数据总量很大,如果直接拿所有数据构造大图的话,节点和邻接矩阵都非常庞大,对计算资源要求太高。因此,在计算资源有限的情况下,将大图根据空间网格划分成很多小图,在各自小图上去进行数据去重,这样节点和
邻接矩阵都变得较小,在较小的计算资源情况下就可以进行数据去重。
87.具体方法:按照中国的地理空间坐标,从最西端到最东端,从最北端到最南端,划分成一个个10千米*10千米的正方形空间网格,网格的四个顶点都有对应的经纬度坐标,而门址都有经纬度属性,根据经纬度遍历所有的门址,门址可以落到相对应的网格当中,这样每个网格就会落入距离较近的门址,后续只需要在各个空间网格中进行门址去重。
88.2、样本门址重复对获取
89.本应用例需要样本门址重复对来训练模型,所以需要标注部分数据作为样本门址重复对。可以遍历上述所有的空间网格,用简单的门址名称文本相似度(如编辑距离等),在各个空间网格中粗略找到疑似重复的门址对,再交由打标人员找出真正重复的门址对,通过这种方式来构造样本门址重复对。
90.3、数据预处理
91.门址的名称文本中可能包含特殊符号以及繁体字等,需要先做预处理再构造特征输入模型。同时为了保证标注数据和未标注数据分布的一致性,需要将标注数据和未标注数据做相同的预处理操作。数据预处理过程包含以下四个步骤:
92.(1)字符全角转半角
93.(2)特殊符号
94.(3)英文大写转小写
95.(4)中文繁体转简体
96.4、特征工程
97.(1)生成图节点的属性特征
98.图卷积神经网络gcn的输入包括图的拓扑结构,即邻接矩阵,以及图中所有节点的属性特征。每个节点属性特征是一个多维特征向量,本应用例采用指定算法将每个门址处理成一个512维的embedding向量,用这个embedding向量作为该节点的属性特征。其中,该指定算法可以是现有的任意能够实现将门址映射为embedding向量的算法,故在此不再赘述。
99.(2)生成所有子图结构的边以及邻接矩阵
100.本应用例将50米以内的门址都当作是有边关系。具体地,取出一个空间网格中的所有门址形成一个集合,从集合中取出一个门址,跟这个集合中除自身外所有门址计算距离,其中距离小于50米的门址就跟取出的这个门址形成边关系,并且边的权重为1;然后从集合中依次取出门址,同样进行上述操作,直至取完集合中所有门址,就形成这一个空间网格子图所有门址的边关系,根据图结构的定义就得到了该子图的邻接矩阵。邻接矩阵的表示为:
[0101][0102]
最后,按照上述的方法遍历所有的空间网格,就生成了所有空间网格子图的邻接矩阵。
[0103]
5、模型训练
[0104]
如图2所示为本应用例的模型训练流程图。
[0105]
具体地,选定一个空间网格子图kg,和该子图内预先标注的重复门址样本对s=
{(e
i1
,e
i2
)}
mi=1

[0106]
本应用例的方法基于gcn的节点嵌入在该子图内找到新的门址重复对。基本思想是利用gcn(也可称为gcn模型)将门址嵌入到一个统一的向量空间中,希望重复的门址间距离更近,不重复的门址之间距离更远。
[0107]
(1)gcn的输入:
[0108]
gcn是一类直接在图上进行操作的神经网络,它的输入是图的节点属性特征和邻接矩阵,目的是输出每个门址的嵌入,然后用于后续门址去重。对于模型输入的节点属性特征和邻接矩阵,都是从第4步特征工程而来。将节点属性特征和邻接矩阵输入gcn模型后,来执行后续的gcn操作。
[0109]
(2)gcn的操作:
[0110]
一个gcn模型包含多个gcn层,本应用例选用两层,第l层的输入h
(l)
∈rn×
d(l)
是一个节点属性特征矩阵(即所有节点属性特征),其中n是节点的数量,d
(l)
是第l层的特征数,第l层的输出是新的特征矩阵:
[0111][0112]
其中σ是relu激活函数(用于线性激活变换),a是n*n的邻接矩阵,其中i是单位矩阵。是的对角节点度矩阵,w
(l)
∈r
d(l)
×
d(l 1)
是两层间的权重矩阵,用于卷积操作,d
(l 1)
是新的一层维度。
[0113]
(3)gcn的输出
[0114]
经过两层的gcn操作后,模型输出的是512维的节点嵌入表示,这个嵌入表示可以用于后续操作。
[0115]
(4)gcn的损失函数
[0116]
本应用例希望重复的门址间距离小,不重复的门址之间距离大,基于此来构造损失函数。门址间的距离为门址间的嵌入距离,对于两个门址的输出e1和e2,它们之间的距离计算方法如下:
[0117]
d(e1,e2)=||h(e1)-h(e2)||1[0118]
模型通过最小化基于margin的损失函数来进行训练:
[0119][0120]
其中,[x]

=max{0,x},s'
(e1,e2)
是由(e1,e2)通过随机替换一个门址得到的负重复对,γ是区分正重复对和负重复对的间隔。通过反向传播最小化损失函数的方式来对模型进行训练,更新每层中的权重矩阵w,经过若干轮训练,最终模型可以学习到权重矩阵w,来对门址重复对进行预测。
[0121]
6、模型重复数据预测
[0122]
如图3所示为本应用例的模型预测流程图。
[0123]
本应用例适合用于离线图级别的门址重复对预测,预测就是在构造的图中找到更多新的门址重复对。在训练过程中学习到了权重矩阵w,通过输入节点属性特征以及邻接矩
阵,经过gcn的操作,每个节点会输出一个嵌入表示。
[0124]
对于特定的输出的嵌入,计算其与该子图中其它所有门址的嵌入距离,选出所有门址中嵌入距离最小的那个,如果这个嵌入距离小于某个阈值,就认为这两个门址是重复的;如果不小于这个阈值,就认为不重复。按照上述方法,遍历该子图中所有未在样本对中的门址,可以得到该子图中重复的门址,然后再用上述方法遍历所有子图,就得到全量数据中重复的门址对。
[0125]
7、去重处理
[0126]
从全量的数据中取出按照第6步中得到的所有重复门址对,遍历这些重复的门址对,将其中一个门址删除,另一个门址加入到全量数据中,通过该方案就可得到全量去重的门址数据。
[0127]
本应用例基于上文提到过的其它门址去重方法进行了统计,具体收益如下:
[0128]
基于无监督计相似度方案的门址去重方法准确率为91.3%,召回率为83.6%;
[0129]
基于传统机器学习模型的门址去重方法准确率为94.8%,召回率为89.9%;
[0130]
基于深度学习模型的门址去重方法的准确率为96.2%,召回率为91.8%;
[0131]
本应用例门址去重方法的准确率为97.9%,召回率为94.6%。
[0132]
从上述数据以直观地看出,相较于之前的方法,本应用例提供的门址去重方法有较大效果提升。
[0133]
图1为一个实施例中门址去重方法的流程示意图。应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0134]
基于相同的发明构思,本技术还提供了一种门址去重装置。在本实施例中,如图4所示,该门址去重装置包括以下模块:
[0135]
构建模块110,用于获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;
[0136]
样本构造模块120,用于在上述获取的门址中选出全部门址重复对,为全部门址重复对打标,获得多个用于训练的样本门址重复对;
[0137]
训练模块130,用于使用门址图数据结构和上述多个样本门址重复对训练门址去重模型;
[0138]
处理模块140,用于使用训练好的门址去重模型处理门址图数据结构,得到处理结果;
[0139]
删除模块150,用于根据处理结果确定上述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。
[0140]
在一个实施例中,训练模块130,用于:
[0141]
构建门址去重模型,门址去重模型是图神经网络模型;
[0142]
使用门址图数据结构和上述多个样本门址重复对迭代训练门址去重模型,在满足
预设结束训练条件时,获得训练好的门址去重模型;
[0143]
其中,对门址去重模型的每次训练过程包括:
[0144]
获取门址图数据结构的邻接矩阵和节点属性特征矩阵,并输入门址去重模型,获取门址去重模型的输出数据,输出数据包括上述获取的门址中的每个门址的嵌入;
[0145]
从上述多个样本门址重复对中获取用于本次训练的目标样本门址重复对,将目标样本门址重复对作为正重复对,并根据目标样本门址重复对构造对应的负重复对;
[0146]
从输出数据中获取正重复对的嵌入和负重复对的嵌入,根据正重复对的嵌入和负重复对的嵌入计算本次训练的损失;
[0147]
根据损失判断是否满足停止预设结束训练条件;
[0148]
在判定满足时,结束训练,将本次训练好的门址去重模型作为训练好的门址去重模型;
[0149]
在判定不满足时,根据损失更新门址去重模型的网络参数,并对更新过网络参数的门址去重模型进行下一次训练。
[0150]
在一个实施例中,处理模块140和删除模块150,用于:
[0151]
使用训练好的门址去重模型处理门址图数据结构,得到上述获取的门址中的每个门址的嵌入;
[0152]
将上述获取的门址进行两两配对得到多个门址对;
[0153]
确定每个门址对的嵌入距离,并将嵌入距离小于预设阈值的门址对确定为门址重复对,其中,每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离。
[0154]
在一个实施例中,构建模块110,用于:
[0155]
将上述获取的门址进行两两配对得到多个门址对;
[0156]
根据每个门址对的地理位置信息计算每个门址对的距离,门址对的距离是指门址对中包括的两个门址之间的距离;
[0157]
根据每个门址对的距离确定每个门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的门址图数据结构。
[0158]
在一个实施例中,构建模块110在根据任一个门址对的距离确定该门址对中包括的两个门址之间的边的权重时,具体用于:
[0159]
当任一个门址对中包括的两个门址之间的距离小于预设阈值时,确定两个门址之间形成边关系,将两个门址之间的边的权重设置为1;
[0160]
当任一个门址对中包括的两个门址之间的距离大于等于预设阈值时,确定两个门址之间不形成边关系,将两个门址之间的边的权重设置为0。
[0161]
在一个实施例中,门址图数据结构的数量为多个;构建模块110,还用于:
[0162]
将目标地域范围划分为多个空间网格;
[0163]
遍历上述获取的门址中的每个门址的经纬度属性,确定每个空间网格的门址集合;
[0164]
根据每个空间网格的门址集合为每个空间网格构造基于地理位置的门址图数据结构。
[0165]
相应地,在一个实施例中,处理模块140和删除模块150,还用于:
[0166]
分别将每个空间网格的门址图数据结构输入训练好的门址去重模型,得到每个空
间网格的门址集合中每个门址的嵌入;
[0167]
将每个空间网格的门址集合中的门址进行两两配对,得到每个空间网格的门址对集合;
[0168]
计算每个空间网格的门址对集合中的每个门址对的嵌入距离;每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离;
[0169]
将每个空间网格的门址对集合中的,每个嵌入距离小于预设阈值的门址对确定为门址重复对。
[0170]
关于门址去重装置的具体限定可以参见上文中对于门址去重方法的限定,在此不再赘述。上述门址去重装置中的各个模块可所有或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0171]
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种门址去重方法。
[0172]
本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0173]
本实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一方法实施例中提供的方法中的步骤。
[0174]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一方法实施例中提供的方法中的步骤。
[0175]
本领域普通技术人员可以理解实现上述方法实施例中的所有或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0176]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0177]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并
不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献