一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Elasticsearch索引和四段码的地址知识图谱构建系统及构建方法与流程

2023-02-02 00:19:56 来源:中国专利 TAG:

一种基于elasticsearch索引和四段码的地址知识图谱构建系统及构建方法
技术领域
1.本发明涉及到物流技术领域,特别涉及到一种基于elasticsearch索引和四段码的地址知识图谱构建系统及构建方法。


背景技术:

2.现代物流行业飞速发展,但是随着物流行业的进步,该行业也面临着许许多多的挑战。例如面对原始地址在输入时就有误、地址包含了多个区域(双地址)导致地址目标不明确,以及不同的上游平台行政区划的差异和行政区划变更未及时更新。
3.为了提高人工智能在物流行业的运用,本领域大量地使用知识图谱来进行智能推断,对知识图谱的使用训练时也是基于现有的poi数据进行。具体而言,地址图谱系统由国家标准行政区划 四段码(poi)构成,解决用户地址的四级行政区划识别,对用户地址进行纠错(双地址)、补全和结构化处理。训练完成的知识图谱再加上其他人工智能技术能够同时有能力提供地址联想、poi预测等功能,对地址信息进行标准化和完善,从根本解决误送,配送延迟,物流目的地模糊等问题,进而提升配送效率。
4.但是现有技术在地址知识图谱构建和推送时,存在推送数据不准确和偏差较大的问题,导致实践中对人工智能的应用产生怀疑,经过详细分析和尝试。我们开发出了一种基于elasticsearch索引和四段码的地址知识图谱构建系统及构建方法,用来解决目前存在的用户地址有误、不明确、不完善的问题。


技术实现要素:

5.本发明的目的在于克服上述现有技术中存在的不足,提供一种基于elasticsearch索引和四段码的地址知识图谱构建系统及构建方法。本发明的地址图谱构建系统及构建方法要能够在搜索的时候走内存,性能要高,基于丰富的四段码数据,构建的地址图谱更加完善准确
6.为了达到上述发明目的,本发明专利提供的技术方案如下:
7.本发明首先设计出一种基于elasticsearch索引和四段码的地址知识图谱构建系统,该系统包括有airflow任务调度模块、数据解析模块、数据关联模块、关键词筛选投票模块、地址图谱构建模块和数据库,其中,
8.所述的airflow任务调度模块是在图谱构建或线上数据变动需要重新构建时,启动以实现地址图谱构建任务的管理和调度;
9.所述数据库从官方统计部门获得行政区划数据,获得标准四级街道数据;
10.所述数据解析模块获得快递的签收数据,该签收数据中包含了或回写了标准四级街道的地址数据,解析签收数据中的四段码和poi关键字数据;
11.所述数据关联模块,将解析出的四段码和poi关键字数据关联到对应的标准四级街道数据下;
12.所述关键词筛选投票模块,计算每个poi在其所在四级街道中出现的次数和此poi在其所在城市中出现的次数的比值,获得计算得分,设定预设数值,筛选过滤掉关联数据中得分小于预设数值的数据;
13.所述地址图谱构建模块,对每个四级街道下的所有四段码poi以空格的方式进行拼接并去重,将关联后的数据以省、市、区、poi四个字段添加到elasticsearch索引中,poi字段的分词方式设置为以空格分词进行识别,将所有四段码poi添加到elasticsearch自定义词库中,以筛选投票后地址数据构建地址知识图谱。
14.在本发明基于elasticsearch索引和四段码的地址知识图谱构建系统中,所述的airflow任务调度模块启动时调动数据解析模块,airflow是一个开源工具,是一个以编程方式管理、调度和监控工作流的平台。
15.在本发明基于elasticsearch索引和四段码的地址知识图谱构建系统中,签收数据中回写了标准四级街道的地址数据是指,签收数据中包含了签收网点,根据签收网点的地址反推回写出所在的标准四级街道数据。
16.在本发明基于elasticsearch索引和四段码的地址知识图谱构建系统中,所述poi数据是指兴趣点数据,poi是“point of interest”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个poi可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
17.在本发明基于elasticsearch索引和四段码的地址知识图谱构建系统中,所述关键词筛选投票模块中poi在其四级街道的得分计算过程如下:
18.poi在其四级街道的得分=poi在其四级街道中出现的次数/poi在其四级街道的城市中出现次数*100。
19.在本发明基于elasticsearch索引和四段码的地址知识图谱构建系统中,所述关键词筛选投票模块中分别对保留大于一定数值得分构建完成的图谱测试准确率,整体正确率最高的得分作为构建图谱关键词投票的得分阈值。
20.本发明还涉及到一种基于elasticsearch索引和四段码的地址知识图谱构建方法,该构建方法包括如下步骤:
21.步骤1、获取标准的四级街道数据,从国家统计部门下载行政区划数据,并将下载后数据导入到专用数据库中;
22.步骤2、四段码和poi数据解析,获取签收数据中的地址数据,该地址数据包含了或回写了的标准的四级街道的地址数据,解析出地址数据中存在四段码和其它poi关键字的数据;
23.步骤3、关联四段码和poi到标准四级街道数据中,将解析出的地址数据关联到对应的标准四级街道下;
24.步骤4、关键词筛选投票,计算每个poi在其四级街道中出现的次数和此poi在其四级街道所在的城市中出现次数的比值,获得得分,过滤掉关联数据中得分小于一定数值,获得筛选投票后的地址数据;
25.步骤5、构建地址图谱,利用筛选投票后的地址数据构建地址图谱,先对每个四级街道下的所有四段码和poi字段以空格的方式进行拼接并去重,再将拼接后的数据以省、市、区、poi四个字段添加到elasticsearch索引中,将poi字段的分词方式设置为以空格分词,并将所有分词后的四段码和poi数据添加到elasticsearch自定义词库中,使用构建后
的新的签收数据构建地址图谱,再利用elasticsearch搜索引擎进行搜索,得到准确的四级街道。
26.步骤1中下载的行政区划数据伟标准的四级街道数据,该四级街道数据存储在所述的数据库中。
27.步骤4中过滤掉关联数据中得分小于一定数值,得分小于一定数值的不进行关联,获得筛选投票后的地址数据。
28.步骤5中在构建后的地址知识图谱中利用elasticsearch搜索引擎进行查找索引,构建知识图谱就是将数据保存在elasticsearch中,elasticsearch就是一个搜索引擎。
29.与现有技术相比,本发明的基于elasticsearch索引和四段码的地址知识图谱构建系统及构建方法经过实践应用,具有如下技术优点:
30.1.本发明的知识图谱系统及构建方法采用elasticsearch和四段码实现了地址图谱系统,通过elasticsearch对poi字段进行倒排索引来构建地图图谱;elasticsearch的搜索引擎依赖于底层的filesystem cache,如果给filesystem cache更多的内存,搜索的时候就基本都是走内存的,性能会非常高;基于丰富的四段码数据,构建的地址图谱更加完善准确,具有高性能及高准确率的地址图谱服务的技术效果。
31.2.本发明的知识图谱系统及构建方法中使用了关键词筛选投票策略,通过实验获得准确率最高的得分并在构建时筛选,进而缓解了因原始数据包含错误数据或相关度不高数据导致搜索准确率差的问题。
附图说明
32.图1是本发明基于elasticsearch索引和四段码的地址知识图谱构建系统的组成架构示意图。
33.图2是本发明一种基于elasticsearch索引和四段码的地址知识图谱构建方法的操作流程示意图。
34.图3是本发明一种基于elasticsearch索引和四段码的地址知识图谱构建方法中elasticsearch索引样例图。
35.图4是本发明一种基于elasticsearch索引和四段码的地址知识图谱构建方法中最佳得分阈值实验图。
具体实施方式
36.下面我们结合附图和具体的实施例来对本发明一种基于elasticsearch索引和四段码的地址知识图谱构建系统和构建方法做进一步的详细阐述,以求更为清楚明了地理解其架构组成和工作流程,但不能以此来限制本发明的保护范围。
37.本发明所构建的地址图谱系统由国家标准行政区划 四段码(poi)构成,解决用户地址的四级行政区划识别,对用户地址进行纠错(双地址)、补全和结构化处理,同时提供地址联想、poi预测等功能。对地址信息进行标准化和完善,从根本解决误送、配送延迟和物流目的地模糊等问题,进而提升配送效率。
38.如图1所示,本发明首先设计出一种基于elasticsearch索引和四段码的地址知识图谱构建系统,该系统包括有airflow任务调度模块、数据解析模块、数据关联模块、关键词
筛选投票模块、地址图谱构建模块和数据库,其中,
39.所述的airflow任务调度模块是在图谱构建或线上数据变动需要重新构建时,启动以实现地址图谱构建任务的管理和调度;所述的airflow任务调度模块启动时调动数据解析模块,airflow是一个开源工具,是一个以编程方式管理、调度和监控工作流的平台。
40.所述数据库从官方统计部门获得行政区划数据,获得标准四级街道数据;所述poi数据是指指兴趣点数据,poi是“point of interest”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个poi可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
41.所述数据解析模块获得快递的签收数据,该签收数据中包含了或回写了标准四级街道的地址数据,解析签收数据中的四段码和poi关键字数据;签收数据中回写了标准四级街道的地址数据是指,签收数据中包含了签收网点,根据签收网点的地址反推回写出所在的标准四级街道数据。
42.所述数据关联模块,将解析出的四段码和poi关键字数据关联到对应的标准四级街道数据下;
43.所述关键词筛选投票模块,计算每个poi在其所在四级街道中出现的次数和此poi在其所在城市中出现的次数的比值,获得计算得分,设定预设数值,筛选过滤掉关联数据中得分小于预设数值的数据;
44.所述地址图谱构建模块,对每个四级街道下的所有四段码和poi字段以空格的方式进行拼接并去重,将关联后的数据以省、市、区、poi四个字段添加到elasticsearch索引中,poi字段的分词方式设置为以空格分词进行识别,将所有四段码poi添加到elasticsearch自定义词库中,以筛选投票后地址数据构建地址知识图谱。
45.此外,由于elasticsearch的搜索引擎依赖于底层的filesystem cache,如果给filesystem cache更多的内存,搜索的时候就基本都是走内存的,性能会非常高,结合更多内存的赋予,更能体现出本发明的索引优势。
46.在本发明基于elasticsearch索引和四段码的地址知识图谱构建系统中,所述关键词筛选投票模块中poi在其四级街道的得分计算过程如下:
47.poi在其四级街道的得分=poi在其四级街道中出现的次数/poi在其四级街道的城市中出现次数*100。
48.在关键词筛选投票模块中,通过分别对保留大于一定数值得分构建完成的图谱测试准确率,整体正确率最高的得分作为构建图谱关键词投票的得分阈值。
49.本发明还涉及到一种基于elasticsearch索引和四段码的地址知识图谱构建方法,该构建方法包括如下步骤:
50.步骤1、获取标准的四级街道数据,从国家统计部门下载行政区划数据,并将下载后数据导入到专用数据库中;
51.步骤2、四段码和poi数据解析,获取签收数据中的地址数据,该地址数据包含了或回写了的标准的四级街道的地址数据,解析出地址数据中存在四段码和其它poi关键字的数据;
52.步骤3、关联四段码和poi到标准四级街道数据中,将解析出的地址数据关联到对应的标准四级街道下;
53.步骤4、关键词筛选投票,计算每个poi在其四级街道中出现的次数和此poi在其四
级街道所在的城市中出现次数的比值,获得得分,过滤掉关联数据中得分小于一定数值,获得筛选投票后的地址数据;
54.步骤5、构建地址图谱,利用筛选投票后的地址数据构建地址图谱,先对每个四级街道下的所有四段码poi以空格的方式进行拼接并去重,再将拼接后的数据以省、市、区、poi四个字段添加到elasticsearch索引中,将poi字段的分词方式设置为以空格分词,并将所有分词后的四段码和poi数据添加到elasticsearch自定义词库中,使用构建后的新的签收数据构建地址图谱,再利用elasticsearch搜索引擎进行搜索,得到准确的四级街道。
55.实施例1
56.本实施例基于elasticsearch和四段码构建的知识图谱系统的实现步骤如下:
57.步骤1:获取标准的四级街道。从国家统计局下载行政区划数据,导入到数据库中。
58.步骤2:四段码和poi数据解析。1)获取签收数据中地址包含了或回写了的标准的四级街道的地址数据;2)解析数据中存在四段码和其它poi关键字的数据。
59.步骤3:关联四段码和poi到四级街道。将数据关联到对应的标准四级街道下。
60.步骤4:关键词筛选投票。1)计算每个poi在其四级街道中出现的次数和此poi在其四级街道的城市中出现次数的比值,获得得分;2)过滤掉关联数据中得分小于一定数值(下面具体描述数值的获取方式)的数据。
61.步骤5:构建地址图谱。1)对每个四级街道下的所有四段码poi以空格的方式进行拼接并去重;2)将拼接后的数据以省、市、区、poi四个字段添加到elasticsearch索引中。3)将poi字段的分词方式设置为以空格分词;4)将所有的四段码poi添加到elasticsearch自定义词库中。elasticsearch索引样例见图3。
62.更具体的说,步骤4和步骤5中的关键词筛选投票和构建地址图谱内部实现如下:
63.1)计算poi在其四级街道的得分,计算公式如下:
64.poi在其四级街道的得分=poi在其四级街道中出现的次数/poi在其四级街道的城市中出现次数*100
65.2)实验分别对保留大于一定数值得分构建完成的图谱测试准确率,整体正确率最高的得分作为构建图谱关键词投票的得分阈值:
66.a:分别对大于10、20、30、40、50得分的数据构建地址图谱。
67.b:用构建后的新的签收数据分别去每个得分的地址图谱中搜索得到四级街道后统计准确率,实际中我们最佳准确率得分阈值为大于20以上的得分,测试不同城市的实验图见图4,其匹配率和匹配后的实际准确率得到大幅度提升。
68.3)elasticsearch索引的字段信息:
69.1.省、市、区、四级街道的字段类型设置为【keyword】。
70.2.poi字段类型设置为【text】。
71.3.poi字段的analyzer设置为【whitespace】,含义是利用elasticsearch将poi字段以空格的方式分词然后插入倒排索引中。
72.4.poi字段的search_analyzer设置为【ik_max_word】,含义是利用ik分词器插件,对输入的搜索地址做分词,地址的字可以反复出现,只要在词库里面出现过的就会被拆分。
73.本发明专利采用elasticsearch和四段码实现了地址图谱系统构建,通过elasticsearch对poi字段进行倒排索引来构建地图图谱。此外,如果给filesystem cache
更多的内存,搜索的时候就基本都是走内存的,性能会非常高。基于现有快递数据库中丰富的四段码数据,构建的地址图谱更加完善准确。因此本技术的技术方案具有高性能及高准确率的地址图谱服务的技术效果。此外,由于使用了关键词筛选投票策略,通过实验获得准确率最高的得分并在构建时筛选,进而缓解了因原始数据包含错误数据或相关度不高数据导致搜索准确率差的问题。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献