一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种客户标准地址数据库的更新方法及系统

2022-12-07 10:20:46 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,具体涉及一种客户标准地址数据库的更新方法及系统。


背景技术:

2.在物流配送及汽车导航等各种涉及地址使用的服务行业中,标准地址数据库内的数据充盈度及各地址的标准度与服务效率及服务质量息息相关。因此,需要不断将新地址存入所述标准地址数据库内,并在将新地址存入所述标准地址数据库前对相应的新地址进行标准化处理。
3.现有技术中,对于新地址的标准化处理,多通过如下步骤进行:首先,基于用户的当前定位请求获取相应的地址参数;然后,基于第三方地址编码api在本地es库内筛选与所述地址参数相似的若干个地址节点;最终,将所述地址参数与各地址节点分别对比并选取偏移量最小的作为与用户的当前定位请求相应的标准地址,并将其存入标准地址数据库内。
4.但该方法仅适用于新地址来源于用户定位请求的地址标准化情况。而在实际使用时,新地址多表现为用户输入的多种多样的文本信息形式,同时受用户输入过程影响,这些文本信息与基于定位请求获取的地址参数相比存在更多的形式缺陷,进而导致现有技术中基于定位请求的标准化方法无法在该类情况下有效应用,特别是,当与新地址相应的文本信息为用户异地输入的时候。


技术实现要素:

5.本发明目的在于提供一种客户标准地址数据库的更新方法及系统,用于解决无法对文本类原始地址,特别是异地输入的文本类原始地址进行标准化处理,并基于其实现标准地址数据库更新的技术问题。
6.为达成上述目的,本发明提出如下技术方案:
7.一种客户标准地址数据库的更新方法,包括:
8.获取与原始地址对应的文本信息,并基于配置表对所述文本信息进行拆分以得到相应的区域地址数组及详情地址数组;其中,所述区域地址数组由高至低依次包括:省级地址、市级地址、县级地址、镇级地址及社区级地址;所述详情地址数组由高至低依次包括:楼栋地址及门牌地址;
9.拼接所述区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层级以获得第一拼接地址,并基于第三方地址标准化api对所述第一拼接地址进行补充以得到第一补全地址,及与所述第一补全地址相应的经纬度数据;
10.基于trie树结构将所述区域地址数组匹配至分词匹配表内,并取相应子节点中的关联地址对所述区域地址数组进行补充以得到补充区域地址数组;
11.拼接所述补充区域地址数组中的所有地址层级及所述详情地址数组中的最高地
址层级以获得第二拼接地址,并基于第三方地址标准化api对所述第二拼接地址进行补充以得到第二补全地址,及与所述第二补全地址相应的经纬度数据;
12.通过分别计算所述第一补全地址、所述第二补全地址中各地址层级的权重和,并取与较大权重和对应的第一补全地址或第二补全地址作为预标准地址;其中,k为地址层级的总数,yi表示第i个地址层级是否为空值,yi=0表示为空值,yi=1表示有填充值,xi表示所述第一补全地址或所述第二补全地址中第i个地址层级与所述原始地址中第i个地址层级进行模糊匹配后的命中率,xj表示所述第一补全地址或所述第二补全地址中第j个地址层级与所述原始地址中第j个地址层级进行模糊匹配后的命中率,f
ij
表示所述第一补全地址或所述第二补全地址中第j个地址层级命中后对第i个地址层级的影响系数;
13.基于所述详情地址数组对所述预标准地址进行补充以作为标准地址,并将所述标准地址及与之对应的经纬度数据存入标准地址数据库内以对其进行更新。
14.进一步的,所述基于配置表对所述文本信息进行拆分以得到相应的区域地址数组及详情地址数组之前,包括:
15.基于模糊语义算法对所述文本信息进行处理以修正其内的错误表述信息或缺陷表述信息。
16.进一步的,所述将所述标准地址及与之对应的经纬度数据存入标准地址数据库内之后,包括:
17.基于trie树结构及多模式匹配算法对所述标准地址及所述分词匹配表间进行字符串匹配;
18.若匹配失败则基于所述标准地址在所述分词匹配表中构建新增地址节点。
19.进一步的,所述将所述标准地址及与之对应的经纬度数据存入标准地址数据库内之后,包括:
20.对比所述标准地址与所述标准数据库中的原有地址以补充所述原有地址中缺少的地址层级,或修改所述原有地址中有误的地址层级。
21.一种客户标准地址数据库的更新系统,包括:
22.获取模块,用于获取与原始地址对应的文本信息,并基于配置表对所述文本信息进行拆分以得到相应的区域地址数组及详情地址数组;其中,所述区域地址数组由高至低依次包括:省级地址、市级地址、县级地址、镇级地址及社区级地址;所述详情地址数组由高至低依次包括:楼栋地址及门牌地址;
23.第一标准化模块,用于拼接所述区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层级以获得第一拼接地址,并基于第三方地址标准化api对所述第一拼接地址进行补充以得到第一补全地址,及与所述第一补全地址相应的经纬度数据;
24.第一预处理模块,用于基于trie树结构将所述区域地址数组匹配至分词匹配表内,并取相应子节点中的关联地址对所述区域地址数组进行补充以得到补充区域地址数组;
25.第二标准化模块,用于拼接所述补充区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层级以获得第二拼接地址,并基于第三方地址标准化api对所述第
二拼接地址进行补充以得到第二补全地址,及与所述第二补全地址相应的经纬度数据;
26.对比模块,用于通过分别计算所述第一补全地址、所述第二补全地址中各地址层级的权重和,并取与较大权重和对应的第一补全地址或第二补全地址作为预标准地址;其中,k为地址层级的总数,yi表示第i个地址层级是否为空值,yi=0表示为空值,yi=1表示有填充值,xi表示所述第一补全地址或所述第二补全地址中第i个地址层级与所述原始地址中第i个地址层级进行模糊匹配后的命中率,xj表示所述第一补全地址或所述第二补全地址中第j个地址层级与所述原始地址中第j个地址层级进行模糊匹配后的命中率,f
ij
表示所述第一补全地址或所述第二补全地址中第j个地址层级命中后对第i个地址层级的影响系数;
27.第一更新模块,用于基于所述详情地址数组对所述预标准地址进行补充以作为标准地址,并将所述标准地址及与之对应的经纬度数据存入标准地址数据库内以对其进行更新。
28.进一步的,包括:
29.第二预处理模块,用于基于模糊语义算法对所述文本信息进行处理修正其内的错误表述信息或缺陷表述信息。
30.进一步的,包括:
31.匹配模块,用于基于trie树结构及多模式匹配算法对所述标准地址及所述分词匹配表间进行字符串匹配;
32.新增模块,用于若匹配失败则基于所述标准地址在所述分词匹配表中构建新增地址节点。
33.进一步的,包括:
34.第二更新模块,用于对比所述标准地址与所述标准数据库中的原有地址以补充所述原有地址中缺少的地址层级,或修改所述原有地址中有误的地址层级。
35.有益效果:
36.由以上技术方案可知,本发明的技术方案提供了一种客户标准地址数据库的更新方法,以改善现有的标准地址数据库更新过程中无法进行文本形式特别是异地输入的文本形式的原始地址的标准化处理,及相应标准地址数据库更新的技术缺陷。
37.所述方法首先通过配置表对与原始地址(即待标准化处理的新地址)相应的文本信息进行拆分获得了反映具体地址层级信息的区域地址数组及详情地址数组。其次,使用第三方地址标准化api对拆分后的区域地址数组及详情地址数组进行有效补充以对所述原始地址进行标准化处理;并同时考虑基于第三方地址标准化api进行补全时受查找值影响而造成的补全结果差异,进而引起的标准地址准确度差异。在具体的标准化处理中通过两个阶段进行,第一阶段,直接使用第三方地址标准化api对拼接后的区域地址数组及包括最高地址层级的详情地址数组进行补充获取了第一补全地址及相应的经纬度数据。第二阶段,基于trie树结构采用分词匹配表中的关联地址对所述区域地址数组进行预补充获得了补充区域地域数组,然后再使用第三方地址标准化api对拼接后的补充区域地址数组及包括最高地址层级的详情地址数组进行补充获取了第二补全地址及相应的经纬度数据。最终,基于所述第一补全地址及所述第二补全地址与原始地址间匹配命中率,分别求取了第
一补全地址及第二补全地址中各地址层级的权重和,并选取权重和高的补全地址作为预标准地址,并对其添加其余的详情地址数组后即获得了所需的标准地址。将其及相应的经纬度数据存入标准地址数据库内即完成了所述标准地址数据库的一次更新。
38.由此可见,本技术方案不需要定位系统的参与即可实现较高准确度的文本形式的原始地址,特别是异地输入的文本形式的原始地址的异地标准化处理,进而实现了该类情况下的标准地址数据库更新。
39.应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
40.结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
41.附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
42.图1为本实施例所述的标准地址数据库更新方法的流程图;
43.图2为对图1中文本信息进行预处理的流程图;
44.图3为对图1中分词匹配表进行更新的流程图;
45.图4为对标准地址数据库中旧标准地址进行更新的流程图。
具体实施方式
46.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
47.本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
48.现有技术中在对标准地址数据库的更新中,由于需要同时借助基于定位请求的地址参数及第三方地址标准化api对原始地址标准化处理,因此限定了该类方法仅适用于原始地址与向定位系统请求得到的当前地址参数相应的情况。而实际应用时,原始地址却普
遍来源于用户的文本形式输入,因此导致上述地址标准化方法并无法有效适用,特别是原始地址来源于用户的文本形式的异地输入。进而为相应服务行业的高效性开展带来不便。因此本实施例旨在提供一种客户标准地址数据库的更新方法,以改善现有的标准地址数据库更新中存在的上述缺陷。
49.下面结合附图所示,对本实施例公开的客户标准地址数据库的更新方法做具体介绍。
50.如图1所示,所述更新方法包括:
51.步骤s102、获取与原始地址对应的文本信息,并基于配置表对所述文本信息进行拆分以得到相应的区域地址数组及详情地址数组。
52.本步骤中,所述原始地址可以由用户手动录入,也可以采用拍照方式通过图像识别获取录入;录入过程可以是本地录入,更特别地可以是异地录入。
53.具体的,所述区域地址数组由高至低依次包括:省级地址、市级地址、县级地址、镇级地址及社区级地址;所述详情地址数组由高至低依次包括:楼栋地址及门牌地址。
54.基于配置表对所述文本信息进行拆分以获取区域地址数组时按照双向最大匹配原则进行。即先按照标点对所述文本信息进行粗切分,将其分解成若干个句子,然后再对这些句子采用正向最大匹配法和逆向最大匹配法进行扫描切分。若两个分词过程得到的匹配结果相同,则认为分词正确,反之则按最小集处理。
55.此时得到的所述区域地址数组的具体结构为:
56.{“province”:a1,“city”:a2,“district”:a3,“street”:a4,“community”:a5}。
57.获取所述区域地址数组后再基于配置表对所述文本信息进行拆分以获取详情地址数组。具体过程为:取所述区域地址数组内不为空值的最低层地址层级,然后按照正则表达式由地址层级的高至低依次通过关键字匹配得到详情地址数组。
58.此时得到的所述详情地址数组的具体结构为:
59.{“number”:d1,“detail”:d2}。
60.作为一种具体的实施方式,由于所述文本信息由用户录入,因此常有地址名中存在错别字、地址名重复录入或地址名不完整的情况。因此为了得到有效的区域地址数组及详情地址数组,如图2所示,在步骤s102中还包括:
61.步骤s102.2、基于模糊语义算法对所述文本信息进行处理以修正其内的错误表述信息或缺陷表述信息。
62.步骤s104、拼接所述区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层级以获得第一拼接地址,并基于第三方地址标准化api对所述第一拼接地址进行补充以得到第一补全地址,及与所述第一补全地址相应的经纬度数据。
63.本步骤中所述详情地址数组中的最高地址层级即为:{“number”:d1}。
64.本实施例中采用第三方地址标准化api对第一拼接地址进行补全以实现原始地址的标准化处理,同时发明人在实际应用时发现受查找值影响,返回的标准化处理的地址会有较大的差异。因此继续进行如下步骤:
65.步骤s106、基于trie树结构将所述区域地址数组匹配至分词匹配表内,并取相应子节点中的关联地址对所述区域地址数组进行补充以得到补充区域地址数组。
66.步骤s108、拼接所述补充区域地址数组中的所有地址层级及所述详情地址数组中
的最高地址层级以获得第二拼接地址,并基于第三方地址标准化api对所述第二拼接地址进行补充以得到第二补全地址,及与所述第二补全地址相应的经纬度数据。
67.本步骤及步骤s104中采用的第三方地址标准化api可以是任何公开可获取的地址引擎接口,也可以是客户自己创建的地址引擎接口。
68.通过步骤s106中基于trie树结构及分词匹配表对所述区域地址数组进行补充以形成了区别于步骤s104的查找值,再通过步骤s108进行拼接及第三方地址标准化api补充实现原始地址的再次标准化处理。
69.为了确定以第一补全地址还是第二补全地址作为最终的预标准地址,考虑到它们与原始地址间的匹配命中率,进而继续进行如下步骤:
70.步骤s110、通过分别计算所述第一补全地址、所述第二补全地址中各地址层级的权重和,并取与较大权重和对应的第一补全地址或第二补全地址作为预标准地址。
71.其中,k为地址层级的总数,yi表示第i个地址层级是否为空值,yi=0表示为空值,yi=1表示有填充值,xi表示所述第一补全地址或所述第二补全地址中第i个地址层级与所述原始地址中第i个地址层级进行模糊匹配后的命中率,xj表示所述第一补全地址或所述第二补全地址中第j个地址层级与所述原始地址中第j个地址层级进行模糊匹配后的命中率,f
ij
表示所述第一补全地址或所述第二补全地址中第j个地址层级命中后对第i个地址层级的影响系数。
72.为了便于计算,在具体的权重和计算中,各所述命中率及影响系数均采用实际命中率及影响系数扩大10倍后的数值。
73.步骤s112、基于所述详情地址数组对所述预标准地址进行补充以作为标准地址,并将所述标准地址及与之对应的经纬度数据存入标准地址数据库内以对其进行更新。
74.为了在标准地址数据库的更新过程中实现对其的进一步迭代优化,一方面如图3所示,在每次更新后,对相应的分词匹配表也进行更新完善。具体步骤包括:
75.步骤s114.2、基于trie树结构及多模式匹配算法对所述标准地址及所述分词匹配表间进行字符串匹配。
76.所述多模式串匹配算法又称为ac自动机算法。其在trie树之上,添加了类似于kmp算法的next数组以在一个主串中查找多个模式串。当与原始地址相应的文本信息输入之后,将所述文本信息作为主串,从第一个字符开始在trie树中匹配。当匹配到trie树的叶子节点或者中途遇到不匹配的字符的时候,则将主串的开始匹配的位置后移一位,从下一个字符开始匹配,直到匹配完全。
77.步骤s114.4、若匹配失败则基于所述标准地址在所述分词匹配表中构建新增地址节点。
78.若匹配失败则表明分词匹配表中不存在相应的地址节点,因此进行新增以实现所述分词匹配表的更新。
79.另一方面,受实际区域划分、地址维护频率影响,即使是所述标准地址数据库中已存在的地址(即旧标准地址)也可能随着时间更迭而存在不再符合当前地址规则的问题,从而也为相应的服务行业带来不便。但现有技术却极少关注标准地址数据库已有地址存在的
该客观缺陷。因此如图4所示,在步骤s112之后还包括:
80.步骤s114.2’、对比所述标准地址与所述标准数据库中的原有地址以补充所述原有地址中缺少的地址层级,或修改所述原有地址中有误的地址层级。
81.如所述标准数据库中一旧标准地址中区域地址数组中除中间位置的一地址层级(例如县级地址层级)外的其他地址层级均与新存入的标准标准中区域地址数组中的各地址层级一致,则表明该旧标准地址中前述例外的该地址层级信息有误或有缺失,因此基于新输入的标准地址对其进行补全。进而实现了对标准地址数据库中旧的标准地址的维护更新。
82.由上述可见,本实施例提供了一种客户标准地址数据库的更新方法,进行了基于第三方地址标准化api补全的文本形式原始地址的双流程标准化处理,并基于匹配命中率进行权重和求解以得到最终所需的标准地址。进而实现了文本形式的原始地址,特别是异地输入的文本形式的原始地址的标准化处理,及相应的标准地址数据库的更新。满足相应的服务行业高效高质量的服务需求。
83.上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读存储介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体,如调制的数据信号和载波。
84.这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
85.本实施例还提供了一种客户标准地址数据库的更新系统。所述系统包括:
86.获取模块,用于获取与原始地址对应的文本信息,并基于配置表对所述文本信息进行拆分以得到相应的区域地址数组及详情地址数组;其中,所述区域地址数组依次由高至低包括:省级地址、市级地址、县级地址、镇级地址及社区级地址;所述详情地址数组依次由高至低包括:楼栋地址及门牌地址。
87.第一标准化模块,用于拼接所述区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层级以获得第一拼接地址,并基于第三方地址标准化api对所述第一拼接地址进行补充以得到第一补全地址,及与所述第一补全地址相应的经纬度数据。
88.第一预处理模块,用于基于trie树结构将所述区域地址数组匹配至分词匹配表内,并取相应子节点中的关联地址对所述区域地址数组进行补充以得到补充区域地址数组。
89.第二标准化模块,用于拼接所述补充区域地址数组中的所有地址层级及所述详情地址数组中的最高地址层级以获得第二拼接地址,并基于第三方地址标准化api对所述第
二拼接地址进行补充以得到第二补全地址,及与所述第二补全地址相应的经纬度数据。
90.对比模块,用于通过分别计算所述第一补全地址、所述第二补全地址中各地址层级的权重和,并取与较大权重和对应的第一补全地址或第二补全地址作为预标准地址;其中,k为地址层级的总数,yi表示第i个地址层级是否为空值,yi=0表示为空值,yi=1表示有填充值,xi表示所述第一补全地址或所述第二补全地址中第i个地址层级与所述原始地址中第i个地址层级进行模糊匹配后的命中率,xj表示所述第一补全地址或所述第二补全地址中第j个地址层级与所述原始地址中第j个地址层级进行模糊匹配后的命中率,f
ij
表示所述第一补全地址或所述第二补全地址中第j个地址层级命中后对第i个地址层级的影响系数。
91.第一更新模块,用于基于所述详情地址数组对所述预标准地址进行补充以作为标准地址,并将所述标准地址及与之对应的经纬度数据存入标准地址数据库内以对其进行更新。
92.该系统用于实现上述方法的步骤,因此已经进行说明的,在此不再赘述。
93.例如,所述系统还包括:
94.第二预处理模块,用于基于模糊语义算法对所述文本信息进行处理修正其内的错误表述信息或缺陷表述信息。
95.例如,所述系统还包括:
96.匹配模块,用于基于trie树结构及多模式匹配算法对所述标准地址及所述分词匹配表间进行字符串匹配。
97.新增模块,用于若匹配失败则基于所述标准地址在所述分词匹配表中构建新增地址节点。
98.例如,所述系统还包括:
99.第二更新模块,用于对比所述标准地址与所述标准数据库中的原有地址以补充所述原有地址中缺少的地址层级,或修改所述原有地址中有误的地址层级。
100.由于所述系统基于所述方法搭建,因此所述系统也可实现文本形式的原始地址,特别是异地输入的文本形式的原始地址的标准化处理,及相应的标准地址数据库的更新。从而极大的提高了对应服务行业的服务效率及服务质量。
101.虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献