一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

中文地址检测方法及其装置、设备、介质、产品与流程

2022-05-08 08:21:14 来源:中国专利 TAG:


1.本技术涉及电商信息处理技术领域,尤其涉及一种中文地址检测方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。


背景技术:

2.物流服务体系在电商领域中特别重要。物流服务是从接收顾客订单开始到将商品送到顾客手中为止所发生的所有服务活动,可使交易的产品或服务实现增值。其本质是更好地满足顾客需求,即保证顾客需要的商品在顾客要求的时间内准时送达,服务能达到顾客所要求的水平等。
3.在电商领域的物流服务平台中,物流服务根据用户提供的地址文本进行识别提取,并规整输出各个行政层级相对应的地名,以便协助实现商品的物流送达。
4.现实中,由于用户习惯以及部分非平台订单缺少地址校验机制等原因,用户留下来的地址存在各种小错误,商家在自主使用物流系统发货的时候,发现系统无法正确识别地址,导致不能正常发货。
5.现有技术中存在多种识别中文地址相对应的技术方案,但此类方案或依赖于大数据训练而成的神经网络模型导致成本较高,或由于企图兼容多种语言而导致对中文地址的检测准确度有限,或因未考虑特定的应用场景而导致与电商领域的实际需求不匹配等,所起作用有限,因此,本技术尝试探索更贴近实际需求以提升电商领域中的中文地址检测效率的方案。


技术实现要素:

6.本技术的首要目的在于解决上述问题至少之一而提供一种中文地址检测方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
7.为满足本技术的各个目的,本技术采用如下技术方案:
8.适应本技术的目的之一而提供的一种中文地址检测方法,包括如下步骤:
9.获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;
10.按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;
11.计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;
12.向所述客户端设备推送包含所述推荐地址文本的通知消息。
13.深化的实施例中,获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本,包括如下步骤:
14.获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名;
15.根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本。
16.深化的实施例中,计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离的步骤之前,包括如下步骤:
17.获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名;
18.根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址;
19.针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据;
20.将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中。
21.深化的实施例中,计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本,包括如下步骤:
22.计算初始地址文本的地址特征的分词数量;
23.计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量;
24.计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离;
25.根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本。
26.扩展的实施例中,向所述客户端设备推送包含所述推荐地址文本的通知消息的步骤之后,包括如下步骤:
27.响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息。
28.具体化的实施例中,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息,包括如下步骤:
29.根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名;
30.调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本;
31.将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示。
32.适应本技术的目的之一而提供的一种中文地址检测装置,包括:初始地址获取模块、分词特征提取模块、编辑距离优选模块,以及推荐地址推送模块,其中,所述初始地址获取模块,用于获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;所述分词特征提取模块,用于按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;所述编辑距离优选模块,用于计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;所述推荐地址推送模块,用于向所述客户端设备推送包含所述推荐地址文本的通知消息。
33.深化的实施例中,所述初始地址推送模块,包括:地名提取子模块,用于获取客户
端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名;地址拼接子模块,用于根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本。
34.深化的实施例中,本技术的中文地址检测装置,还包括先于所述编辑距离优选模块调用运行的如下模块:
35.地名库调用模块,用于获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名;
36.地址枚举模块,用于根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址;枚举地址提取模块,用于针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据;地址库构建模块,用于将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中。
37.深化的实施例中,所述编辑距离优选模块,包括:第一计算子模块,用于计算初始地址文本的地址特征的分词数量;第二计算子模块,用于计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量;距离计算子模块,用于计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离;地址推荐子模块,用于根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本。
38.扩展的实施例中,本技术的中文地址检测装置,还包括后于所述推荐地址推送模块调用运行的如下模块:电商订单修正模块,用于响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息。
39.具体化的实施例中,所述电商订单修正模块,包括:地名替换子模块,用于根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名;物流计费子模块,用于调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本;订单完善子模块,用于将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示。
40.适应本技术的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的中文地址检测方法的步骤。
41.适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的中文地址检测方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
42.适应本技术的另一目的而提供的一种计算机程序产品,包括计算机程序/ 指令,该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述方法的步骤。
43.相对于现有技术,本技术的优势如下:
44.首先,本技术基于统计原理,以根据目标地区的行政层级相对应的地名所构造的枚举地址库中的枚举地址为参照,将客户端设备的提交的初始地址文本与各个枚举地址计算编辑距离,确定编辑距离最小的枚举地址为该初始地址文本相对应的推荐地址文本,其
中,所处理的初始地址文本是中文地址,由于中文表达通常每个字都有其独立的字义,并且字与字之间的组词非常灵活,且中文字名可以包含两字、三字或更长,所以基于统计原理,在为初始地址文本确定推荐地址文本的过程中,利用固定窗口和预设步长对地址进行分词构造其地址特征,利用地址特征之间的编辑距离便可快速确定出与初始地址文本最为相似的枚举地址文本作为推荐地址文本,适合中文通常以两字以上组词作为地名的具体情况,发挥统计学意义,从而获得更为精准的检测结果,辅以提升检测效率。
45.其次,本技术的技术方案在计算两个地址文本之间的编辑距离时,是基于统计实现的算法,无需依赖大数据进行高成本的训练,执行效率更高,而实现成本则更为低廉,适于部署于后台服务器响应海量的并发需求,从而获取规模经济效应。
46.此外,本技术的技术方案适用于电商平台中为电商订单的地址信息进行纠错,使得电商订单的地址信息及据此所计算的物流成本更为精准,从而提升电商交易过程中的交互效率,使消费者用户和商家用户提升基于电商订单的作业效率。
附图说明
47.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
48.图1为本技术的中文地址检测方法的典型实施例的流程示意图;
49.图2为本技术实施例中根据地址信息生成初始地址文本的流程示意图;
50.图3为本技术的中文地址检测方法的一个示例性应用的原理框图;
51.图4为本技术实施例中构建枚举地址库过程的流程示意图;
52.图5为本技术实施例中计算编辑距离的过程的流程示意图;
53.图6为本技术的中文地址检测方法的扩展实施例的流程示意图;
54.图7为本技术的扩展实施例中根据修正后的地址信息计算物流成本过程的流程示意图;
55.图8为本技术的中文地址检测装置的原理框图;
56.图9为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
57.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
58.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
59.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术
语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
60.本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personal communicationsservice,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personal digital assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps (global positioning system,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobileinternet device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
61.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
62.需要指出的是,本技术所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本技术的网络部署方式的实施方式。
63.本技术的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
64.本技术中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
65.本技术所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本技术的技术方案所调用即可。
66.本领域技术人员对此应当知晓:本技术的各种方法,虽然基于相同的概念而进行
描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本技术所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
67.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
68.本技术的一种中文地址检测方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本技术的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
69.请参阅图1,本技术的中文地址检测方法在其典型实施例中,包括如下步骤:
70.步骤s1100、获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本:
71.对于电商平台而言,需要对中文地址进行检测的情况可能出现在各种不同的具体业务场景中,例如,当商家用户需要根据消费者用户的订单向物流服务接口发送送达地址时,或反之物流服务接口接收该送达地址时;又如消费者用户在订单页面或者送货地址编辑页面输入其地址信息提交至服务器时,诸如此类,均可触发对送达地址的检测。本技术被检测的地址,特指以中文表达的地址,包括繁体中文和简体中文均可。
72.不同变通实施例中,本技术的地址信息,可以由消费者用户在客户端设备访问电商平台的对应页面例如地址编辑页面或者订单编辑页面,在其中输入进行提交;也可由商家用户在客户端设备中访问某些专门页面中提交其指定的某一个或多个目标地址相对应的地址信息以实施检测。不难理解,根据不同的具体业务场景,所述地址信息的来源相应也不同,本领域技术人员对此均应知晓。
73.所述的地址信息,通常以地区为单位进行管理,一般而言,每个地区都包含多个行政级别,每个行政级别都包含多个地名,客户端设备提交的所述地址信息在结构上便是由这些行政级别相对应的地名有序排列构成的中文文本。例如,“广东省广州市黄埔区某某路
……”
,这一地址为中国境内相对应的地址,其中包含省、市、区等行政层级相对应的地名即“广东省”、“广州市”、“黄埔区”。根据该示例可知,在客户端设备提交的待检测的地址信息,最终呈现的格式是按照各地区对地址信息的习惯性用法,由相应的地区的行政层级有序排列而成,而成为待检测的初始地址文本。
74.步骤s1200、按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征:
75.将用户提交的地址信息按照地区相应的格式转换为所述初始地址文本之后,便可对初始地址文本进行分词,以便获得多个分词构造为该初始地址文本相对应的地址特征。
76.考虑到中文以单字作为基本单位,通常由两个以上的单字构成表意单元用于表示各种专有名词的事实,一个实施例中,采用具有固定窗口长度的滑动窗口对所述初始地址文本进行滑动分词,该滑动窗口的窗口长度设置为2个单字,考虑到单字为基本单位的特点,该滑动窗口预设的滑动步长可为1个单字,由此,自初始地址文本的首字开始滑动加窗,
每次获得一个分词,然后推进一个单字继续获取下一分词,以此类推,直接滑动窗口到达最后一个单字,获得n
‑ꢀ
1个分词,其中n为初始地址文本的总字数。这些分词的集合便构成该初始特征文本的地址特征。
77.另一实施例中,可直接采用基于统计语言模型算法的bi-gram模型来实施前一实施例所阐述的过程并取得相同的效果,由此可避免自行开发相关代码,提升开发效率。
78.步骤s1300、计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本:
79.为方便根据所述初始地址文本的地址特征匹配出更优的推荐地址文本,适应任意一个所述的地区,作为目标地区,而预构造有一个枚举地址库,该枚举地址库存储有该目标地区范围内的所有可能的有效地址,即枚举地址。当然,该枚举地址也是以中文表述的。所述的枚举地址可以由本领域技术人员预先采集制备,同理,由该目标地区的各个行政层级相对应的地名有序排列而成。除此之外,在该枚举地址库中,也存储有每个枚举地址相对应的地址特征,该地址特征同理可以前一步骤s1200中揭示的多种实施例对枚举地址进行分词提取构造而成。本技术后续的一个实施例将进一步揭示该枚举地址库的制备过程,此处暂且不表。
80.据此可知,枚举地址库中,存在目标地区范围内的全量有效地址,由于其在制备阶段已经进行了标准化,因此,理论上,如果初始地址文本中出现个别错字或者漏字、赘字等,可以将与所述初始地址文本最为相似的枚举地址用来修正该初始地址文本。
81.本实施例中,推荐使用编辑距离算法来计算所述初始地址文本的地址特征与所述枚举地址的地址特征之间的编辑距离,从而获得各个枚举地址相对应的编辑距离,其中编辑距离最小者,即为与所述初始地址文本最相似也即最相近的一项,意味着该项枚举地址相对于初始地址文本而言,具有最少的错字、漏字、赘字等,由此,可将编辑距离最小的枚举地址确定为用于推荐给客户端设备的推荐地址文本。
82.步骤s1400、向所述客户端设备推送包含所述推荐地址文本的通知消息:
83.服务器确实出与所述初始地址文本相对应的推荐地址文本之后,便可将该推荐地址文本封装于通知消息中推送至客户端设备,根据当前正在执行的具体业务场景相对应的业务逻辑,展现和使用该推荐地址文本。例如,当处于由消费者用户编辑地址信息的业务场景中时,可以在其客户端设备显示该推荐地址文本,提醒用户是否替换当前输入的地址信息。又如,当处于后台修正电商订单的送货地址的业务场景中时,可以将该推荐地址文本替换电商订单中原始的送货地址向操作用户所在的客户端设备中输出相应的通知信息以示提醒,在该通知消息中包含该推荐地址文本。诸如此类,本领域技术人员可根据具体业务场景的不同,灵活利用所述推荐地址文本,最终使其展示到客户端设备中被用户感知。
84.根据本技术的典型实施例及其变通实施例可以知晓,本技术的技术方案存在多方面优势,包括但不限于如下各方面:
85.首先,本技术基于统计原理,以根据目标地区的行政层级相对应的地名所构造的枚举地址库中的枚举地址为参照,将客户端设备的提交的初始地址文本与各个枚举地址计算编辑距离,确定编辑距离最小的枚举地址为该初始地址文本相对应的推荐地址文本,其中,所处理的初始地址文本是中文地址,由于中文表达通常每个字都有其独立的字义,并且
字与字之间的组词非常灵活,且中文字名可以包含两字、三字或更长,所以基于统计原理,在为初始地址文本确定推荐地址文本的过程中,利用固定窗口和预设步长对地址进行分词构造其地址特征,利用地址特征之间的编辑距离便可快速确定出与初始地址文本最为相似的枚举地址文本作为推荐地址文本,适合中文通常以两字以上组词作为地名的具体情况,发挥统计学意义,从而获得更为精准的检测结果,辅以提升检测效率。
86.其次,本技术的技术方案在计算两个地址文本之间的编辑距离时,是基于统计实现的算法,无需依赖大数据进行高成本的训练,执行效率更高,而实现成本则更为低廉,适于部署于后台服务器响应海量的并发需求,从而获取规模经济效应。
87.此外,本技术的技术方案适用于电商平台中为电商订单的地址信息进行纠错,使得电商订单的地址信息及据此所计算的物流成本更为精准,从而提升电商交易过程中的交互效率,使消费者用户和商家用户提升基于电商订单的作业效率。
88.请参阅图2,深化的实施例中,所述步骤s1100、获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本,包括如下步骤:
89.步骤s1110、获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名:
90.本实施例进一步将本技术的应用场景约束到更为具体的电商订单处理环节,当消费者用户在其客户端设备下单购买相应的商品时,进入下单页面,在下单显示生成的电商订单,其中包含送货地址一项,该项可以显示消费者用户事先设定的默认地址信息。若不存在所述的默认地址信息,也可允许用户对地址信息进行实时编辑并提交。最终,在该电商订单页面中将包含作为送货地址的地址信息。
91.所述的地址信息,一种实施例中,根据预设的目标地区,一般是客户端设备所在的实际地区,根据该目标地区官方所设定的行政层级,提供各个行政层级相对应的地名的输入框,例如就中国地区而言,通过提供省、市、县、镇相对应的输入框,便可用于接收构成地址信息所需的各个行政层级相对应的地名。另一种实施例中,允许用户一次性以完整的字符串的形式输入所述的地址信息,一般而言,用户将按各个行政层级之间的上下级关系输入相应的地名序列。于是,最终形成的地址信息,便会包含与目标地区的多个行政层级相对应的多个地名。
92.步骤s1120、根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本:
93.一般来说,根据各个地区不同的使用习惯,对地址信息中各个行政层级的排列方向可能各有区别,但就中文地址信息的表达而言,一般是按照行政层级地理范围由大到小有序排列,据此,可将用户输出的地址信息所提供的各个地名,对应其行政层级,按照该目标地区的使用习惯,对所述各个地名进行有序拼接,例如,图3所示的香港地区地址中,按照大区、中区、小区三个行政级别分别对应输入“九龙”、“油尖旺”、“大角嘴”三个地名构成地址信息,据此,便可将该地址信息中的三个地名有序拼接为“九龙油尖旺大角嘴”这一初始地址文本。
94.本实施例中,适应电商平台的下单过程中编辑地址信息所需,对用户输入进行预处理,形成标准化的初始地址文本,方便后续步骤对初始地址文本进行地址有效性进行标准化流程的检测,可使本技术的技术方案更便于标准接口化处理,从而提升电商平台检测
地址信息有效性的效率。
95.请参阅图4,为了确保对地址信息进行检测的准确性,深化的实施例中,所述步骤s1300、计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离的步骤之前,包括如下步骤:
96.步骤s2100、获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名:
97.各地区的行政区划均以法定的形式公布,因此,可以很容易地收集到各个地区相对应的行政地名库,行政地名库可以地区为单位进行地名存储,例如按照中国香港地区、中国台湾地区分别进行建库。每个行政地名库中,可存储其相应的目标地区的每个行政层级之下的所有可能的中文地名,且根据地名之间的管辖关系建立各个行政层级之间的隶属关系,从而完成该行政地名库的构建。由于上一行政层级的地名与其所下辖的行政层级的地名之间一般是一对多的关系,因此,一种更具体的实施例中,推荐采用树状存储结构或有向图结构来存储所述的各个行政层级的地名,使得树状存储结构或有向图结构中的根节点到其末端节点之间形成的路径所经过的每个节点的地名的有序拼接结果即构成该目标地区的一个有效地址。
98.步骤s2200、根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址:
99.在具备所述的行政地名库的基础上,便可非常便利地获得目标地区的全量的有效地址,具体而言,可根据行政地名库中,上级的地名与下级的地名之间的管辖隶属关系,逐级将各级中文地名进行有序拼接,从而,完成对目标地区的有效地址的枚举,即获得目标地区全量的枚举地址。结合前文所述的树状存储结构或有向图结构的示例,根据此类结构自其根节点到达其每一末端节点所经过的路径所确定的地名所拼接而成的字符串,即为一个枚举地址,对应多个末端节点便有多个枚举地址。
100.步骤s2300、针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据:
101.为便于后续将各个枚举地址用于计算与初始地址文本之间的编辑距离,本实施例也采用与所述初始地址文本获得地址特征相同的方法,以2个单字为滑动窗口固定长度,以1个单字为预设滑动步长,对每个枚举进行适用滑动窗口进行滑动分词,从而获得每个枚举地址相对应的分词集构成相应的地址特征,并将每个枚举地址与其地址特征构造为映射关系数据。由此,每个枚举地址均有一个相应的地址特征与之相对应。同理,在计算枚举地址的地址特征时,也可采用bi-gram模型实施。
102.步骤s2400、将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中:
103.为了便于本技术在检测初始地址文本的有效性时计算比较编辑距离,对于前一步骤中获得的枚举地址与地址特征之间的映射关系数据,可将其存储于一个数据库中,构成本技术所述的枚举地址库供调用。
104.本实施例根据行政地名库进行全量枚举生成枚举地址库,枚举地址库中存储其相应的目标地区的全量的有效的枚举地地址,在枚举地址库中为各个枚举地址提供了预先分
词制备的地址特征,可供初始地址文本检测时用于计算编辑距离,由于枚举地址库是根据采集法定地名构成的行政地名库构成的,因此枚举地址库中的枚举地址的有效性和准确性得以权威保证,据此检测初始地址文本的有效性,更为准确可信。
105.请参阅图5,深化的实施例中,所述步骤s1300、计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本,包括如下步骤:
106.步骤s1310、计算初始地址文本的地址特征的分词数量:
107.如图3所示,本实施例中,可采用如前所述的滑动窗口的方式,或者采用 bi-gram模型,先行计算所述初始地址文本的分词数量,由于文本“九龙油尖旺大角嘴”包含7个分词,因而其分词数量为7。
108.步骤s1320、计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量:
109.同理,采用与前一步骤完全相同的方式计算地址库中任意一个目标枚举地址的地址特征,例如有效的枚举地址“九龙油尖旺区大角咀”,其包含8个分词,攻其分词数量为8。当然,在其他实施例中,每个枚举地址的分词数量也可预先计算出并存储于所述的枚举地址库中,此时在本步骤中无需另行计算,直接调用即可。
110.步骤s1330、计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离:
111.沿用前一步骤的枚举地址的示例,确定所述初始地址文本与所述枚举地址彼此的地址特征所包含的分词数量之后,便可用于确定初始地址文本与该枚举地址之间的分词数量计算彼此之间的编辑距离。具体而言,先计算初始地址文本与枚举地址两者对应的分词数量之和即7 8=15,然后将其减去两者共有的分词的总量的两位数,即两者彼此之间有5个分词是相同故总是相同分词为10,因此,15-10=5,也即枚举地址“九龙油尖旺区大角咀”与初始地址文本“九龙油尖旺大角嘴”之间的编辑距离为5。
112.步骤s1340、根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本:
113.不难理解,按照在先各个步骤,针对枚举地址库中的每个枚举地址,均可计算出其与初始地址文本之间的编辑距离。据此,对应所述枚举地址库中的各个枚举地址,便获得了一个编辑距离序列,对该编辑距离序列按照编辑距离从小到大进行排序,排序居于第一位的编辑距离所对应枚举地址即是与所述初始地址文本差异最小的目标枚举地址,由此便可将其确定为用于对所述初始地址文本相对应的地址信息进行纠错修正的推荐地址文本。
114.本实施例给出了基于初始地址文本与枚举地址两者的分词数量确定两者之间的编辑距离,再根据编辑距离中的最小值确定推荐枚举地址的方式,可见,采用这种方式实现,计算简便快速,对计算机运行资源的占用较低,可以较为迅速地获得计算结果,使得地址检测过程既准确又高效。
115.请参阅图6,扩展的实施例中,所述步骤s1400、向所述客户端设备推送包含所述推荐地址文本的通知消息的步骤之后,包括如下步骤:
116.步骤s1500、响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息:
117.对于消费者用户下单场景而言,当其基于其电商订单中的地址信息获得本实施前
述各实施例所推送的通知消息,获得该通知消息中的推荐地址文本之后,用户可以确定是否以该推荐地址文本替换其事先选定或录入的地址信息,当其确定修正后,便触发一个地址修正指令提到给服务器,服务器于是可在后台修改该电商订单对应的数据,将其中的送货地址中的地址信息,替换为所述推荐地址文本中对应的内容,从而实现根据检测结果对用户输入的地址信息的智能化纠错,提升电商订单的地址检测和纠错准确率。
118.请参阅图7,作为彰显本技术的应用优势的一方面,具体化的实施例中,所述步骤s1500中,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息,包括如下步骤:
119.步骤s1510、根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名:
120.更为具体的,当消费者用户提交所述的地址修正指令后,服务器便根据相对应的推荐地址文本去修正该消费者用户的电商订单中的相应地址信息。如前所述,由于推荐地址文本是由各个行政层级相对应的地名所构成的,因此,可以对应所述的行政地名库,确定各个行政层级相对应的地名,据此,可直接实现对该电商订单中原有的地址信息中的各个相应行政层级的地名的替换。
121.步骤s1520、调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本:
122.电商平台的物流系统,可实现一个物流计费服务并开放接口供电商平台内部调用,以便根据电商平台提供的地址信息为其计算电商订单相对应的物流成本,因此,在完成所述的电商订单的地址信息的修正后,便可调用所述的物流计费服务,在该物流计费服务所实现的内部业务逻辑的业务下,根据修正后的所述地址信息,解析出其中的各个行政层级相对应的地名,根据各个地名确定相对应的费率,最终根据该地址信息所到达的各个物流站点的费率综合出整个电商订单对应的物流成本,俗称快递费。
123.步骤s1530、将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示:
124.为便于消费者用户确认,进一步可将该物流成本作为所述电商订单的关联项,推送至所述消费者用户所在的客户端设备处显示,消费者用户知悉电商订单相应的送货地址、物流成本、商品价格等信息后,便可确认提交电商订单,进入支付环节,直至最终完成下单。
125.本实施例进一步根据纠正后的地址信息进行物流成本计费,使得关于运费的计算更为准确,确保电商交易信息的准确性,有利于电商平台的稳健发展。
126.请参阅图8,适应本技术的目的之一而提供的一种中文地址检测装置,是对本技术的中文地址检测方法的功能化体现,该装置包括:初始地址获取模块 1100、分词特征提取模块1200、编辑距离优选模块1300,以及推荐地址推送模块1400,其中,所述初始地址获取模块1100,用于获取客户端设备提交的中文的地址信息,根据地址信息生成初始地址文本;所述分词特征提取模块 1200,用于按照预设步长以固定窗口滑动提取所述初始地址文本获得多个分词,以构成初始地址文本的地址特征;所述编辑距离优选模块1300,用于计算所述初始地址文本的地址特征与为目标地区预设的枚举地址库中的中文的枚举地址的地址特征之间的编辑距离,确定其中编辑距离最小的枚举地址为推荐地址文本;所述推荐地址
推送模块1400,用于向所述客户端设备推送包含所述推荐地址文本的通知消息。
127.深化的实施例中,所述初始地址推送模块,包括:地名提取子模块,用于获取客户端设备提交的电商订单的中文的地址信息,所述地址信息包含与目标地区的多个行政层级相对应的多个地名;地址拼接子模块,用于根据该目标地区的行政层级有序拼接所述多个地名,以生成初始地址文本。
128.深化的实施例中,本技术的中文地址检测装置,还包括先于所述编辑距离优选模块1300调用运行的如下模块:
129.地名库调用模块,用于获取预设的行政地名库,该行政地名库包含目标地区的每个行政层级下的所有可能的中文地名;
130.地址枚举模块,用于根据行政层级的隶属关系,对所述行政地名库中的各个行政层级的中文地名进行有序拼接,获得由所有行政层级穷举组合而成的全量枚举地址;枚举地址提取模块,用于针对每个所述的枚举地址,按照预设步长以固定窗口滑动提取该枚举地址以获得多个分词,构成该枚举地址相应的地址特征,与该枚举地址构造为映射关系数据;地址库构建模块,用于将全量枚举地址及其地址特征所构成的映射关系数据存储于枚举地址库中。
131.深化的实施例中,所述编辑距离优选模块1300,包括:第一计算子模块,用于计算初始地址文本的地址特征的分词数量;第二计算子模块,用于计算枚举地址库中的任意一个目标枚举地址的地址特征的分词数量;距离计算子模块,用于计算初始地址文本的分词数量与目标枚举地址两者的分词数量的和值与两者之间相同分词数量的两倍数之间的差值,作为两者之间的编辑距离;地址推荐子模块,用于根据所述编辑距离对枚举地址库中的所有枚举地址进行自小至大的排序,确定其中排序第一位的枚举地址为推荐地址文本。
132.扩展的实施例中,本技术的中文地址检测装置,还包括后于所述推荐地址推送模块1400调用运行的如下模块:电商订单修正模块,用于响应基于该通知消息提交的地址修正指令,以所述推荐地址文本作为送货地址修正所述电商订单中的地址信息。
133.具体化的实施例中,所述电商订单修正模块,包括:地名替换子模块,用于根据所述推荐地址文本对应各个行政层级而设置的地名,替换所述电商订单的地址信息中的各个相应行政层级的地名;物流计费子模块,用于调用预设的物流计费服务,根据所述电商订单中的地址信息中各行政层级的地名相对应的费率计算出该电商订单的物流成本;订单完善子模块,用于将该物流成本作为所述电商订单的关联项推送至所述的客户端设备显示。
134.为解决上述技术问题,本技术实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种中文地址检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本技术的中文地址检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9 中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,
或者具有不同的部件布置。
135.本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的中文地址检测装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
136.本技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本技术任一实施例的中文地址检测方法的步骤。
137.本技术还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
138.本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑ꢀ
only memory,rom)等计算机可读存储介质,或随机存储记忆体(randomaccess memory,ram)等。
139.综上所述,本技术的技术方案能够提升电商订单中的地址信息识别的准确率,引导用户修正错误的地址信息,提升电商订单执行效率。
140.本技术领域技术人员可以理解,本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
141.以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献