一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

地址信息提取方法、装置、计算机设备和存储介质与流程

2022-07-10 08:18:35 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别是涉及一种地址信息提取方法、装置、计算机设备和存储介质。


背景技术:

2.随着计算机技术与物流技术的快速发展,快递逐渐成为人们生产生活中不可或缺的一部分。快递又称速递或快运,是指物流企业(含货运代理)通过自身的独立网络或以联营合作(即联网)的方式,将用户委托的文件或包裹,快捷而安全地从发件人送达收件人的门到门(手递手)的新型运输方式。在快递运输中,一般需要托运人填写运单来获取快递相应的寄件人、托运物品以及目的地址等信息。
3.然而,由于运单的地址信息一般是客户填写的原始文本,因为填写习惯和细化地址的差异,文本信息呈现了明显多样性和书写差异。当前运单标签上地址信息即为客户填写的内容,不规范的填写内容大大影响相关作业人员的操作效率,进而影响快递的派送时效。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够可以有效提高地址信息识别效率的地址信息提取方法、装置、计算机设备和存储介质。
5.一种地址信息提取方法,所述方法包括:
6.获取待识别快递运单;
7.提取所述待识别快递运单的原始地址信息;
8.对所述原始地址信息中的层级地址信息进行标注,获取标注地址信息;
9.根据所述标注地址信息与预设关键地址集,获取所述原始地址信息对应的标准地址信息。
10.在其中一个实施例中,所述根据所述标注地址与预设关键地址集,获取所述原始地址信息中的标准地址信息包括:
11.获取所述标注地址信息中的关键地址,与预设关键地址集中标准关键地址的相似度;
12.根据所述相似度,识别所述标注地址信息对应的标准关键地址;
13.根据所述标注地址信息与所述标准关键地址,获取所述原始地址信息对应的标准地址信息。
14.在其中一个实施例中,所述获取所述标注地址信息,与预设关键地址集中标准关键地址的相似度包括:
15.根据所述标注地址信息中的标注,识别所述标注地址信息中的兴趣面地址与标注关键地址;
16.查找所述兴趣面地址对应的预设关键地址集;
17.通过基于计算word embedding余弦距离的fasttext文本相似度算法,获取所述标注关键地址与所述预设关键地址集中标准关键地址的相似度。
18.在其中一个实施例中,所述获取所述标注地址信息,与预设关键地址集中标准关键地址的相似度之前,还包括:
19.获取带层级地址信息标注的历史快递运单数据;
20.根据所述层级地址信息标注,识别所述历史快递运单数据中的兴趣面地址,以及所述兴趣面地址对应的关键地址的地址组合;
21.对兴趣面地址相同的所述地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
22.在其中一个实施例中,所述对兴趣面地址相同的所述地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集之前,还包括:
23.确定各地址组合在所述历史快递运单数据中的出现频率以及各地址组合之间的相似度;
24.根据所述出现频率以及所述相似度对所述各地址组合进行清洗;
25.所述对兴趣面地址相同的所述地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集包括:
26.对清洗后的兴趣面地址相同的所述地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
27.在其中一个实施例中,所述根据所述标注地址信息与预设关键地址集,获取所述原始地址信息对应的标准地址信息之后,还包括:
28.对所述标准地址信息中的标准关键地址进行标注。
29.在其中一个实施例中,所述对所述原始地址信息中的层级地址信息进行标注,获取标注地址信息包括:
30.通过预设lstm(long short-term memory,长短期记忆人工神经网络)信息标注模型,对所述原始地址信息中的层级地址信息进行标注,获取标注地址,所述预设lstm信息标注模型通过带层级地址信息标注的历史快递运单数据训练获取。
31.一种地址信息提取装置,所述装置包括:
32.运单获取模块,用于获取待识别快递运单;
33.地址提取模块,用于提取所述待识别快递运单的原始地址信息;
34.地址信息标注模块,用于对所述原始地址信息中的层级地址信息进行标注,获取标注地址信息;
35.标准地址识别模块,用于根据所述标注地址信息与预设关键地址集,获取所述原始地址信息对应的标准地址信息。
36.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
37.获取待识别快递运单;
38.提取所述待识别快递运单的原始地址信息;
39.对所述原始地址信息中的层级地址信息进行标注,获取标注地址信息;
40.根据所述标注地址信息与预设关键地址集,获取所述原始地址信息对应的标准地
址信息。
41.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
42.获取待识别快递运单;
43.提取所述待识别快递运单的原始地址信息;
44.对所述原始地址信息中的层级地址信息进行标注,获取标注地址信息;
45.根据所述标注地址信息与预设关键地址集,获取所述原始地址信息对应的标准地址信息。
46.上述地址信息提取方法、装置、计算机设备和存储介质,通过获取待识别快递运单;提取待识别快递运单的原始地址信息;对原始地址信息中的层级地址信息进行标注,获取标注地址信息;根据标注地址信息与预设关键地址集,获取原始地址信息对应的标准地址信息。本技术通过提取快递运单内的原始地址,而后基于层级地址信息标注以及标准地址识别,来确定原始地址信息对应的标准地址信息,可以有效提高快递派件过程中的地址信息识别效率,避免出现因客户写错别字等原因导致地址信息不清楚,而使派件过程无法正常进行,影响快递派件效率的情况。
附图说明
47.图1为一个实施例中地址信息提取方法的应用环境图;
48.图2为一个实施例中地址信息提取方法的流程示意图;
49.图3为一个实施例中图2中步骤207的子流程示意图;
50.图4为一个实施例中图3中步骤302的子流程示意图;
51.图5为一个实施例中构建各兴趣面地址对应的预设关键地址集步骤的流程示意图;
52.图6为一个实施例中地址信息提取装置的结构框图;
53.图7为一个实施例中计算机设备的内部结构图。
具体实施方式
54.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
55.本技术提供的地址信息提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以向服务器104发送待识别快递运单,以通过服务器104来进行待识别快递运单内的地址信息提取,服务器104获取待识别快递运单;提取待识别快递运单的原始地址信息;对原始地址信息中的层级地址信息进行标注,获取标注地址信息;根据标注地址信息与预设关键地址集,获取原始地址信息对应的标准地址信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
56.在一个实施例中,如图2所示,提供了一种地址信息提取方法,以该方法应用于图1
中的服务器104为例进行说明,包括以下步骤:
57.步骤201,获取待识别快递运单。
58.其中,待识别快递运单是指本技术的地址信息提取方法的信息提取对象。而待识别快递运单是指用户填写完成的运单信息,包含用户填入的派件网点、收件地址、寄件物品类型以及收件人等信息,其中收件地址具体包括了aoi(area of interest,兴趣面)区域信息以及poi(point of interest,兴趣点)信息。而由于待识别快递运单中的信息完全由寄件人个人手工填写,因为填写习惯和细化地址的差异,文本信息呈现了明显多样性和书写差异。不规范的填写内容大大影响相关作业人员的操作效率,进而影响整体的派送时效和客户体验。因此,可以通过本技术的地址信息提取方法来提取其中的地址信息,并将其转化为标准地址信息,从而提高快递识别过程的操作效率。
59.首先,终端102方在需要对运单内的地址信息进行提取时,可以通过服务器104来进行地址信息提取的工作,首先需要从终端102将用户填写完成的待识别快递运单发送到服务器104方,其中待识别快递运单具体可以是指由用户或者揽件人员填写完成的电子版快递运单。
60.步骤203,提取待识别快递运单的原始地址信息。
61.其中原始地址信息是指寄件用户填写完成的收件地址,由寄件用户个人手工填写,因为填写习惯和细化地址的差异,原始地址信息中的文本信息呈现了明显多样性和书写差异。而提取过程具体可以是识别出待识别快递运单中的地址区域,而后获取电子运单中地址区域的填写内容,这部分内容就是填写完成的原始地址信息。
62.步骤205,对原始地址信息中的层级地址信息进行标注,获取标注地址信息。
63.其中,层级地址信息是指包含省、市、区(县)、街道以及小区等不同层级信息的地址,在其中一个实施例中,层级地址具体包括有:prov(省)》city(市)》district(区)》town(镇)》comm(小区)》road(街道)》roadno(街道号)》poi(兴趣点)》(subpoi(子兴趣点)》)houseno(楼号)》cellno(单元号)》floorno(楼层)》roomno(房间号)。其中poi(area of point,关键点)具体是指兴趣地址或者关键地址,即对应收件地址中对应的大楼或者市场等关键信息。而寄件人填写完成的地址信息拆分开来就可以分别与上述层级地址的中一段对应。如对于寄件的目标地址为a省b市c区d街道e小区f大厦g层h单元i层j号的原始地址信息,在对其中的地址信息进行拆分标注后,可以通过prov对a省进行标注,city对b市进行标注,通过poi对f大厦进行标注等,通过标注可以更有效地从原始地址信息中提取得到有效的标准地址。
64.具体地,可以通过对原始地址信息进行标注,确定原始地址信息中各个信息是属于地址层级中的哪个级。从而在后续进行更加精准的地址信息提取。在一个具体地实施例中,可以通过训练的完成的神经网络模型来完成层级地址信息的提取工作。
65.步骤207,根据标注地址信息与预设关键地址集,获取原始地址信息对应的标准地址信息。
66.其中,预设关键地址集是指服务器104内置的标准关键地址集,可以做为派件人员派件过程中的实际地址依据。标准地址信息是由标注地址信息通过预设关键地址集转化而来的标准地址,可以摆脱由寄件人的填写习惯和细化地址的差异导致的地址无法清除识别问题,从而提高识别效率。
67.具体的,当寄件人在填写寄件地址时,部分地址是基于电子运单中选取的具体信息,如对于省、市、县以及街道等信息,这部分信息一般由寄件人从多个不同的同级信息中择一选取,因此不会出现不清楚的问题。这部分信息被称为aoi(area of interest,兴趣面)区域信息。而进一步细化下的poi信息则由寄件人自主填写,由于寄件人的填写习惯和细化地址的差异,可能导致识别困难的问题,而本技术中通过对地址信息进行标注,而后基于服务器内置预设关键地址集,通过对比,确定用户填写的room no地址信息对应的关键地址,从而将待识别快递运单中的原始地址信息转化为标准地址信息,方便派件过程中相关派件人员的运单识别效率。
68.上述地址信息提取方法,通过获取待识别快递运单;提取待识别快递运单的原始地址信息;对原始地址信息中的层级地址信息进行标注,获取标注地址信息;根据标注地址信息与预设关键地址集,获取原始地址信息对应的标准地址信息。本技术通过提取快递运单内的原始地址,而后基于层级地址信息标注以及标准地址识别,来确定原始地址信息对应的标准地址信息,可以有效提高快递派件过程中的地址信息识别效率,避免出现因客户写错别字等原因导致地址信息不清楚,而使派件过程无法正常进行,影响快递派件效率的情况。
69.在一个实施例中,如图3所示,步骤207包括:
70.步骤302,获取标注地址信息中的关键地址,与预设关键地址集中标准关键地址的相似度。
71.步骤304,根据相似度,识别标注地址信息对应的标准关键地址。
72.步骤306,根据标注地址信息与标准关键地址,获取原始地址信息对应的标准地址信息。
73.其中,关键地址即上述的poi地址。而预设关键地址集与上述的aoi区域信息一一对应,一个预设关键地址集内包含多个不同的关键地址。而标准关键地址是指服务器104内预存的,与用户输入的poi地址对应的地址信息,一个预设关键地址集内包含多个不同的关键地址。
74.在对原始地址信息中的层级地址信息进行标注的过程中,包含提取poi地址,并添加标注的过程,因此可以在识别标注地址信息时,直接获取标注地址信息中的关键地址。同时可以根据标注地址信息中的aoi信息,查找与标注地址信息对应的预设关键地址集。而后确定标注地址信息中的关键地址,与预设关键地址集中各个标准关键地址的相似度。而后服务器104可以通过对比相似度,将用户输入的poi地址转化为相应的标准关键地址,来将原始地址信息转化为标准地址信息。本实施例中,通过相似度可以有效地识别出原始地址信息对应的标准地址信息,提高识别过程中的识别准确率。
75.如图4所示,在一个实施例中,步骤302包括:
76.步骤401,根据标注地址信息中的标注,识别标注地址信息中的兴趣面地址与标注关键地址。
77.步骤403,查找兴趣面地址对应的预设关键地址集。
78.步骤405,通过基于计算word embedding余弦距离的fasttext文本相似度算法,获取标注关键地址与预设关键地址集中标准关键地址的相似度。
79.其中,兴趣面地址即上文中的aoi地址,其对应地址层级中的prov(省)》city(市)》
district(区)》town(镇)》comm(小区)》road(街道)》roadno(街道号)这段层级,通过兴趣面地址,可以将原始地址信息对应的标准地址定位到一个具体地区域内,而一个兴趣面地址对应一个预设关键地址集。而标注关键地址则与地址层级中的poi地址对应。一个兴趣面地址对应一个预设关键地址集。
80.具体地,可以根据标注地址信息中的标注,识别出标注地址信息中的兴趣面地址与标注关键地址。而后基于兴趣面地址,从全量的关键地址中,确定与当前兴趣面地址对应的预设关键地址集,而后通过基于计算word embedding余弦距离的fasttext文本相似度算法,计算当前原始地址信息中的标注关键地址与预设关键地址集中各个关键地址的相似度,从而可以基于相似度识别出标注地址信息对应的标准关键地址。本实施例中,通过识别标注地址信息中的兴趣面地址与标注关键地址,而后查找兴趣面地址对应的预设关键地址集,只将预设关键地址集与标注关键地址进行对比,可以有效减少对比过程中的计算量,从而提高地址信息提取过程中的提取效率。
81.如图5所示,在其中一个实施例中,步骤302之前,还包括:
82.步骤502,获取带层级地址信息标注的历史快递运单数据。
83.步骤504,根据层级地址信息标注,识别历史快递运单数据中的兴趣面地址,以及兴趣面地址对应的关键地址的地址组合。
84.步骤506,对兴趣面地址相同的地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
85.其中,历史快递运单数据具体是指从历史数据库中提取出的运单数据。而地址组合是指一个兴趣面地址与一个关键地址所构成的组合地址。在其中一个实施例中,历史快递运单数据可以是从快递系统对应的fvp(全方位可视化平台)kafka和oms(订单管理系统)kafka中随机抽取的部分历史快递运单。这部分历史快递运单中,收件地址已经被进行了标准。而后,服务器104可以基于这部分历史快递运单来构建每个兴趣面地址对应一个标准关键地址集合。首先,服务器104先获取带层级地址信息标注的历史快递运单数据,而后基于层级地址信息标注,识别历史快递运单数据中的兴趣面地址。兴趣面地址表征一个区域,而且这部分信息对于所有快递运单都是相同的,不会出现差异,因此可以基于历史快递运单数据中的层级地址信息标注,对这些历史快递运单数据进行高效地聚类。将兴趣面地址相同的历史快递运单数据分在一类中,构建兴趣面地址与关键地址的地址组合,并进行聚类,其中聚类具体是指把同一兴趣面地址下类似的关键地址视为相同地址。并计算一个兴趣面地址对应的多个地址集合中各个关键地址之间的相似度,而后基于相似度进行聚类,确定多个地址集合中的标准关键地址,而一个兴趣面地址对应的所有标准关键地址即为兴趣面地址对应的预设关键地址集。本实施例中,通过历史快递运单数据来构建各兴趣面地址对应的预设关键地址集,可以有效保证所构建预设关键地址集中标准关键地址的有效性,
86.在其中一个实施例中,步骤506之前,还包括:步骤601,确定各地址组合在历史快递运单数据中的出现频率以及各地址组合之间的相似度;根据出现频率以及相似度对各地址组合进行清洗。步骤506包括:对清洗后的兴趣面地址相同的地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
87.其中,统计每个地址组合的出现频率,主要是为了剔除其中出现频率较少的组合,避免表述错误的关键地址信息对数据的干扰。而各地址组合之间的相似度具体是指相同兴
趣面地址下各个关键地址的相似度,该过程可以使用基于计算word embedding余弦距离的fasttext文本相似度算法来进行计算。在计算各个地址组合间关键地址的相似度之后,将高于相似度阈值的关键地址视为相同的关键地址,并将其中出现频率最高的关键地址作为标准关键地址,并将其他高于相似度阈值的关键地址转化为标准关键地址。如此一来,历史快递运单数据中的关键地址就全部转化为了预设关键地址集中的预设关键地址。而后就可以对清洗后的兴趣面地址相同的地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。本实施例中,通过出现频率以及相似度对各地址组合进行清洗,可以有效保证聚类分析过程中所得的聚类结果的有效性,排除错误信息的干扰。
88.在其中一个实施例中,步骤207之后,还包括:对标准地址信息中的标准关键地址进行标注。
89.具体地,在确定标准关键地址之后,可以输出该标准关键地址给到相关的派件操作人员手中,而在输出之前,服务器104还可以对标准地址信息中的标准关键地址进行标注,以优化其中的关键地址信息的表现力。其中标注具体可以对标准关键地址的字体进行加粗放大,或者用醒目的颜色,如红色进行标注。本实施例中,通过对标准地址信息中的标准关键地址进行标注,可以有效保证快递派件等操作过程中,标准关键地址的识别速度,从而提高操作效率。
90.在其中一个实施例中,步骤205包括:通过预设lstm信息标注模型,对原始地址信息中的层级地址信息进行标注,获取标注地址,预设lstm信息标注模型通过带层级地址信息标注的历史快递运单数据训练获取。
91.lstm模型即长短期记忆人工神经网络模型,其是一种时间循环神经网络,是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的rnn都具有一种重复神经网络模块的链式形式。本技术中,主要通过预先构建完成的lstm信息标注模型来对快递运单中的地址信息进行标注,确定对输入的地址按照层级分割,而后即可按照需求对不同层级的信息进行组合,来获得标注地址信息中的兴趣面地址与标注关键地址。lstm模型基于深度学习算法,其训练集为带层级地址信息标注的历史快递运单数据,可以基于历史快递运单数据对初始的lstm模型进行训练,通过梯度下降法等训练方法来完成训练,获取可用于地址信息标注的预设lstm信息标注模型。本实施例中,通过训练完成的预设lstm信息标注模型来完成对原始地址信息中的层级地址信息的标注,可以有效提高信息标注的准确率。
92.应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
93.在一个实施例中,如图6所示,提供了一种地址信息提取装置,包括:
94.运单获取模块601,用于获取待识别快递运单。
95.地址提取模块603,用于提取待识别快递运单的原始地址信息。
96.地址信息标注模块605,用于对原始地址信息中的层级地址信息进行标注,获取标
注地址信息。
97.标准地址识别模块607,用于根据标注地址信息与预设关键地址集,获取原始地址信息对应的标准地址信息。
98.在其中一个实施例中,标准地址识别模块607具体用于:获取标注地址信息中的关键地址,与预设关键地址集中标准关键地址的相似度;根据相似度,识别标注地址信息对应的标准关键地址;根据标注地址信息与标准关键地址,获取原始地址信息对应的标准地址信息。
99.在其中一个实施例中,标准地址识别模块607还用于:根据标注地址信息中的标注,识别标注地址信息中的兴趣面地址与标注关键地址;查找兴趣面地址对应的预设关键地址集;通过基于计算word embedding余弦距离的fasttext文本相似度算法,获取标注关键地址与预设关键地址集中标准关键地址的相似度。
100.在其中一个实施例中,还包括地址集构建模块,用于:获取带层级地址信息标注的历史快递运单数据;根据层级地址信息标注,识别历史快递运单数据中的兴趣面地址,以及兴趣面地址对应的关键地址的地址组合;对兴趣面地址相同的地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
101.在其中一个实施例中,还包括数据清洗模块,用于:确定各地址组合在历史快递运单数据中的出现频率以及各地址组合之间的相似度;根据出现频率以及相似度对各地址组合进行清洗;地址集构建模块具体用:对清洗后的兴趣面地址相同的地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
102.在其中一个实施例中,还包括关键信息标注模块,用于:对标准地址信息中的标准关键地址进行标注。
103.在其中一个实施例中,地址信息标注模块605具体用于:通过预设lstm信息标注模型,对原始地址信息中的层级地址信息进行标注,获取标注地址,预设lstm信息标注模型通过带层级地址信息标注的历史快递运单数据训练获取。
104.关于地址信息提取装置的具体限定可以参见上文中对于地址信息提取方法的限定,在此不再赘述。上述地址信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
105.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储地址信息提取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址信息提取方法。
106.本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
107.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
108.获取待识别快递运单;
109.提取待识别快递运单的原始地址信息;
110.对原始地址信息中的层级地址信息进行标注,获取标注地址信息;
111.根据标注地址信息与预设关键地址集,获取原始地址信息对应的标准地址信息。
112.在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取标注地址信息中的关键地址,与预设关键地址集中标准关键地址的相似度;根据相似度,识别标注地址信息对应的标准关键地址;根据标注地址信息与标准关键地址,获取原始地址信息对应的标准地址信息。
113.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据标注地址信息中的标注,识别标注地址信息中的兴趣面地址与标注关键地址;查找兴趣面地址对应的预设关键地址集;通过基于计算word embedding余弦距离的fasttext文本相似度算法,获取标注关键地址与预设关键地址集中标准关键地址的相似度。
114.在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取带层级地址信息标注的历史快递运单数据;根据层级地址信息标注,识别历史快递运单数据中的兴趣面地址,以及兴趣面地址对应的关键地址的地址组合;对兴趣面地址相同的地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
115.在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定各地址组合在历史快递运单数据中的出现频率以及各地址组合之间的相似度;根据出现频率以及相似度对各地址组合进行清洗。
116.在一个实施例中,处理器执行计算机程序时还实现以下步骤:对标准地址信息中的标准关键地址进行标注。
117.在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过预设lstm信息标注模型,对原始地址信息中的层级地址信息进行标注,获取标注地址,预设lstm信息标注模型通过带层级地址信息标注的历史快递运单数据训练获取。
118.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
119.获取待识别快递运单;
120.提取待识别快递运单的原始地址信息;
121.对原始地址信息中的层级地址信息进行标注,获取标注地址信息;
122.根据标注地址信息与预设关键地址集,获取原始地址信息对应的标准地址信息。
123.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取标注地址信息中的关键地址,与预设关键地址集中标准关键地址的相似度;根据相似度,识别标注地址信息对应的标准关键地址;根据标注地址信息与标准关键地址,获取原始地址信息对应的标准地址信息。
124.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据标注地址信息中的标注,识别标注地址信息中的兴趣面地址与标注关键地址;查找兴趣面地址对应的预设关键地址集;通过基于计算word embedding余弦距离的fasttext文本相似度算法,获
取标注关键地址与预设关键地址集中标准关键地址的相似度。
125.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取带层级地址信息标注的历史快递运单数据;根据层级地址信息标注,识别历史快递运单数据中的兴趣面地址,以及兴趣面地址对应的关键地址的地址组合;对兴趣面地址相同的地址组合进行聚类,构建各兴趣面地址对应的预设关键地址集。
126.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定各地址组合在历史快递运单数据中的出现频率以及各地址组合之间的相似度;根据出现频率以及相似度对各地址组合进行清洗。
127.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对标准地址信息中的标准关键地址进行标注。
128.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过预设lstm信息标注模型,对原始地址信息中的层级地址信息进行标注,获取标注地址,预设lstm信息标注模型通过带层级地址信息标注的历史快递运单数据训练获取。
129.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。
130.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
131.以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献