一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

快件关键信息提取方法、装置、电子设备及存储介质与流程

2022-09-07 23:25:12 来源:中国专利 TAG:


1.本发明涉及快件物流技术领域,尤其涉及一种快件关键信息提取方法、装置、电子设备及存储介质。


背景技术:

2.随着互联网的快速发展,机器学习、深度学习在工业界的应用,在快件领域,对快件包裹自动化分拣的需求越来越多。当快件面单信息在快件分拣设备所读取的电子数据中时,可有效利用自动分拣设备实现快件包裹的自动分拣,很大程度上提高效率。
3.目前面单信息电子化一般采用ocr和nlp相结合的技术,对于单一种类的面单图片,传统的方法是采用特定区域ocr检测识别,按特定区域类别分别提取文本可直接得到图片所对应的内容。当面单种类增多时,需每种面单图片单独训练ocr检测识别模型来提取文本内容。每类单一模型相对简单,但场景复杂时,多种面单依赖于多个模型进行识别,使多种面单信息电子化这一任务变得复杂、且不易维护。在同一业务场景下,当同时存在多种面单,若不提前知晓某张面单所属种类时,无法匹配合适的模型来正确提取其关键信息,从而导致面单中快件关键信息的识别效果下降。


技术实现要素:

4.本发明提供了一种快件关键信息提取方法、装置、电子设备及存储介质,以解决现有技术中不同种类的快件面单无法直接识别出其关键信息,从而导致识别效率降低的问题,提高了不同面单中快件关键信息的识别效果。
5.第一方面,本发明实施例提供了一种快件关键信息提取方法,该方法包括:
6.获取当前快件的面单图像,并识别所述面单图像获得所述面单图像中各快件关键信息的关键信息序列;其中,所述关键信息序列包括各快件关键信息的文本信息序列和坐标信息序列;
7.基于所述文本信息序列和/或坐标信息序列对所述当前快件进行快件关键信息提取,得到所述当前快件的快件关键信息。
8.可选的,所述识别所述面单图像获得所述面单图像中各快件关键信息的关键信息序列,包括:
9.基于预先训练的图像序列识别模型,对所述面单图像进行图像序列识别,得到所述面单图像中各面单序列的初始面单信息序列;
10.获取所述初始面单信息序列中的各文本信息序列,并基于所述文本信息序列以及预设的关键信息序列库,确定所述初始面单信息序列中的关键信息序列。
11.可选的,其中,所述快件关键信息包括快件归属单位和快件单号;
12.相应的,所述基于所述文本信息序列和/或坐标信息序列对所述当前快件进行快件关键信息提取,得到所述当前快件的快件关键信息,包括:
13.基于各所述坐标信息序列和预设序列阈值范围,确定所述关键信息序列中的候选
关键信息序列;
14.确定各所述文本信息序列与预设快件单位名称库中各快件单位名称的名称相似度,并基于各所述名称相似度确定所述当前快件的快件归属单位;
15.确定各所述文本信息序列与预设单号组成特征的单号相似度,基于所述单号相似度确定各所述候选关键信息序列中的候选单号信息序列,并基于所述候选单号信息序列中的坐标信息序列和/或所述当前快件的快件归属单位,确定所述当前快件的快件单号。
16.可选的,所述基于各所述名称相似度确定所述当前快件的快件归属单位,包括:
17.获取各所述名称相似度中的最大名称相似度;
18.若所述最大名称相似度大于预设相似度阈值,则将所述最大名称相似度对应的快件单位确定为所述当前快件的快件归属单位;
19.若所述最大名称相似度小于预设相似度阈值,则获取当前快件的快件单号,基于所述快件单号确定所述当前快件的快件归属单位。
20.可选的,所述快件关键信息包括快件三段码信息,
21.相应的,所述基于所述文本信息序列和/或坐标信息序列对所述当前快件进行快件关键信息提取,得到所述当前快件的快件关键信息,包括:
22.分别获取预设的代码组成特征,并基于所述代码组成特征对所述文本信息序列进行信息提取,获得所述当前快件的三段码信息;其中,所述三段码信息包括省份代码、城市代码以及区域代码。
23.可选的,所述快件关键信息包括快件收件信息和快件寄件信息;
24.所述基于所述文本信息序列和/或坐标信息序列对所述当前快件进行快件关键信息提取,得到所述当前快件的快件关键信息,包括:
25.基于所述文本信息序列确定所述当前快件的第一电话信息序列,并基于所述第一电话信息序列确定所述当前快件的收件信息区域;
26.基于所述文本信息序列确定所述当前快件的第二电话信息序列,或者第二地址信息序列,并基于所述第二电话信息序列,或者所述第二地址信息序列确定所述当前快件的寄件信息区域;
27.确定各坐标信息序列分别对应的面单关键序列的序列区域面积;
28.若当前序列区域面积与所述收件信息区域的面积相交比大于预设相交阈值,则确定所述当前序列区域面积对应的快件关键信息为所述当前快件的收件信息;
29.若当前序列区域面积与所述寄件信息区域的面积相交比大于预设相交阈值,则确定所述当前序列区域面积对应的快件关键信息为所述当前快件的寄件信息。
30.可选的,所述得到所述当前快件的快件关键信息,包括:
31.基于预先训练完成的信息提取模型,对所述收件信息进行信息提取,得到所述当前快件的收件配送信息;
32.相应的,所述得到所述当前快件的快件关键信息,包括:
33.基于预先训练完成的信息提取模型,对所述收件信息进行信息提取,得到所述当前快件的寄件所述收件信息包括寄件电话信息、寄件姓名信息和寄件地址信息。
34.第二方面,本发明实施例还提供了一种快件关键信息提取装置,其特征在于,包括:
35.关键信息序列获得模块,用于获取当前快件的面单图像,并识别所述面单图像获得所述面单图像中各快件关键信息的关键信息序列;其中,所述关键信息序列包括各快件关键信息的文本信息序列和坐标信息序列;
36.快件关键信息获得模块,用于基于所述文本信息序列和/或坐标信息序列对所述当前快件进行快件关键信息提取,得到所述当前快件的快件关键信息。
37.第三方面,本发明实施例还提供了一种电子设备,包括:
38.至少一个处理器;以及
39.与至少一个处理器通信连接的存储器;其中,
40.存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的快件关键信息提取方法。
41.第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的快件关键信息提取方法。
42.本实施例的技术方案,具体包括获取当前快件的面单图像,并识别面单图像获得面单图像中各快件关键信息的关键信息序列;其中,关键信息序列包括各快件关键信息的文本信息序列和坐标信息序列;基于文本信息序列和/或坐标信息序列对当前快件进行快件关键信息提取,得到当前快件的快件关键信息。上述技术方案通过将当前快件面单图像进行ocr识别,识别得到的包含配送快件的快件关键信息的关键信息序列,并对该关键信息序列进行智能解析,得到当前快件的快件关键信息,解决了现有技术中对于不同类型的面单图像识别不准确,从而导致配送效率低的技术问题,实现了提高对于面单的识别准确率和识别速率,从而提高了快件配送的效率。
43.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
44.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1是根据本发明实施例一提供的一种快件关键信息提取方法的流程图;
46.图2是根据本发明实施例二提供的一种快件关键信息提取装置的结构示意图;
47.图3是实现本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
48.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
49.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
50.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
51.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
52.例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
53.作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
54.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
55.可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
56.实施例一
57.图1为本发明实施例一提供了一种快件关键信息提取方法的流程图,本实施例可适用于对快件包裹进行识别的情况,该方法可以由快件关键信息提取装置来执行,该快件关键信息提取装置可以采用硬件和/或软件的形式实现,该快件关键信息提取装置可配置于服务器或者智能终端中。如图1所示,该方法包括:
58.s110、获取当前快件的面单图像,并识别面单图像获得面单图像中各快件关键信息的关键信息序列。
59.在本发明实施例中,快件可以理解为任用户通过快件公司配送的快件包裹。为了快速且准确的将快件进行配送,可以将快件的快件关键信息集成于快件面单中,并将快件快单粘贴于快件包裹上,以使在配送过程中扫描快件面单就可以获知当前快件的快件关键信息。换言之,快件的面单图像可以理解为存储有配送当前快件所需的快件关键信息的图像。需要说明的是,快单的面单图像中不仅有当前快件的快件关键信息,还包括当前快件公司的福利信息等其他快件周边信息。快件关键信息可以理解为快件在配送过程中不可或缺的信息,例如快件的快件归属信息、快件三段码信息和快件收寄信息。
60.需要注意的是,快件的面单图像可能会有多种类型,例如不同的快件公司的面单图像类型不同,再例如不同配送业务的简单图像类型不同,本实施例对此不作限。不同类型的面单图像中快件关键信息的位置和展现形式等均有不同,为了解决现有技术中对于不同类型的面单图像识别不准确,从而倒是配送效率低的技术问题,本实施例中的技术方案首
先对获取到的面单图像进行识别,得到面单图像的关键序列信息,并根据关键序列信息提取到快件的快件关键信息,以提高在配送过程中对于不同类型的面单图像进行快速且准确地识别,从而提高快件的配送效率。
61.具体的,本实施例中,获取当前快件的面单图像的方法可以包括但不限于采用预设的图像采集装置对当前快件进行扫描,从而获得当前快件的面单图像。在此基础上,对获得的面单图像进行信息识别,得到面单图像中各快件关键信息的关键信息序列。
62.需要解释的是,信息序列可以理解为用于表征当前快件中各信息的序列。可选的,识别面单图像获得面单图像中各快件关键信息的关键信息序列的方法可以包括:基于预先训练的图像序列识别模型,对面单图像进行图像序列识别,得到面单图像中各面单序列的初始面单信息序列;获取初始面单信息序列中的各文本信息序列,并基于文本信息序列以及预设的关键信息序列库,确定初始面单信息序列中的关键信息序列。
63.具体的,将获得的面单图像输入至预先训练的图像序列识别模型中,得到该图像序列识别模型输出的初始面单信息序列。示例性的,本实施例中的图像序列识别模型可以采用ocr(optical character recognition,光学字符识别)方式进行识别,当然还可以采用其他网络模型进行识别,本实施例对此不作限定。可选的,初始面单信息序列可以包括但不限于各快件信息的文本信息序列和坐标信息序列,如图2所示,初始面单面单中各信息的信息标识、信息名称以及信息在面单图像中的位置坐标等。相应的,初始面单信息序列中既包括快件关键信息的关键信息序列,例如“杨*”、“152***”等关键信息,以及还包括“红包”、“扫码抽取”等快件周边信息的次要信息序列。
64.在上述实施方式的基础上,获取预设的关键信息序列库,该关键信息序列库存储有快件的各快件关键信息的文本信息序列。具体的,获取初始面单信息序列中的各文本信息序列各文本信息序列,并分别将各文本信息序列与关键信息序列库中各快件关键信息的文本信息序列进行匹配。可选的,若匹配成功,则说明当前文本信息序列对应的快件信息为当前快件的快件关键信息;反之,若未匹配成功,则说明当前文本序列对应的快件信息为当前快件的快件周边信息。
65.需要说明的是,为了便于确定初始面单信息序列中的中的关键信息序列,可以在获得初始面单信息序列的情况下,对其进行预设格式的排序,得到排序后的初始面单信息序列,例如将其排序成与关键信息序列可以中的序列信息一致的序列,以提高关键信息序列的识别速率,从而进一步提高对面单图像中快件关键信息的信息提取。
66.s120、基于文本信息序列和/或坐标信息序列对当前快件进行快件关键信息提取,得到当前快件的快件关键信息。
67.在本发明实施例中,快件关键信息包括但不限于当前快件的快件归属信息、快件三段码信息和快件收寄信息。快件关键信息序列包括当前快件中快件关键信息的文本信息序列和坐标信息序列。
68.可选的,快件关键信息包括快件归属单位和快件单号;相应的,基于文本信息序列和/或坐标信息序列对当前快件进行快件关键信息提取,得到当前快件的快件关键信息的方法可以包括:基于各坐标信息序列和预设序列阈值范围,确定关键信息序列中的候选关键信息序列;确定各文本信息序列与预设快件单位名称库中各快件单位名称的名称相似度,并基于各名称相似度确定当前快件的快件归属单位;确定各文本信息序列与预设单号
组成特征的单号相似度,基于单号相似度确定各候选关键信息序列中的候选单号信息序列,并基于候选单号信息序列中的坐标信息序列和/或当前快件的快件归属单位,确定当前快件的快件单号。
69.具体的,在基于上述实施方式确定关键信息序列的基础上,获取各序列中的坐标信息序列。其中,坐标信息序列可以理解为用于体现出该快件关键信息在面单图像中位置坐标的信息序列。可选的,对于任一关键信息序列,基于该关键信息序列中的坐标信息序列确定该关键信息序列的序列宽度;进一步的,获取预设的序列阈值范围,并将获取到的序列宽度与序列阈值范围进行比对;若比对结果符合要求,则说明当前关键信息序列为关键信息序列中的候选关键信息序列。需要解释的是,候选关键信息序列是确定快件归属信息的候选序列,换言之,可以基于确定出的候选关键信息序列确定当前快件的快件归属信息。进一步的,基于上述实施方式,确定关键信息序列中的各候选关键信息序列。
70.可选的,对于候选关键信息序列中任一序列的文本信息序列,确定当前文本信息序列的序列长度。若序列长度符合条件,则确定该文本信息序列与预设的快件单位名称库中各快件单位名称的名称相似度;进一步的,基于上述实施方式,确定各候选关键信息序列的名称相似度,与此同时,获取预设的名称相似度阈值,并基于各名称相似度与上述预设的名称相似度阈值确定当前快件的快件归属单位。可选的,获取各名称相似度中的最大名称相似度;若最大名称相似度大于预设相似度阈值,则将最大名称相似度对应的快件单位确定为当前快件的快件归属单位。
71.可选的,对于候选关键信息序列中任一序列的文本信息序列,获取预设的单号组成特征,将当前文本信息序列与该单号组成特征进行匹配,并确定该文本信息序列与预设的单号组成特征的单号相似度;与此同时,获取预设的单号相似度阈值,并基于该单号相似度与上述单号相似度阈值确定候选关键信息序列中的候选单号信息序列。进一步的,基于上述实施方式,确定候选关键信息序列中的各候选单号信息序列。与此同时,在确定当前快件的快件归属单位的基础上,匹配各候选单号信息序列中的单号信息与快件归属单位的相关度,并将各相关度中符合匹配条件的候选单号信息序列中的单号信息确定为当前快件的快件单号;反之,若各相关度均不符合匹配条件,则确定各相关度中的最高相关度;并将最高相关度对应的候选单号信息序列中的单号信息确定为当前快件的快件单号;当然,还可以将候选单号信息序列中的随机一位单号信息确定为当前快件的快件单号,本实施例对此不作限定。
72.在上述实施方式的基础上,在基于名称相似度确定当前快件的快件归属单位的过程中,若最大名称相似度小于预设相似度阈值,则在确定当前快件的快件单号的基础上,确定该快件单号的快件归属单元,并将该快件归属单位确定为当前快件的快件归属单位。
73.可选的,快件关键信息包括快件三段码信息,相应的,基于文本信息序列和/或坐标信息序列对当前快件进行快件关键信息提取,得到当前快件的快件关键信息的方法可以包括:分别获取预设的代码组成特征,并基于代码组成特征对文本信息序列进行信息提取,获得当前快件的三段码信息;其中,三段码信息包括省份代码、城市代码以及区域代码。
74.具体的,获取预设的代码组成特征,具体的,代码组成特征分别包括第一段代码组成特征、第二段代码组成特征和第三段代码组成特征;进一步的,分别将关键信息序列中的各文本信息序列分别于预设的第一段代码组成特征进行匹配,若匹配成功,则进一步将匹
配成功的关键信息序列中的各文本信息序列分别于预设的第二段代码组成特征进行匹配;若再次匹配成功,则进一步将匹配成功的关键信息序列中的各文本信息序列分别于预设的第三段代码组成特征进行匹配,并基于再次匹配成功的文本信息序列对应的关键信息确定当前快件的省份代码信息、城市代码信息以及区域代码信息。
75.可选的,快件关键信息包括快件收件信息和快件寄件信息;相应的,基于文本信息序列和/或坐标信息序列对当前快件进行快件关键信息提取,得到当前快件的快件关键信息的方法可以包括:基于文本信息序列确定当前快件的第一电话信息序列,并基于第一电话信息序列确定当前快件的收件信息区域;基于文本信息序列确定当前快件的第二电话信息序列,或者第二地址信息序列,并基于第二电话信息序列,或者第二地址信息序列确定当前快件的寄件信息区域;确定各坐标信息序列分别对应的面单关键序列的序列区域面积;若当前序列区域面积与收件信息区域的面积相交比大于预设相交阈值,则确定当前序列区域面积对应的快件关键信息为当前快件的收件信息;若当前序列区域面积与寄件信息区域的面积相交比大于预设相交阈值,则确定当前序列区域面积对应的快件关键信息为当前快件的寄件信息。
76.具体的,遍历关键信息序列中的文本信息序列确定当前快件的第一电话信息序列。本实施例中,默认快件的收件信息在面单图像中的靠前位置,因此将遍历到的第一电话信息序列确定为收件信息的电话信息。可选的,确定第一电话信息序列的方法可以包括若遍历到了两个电话信息序列,且两序列间间隔大于1,则将关键信息序列中第一位置的电话信息序列确定为收件信息的电话信息序列。进一步的,确定第一电话信息序列对应的坐标信息序列,并基于该坐标信息序列以及预设坐标范围为收件信息区域,并将收件信息区域内的关键信息序列为当前快件的收件信息序列。
77.在上述基础上,将收寄件信息序列中第二位置的电话信息序列确定为寄件信息的电话信息序列。进一步的,确定第二电话信息序列对应的坐标信息序列,并基于该坐标信息序列以及预设坐标范围为寄件信息区域,并将寄件信息区域内的关键信息序列为当前快件的寄件信息序列。
78.在上述实施例的基础上,若仅匹配到一个电话信息序列,则将其确定为收件信息的电话信息序列,并基于其电话信息序列确定收件信息区域。进一步的额,遍历关键信息序列中的地址信息序列,并将遍历到的第一地址信息序列对应为收件信息的地址信息序列,将遍历到的第二地址信息序列确定为寄件信息的地址信息序列,确定第二地址序列对应的坐标信息序列,并基于该坐标信息序列以及预设坐标范围为寄件信息区域。当然,还可以基于姓名信息序列确定收件信息区域以及寄件信息区域,本实施例对此不作限定。
79.在上述实施例的基础上,分别基于各关键信息序列的坐标信息序列确定各关键信息序列的序列区域面积;在此基础上,以任一关键信息序列为例,将该序列的序列区域面积为例,若当前序列区域面积与收件信息区域的面积相交比大于预设相交阈值,则确定当前序列区域面积对应的快件关键信息为当前快件的收件信息;若当前序列区域面积与寄件信息区域的面积相交比大于预设相交阈值,则确定当前序列区域面积对应的快件关键信息为当前快件的寄件信息。
80.可选的,收件配送信息包括收件电话信息、收件姓名信息和收件地址信息;在上述实施例的基础上,得到当前快件的快件关键信息的方法可以包括:基于预先训练完成的信
息提取模型,对收件信息进行信息提取,得到当前快件的收件电话信息、收件姓名信息和收件地址信息。
81.可选的,寄件配送信息包括寄件电话信息、寄件姓名信息和寄件地址信息;相应的,得到当前快件的快件关键信息的方法可以包括:基于预先训练完成的信息提取模型,对收件信息进行信息提取,得到当前快件的寄件电话信息、寄件姓名信息和寄件地址信息。当然,还可以采用其他方法对上述信息进行提取,本实施例对此不作限定。
82.需要说明的是,本实施例的技术方案还包括在检测到基于面单图像获取到的当前快件的快件关键信息在当前快件配送完成的情况下,会删除当前快件的快件关键信息,并不会长期存储其快件关键信息。其效果在于一方面可以保证当前快件的快件信息安全,另一方面可以减小当前存储器的存储内存,提高处理器的处理速度。
83.在上述实施例的基础上,本实施例还提供了一个优选实施,该实施例介绍了另一种快件关键信息的提取方法;具体的,本实施例的技术方案包括如下步骤:获取当前快件的面单图像,并将该面单图像进行ocr识别,识别得到的包含文本内容和坐标信息的信息序列;并对该信息序列进行智能解析,得到当前快件的快件关键信息。具体的,其处理流程是首先对信息序列进行预处理,去除确定无意义的序列,并对剩余的关键信息序列进行解析,得到快件关键信息。
84.具体的,本实施例中的快件关键信息解析主要包括三大解析模块:一、快件公司和快件单号解析模块;二、三段码解析模块;三、收寄件信息解析模块。
85.可选的,关于快件单号和快件公司解析模块的解析:快件单号是每一个快件面单的唯一编号,由数字和字母组成。本实施例提出的快件单号和快件公司的解析方法如下:(1)根据信息序列中的坐标点计算该序列的宽度,过滤宽度大于100的序列;(2)匹配前5个序列中的文字,若满足文本长度小于6,且达到与某一快件公司名称的相似度阈值,则快件公司匹配成功;(3)根据快件单号的组成规则,包含字母、数字以及长度约束,提取出潜在的快件单号列表;(4)综合判断(2)、(3)结果,确定最终的快件单号和快件公司,若快件公司缺失,可根据快件单号与快件公司的映射关系推理出所属快件公司。
86.可选的,关于三段码解析模块的解析:三段码是快件面单上的三段数字。第一段代表省份代码,第二段代表城市代码,第三段代表快件员的区域代码。归纳总结三段码的组合特征,依次判断文本框中文本的类别是否属于三段码,提取识别为三段码类别的序列。若两个或两个以上序列被判为三段码,则再根据归纳的三段码规则再次提取。将提取到的面单上的三段码格式化为形如一段%二段%三段的格式。例如:800h s04-00 402格式化为800h%s04-00%402。由于不同快件公司的面单三段码格式不同,面单上采用的分隔符也不同,为便于提取到的信息方便应用,统一格式化为由%分隔。
87.具体的,关于收寄件信息解析模块的解析:收件人信息、寄件人信息是面单中最重要的数据。收寄件信息解析主要包括两个步骤:1、收寄件信息区域框的确定;2、姓名、电话、地址解析。
88.可选的,关于收寄信息区域框的确定:
89.步骤一:匹配关键信息序列中电话序列的位置,所有快件面单默认收件信息在前,寄件信息在后。若匹配到两个电话序列位置,且间隔大于1,则第一个位置为收件电话,取其前一个序列rece_start_points,第二个位置为寄件电话send_tel_points,取其前一个位
置序列坐标为send_start_points。
90.步骤二:若寄件电话坐标不为空,则依次分析其后序列,当匹配到“签收栏”等无意义字符或其后第3个序列停止,记录当前序列前一个序列send_end_points;
91.收件区域框结束位置可能坐标的确定公式方法可以包括:
92.rece_end_points=send_tel_points-(send_tel_points[3][1]-send_tel_points[0][1])
[0093]
进一步的,根据收件区域框左上角顶点坐标rece_start_points和右下角顶点坐标rece_end_points确定其四点坐标。同理,确定寄件区域框四点坐标。
[0094]
步骤三:若寄件电话坐标为空,则在收件电话之后匹配收件地址的结束rece_end_points,其后一个序列坐标为寄件区域起始坐标send_start_points;或者匹配“寄”作为寄件区域起始位置,其前一个序列为收件区域结束坐标;根据收件区域框左上角顶点坐标rece_start_points和右下角顶点坐标rece_end_points确定其四点坐标。同理,确定寄件区域框四点坐标。
[0095]
步骤四:若收件电话、寄件电话均未匹配到,则匹配地址信息,匹配到的第一个地址信息记为收件地址信息,第二个地址为寄件地址信息,否则为空。
[0096]
可选的,关于姓名信息、电话信息、地址信息的解析:
[0097]
步骤一:利用序列面积相交比确定收件区域框和寄件区域框中所包含的信息序列;当序列面积/收件区域框面积》0.6时,认为该序列属于对应区域框,所有满足该条件的序列组成收件信息序列;当序列面积/寄件区域框面积》0.6时,认为该序列属于对应区域框,所有满足该条件的序列组成寄件信息序列。
[0098]
步骤二:计算收件区域框和寄件区域跨的斜度,若斜度超过0.2,则对其所包含序列做旋正处理;斜度由第一个序列的斜率表示。
[0099]
k=(points[1][1]-points[0][1])/(points[1][0]-points[0][0])
[0100]
步骤三:分别计算收件区域和寄件区域中信息序列的行列信息;
[0101]
序列位置由四点坐标表示,根据中心点的相对位置关系确定每个序列的行列。假设第一个序列为第一行,依次计算后续序列中心点位置与当前行中心点位置纵坐标的距离差小于等于0.4*行宽,则认为属于当前行,否则新增一行。
[0102]
当前序列的中心点坐标如下:
[0103]
x_center,y_center=(points[0][0] points[1][0])/2,(points[0][1] points[3][1])/2
[0104]
当前行中心位置由其包含的第一个序列的坐标决定,如下:g_x_center,g_y_center=(g_points[0][0][0] g_points[0][1][0])/2,(g_points[0][0][1] g_points[0][3][1])/2
[0105]
行宽计算公式如下:
[0106]
height=points[3][1]-points[0][1]
[0107]
然后,再对每行内的序列按照横坐标中心点排序。至此,完成区域框中信息序列行列信息的计算和标记。按行列提取文本内容存放在数组中,数组中每一行代表面单中每一行信息。
[0108]
步骤四:对收件区域框中序列进行分类及拼接组合,类别包括姓名、电话和地址。
分类方法不限于规则、机器学习模型。尤其对于地址类别,当有多个文本内容被识别为地址类被时,需对相邻内容拼接组合。
[0109]
本实施例的技术方案,具体包括获取当前快件的面单图像,并识别面单图像获得面单图像中各快件关键信息的关键信息序列;其中,关键信息序列包括各快件关键信息的文本信息序列和坐标信息序列;基于文本信息序列和/或坐标信息序列对当前快件进行快件关键信息提取,得到当前快件的快件关键信息。上述技术方案通过将当前快件面单图像进行ocr识别,识别得到的包含配送快件的快件关键信息的关键信息序列,并对该关键信息序列进行智能解析,得到当前快件的快件关键信息,解决了现有技术中对于不同类型的面单图像识别不准确,从而倒是配送效率低的技术问题,实现了提高对于面单的识别准确率和识别速率,从而提高了快件配送的效率。
[0110]
实施例二
[0111]
图2为本发明实施例三提供的一种快件关键信息提取装置的结构示意图。如图2所示,该装置包括:关键信息序列获得模块210、和快件关键信息获得模块220;其中,
[0112]
关键信息序列获得模块210,用于获取当前快件的面单图像,并识别面单图像获得面单图像中各快件关键信息的关键信息序列;其中,关键信息序列包括各快件关键信息的文本信息序列和坐标信息序列;
[0113]
快件关键信息获得模块220,用于基于文本信息序列和/或坐标信息序列对当前快件进行快件关键信息提取,得到当前快件的快件关键信息。
[0114]
在上述各实施方式的基础上,可选的,关键信息序列获得模块210包括:
[0115]
初始面单信息序列获得单元,用于基于预先训练的图像序列识别模型,对面单图像进行图像序列识别,得到面单图像中各面单序列的初始面单信息序列;
[0116]
关键信息序列获得单元,用于获取初始面单信息序列中的各文本信息序列,并基于文本信息序列以及预设的关键信息序列库,确定初始面单信息序列中的关键信息序列。
[0117]
在上述各实施方式的基础上,可选的,快件关键信息包括快件归属单位和快件单号;
[0118]
相应的,快件关键信息获得模块220包括:
[0119]
候选关键信息序列确定单元。用于基于各坐标信息序列和预设序列阈值范围,确定关键信息序列中的候选关键信息序列;
[0120]
快件归属单位确定单元,用于确定各文本信息序列与预设快件单位名称库中各快件单位名称的名称相似度,并基于各名称相似度确定当前快件的快件归属单位;
[0121]
快件单号确定单元,用于确定各文本信息序列与预设单号组成特征的单号相似度,基于单号相似度确定各候选关键信息序列中的候选单号信息序列,并基于候选单号信息序列中的坐标信息序列和/或当前快件的快件归属单位,确定当前快件的快件单号。
[0122]
在上述各实施方式的基础上,可选的,快件归属单位确定单元包括:
[0123]
最大名称相似度获取子单元,用于获取各名称相似度中的最大名称相似度;
[0124]
第一快件归属单位确定单元,用于若最大名称相似度大于预设相似度阈值,则将最大名称相似度对应的快件单位确定为当前快件的快件归属单位;
[0125]
第二快件归属单位确定单元,用于若最大名称相似度小于预设相似度阈值,则获取当前快件的快件单号,基于快件单号确定当前快件的快件归属单位。
[0126]
在上述各实施方式的基础上,可选的,快件关键信息包括快件三段码信息,快件关键信息获得模块220包括:
[0127]
三段码信息提取单元,用于分别获取预设的代码组成特征,并基于代码组成特征对文本信息序列进行信息提取,获得当前快件的三段码信息;其中,三段码信息包括省份代码、城市代码以及区域代码。
[0128]
在上述各实施方式的基础上,可选的,快件关键信息包括快件收件信息和快件寄件信息;
[0129]
相应的,快件关键信息获得模块220包括:
[0130]
收件信息区域确定单元,用于基于文本信息序列确定当前快件的第一电话信息序列,并基于第一电话信息序列确定当前快件的收件信息区域;
[0131]
寄件信息区域确定单元,用于基于文本信息序列确定当前快件的第二电话信息序列,或者第二地址信息序列,并基于第二电话信息序列,或者第二地址信息序列确定当前快件的寄件信息区域;
[0132]
序列区域面积确定单元,用于确定各坐标信息序列分别对应的面单关键序列的序列区域面积;
[0133]
第一收件信息确定单元,用于若当前序列区域面积与收件信息区域的面积相交比大于预设相交阈值,则确定当前序列区域面积对应的快件关键信息为当前快件的收件信息;
[0134]
第二寄件信息确定单元,用于若当前序列区域面积与寄件信息区域的面积相交比大于预设相交阈值,则确定当前序列区域面积对应的快件关键信息为当前快件的寄件信息。
[0135]
在上述各实施方式的基础上,可选的,收件信息包括收件电话信息、收件姓名信息和收件地址信息;
[0136]
相应的,快件关键信息获得模块220包括:
[0137]
第一收件信息确定单元,用于基于预先训练完成的信息提取模型,对收件信息进行信息提取,得到当前快件的收件电话信息、收件姓名信息和收件地址信息;
[0138]
收件信息包括寄件电话信息、寄件姓名信息和寄件地址信息;
[0139]
相应的,快件关键信息获得模块220包括:
[0140]
第二寄件信息确定单元,用于基于预先训练完成的信息提取模型,对收件信息进行信息提取,得到当前快件的寄件电话信息、寄件姓名信息和寄件地址信息。
[0141]
本发明实施例所提供的快件关键信息提取装置可执行本发明任意实施例所提供的快件关键信息提取方法,具备执行方法相应的功能模块和有益效果。
[0142]
实施例三
[0143]
图3示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0144]
如图3所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0145]
电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0146]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如快件关键信息提取方法。
[0147]
在一些实施例中,快件关键信息提取方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的快件关键信息提取方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行快件关键信息提取方法。
[0148]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0149]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0150]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电
气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0151]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0152]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0153]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0154]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0155]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献