一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信息提取方法、装置、电子设备及存储介质与流程

2023-04-11 09:08:30 来源:中国专利 TAG:

技术特征:
1.一种信息提取方法,其特征在于,包括:获取待应用的目标字段以及从表格中提取出来的文本信息;从所述文本信息中召回与所述目标字段匹配的键信息,并基于所述键信息从所述文本信息中召回至少一个候选信息;针对每个所述候选信息,确定将所述候选信息作为与所述键信息匹配的值信息的可行性,以基于各所述候选信息的可行性,对各所述候选信息进行排序;基于各所述候选信息的排序结果,从各所述候选信息中确定目标信息,并将所述目标信息作为从所述表格中提取出来的所述目标字段的字段值。2.根据权利要求1所述的方法,其特征在于,所述从所述文本信息中召回与所述目标字段匹配的键信息,包括:获取预先配置的与所述目标字段匹配的键模式,并从所述文本信息中召回与所述键模式匹配的键信息;所述基于所述键信息从所述文本信息中召回至少一个候选信息,包括:从所述文本信息中召回位于所述键信息的预设位置上的中间信息;获取预先配置的与所述目标字段匹配的值模式,并基于所述值模式从所述中间信息中召回至少一个候选信息。3.根据权利要求1所述的方法,其特征在于,所述确定将所述候选信息作为与所述键信息匹配的值信息的可行性,包括:分别获取包围住所述候选信息的候选框以及包围住所述键信息的键框;针对所述候选框的左框线上的第一点以及所述键框的右框线上的第二点,确定所述第一点与所述第二点间的左右相距距离;针对所述候选框的上框线上的第三点以及所述键框的下框线上的第四点,确定所述第三点与所述第四点间的上下相距距离;根据所述左右相距距离和所述上下相距距离,确定将所述候选信息作为与所述键信息匹配的值信息的可行性。4.根据权利要求3所述的方法,其特征在于,所述第一点包括第一上顶点、第一中间点和第一下顶点,所述第二点包括第二上顶点、第二中间点和第二下顶点,所述确定所述第一点与所述第二点间的左右相距距离,包括:确定所述第一上顶点和所述第二上顶点间的上顶点相距距离、所述第一中间点和所述第二中间点间的中间点相距距离、以及所述第一下顶点和所述第二下顶点间的下顶点相距距离;获取预先设置的上顶点权重、中间点权重以及下顶点权重;根据所述上顶点相距距离以及所述上顶点权重确定上顶点权重距离,根据所述中间点相距距离以及所述中间点权重确定中间点权重距离,并且根据所述下顶点相距距离以及所述下顶点权重确定下顶点权重距离;根据所述上顶点权重距离、所述中间点权重距离以及所述下顶点权重距离,确定所述第一点与所述第二点间的左右相距距离。5.根据权利要求3所述的方法,其特征在于,所述根据所述左右相距距离和所述上下相距距离,确定将所述候选信息作为与所述键信息匹配的值信息的可行性,包括:
基于所述左右相距距离和所述上下相距距离中的较小相距距离,表示所述候选信息作为与所述键信息匹配的值信息的可行性。6.根据权利要求1所述的方法,其特征在于,所述基于各所述候选信息的排序结果,从各所述候选信息中确定目标信息,包括:基于各所述候选信息的排序结果,确定各所述候选信息中的可行性最高的所述候选信息,并将所述可行性最高的所述候选信息作为目标信息。7.根据权利要求1所述的方法,其特征在于,在所述基于各所述候选信息的可行性,对各所述候选信息进行排序之后,还包括:基于排序后的各所述候选信息的可行性,从所述排序后的各所述候选信息中过滤掉与所述键信息无关的无关信息,得到保留下来的各所述候选信息;所述基于各所述候选信息的排序结果,从各所述候选信息中确定目标信息,包括:在保留下来的各所述候选信息非空的情况下,基于保留下来的各所述候选信息的排序结果,从保留下来的各所述候选信息中确定目标信息。8.根据权利要求1所述的方法,其特征在于,还包括:获取对所述表格进行图像采集后得到的表格图像;基于光学字符识别技术从所述表格图像中提取出所述文本信息。9.一种信息提取装置,其特征在于,包括:文本信息获取模块,用于获取待应用的目标字段以及从表格中提取出来的文本信息;候选信息召回模块,用于从所述文本信息中召回与所述目标字段匹配的键信息,并基于所述键信息从所述文本信息中召回至少一个候选信息;候选信息排序模块,用于针对每个所述候选信息,确定将所述候选信息作为与所述键信息匹配的值信息的可行性,以基于各所述候选信息的可行性,对各所述候选信息进行排序;字段值提取模块,用于基于各所述候选信息的排序结果,从各所述候选信息中确定目标信息,并将所述目标信息作为从所述表格中提取出来的所述目标字段的字段值。10.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-8中任一项所述的信息提取方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求1-8中任一所述的信息提取方法。

技术总结
本发明实施例公开了一种信息提取方法、装置、电子设备及存储介质。该方法包括:获取待应用的目标字段以及从表格中提取出来的文本信息;从文本信息中召回与目标字段匹配的键信息,并基于键信息从文本信息中召回至少一个候选信息;针对每个候选信息,确定将候选信息作为与键信息匹配的值信息的可行性,以基于各候选信息的可行性,对各候选信息进行排序;基于各候选信息的排序结果,从各候选信息中确定目标信息,并将目标信息作为从表格中提取出来的目标字段的字段值。本发明实施例的技术方案,可从任意表格样式下的表格中自动提取出目标字段的字段值。字段的字段值。字段的字段值。


技术研发人员:张九龙
受保护的技术使用者:上海浦东发展银行股份有限公司
技术研发日:2022.09.06
技术公布日:2022/11/25
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表