一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

OCR识别结果位置校正方法及相关设备与流程

2021-11-05 20:52:00 来源:中国专利 TAG:

ocr识别结果位置校正方法及相关设备
技术领域
1.本技术涉及ocr文档识别技术领域,特别是涉及一种ocr识别结果位置校正方法、装置、计算机设备和存储介质。


背景技术:

2.随着人们对数据价值的日益重视,需要对历史上积累的大量文档进行电子化,然后从中抽取有用的信息,而ocr技术则是信息抽取任务中的重要环节,其识别文字或者符号的准确度对后续任务有着很大影响。
3.但是由于输入到ocr系统的文档,例如图片、pdf等的质量往往不高,以及目前算法的普遍缺陷,会导致以下结果:单个字符识别准确率很高,但是对于跨页的文档、表格等数据,识别往往会出现错误的情形,还需要耗费不少精力去校对还原,为了解决这类缺陷,近年来出现了一些改进方法。
4.申请号为cn202011264865.0的中国发明专利申请公开了一种文本段落结构还原方法,包括对目标图像进行识别,基于识别结果确定目标图像中所有文本框和各文本框的文本框位置,根据各文本框位置对各文本框进行排序,并基于排序结果将各文本框的文本特征输入至预设的深度学习模型进行训练,基于训练的训练结果对各文本框进行合并处理,以获取目标图片对应的所有文本段落。
5.但是在实际实施中发现,该方式需要提取遍历的文本框的位置特征、语言特征以及图像特征,再将之作为遍历的文本框的文本特征。由于需要提取大量的特征来训练深度神经网络模型,使得数据处理的量大大增加,限制了该方式的使用场景。


技术实现要素:

6.基于此,针对上述技术问题,本技术提供一种ocr识别结果位置校正方法、装置、计算机设备及存储介质,以解决现有技术中数据处理量大,导致的使用场景被限制的技术问题。
7.一种ocr识别结果位置校正方法,所述方法包括:
8.通过基于ocr技术的识别模型对识别文档进行实体识别,得到识别结果,其中,所述识别结果中包括至少一个文档实体;
9.构建各所述文档实体的方位关系空间;
10.基于所述方位关系空间,提取各所述文档实体的实体表征向量以及方位关系表征向量;
11.将所述实体表征向量和所述方位关系表征向量输入到训练后的方位校正模型中,得到各方位关系空间中文档实体的方位标签序列,并基于所述方位标签序列对各所述文档实体进行位置校正,得到校正结果。
12.一种ocr识别结果位置校正装置,所述装置包括:
13.识别模块,用于通过基于ocr技术的识别模型对识别文档进行实体识别,得到识别
结果,其中,所述识别结果中包括至少一个文档实体;
14.构建模块,用于构建各所述文档实体的方位关系空间;
15.提取模块,用于基于所述方位关系空间,提取各所述文档实体的实体表征向量以及方位关系表征向量;
16.校正模块,用于将所述实体表征向量和所述方位关系表征向量输入到训练后的方位校正模型中,得到各方位关系空间中文档实体的方位标签序列,并基于所述方位标签序列对各所述文档实体进行位置校正,得到校正结果。
17.一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述ocr识别结果位置校正方法的步骤。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述ocr识别结果位置校正方法的步骤。
19.上述ocr识别结果位置校正方法、装置、计算机设备和存储介质,通过对已经通过ocr技术识别得到的文档中的各文档实体进行方位关系空间的构建,提取各个方位关系空间中各实体文档的两个特征,即实体表征向量和方位关系表征向量,然后输入到校正模型中得到各文档实体的方位标签序列,并基于该序列进行文档实体实际位置的校正。本发明对ocr中识别容易出现错位的区域进行了更细致的空间位置划分,即方位关系空间的构建,通过序列标注的方式,准确判断ocr识别的结果在空间上的合理性,并进行自动还原,从而减少了现有技术中需要进行大量特征提取,数据处理量过大导致的场景应用不广的问题。
附图说明
20.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1为ocr识别结果位置校正方法的应用环境示意图;
22.图2为ocr识别结果位置校正方法的流程示意图;
23.图3为图2中步骤204中构建的方位关系空间的示意图;
24.图4为方位校正模型的结构示意图;
25.图5为ocr识别结果位置校正装置的示意图;
26.图6为一个实施例中计算机设备的示意图。
具体实施方式
27.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
28.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
29.为了使本技术的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.本发明实施例提供的ocr识别结果位置校正方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
31.用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
32.终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
33.服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。
34.需要说明的是,本技术实施例所提供的基于实体空间位置的ocr识别结果位置校正方法一般由服务端/终端执行,相应地,基于实体空间位置的ocr识别结果位置校正装置一般设置于服务端/终端设备中。
35.应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。
36.在一个实施例中,如图2所示,提供了一种ocr识别结果位置校正方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
37.步骤202,通过基于ocr技术的识别模型对识别文档进行实体识别,得到识别结果,其中,所述识别结果中包括至少一个文档实体。
38.本技术是基于现有的ocr系统而设计的,可以应用于对训练样本中的所有文档,根据已有ocr模型得到识别结果,然后对ocr的识别结果中各文档实体的实际位置进行校正的场景;一般地,该识别文档是人工标注出的容易错位的区域aera_d,例如每页的页头和页尾区域,表格区域,将这些区域组成识别文档,也可以称之为待识别的文档;对这些区域进行实体识别,得到识别结果,一般的,识别结果中包括至少一个文档实体,该文档实体可以是
识别出的文字、符号,甚至表格,页头页尾区域。本技术定义的文档实体分为词实体、数字实体。
39.具体地,可以通过基于ocr技术的分词方式识别词实体,用命名实体识别技术识别数字实体;由于分词和命名实体识别技术较为成熟,本技术不限定具体实现方案。
40.步骤204,构建各所述文档实体的方位关系空间。
41.在一些实施例中,获取所述识别文档的标准间距;基于所述标准间距,以各所述文档实体为中心实体,确定所述中心实体所在中心区域的邻近实体区域,得到各文档实体对应的方位关系空间,其中,每个所述邻近实体区域中包括至多一个文档实体或至多一个虚拟实体。
42.其中,标准间距可以是识别文档中的文字的行距、识别文档中字体的长度或者宽度。
43.优选地,标准间距是文档的平均行距,可以通过获取所述识别文档的平均行距;将所述平均行距作为所述标准间距得到。然后,以所述平均行距作为各中心实体所在中心区域的区域边长;构建以各中心实体所在中心区域为中心的九宫格区域,作为方位关系空间,其中,每个九宫格区域包括一个中心区域以及与所述中心区域的8个邻近实体区域。
44.具体地,如图3中的九宫格实体与邻近八个方位的示意图所示,对上述提到的area_d区内任何文档实体x,以自身为中心,在空间上划分九宫格,得到自身所在中心区域和其它八个方位区域,分别是左上、上、右上、左、右、左下、下、右下。可将该篇文档平均行距作为每个格子的边长。对于某一方位区域,例如文档某页的最后一行,存在左下、下和右下方位为空的情形,针对这种情况,进行虚拟方位补齐,即仍视其具有八个方位区域,虚拟方位内的实体视为特殊实体e

blank。
45.这样实体x与该九宫格内其它八个方位的实体均可建立相对空间位置关系。例如以实体b为中心,实体a直接位于实体b的正上方,则存在关系:a位于b上方和b位于a的下方;而对于某个实体而言,其与超出九宫格区域的实体的相对空间位置关系可以通过叠加方式获得。例如:a位于b上方,c位于a上方,则b与c具有空间位置关系a位于b上方,c位于a上方。
46.步骤206,基于所述方位关系空间,提取各所述文档实体的实体表征向量以及方位关系表征向量;
47.建立好这样的方位关系空间,对方位关系空间中的各个文档实体进行特征提取,在本实施例中,提取的特征一般是实体表征向量和方位关系表征向量,无需提取大量的实体特征。
48.优选地,在提取时,需要确定文档实体的实体类型,根据实体类型调用对应的特征提取算法,以实现实体表征向量和方位关系表征向量的提取。
49.具体地,对area_d区内任何实体x,以自身为中心,在空间上划分九宫格,得到自身所在中心区域和其它八个方位区域,分别是左上、上、右上、左、右、左下、下、右下。可将该篇文档平均行距作为每个格子的边长,得到九宫格区域,每个格子区域中包括一个空间实体,该空间实体可以是文档实体或者虚拟实体;可以通过判断空间区域中是否存在连通域的方式得到,当存在连通域意味着该区域存在实际的内容,不为空,可能是符号、文字、数字、格子、线条等等;反之,若不存在,例如,在文档某页的最后一行,存在左下、下和右下方位为空的情形,针对这种情况,进行虚拟方位补齐后,即仍视其具有八个方位区域,虚拟方位内的
空间实体则被视为特殊实体e

blank,即虚拟实体。
50.具体地,对于正常是数字或者词的文档实体,采用word2vec思想得到该实体的实体表征向量;对于特殊实体e

blank,用卷积神经网络cnn提取特征,得到实体表征向量。
51.其中,方位关系表征向量pe的计算方法类似于transformer中的位置向量计算方法。分别按照左上、上、右上、左、右、左下、下、右下为每个方位的位置pos赋值数字1到8,i表示向量中每个维度,dmodel表示实体表征向量的维度。
[0052][0053][0054]
步骤208,将所述实体表征向量和所述方位关系表征向量输入到训练后的方位校正模型中,得到各方位关系空间中文档实体的方位标签序列,并基于所述方位标签序列对各所述文档实体进行位置校正,得到校正结果。
[0055]
将基于九宫格的方位关系空间按照从左到右、从上到下顺序,依次为每个格子里空间实体打上标签,x1:左上、x2:上、x3:右上、...、x9:右下,这样就形成了ocr识别后的实体位次序列s_x,本技术需要做的是判断s_x序列中的实体顺序是否合理,若不合理,则调整到算法认为最合理的次序。
[0056]
假设需要对中心实体x7标注出其八个方位的空间实体。将实体表征向量加上方位关系表征向量,作为已训练好的方位校正模型,即bi

lstm crf模型的输入;如图4所示,该方位校正模型最后输出每个空间实体的方位标签,即s_x中每个邻近实体区域中的空间实体相对于实体x7的方位标签。然后将s_x中每个空间实体都作为中心实体,均采取上诉步骤,提取特征,输入方位校正模型输出方位标签的操作。最后得到调整后方位标签序列sm_xi。
[0057]
其中,图4中x1

x6表示不同的空间实体,输入层为方位校正模型的输入层,bi

lstm为长短时记忆网络,crf为条件随机场。
[0058]
然后就是根据得到的序列进行方位的校正,现根据方位序列标签确定不同方位关系空间的空间关系;获取不同方位关系空间中不同临近实体区域相对于对应的中心区域中中心实体的方位;根据所述空间关系和所述方位,对各所述文档实体进行位置校正。
[0059]
具体地,综合判断位次,对所有sm_xi序列,根据几何常识,最后得到一个序列sm_x。即每个方位中出现次数最多的实体为最终调整后那个方位的实体。例如对所有中心实体而言,左上标签中x1、x2分别出现7次和2次,则最终左上方位对应的实体为x1。
[0060]
上述ocr识别结果位置校正方法中,通过对已经通过ocr技术识别得到的文档中的各文档实体进行方位关系空间的构建,提取各个方位关系空间中各实体文档的两个特征,即实体表征向量和方位关系表征向量,然后输入到校正模型中得到各文档实体的方位标签序列,并基于该序列进行文档实体实际位置的校正。本发明对ocr中识别容易出现错位的区域进行了更细致的空间位置划分,即方位关系空间的构建,通过序列标注的方式,准确判断ocr识别的结果在空间上的合理性,并进行自动还原,从而减少了现有技术中需要进行大量特征提取,数据处理量过大导致的场景应用不广的问题。
[0061]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0062]
在一个实施例中,如图5所示,提供了一种ocr识别结果位置校正装置,该ocr识别结果位置校正装置与上述实施例中ocr识别结果位置校正方法一一对应。该ocr识别结果位置校正装置包括:
[0063]
识别模块502,用于通过基于ocr技术的识别模型对识别文档进行实体识别,得到识别结果,其中,所述识别结果中包括至少一个文档实体;
[0064]
构建模块504,用于构建各所述文档实体的方位关系空间;
[0065]
提取模块506,用于基于所述方位关系空间,提取各所述文档实体的实体表征向量以及方位关系表征向量;
[0066]
校正模块508,用于将所述实体表征向量和所述方位关系表征向量输入到训练后的方位校正模型中,得到各方位关系空间中文档实体的方位标签序列,并基于所述方位标签序列对各所述文档实体进行位置校正,得到校正结果。
[0067]
进一步地,构建模块504,包括:
[0068]
间距识别子模块,用于获取所述识别文档的标准间距;
[0069]
区域划分子模块,用于基于所述标准间距,以各所述文档实体为中心实体,确定所述中心实体所在中心区域的邻近实体区域,得到各文档实体对应的方位关系空间,其中,每个所述邻近实体区域中包括至多一个文档实体或至多一个虚拟实体,作为所述方位关系空间的空间实体。
[0070]
进一步地,间距识别子模块,包括:
[0071]
行距计算单元,用于计算所述识别文档的平均行距;
[0072]
间距设定单元,用于将所述平均行距作为所述标准间距。
[0073]
进一步地,区域划分子模块,包括:
[0074]
配置获取单元,用于以所述平均行距作为各中心实体所在中心区域的区域边长;
[0075]
空间构建单元,用于构建以各中心实体所在中心区域为中心的九宫格区域,作为方位关系空间,其中,每个九宫格区域包括一个中心区域以及与所述中心区域的8个邻近实体区域。
[0076]
进一步地,提取模块506,包括:
[0077]
类型确定子模块,用于确定各方位关系空间上空间区域中空间实体的的实体类型;
[0078]
特征提取子模块,用于根据所述实体类型调用对应的特征提取算法,以提取得到所述实体表征向量和方位关系表征向量。
[0079]
进一步地,类型确定子模块,包括:
[0080]
连通域识别单元,用于识别各空间实体所在的区域是否存在连通域;
[0081]
第一类型确定单元,用于若是,确定所述文档实体的实体类型为文档实体,并调用
卷积神经网络提取所述文档实体的实体表征向量和方位关系表征向量;
[0082]
第二类型确定单元,用于若否,确定所述文档实体的实体类型为虚拟实体,并调用词袋模型提取所述实体表征向量和方位关系表征向量。
[0083]
进一步地,校正模块508,包括:
[0084]
关系确定子模块,用于确定不同方位关系空间的空间关系;
[0085]
方位获取子模块,用于获取不同方位关系空间中不同临近实体区域相对于对应的中心区域中中心实体的方位;
[0086]
位置校正子模块,用于根据所述空间关系和所述方位,对各所述文档实体进行位置校正。
[0087]
上述ocr识别结果位置校正装置,通过对已经通过ocr技术识别得到的文档中的各文档实体进行方位关系空间的构建,提取各个方位关系空间中各实体文档的两个特征,即实体表征向量和方位关系表征向量,然后输入到校正模型中得到各文档实体的方位标签序列,并基于该序列进行文档实体实际位置的校正。本发明对ocr中识别容易出现错位的区域进行了更细致的空间位置划分,即方位关系空间的构建,通过序列标注的方式,准确判断ocr识别的结果在空间上的合理性,并进行自动还原,从而减少了现有技术中需要进行大量特征提取,数据处理量过大导致的场景应用不广的问题。
[0088]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储文档实体和识别文档。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于实体空间位置的ocr识别结果位置校正方法。本实施例通过对已经通过ocr技术识别得到的文档中的各文档实体进行方位关系空间的构建,提取各个方位关系空间中各实体文档的两个特征,即实体表征向量和方位关系表征向量,然后输入到校正模型中得到各文档实体的方位标签序列,并基于该序列进行文档实体实际位置的校正。本发明对ocr中识别容易出现错位的区域进行了更细致的空间位置划分,即方位关系空间的构建,通过序列标注的方式,准确判断ocr识别的结果在空间上的合理性,并进行自动还原,从而减少了现有技术中需要进行大量特征提取,数据处理量过大导致的场景应用不广的问题。
[0089]
其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0090]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中基于实体空间位置的ocr识别结果位置校正方法的步骤,例如图2所示的步骤202至步骤208,或者,处理器执行计算机可读指令时实现上述实施例中基于实体空间位置的ocr识别结果位置校正装置的各模块/单元的功能,
例如图5所示模块502至模块508的功能。
[0091]
本实施通过对已经通过ocr技术识别得到的文档中的各文档实体进行方位关系空间的构建,提取各个方位关系空间中各实体文档的两个特征,即实体表征向量和方位关系表征向量,然后输入到校正模型中得到各文档实体的方位标签序列,并基于该序列进行文档实体实际位置的校正。本发明对ocr中识别容易出现错位的区域进行了更细致的空间位置划分,即方位关系空间的构建,通过序列标注的方式,准确判断ocr识别的结果在空间上的合理性,并进行自动还原,从而减少了现有技术中需要进行大量特征提取,数据处理量过大导致的场景应用不广的问题。
[0092]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0093]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0094]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0095]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献