一种结构化信息的生成方法、装置和计算机可读存储介质与流程

2022-05-18 13:23:06 来源：中国专利 TAG：

1.本技术涉及图像处理技术领域，具体涉及一种结构化信息的生成方法、装置和计算机可读存储介质。

背景技术：

2.每天有大量的信息生成，需要从这些信息中筛选出关键的信息，以便进行存储或管理；例如，以电动车的登记管理为例，需要提交电动车的合格证等资料，通过人工手动进行电动车的合格证信息的录入和识别，效率低、时间长，且极易出现录入错误，无法对录入和识别过程进行记录和追溯。

技术实现要素：

3.本技术提供一种结构化信息的生成方法、装置和计算机可读存储介质，能够提升效率，且适应性较广。
4.为解决上述技术问题，本技术采用的技术方案是：提供一种结构化信息的生成方法，该方法包括：获取模板图像，模板图像包括多个参照字段与多个识别区，识别区与参照字段所在的区域不同；对获取到的第一图像进行方向矫正处理，得到第二图像；对第二图像进行文本识别处理，得到文本识别结果；将文本识别结果与参照字段进行匹配，得到匹配结果；基于匹配结果对第二图像进行矫正，得到第三图像，第三图像的角度与模板图像的角度相同；基于文本识别结果、识别区以及第三图像，生成结构化信息。
5.为解决上述技术问题，本技术采用的另一技术方案是：提供一种文档结构化装置，该文档结构化装置包括：获取模块、处理模块以及生成模块，获取模块用于获取模板图像，模板图像包括多个参照字段与多个识别区，识别区与参照字段所在的区域不同；处理模块与获取模块连接，用于对获取到的第一图像进行方向矫正处理，得到第二图像；对第二图像进行文本识别处理，得到文本识别结果；将文本识别结果与参照字段进行匹配，得到匹配结果；基于匹配结果对第二图像进行矫正，得到第三图像，第三图像的角度与模板图像的角度相同；生成模块与处理模块连接，用于基于文本识别结果、识别区以及第三图像，生成结构化信息。
6.为解决上述技术问题，本技术采用的另一技术方案是：提供一种文档结构化装置，该文档结构化装置包括互相连接的存储器和处理器，其中，存储器用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述技术方案中的结构化信息的生成方法。
7.为解决上述技术问题，本技术采用的另一技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述技术方案中的结构化信息的生成方法。
8.通过上述方案，本技术的有益效果是：用户先制作模板图像，该模板图像包括多个参照字段与多个识别区，且识别区与参照字段所在的区域不同；然后文档结构化装置对第一图像进行方向矫正处理，生成第二图像；识别第二图像中的文字，得到文本识别结果；将
文本识别结果与参照字段进行匹配，得到匹配结果；利用匹配结果对第二图像进行矫正，得到与模板图像的角度相同的第三图像；再从第三图像中提取出与识别区对应的区域的文本识别结果，得到结构化信息；由于用户可以自定义模板图像，因此能够满足不同用户的应用需要，适用性较为广泛；而且，通过将模板图像与待处理的图像进行对比，能够快速提取想要的内容，无需单纯依靠人工实现，提升了信息抽取的效率。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：
10.图1是本技术提供的结构化信息的生成方法一实施例的流程示意图；
11.图2是本技术提供的结构化信息的生成方法另一实施例的流程示意图；
12.图3是本技术提供的方向检测网络的示意图；
13.图4是本技术提供的文本识别网络的示意图；
14.图5是本技术提供的模板图像中参照字段的示意图；
15.图6是图5所示的模板图像中识别区的示意图；
16.图7是本技术提供的将90
°
的第一图像转正为0
°
的第四图像的示意图；
17.图8是图7中第四图像的hough直线检测结果的示意图；
18.图9是与图7所示的第四图像对应的第二图像的示意图；
19.图10是图9所示的第二图像中与参照字段对应的字段的示意图；
20.图11是本技术提供的第三图像的示意图；
21.图12是图7中的第一图像对应的结构化信息；
22.图13是本技术提供的文档结构化装置一实施例的结构示意图；
23.图14是本技术提供的文档结构化装置另一实施例的结构示意图；
24.图15是本技术提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
25.下面结合附图和实施例，对本技术作进一步的详细描述。特别指出的是，以下实施例仅用于说明本技术，但不对本技术的范围进行限定。同样的，以下实施例仅为本技术的部分实施例而非全部实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
26.在本技术中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
27.需要说明的是，本技术中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.请参阅图1，图1是本技术提供的结构化信息的生成方法一实施例的流程示意图，该方法包括：
29.s11：获取模板图像。
30.用户可对不同文档进行分析，制作出模板图像并进行保存，该模板图像包括多个参照字段与多个识别区，识别区与参照字段所在的区域不同。具体地，相同版式的不同图像中位置和内容固定不变的字段作为参照字段，可框选参照字段作为锚点，用做对后续传入的图像进行匹配和矫正；参考字段的数量可以根据具体应用需求进行设置，比如，在制作模板图像时，参照字段的数量可以至少选取6个；识别区为图像中需要进行识别的区域。
31.可以理解地，参照字段可以与识别区的名称字段完全不同，或者参照字段与识别区的名称字段至少部分相同。
32.s12：对获取到的第一图像进行方向矫正处理，得到第二图像。
33.可从图像数据库中获取第一图像，或者采用摄像设备对要处理的文档进行拍摄得到第一图像，即第一图像为包括文档的图像，第一图像中的文档可以为产品的合格证、身份证或票据等具有固定格式的文档。对于获取到的第一图像，可检测该第一图像是否为规整的图像，即第一图像中的大部分文字是否倾斜，如果第一图像中的大部分文字是倾斜的，则表明第一图像是倾斜的，为了提升后续文本识别的准确度，先对第一图像进行方向矫正处理，以将第一图像调整为规整的图像，即将第一图像的角度调整为0
°
，生成第二图像。
34.s13：对第二图像进行文本识别处理，得到文本识别结果。
35.在完成方向矫正后，采用文本识别方法对第二图像进行处理，生成文字识别结果，该文本识别方法为相关技术中常用的识别方法，比如：光学字符识别(optical character recognition，ocr)。
36.s14：将文本识别结果与参照字段进行匹配，得到匹配结果。
37.在完成对第二图像的识别后，将模板图像中的参照字段与文本识别结果进行匹配；具体地，文本识别结果包括多个子识别结果，判断每个子识别结果是否与参考字段相同或者二者的相似度是否大于设定值，若是，则认为匹配成功，将子识别结果与相应的参考字段放入匹配结果。
38.s15：基于匹配结果对第二图像进行矫正，得到第三图像。
39.在完成文本识别结果与模板图像的匹配后，利用匹配结果对第二图像进行矫正处理，即对第二图像的角度进行调整，使得生成的第三图像的角度与模板图像的角度相同。
40.s16：基于文本识别结果、识别区以及第三图像，生成结构化信息。
41.由于第三图像的角度与模板图像的角度相同，因此两张图像中相应区域的位置大致相同，可利用识别区的位置信息从第三图像中找到相应的区域(记作候选区)，可以将候选区对应的文本识别结果作为结构化信息输出。可以理解地，还可将第三图像中的其他信息作为结构化信息输出，在此不做限定。
42.本实施例提供了一种文档结构化方案，涉及文字检测、文字识别及结构化技术；为了抽取待处理的图像中的关键信息，比如：登记电动车的合格证中的有效信息；用户可以自定义模板图像，采用模板图像、图像处理以及文字检测识别技术，对待处理的图像进行处理，能够快速提取待处理的文档中想要的位置信息和内容，无需人工从文档中提取有效信息，即采用机器实现，有助于提升信息抽取的效率；由于用户可以自定义模板图像的具体内容，因此能够满足不同用户的应用需要，适用性较为广泛。
43.请参阅图2，图2是本技术提供的结构化信息的生成方法另一实施例的流程示意图，该方法包括：
44.s21：获取模板图像以及与识别区对应的识别名称字段，并建立识别名称字段与识别区的对应关系，得到映射表。
45.用户先制作模板图像，并框选识别区，可通过框选及命名，构建识别名称字段与识别区的对应关系(即key-value的对应关系)，用于对后续传入的相同版式的图像中相同位置的内容进行结构化识别，识别名称字段所在的区域与识别区不同；在制作完模板图像之后，可对模板图像进行保存，进行后续操作。
46.s22：检测第一图像的方向，得到第一倾斜角度。
47.采用预先训练完的方向检测网络对第一图像进行检测处理，得到第一图像的方向(即第一倾斜角度)；具体地，可采用图3所示方向检测网络检测第一图像的角度，该方向检测网络采用vgg16(visual geometry group，视觉几何组)，其中，“conv”表示卷积操作，卷积核的大小为3
×
3，“pool”表示最大池化操作，“fc”表示全连接层，最后一层“fc”的输出为4维数据，表示四个类别，分别为0
°
、90
°
、180
°
以及270
°
。
48.s23：判断第一倾斜角度是否为预设角度。
49.在获取到第一图像的角度后，判断第一倾斜角度是否为预设角度，该预设角度可以为0
°
。
50.s24：若第一倾斜角度为预设角度，则对第一图像进行旋转处理，得到第四图像。
51.先通过方向检测网络判别第一图像的方向，然后将第一图像旋转到0
°
，即符合人眼观察的正向方向，生成第四图像。
52.s25：对第四图像进行矫正处理，得到第二图像。
53.对第四图像进行旋转文本矫正处理，生成第二图像；具体地，先对第四图像进行霍夫(hough)直线检测，得到直线检测结果；然后基于直线检测结果，对第四图像进行矫正处理，得到第二图像。
54.进一步地，hough检测是一种有效的检测直线的算法，把直角坐标系的目标点映射到极坐标系上进行累积，即先使直角坐标系平面上任一直线上的所有点均累积到极坐标的同一点集，然后通过寻找极坐标系中点集的峰值来发现较长的直线特征，能够容忍直线的不连续性。
55.hough变换的基本原理在于利用点与直线的对偶性，将原始图像空间中给定的曲线通过曲线表达形式变为参数空间的一个点，从而将原始图像空间中给定的曲线检测问题转化为对图像空间内具有一定关系的像元进行聚类，寻找能把这些像元用某一解析形式联系起来的参数空间累积对应点，即转换为寻找参数空间中的峰值问题。平面中任意一条直线可以用极坐标方程来表示，即可以用p和theta表示，对于图像空间中的任意点(x，y)来
说，其函数关系为：p＝x
×
cos(theta) y
×
sin(theta)，其中，p为原点到直线的距离，theta确定了直线的方向；由于数字图像在图像空间(x，y)和hough空间h(p，theta)都是离散值，因此，每个像素点都能投影到参数空间中；如果对于同一直线上的n个点进行上述变换，则原图像空间中的n个点在参数空间中对应地得到n条正弦曲线，这些曲线相交于同一点，因此图像空间中共线的点与参数空间中共点的线存在对应关系，只需要找出参数空间中共点的曲线，就能确定图像空间中的曲线。
56.在一具体的实施例中，直线检测结果包括至少一条直线的倾斜角，先对所有直线的倾斜角进行平均得到第二倾斜角度，或者求取所有直线的倾斜角的众数，将该众数作为第二倾斜角度；然后将第四图像旋转第二倾斜角度，得到第二图像，比如：如果第四图像的角度为图像中的文字与水平正方向的夹角，则将第四图像顺时针旋转第二倾斜角度。
57.可以理解地，可以使用hough直线检测仅检测出倾斜角较小(小于90
°
)的直线，然后通过对每条检测出的直线的倾斜角进行平均或求取众数，得到第二倾斜角度；或者，使用hough直线检测仅检测出倾斜角较大(大于90
°
)的直线，然后通过对每条检测出的直线的倾斜角进行平均或求取众数，得到第二倾斜角度；或者，还可以设置hough直线检测出图像中的所有直线，然后滤除倾斜角较大的直线，剩下倾斜角较小的直线，对剩下的直线的倾斜角进行平均或求取众数，得到第二倾斜角度。
58.在第一倾斜角度为预设角度时，表明第一图像的角度为0
°
，由于s23仅输出4个角度值，因此第一图像仍然可能存在倾斜，此时可对第一图像进行矫正处理，得到第二图像，具体的矫正方式与上述对第四图像进行矫正的方式相同，在此不再赘述。
59.s26：对第二图像进行文本检测处理，得到文本检测结果。
60.采用文本识别网络对第二图像进行全局文本检测，以识别出第二图像中的文字；具体地，如图4所示，采用的文本识别网络可以为(differentiable binarization network，dbnet)，dbnet是基于分割的文字检测方法，“32”、“64”、“128”、“256”以及“512”表示输出的特征通道数，“1/2”、“1/4”、“1/8”、“1/16”以及“1/32”表示相对于输入图像的比例，“upsample”为上采样操作，上采样的倍数可以为2倍，“concat”为拼接操作，“con stage one”至“con stage five”分别为第一卷积层至第五卷积层，“probablity map”为文本概率图，“threshold map”为阈值图。
61.进一步地，输入图像(input image)经过特征金字塔，先通过五个阶段的卷积层进行特征提取，然后通过上采样操作级联不同尺度的特征；这种方式能提高对不同尺度的文本进行检测的鲁棒性，dbnet的输出为文本概率图和阈值图，通过对文本概率图和阈值图进行后处理便可得到文本框。可以理解地，后处理的具体方式与相关技术中相同，在此不再赘述。
62.通过先将第一图像矫正为第二图像，即第二图像的角度为0
°
或接近0
°
；再对第二图像进行识别处理，有助于提升字符识别的准确度。
63.s27：将文本识别结果与参照字段进行匹配，得到匹配结果。
64.s27与上述实施例中s14相同，在此不再赘述。
65.s28：基于匹配结果对第二图像进行矫正，得到第三图像。
66.匹配结果包括多个匹配字段，判断子识别结果与参照字段的相似度是否大于预设相似度；若子识别结果与参照字段的相似度大于预设相似度，则将子识别结果确定为匹配
字段；基于匹配字段，对第二图像进行透视变换，得到第三图像。
67.通过将文本检测结果中的所有子识别结果与参照字段进行模板匹配，以匹配到的字段(即匹配字段)为锚点进行透视变换，能够将输入的图像矫正到和模板图像一致。
68.s29：基于映射表、文本检测结果、识别区以及第三图像，生成结构化信息。
69.文本检测结果包括多个子识别结果，该子识别结果包括与识别区对应的区域的识别结果，将子识别结果所在的区域的位置与识别区的位置进行匹配，得到候选区；将候选区对应的子识别结果与映射表进行匹配，得到子识别结果的识别名称；将识别名称以及与识别名称对应的子识别结果，确定为结构化信息，即最终输出与模板图像中位置相同的区域的信息，实现自定义结构化提取，而且效率较高。
70.在其他实施例中，文本检测结果包括多个子识别结果，该子识别结果包括与识别区对应的区域的识别结果以及与识别名称字段对应的区域的识别结果，可先将子识别结果与映射表进行匹配，得到识别名称；然后将识别名称以及与识别名称对应的子识别结果，确定为结构化信息。
71.在一具体的实施方式中，以对电动机的合格证为例进行说明，如图5至图12所示，图5与图6为模板图像，图5中示出了6个参考字段(即虚线框中的字段)，图6中示出了5个识别区(即虚线框中的区域)；图7为第一图像进行矫正的示意图；图8为对第四图像进行hough直线检测的结果；图9为第二图像；图10为第二图像中的5个匹配字段；图11为第三图像，可以看出第三图像中的文字基本上是正的；图12为结构化信息。
72.为了登记电动车合格证的有效信息，由用户自定义模板图像，建立key-value的有效对应关系，利用对应关系与模板图像实现提取待处理的图像中的信息，实现了对合格证需要的位置信息和内容进行快速提取的功能；而且用户能够根据自己的需求自定义模板，通过数字图像处理方法获取合格证的有效信息，实现合格证的结构化，无需硬件设备参与，简便而准确；另外，不需要其他辅助工具便可实现信息抽取，能够应用于抽取不同角度的输入文档中的信息，方便快捷，且鲁棒性好。
73.请参阅图13，图13是本技术提供的文档结构化装置一实施例的结构示意图，文档结构化装置130包括互相连接的存储器131和处理器132，存储器131用于存储计算机程序，计算机程序在被处理器132执行时，用于实现上述实施例中的结构化信息的生成方法。
74.请参阅图14，图14是本技术提供的文档结构化装置另一实施例的结构示意图，文档结构化装置140包括：获取模块141、处理模块142以及生成模块143。
75.获取模块141用于获取模板图像，模板图像包括多个参照字段与多个识别区，识别区与参照字段所在的区域不同。
76.处理模块142与获取模块141连接，其用于对获取到的第一图像进行方向矫正处理，得到第二图像；对第二图像进行文本识别处理，得到文本识别结果；将文本识别结果与参照字段进行匹配，得到匹配结果；基于匹配结果对第二图像进行矫正，得到第三图像，第三图像的角度与模板图像的角度相同。
77.生成模块143与处理模块142连接，其用于基于文本识别结果、识别区以及第三图像，生成结构化信息。
78.请参阅图15，图15是本技术提供的计算机可读存储介质一实施例的结构示意图，计算机可读存储介质150用于存储计算机程序151，计算机程序151在被处理器执行时，用于
实现上述实施例中的结构化信息的生成方法。
79.计算机可读存储介质150可以是服务端、u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
80.在本技术所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
81.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
82.另外，在本技术各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
83.以上所述仅为本技术的实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种多税控设备集中式共享开票数据处理方法与流程

一种结构化信息的生成方法、装置和计算机可读存储介质与流程

相关文献

最热文献