页面的智能定位方法及装置与流程

2022-03-05 10:51:28 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，尤其涉及一种页面的智能定位方法及装置。

背景技术：

2.随着企业数字化的转型，人工智能技术逐渐成为企业产业变革和数字化发展的重要推动力。在企业内项目合同扫描件的审核工作中，往往会结合人工智能技术，通过人工智能技术可以很好地解决以往纯人工审核带来的人工成本高、审核周期长等问题，从而保证了企业经济效益的提升。
3.当前，对于企业合同扫描件中关键信息的审核，一般先采用光学字符识别技术直接识别扫描件中的文本信息，再通过关键字正则匹配方法对扫描件中的关键页面进行定位，这有助于快速查找出需要审核的扫描件关键页面。然而实践发现，目前的光学字符识别技术在识别存在水印、阴影以及倾斜角度页面的文本信息时会出现识别准确率低的情况，影响了后续扫描件关键页面的定位准确性。可见，如何提高扫描件关键页面的识别准确率尤为重要。

技术实现要素：

4.本发明所要解决的技术问题在于，提供一种页面的智能定位的方法及装置，能够通过文本图像检测模型直接识别出目标页面中文本图像的文本信息，并在确定目标页面的整合文本信息后，进而定位出关键页对应的目标页面的整合文本信息。这样，可以无需采用人工对目标页面的文本信息进行识别，进而提高目标页面的文本信息的识别速率以及识别准确率，从而快速以及准确地定位出关键页对应的目标页面的文本信息。
5.为了解决上述技术问题，本发明第一方面公开了一种页面的智能定位方法，所述方法包括：
6.根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个所述目标页面对应的至少一个文本图像；所述检测要素信息包括每个所述目标页面的检测标识，每个所述目标页面均存在对应的原始页面；
7.根据确定出的文本识别模型对每个所述目标页面对应的每个所述文本图像执行文本识别操作，得到每个所述目标页面对应的每个所述文本图像的文本信息；
8.根据每个所述目标页面对应的所有所述文本图像的文本信息，确定每个所述目标页面的整合文本信息。
9.作为一种可选的实施方式，在本发明第一方面中，在所述根据每个所述目标页面对应的所有所述文本图像的文本信息，确定每个所述目标页面的整合文本信息之后，所述方法还包括：
10.计算所有所述目标页面的整合文本信息与确定出的至少一个关键页面的文本信息的文本编辑距离；所有所述关键页面来源于所有所述目标页面对应的原始页面；
11.根据所有所述目标页面的整合文本信息与任一所述关键页面的文本信息的文本
编辑距离，从所有所述目标页面的整合文本信息中，筛选出所述文本编辑距离小于等于预设的文本编辑距离阈值的所有目标页面的整合文本信息，作为该关键页面对应的目标输出页面的文本信息；所有所述目标页面包括所述目标输出页面。
12.作为一种可选的实施方式，在本发明第一方面中，所述根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个所述目标页面对应的至少一个文本图像，包括：
13.将多个目标页面以及检测要素信息输入到确定出的文本图像检测模型中进行分析，得到每个所述目标页面对应的至少一个目标检测区域的位置信息；
14.根据每个所述目标页面对应的每个所述目标检测区域的位置信息，从该目标页面中提取该目标检测区域的文本图像，并作为该目标页面对应的至少一个文本图像。
15.作为一种可选的实施方式，在本发明第一方面中，所述根据确定出的文本识别模型对每个所述目标页面对应的每个所述文本图像执行文本识别操作，得到每个所述目标页面对应的每个所述文本图像的文本信息，包括：
16.将每个所述目标页面对应的每个所述文本图像输入到确定出的文本识别模型中，提取每个所述目标页面对应的每个所述文本图像的文本特征；
17.融合每个所述目标页面对应的每个所述文本图像的文本特征，得到每个所述目标页面对应的每个所述文本图像的融合文本特征；
18.对每个所述目标页面对应的每个所述文本图像的融合文本特征进行序列分析，得到每个所述目标页面对应的每个所述文本图像的融合文本特征序列；
19.对每个所述目标页面对应的每个所述文本图像的融合文本特征序列执行文本识别操作，得到每个所述目标页面对应的每个所述文本图像的文本信息。
20.作为一种可选的实施方式，在本发明第一方面中，所述根据每个所述目标页面对应的所有所述文本图像的文本信息，确定每个所述目标页面的整合文本信息，包括：
21.根据每个所述目标页面对应的所有所述目标检测区域的位置信息以及确定出的排序要素信息对每个所述目标页面对应的所有所述文本图像的文本信息进行排序，得到每个所述目标页面对应的文本信息的排序结果；
22.根据预先确定出的文本信息整合方式整合每个所述目标页面对应的文本信息的排序结果，得到每个所述目标页面的整合文本信息。
23.作为一种可选的实施方式，在本发明第一方面中，所有所述关键页面的文本信息是通过以下方式确定出的：
24.计算至少一个所述原始页面的文本信息与预设特征条件的匹配度；
25.根据所有所述原始页面的文本信息与所述预设特征条件的匹配度，从所有所述原始页面的文本信息中，筛选出所述匹配度大于等于预设的匹配度阈值的所有原始页面的文本信息，作为所有所述关键页面的文本信息；
26.以及，所述方法还包括：
27.根据任一所述关键页面对应的目标输出页面的文本信息，确定该关键页面对应的目标输出页面的页数，并判断所述目标输出页面的页数是否大于预设的页数阈值；
28.当判断出所述目标输出页面的页数大于预设的页数阈值时，对所述检测要素信息执行更改操作，得到更改后的检测要素信息；
29.将所述检测要素信息更新为更改后的所述检测要素信息，以触发重新执行所述的根据所述文本图像检测模型以及更改后的所述检测要素信息检测所有所述目标页面的操作。
30.作为一种可选的实施方式，在本发明第一方面中，所述方法还包括：
31.对于任一所述目标页面对应的任一所述目标检测区域，根据该目标检测区域的文本图像的位置信息判断所述文本图像的旋转角度是否大于预设的旋转角度阈值；
32.当判断出所述文本图像的倾斜角度大于预设的旋转角度阈值时，校正所述文本图像的旋转角度，得到所述文本图像的校正位置信息。
33.本发明第二方面公开了一种页面的智能定位装置，所述装置包括：
34.检测模块，用于根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个所述目标页面对应的至少一个文本图像；所述检测要素信息包括每个所述目标页面的检测标识，每个所述目标页面均存在对应的原始页面；
35.识别模块，用于根据确定出的文本识别模型对每个所述目标页面对应的每个所述文本图像执行文本识别操作，得到每个所述目标页面对应的每个所述文本图像的文本信息；
36.确定模块，用于根据每个所述目标页面对应的所有所述文本图像的文本信息，确定每个所述目标页面的整合文本信息。
37.作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：
38.计算模块，用于在所述确定模块根据每个所述目标页面对应的所有所述文本图像的文本信息，确定每个所述目标页面的整合文本信息之后，计算所有所述目标页面的整合文本信息与确定出的至少一个关键页面的文本信息的文本编辑距离；所有所述关键页面来源于所有所述目标页面对应的原始页面；
39.筛选模块，用于根据所有所述目标页面的整合文本信息与任一所述关键页面的文本信息的文本编辑距离，从所有所述目标页面的整合文本信息中，筛选出所述文本编辑距离小于等于预设的文本编辑距离阈值的所有目标页面的整合文本信息，作为该关键页面对应的目标输出页面的文本信息；所有所述目标页面包括所述目标输出页面。
40.作为一种可选的实施方式，在本发明第二方面中，所述检测模块根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个所述目标页面对应的至少一个文本图像的方式具体为：
41.将多个目标页面以及检测要素信息输入到确定出的文本图像检测模型中进行分析，得到每个所述目标页面对应的至少一个目标检测区域的位置信息；
42.根据每个所述目标页面对应的每个所述目标检测区域的位置信息，从该目标页面中提取该目标检测区域的文本图像，并作为该目标页面对应的至少一个文本图像。
43.作为一种可选的实施方式，在本发明第二方面中，所述识别模块根据确定出的文本识别模型对每个所述目标页面对应的每个所述文本图像执行文本识别操作，得到每个所述目标页面对应的每个所述文本图像的文本信息的方式具体为：
44.将每个所述目标页面对应的每个所述文本图像输入到确定出的文本识别模型中，提取每个所述目标页面对应的每个所述文本图像的文本特征；
45.融合每个所述目标页面对应的每个所述文本图像的文本特征，得到每个所述目标
页面对应的每个所述文本图像的融合文本特征；
46.对每个所述目标页面对应的每个所述文本图像的融合文本特征进行序列分析，得到每个所述目标页面对应的每个所述文本图像的融合文本特征序列；
47.对每个所述目标页面对应的每个所述文本图像的融合文本特征序列执行文本识别操作，得到每个所述目标页面对应的每个所述文本图像的文本信息。
48.作为一种可选的实施方式，在本发明第二方面中，所述确定模块根据每个所述目标页面对应的所有所述文本图像的文本信息，确定每个所述目标页面的整合文本信息的方式具体为：
49.根据每个所述目标页面对应的所有所述目标检测区域的位置信息以及确定出的排序要素信息对每个所述目标页面对应的所有所述文本图像的文本信息进行排序，得到每个所述目标页面对应的文本信息的排序结果；
50.根据预先确定出的文本信息整合方式整合每个所述目标页面对应的文本信息的排序结果，得到每个所述目标页面的整合文本信息。
51.作为一种可选的实施方式，在本发明第二方面中，所有所述关键页面的文本信息是通过以下方式确定出的：
52.计算至少一个所述原始页面的文本信息与预设特征条件的匹配度；
53.根据所有所述原始页面的文本信息与所述预设特征条件的匹配度，从所有所述原始页面的文本信息中，筛选出所述匹配度大于等于预设的匹配度阈值的所有原始页面的文本信息，作为所有所述关键页面的文本信息；
54.以及，所述装置还包括：
55.所述确定模块，还用于根据任一所述关键页面对应的目标输出页面的文本信息，确定该关键页面对应的目标输出页面的页数；
56.判断模块，用于判断所述目标输出页面的页数是否大于预设的页数阈值；
57.更改模块，用于当所述判断模块判断出所述目标输出页面的页数大于预设的页数阈值时，对所述检测要素信息执行更改操作，得到更改后的所述检测要素信息；
58.更新模块，用于将所述检测要素信息更新为更改后的检测要素信息，以触发所述检测模块重新执行所述的根据所述文本图像检测模型以及更改后的所述检测要素信息检测所有所述目标页面的操作。
59.作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：
60.所述判断模块，还用于对于任一所述目标页面对应的任一所述目标检测区域，根据该目标检测区域的文本图像的位置信息判断所述文本图像的旋转角度是否大于预设的旋转角度阈值；
61.校正模块，用于当所述判断模块判断出所述文本图像的倾斜角度大于预设的旋转角度阈值时，校正所述文本图像的旋转角度，得到所述文本图像的校正位置信息。
62.本发明第三方面公开了另一种页面的智能定位装置，所述装置包括：
63.存储有可执行程序代码的存储器；
64.与所述存储器耦合的处理器；
65.所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的页面的智能定位方法。
66.本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的页面的智能定位方法。
67.与现有技术相比，本发明实施例具有以下有益效果：
68.本发明实施例中，通过文本图像检测模型直接识别出目标页面中文本图像的文本信息，并在确定目标页面的整合文本信息后，进而定位出关键页对应的目标页面的整合文本信息，可以提高目标页面的文本信息的识别速率以及识别准确率，减少查找关键页对应的目标页面的文本信息的工作量，从而快速以及准确地定位出关键页对应的目标页面的文本信息。
附图说明
69.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
70.图1是本发明实施例公开的一种页面的智能定位方法的流程示意图；
71.图2是本发明实施例公开的另一种页面的智能定位方法的流程示意图；
72.图3是本发明实施例公开的一种页面的智能定位装置的结构示意图；
73.图4是本发明实施例公开的另一种页面的智能定位装置的结构示意图；
74.图5是本发明实施例公开的又一种页面的智能定位装置的结构示意图。
具体实施方式
75.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
76.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
77.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
78.本发明公开了一种页面的智能定位方法及装置，能够通过文本图像检测模型对多个目标页面进行文本信息的识别以及确定出目标页面的整合文本信息，进而对关键页定位出对应的目标页面的整合文本信息。这样，可以无需人工对目标页面的文本信息进行识别，有利于缩短识别文本信息的时长以及提高识别准确率，从而根据识别到的文本信息快速和准确定位出关键页对应的目标页面的文本信息。以下分别进行详细说明。
79.实施例一
80.请参阅图1，图1是本发明实施例公开的一种页面的智能定位方法的流程示意图。可选的，图1所描述的页面的智能定位方法可以应用在项目合同扫描件中所需审核页面的定位工作中，也可以应用在说明书扫描件关键页的定位工作中，还可以应用在网页页面图像关键信息的定位工作中。进一步可选的，该方法可以运用在便携式文档格式(pdf)、标签图像格式(tiff)、图形交换格式(gif)等文件关键页的定位，本发明实施例不做限定。再进一步的，该方法可以由图像处理系统实现，该图像处理系统可以集成在图像处理设备，可以是用于对图像处理流程进行管理的本地服务器或云端服务器等，本发明实施例不做限定。如图1所示，该页面的智能定位方法可以包括以下操作：
81.101、根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个目标页面对应的至少一个文本图像。
82.本发明实施例中，可以在接收到由相关业务人员输入的该文本图像检测模型以及检测要素信息后，对多个目标页面进行检测。可选的，该文本图像检测模型可以是ctpn网络模型，即一种结合cnn网络模型以及rnn网络模型的文本图像检测模型，可以检测出目标页面中包含文本信息的文本图像，并采用文本框的形式将该文本图像进行标记，作为检测区域。进一步可选的，该检测要素信息可以包括每个目标页面的检测标识。具体的，可以包括需要检测的每个目标页面的具体文本内容(如项目合同交易金额、项目合同签署日期、网页页面图像标题)、目标页面的位置信息(如首页、尾页)以及目标页面的图像标识信息(如合同图章图案、网页页面二维码图像、说明书流程图)中的至少一种检测标识。
83.进一步的，每个目标页面可以对应一个或多个的文本图像。具体的，对于任一目标页面带有检测标识的任一检测区域，都可以检测出该目标页面该检测区域中的文本图像，即检测区域是与文本图像一一对应的。再进一步的，每个目标页面均存在对应的原始页面。举例来说，项目合同的原始页面经扫描后，可以得到项目合同的扫描页面，可作为项目合同的目标页面；而网页原始页面经截图操作后，可以得到网页截图页面，可作为网页的目标页面。
84.102、根据确定出的文本识别模型对每个目标页面对应的每个文本图像执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息。
85.本发明实施例中，本发明实施例中，可以在接收到由相关业务人员输入的该文本识别模型后，识别每个目标页面对应的每个文本图像中的文本信息。可选的，该文本识别模型可以是crnn ctc模型，即一种结合cnn网络模型、 rnn网络模型以及ctc网络模型的文本识别模型，对于背景不太复杂的文本图像具有高识别准确率。具体的，它可以同时或者按照确定出的文本识别顺序，对每个目标页面的多个文本图像进行文本特征提取，进而将提取到的每个文本图像的文本特征进行融合，然后得到每个文本图像的字符序列，最后将每个文本图像的字符序列进行转录处理得到文本信息。需要说明的是，对于任一目标页面的任一检测区域中的文本图像是可以识别出对应的文本信息的，即该目标页面的该检测区域也是和识别到的该文本信息一一对应的。
86.103、根据每个目标页面对应的所有文本图像的文本信息，确定每个目标页面的整合文本信息。
87.本发明实施例中，可以根据检测区域的位置信息以及按照确定出的排序方式对每
个目标页面对应的所有文本图像的文本信息进行排序后，再进行整合，得到每个目标页面的整合文本信息。可选的，可以根据检测区域的位置信息以及按照原始页面的文本信息的排序方式对每个目标页面对应的所有文本图像的文本信息进行排序，也可以根据具体需求对每个目标页面对应的所有文本图像的文本信息进行排序。
88.进一步可选的，在对每个目标页面对应的所有文本图像的文本信息进行排序后，可以按照确定出的文本信息整合方式对每个目标页面对应的所有文本图像的文本信息进行整合。可选的，可以按照每行文本从上到下首尾拼接规则，也可以按照每列文本从左到右首尾拼接规则整合该目标页面对应的所有文本图像的文本信息。举例来说，原始页面的文本信息通常按照每行文本从上到下首尾拼接的规则组成，而每个目标页面对应的所有文本图像的文本信息也可以按照该文本信息整合方式进行整合。这样，通过原始页面的文本信息的辅助可以保证后续两者文本信息对比的准确性。
89.可见，实施本发明能够通过文本图像检测模型以及检测标识对多个目标页面进行文本图像的检测，并在识别出每个目标页面对应的每个文本图像的文本信息后，对每个目标页面对应的所有文本图像中的文本信息进行排序以及整合，从而确定出每个目标页面对应的整合文本信息。这样，可以无需采用人工对目标页面文本信息进行识别，提升识别文本图像中文本信息的速率，并可以通过与原始页面文本信息的对比，提高目标页面文本信息的识别准确率，从而正确定位出原始页面中关键页对应的目标页面的文本信息。
90.在一个可选的实施中，在上述步骤102根据确定出的文本识别模型对每个目标页面对应的每个文本图像执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息后，该方法还可以包括：
91.对于任一目标页面对应的任一文本图像的文本信息，确定该文本图像的文本信息的权重，并根据该权重，对该文本图像的文本信息作出相匹配的展示标记。
92.在该可选的实施例中，可以根据每个目标页面对应的每个文本图像的文本信息的权重，确定出每个目标页面中的关键文本信息，并作出多种展示标记。可选的，该展示标记可以是与非关键文本信息不同的字体颜色，也可以是在关键文本信息底部的荧光显示标记，还可以是对于关键文本信息的文本框标记。
93.可见，该可选实施例可以直接标记出任一目标页面对应的任一文本图像的关键文本信息，以便加快后续相关工作人员对于该关键文本信息的审核工作。
94.实施例二
95.请参阅图2，图2是本发明实施例公开的另一种页面的智能定位方法的流程示意图。可选的，图2所描述的页面的智能定位方法可以应用在项目合同扫描件中所需审核页面的定位工作中，也可以应用在说明书扫描件关键页的定位工作中，还可以应用在网页页面图像关键信息的定位工作中。进一步可选的，该方法可以运用在便携式文档格式、标签图像格式、图形交换格式等文件关键页的定位，本发明实施例不做限定。再进一步的，该方法可以由图像处理系统实现，该图像处理系统可以集成在图像处理设备，可以是用于对图像处理流程进行管理的本地服务器或云端服务器等，本发明实施例不做限定。如图2所示，该页面的智能定位方法可以包括以下操作：
96.201、根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个目标页面对应的至少一个文本图像。
97.202、根据确定出的文本识别模型对每个目标页面对应的每个文本图像执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息。
98.203、根据每个目标页面对应的所有文本图像的文本信息，确定每个目标页面的整合文本信息。
99.本发明实施例中，针对步骤201-步骤203的其它描述，请参照实施例一中针对步骤101-步骤103的详细描述，本发明实施例不再赘述。
100.204、计算所有目标页面的整合文本信息与确定出的至少一个关键页面的文本信息的文本编辑距离。
101.本发明实施例中，可以通过计算所有目标页面的整合文本信息与确定出的一个或多个关键页面的文本信息的文本编辑距离，得到所有目标页面的整合文本信息与每个关键页面的文本信息的文本编辑距离矩阵e，其中，所有关键页面可以通过筛选原始页面后得到。可选的，该确定出的所有关键页面可以是带有检测标识，如项目合同交易金额、项目合同签署日期、网页页面图像标题、合同图章图案、网页页面二维码图像、说明书流程图等的页面。进一步可选的，该文本编辑距离矩阵e可以以目标页面的页数为行数，关键页面为列数构造而成。再进一步，按照目标页面以及关键页面的页码顺序，文本编辑距离矩阵e 中每个位置的元素e
ij
可以根据计算对应的目标页面的整合文本信息和关键页面的文本信息的文本编辑距离得到，计算公式为：
102.e
ij
＝edit_dist(ωi,γj)
103.其中，e
ij
表示矩阵e中第i行第j列的元素值，edit_dist(*)表示编辑距离，ωi表示目标页面第i页的整合文本信息，γi表示第j个关键页面的文本信息。这样，通过所有目标页面的整合文本信息以及每个关键页面的文本信息形成的文本编辑距离矩阵，有利于页面全局文本信息进行对比，可以降低因目标页面文本信息错误识别造成定位错误的风险，提高了定位的鲁棒性。
104.205、根据所有目标页面的整合文本信息与任一关键页面的文本信息的文本编辑距离，从所有目标页面的整合文本信息中，筛选出文本编辑距离小于等于预设的文本编辑距离阈值的所有目标页面的整合文本信息，作为该关键页面对应的目标输出页面的文本信息。
105.本发明实施例中，可以通过筛选所有目标页面的整合文本信息，定位出关键页面对应的一个或多个目标页面的文本信息，作为关键页面对应的目标输出页面的文本信息。可选的，可以以最小文本编辑距离原则筛选出与关键页面最相似的目标页面的文本信息，也可以是设定文本编辑距离的数值范围，筛选出多个与关键页面相似的目标页面的文本信息。举例来说，当以最小文本编辑距离原则筛选出与关键页面最相似的目标页面的文本信息时，针对文本编辑距离矩阵e中的每一列，可以定位出该列中最小值所在的行号，从而定位出关键页面中具体的页。所有列处理完后，就可以得到关键页面中对应的所有目标页面的具体的页，进而输出该关键页对应的目标页面的文本信息。
106.可见，实施本发明能够通过所有目标页面的整合文本信息与每个关键页面的文本信息形成的文本编辑距离矩阵，形成两者页面全局文本信息的对比，匹配出与关键页面相似的一个或多个目标页面的文本信息。不仅可以降低因目标页面文本信息的错误识别造成的定位错误率，提高定位的鲁棒性，还可以根据具体的筛选需求进行灵活定位。
107.在一个可选的实施例中，上述步骤201中的根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个目标页面对应的至少一个文本图像，可以包括：
108.将多个目标页面以及检测要素信息输入到确定出的文本图像检测模型中进行分析，得到每个目标页面对应的至少一个目标检测区域的位置信息；
109.根据每个目标页面对应的每个目标检测区域的位置信息，从该目标页面中提取该目标检测区域的文本图像，并作为该目标页面对应的至少一个文本图像。
110.在该可选的实施例中，可以将多个目标页面以及检测要素信息输入到文本图像检测模型(如ctpn网络模型)中进行文本图像检测，获取每个目标页面中所有包含文本图像的检测区域，并得到每个检测区域在该目标页面中的位置信息。具体的，可以先提取输入目标页面的深度特征，然后用固定宽度的锚点检测每个目标页面中包含文本图像的区域，将同一行的锚点对应的特征拼接成序列，进而采用全连接层对该序列进行分类或回归，得到每个目标页面的每个预检测区域，最后合并每个目标页面的每个预检测区域，得到每个目标页面的每个目标检测区域的位置信息。举例来说，目标检测区域的位置信息可以包含目标检测区域的中心点坐标(xc,yc)、高度h、宽度w、旋转角度θ，具体可以表示为：(xc,yc,h,w,θ)。进一步可选的，对于每个目标检测区域，可以根据该目标检测区域的位置信息，提取出该目标检测区域的一个或多个文本图像。
111.可见，该可选的实施例可以根据具体需求，有针对性地定位到所需检测的每个目标页面中包含文本图像的目标检测区域，有利于提高目标页面文本图像的检测效率以及检测灵活性，进而提高提取到的文本图像的可靠性。
112.在另一个可选的实施例中，上述步骤202中的根据确定出的文本识别模型对每个目标页面对应的每个文本图像执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息，可以包括：
113.将每个目标页面对应的每个文本图像输入到确定出的文本识别模型中，提取每个目标页面对应的每个文本图像的文本特征；
114.融合每个目标页面对应的每个文本图像的文本特征，得到每个目标页面对应的每个文本图像的融合文本特征；
115.对每个目标页面对应的每个文本图像的融合文本特征进行序列分析，得到每个目标页面对应的每个文本图像的融合文本特征序列；
116.对每个目标页面对应的每个文本图像的融合文本特征序列执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息。
117.在该可选的实施例中，可以采用crnn ctc的文本识别模型对每个目标页面对应的每个文本图像执行文本识别操作。具体的，可以先通过该文本识别模型中的cnn网络模型提取每个目标页面对应的每个文本图像的文本特征，然后通过该文本识别模型中的rnn网络模型将每个目标页面对应的每个文本图像的文本特征进行特征向量融合，进而根据每个目标页面对应的每个文本图像的融合文本特征提取出每个目标页面对应的每个文本图像的字符序列，最后根据提取到每个目标页面对应的每个文本图像的字符序列的上下文特征以及该文本识别模型中的ctc网络模型对每个目标页面对应的每个文本图像的字符序列进行转录，得到每个目标页面对应的每个文本图像的文本信息。
118.可见，该可选的实施例能够根据每个目标页面对应的每个文本图像的文本特征分
布，识别出每个目标页面对应的每个文本图像的文本信息，有利于提高文本图像文本信息的识别准确性以及可靠性，从而可以根据正确的目标页面的文本信息执行定位操作。
119.在又一个可选的实施例中，上述步骤203中的根据每个目标页面对应的所有文本图像的文本信息，确定每个目标页面的整合文本信息，可以包括：
120.根据每个目标页面对应的所有目标检测区域的位置信息以及确定出的排序要素信息对每个目标页面对应的所有文本图像的文本信息进行排序，得到每个目标页面对应的文本信息的排序结果；
121.根据预先确定出的文本信息整合方式整合每个目标页面对应的文本信息的排序结果，得到每个目标页面的整合文本信息。
122.在该可选的实施例中，可以将检测到的每个目标页面对应的所有目标检测区域的位置信息以及确定出的排序要素信息(如按照原始页面的文本信息的排序方式)对每个目标页面对应的所有文本图像的文本信息作排序处理，得到每个目标页面对应的文本信息的排序结果。可选的，针对每个目标页面对应的文本信息的排序结果，可以根据行文本合并算法，也可以根据列文本合并算法，对该排序结果进行整合。
123.举例来说，当采用行文本合并算法进行整合时，可以将每个目标页面对应的文本信息的排序结果输入至行文本合并算法中进行分析，得到每个目标页面对应的每个目标检测区域的位置信息(xc,yc,h,w,θ)以及每个目标页面对应的每个目标检测区域的文本信息ω的集合w，即w＝{(x
ic
,y
ic
,hi,wi,θi,ωi)|1≤i≤m}。
124.其中，采用行文本合并算法进行整合的具体处理流程可以如下：
125.(1)初始化栈s为空栈，计数器t＝1；
126.(2)创建空栈l
t
并入栈s，初始化上下界y
top
＝0与y
bottom
＝0，进行步骤(3)；
127.(3)遍历集合w中的元素，对于当前元素wi＝(x
ic
,y
ic
,hi,wi,θi,ωi)，如果l
t
为空栈，则将元素wi入栈l
t
，并置y
top
＝y
ic
h/2，y
bottom
＝y
ic-h/2；否则进行步骤(4)。遍历完成时置t＝t 1并返回步骤(2)；其中，wi中的i指元素个数。
128.(4)如果当前元素wi＝(x
ic
,y
ic
,hi,wi,θi,ωi)满足：y
ic
h/2《y
top
或y
ic-h/2》y
bottom
，则将元素wi入栈l
t
，置y
top
＝max(y
top
,y
ic
h/2)，y
bottom
＝min(y
bottom
,y
ic-h/2)，并将元素wi从集合w中剔除。如果集合则进行步骤(5)；否则返回步骤(3)继续遍历。
129.(5)对于栈s中的每一个栈l
t
，将其中每个元素wi按中心点x轴坐标x
ic
从小到大排序，并将排序后元素的文本信息ωi依次拼接成栈l
t
的文本信息ω
t
，计算出栈l
t
的平均中心点y轴坐标其中n
t
表示栈l
t
中元素的数目。
130.(6)对于栈s中所有栈按平均中心点y轴坐标y
t
从小到大排序，并将排序后栈的文本信息ω
t
依次拼接成目标页面全局的整合文本信息。
131.可见，该可选的实施例能够将每个目标页面对应的所有目标检测区域中的文本信息进行整合，得到每个目标页面对应的整合文本信息。这样，可以灵活处理每个目标页面中的所有局部文本信息，从而提高每个目标页面对应的整合文本信息的可靠性以及准确性。
132.在又一个可选的实施例中，该方法还可以包括：
133.根据任一关键页面对应的目标输出页面的文本信息，确定该关键页面对应的目标输出页面的页数，并判断目标输出页面的页数是否大于预设的页数阈值；
134.当判断出目标输出页面的页数大于预设的页数阈值时，对检测要素信息执行更改操作，得到更改后的检测要素信息；
135.将检测要素信息更新为更改后的检测要素信息，以触发重新执行上述步骤 201中的根据文本图像检测模型以及更改后的检测要素信息检测所有目标页面的操作；
136.其中，所有关键页面的文本信息是可以通过以下方式确定出的：
137.计算至少一个原始页面的文本信息与预设特征条件的匹配度；
138.根据所有原始页面的文本信息与预设特征条件的匹配度，从所有原始页面的文本信息中，筛选出匹配度大于等于预设的匹配度阈值的所有原始页面的文本信息，作为所有关键页面的文本信息。
139.在该可选的实施例中，通过对任一关键页面对应的目标输出页面的页数判断以及检测要素的更改，可以进一步筛选出与该关键页面相似程度更高的目标输出页面的文本信息。可选的，可以根据实际需求输入预设特征条件，进而计算所有原始页面的文本信息与预设特征条件的匹配度，从而从所有原始页面的文本信息中筛选确定出所有关键页面的文本信息。具体的，由于每个关键页面的页面分布(如盖章签署页、合同金额页、页面流程图等)、包含的文本信息(如合同金额、页面标题等)都有差异，可以先设定相匹配的特征条件筛选出关键页面。举例来说，可以制定用于描述所需关键页面特征的正则表达式，通过该正则表达式从原始页面的文本信息中匹配出具体的关键页面的文本信息。
140.可见，该可选的实施例能够通过对目标输出页面页数的调控，进一步缩小该关键页面对应的目标输出页面的页数范围，从而进一步筛选出与关键页面相似程度更高的目标输出页面。这样，有利于进一步提高目标输出页面文本信息的识别准确率，从而提高关键页面对应的目标输出页面的定位准确性。
141.在又一个可选的实施例中，该方法还可以包括：
142.对于任一目标页面对应的任一目标检测区域，根据该目标检测区域的文本图像的位置信息判断文本图像的旋转角度是否大于预设的旋转角度阈值；
143.当判断出文本图像的倾斜角度大于预设的旋转角度阈值时，校正文本图像的旋转角度，得到文本图像的校正位置信息。
144.在该可选的实施例中，可以根据每个目标检测区域的文本图像的位置信息，对该文本图像的旋转角度进行校正。举例来说，每个目标页面的文本图像分布有所不同，对于旋转角度超出预设的旋转角度范围的文本图像，可能会出现文本信息识别错误的情况。通过旋转角度的校正，可以提升该文本图像的文本信息识别率。
145.可见，该可选的实施例可以通过文本图像位置信息的校正，提升该文本图像的文本信息识别准确率，从而提高该文本图像文本信息的可靠性。
146.实施例三
147.请参阅图3，图3是本发明实施例公开的一种页面的智能定位装置的结构示意图。如图3所示，该页面的智能定位装置可以包括：
148.检测模块301，用于根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个目标页面对应的至少一个文本图像；
149.识别模块302，用于根据确定出的文本识别模型对每个目标页面对应的每个文本图像执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息；
150.确定模块303，用于根据每个目标页面对应的所有文本图像的文本信息，确定每个目标页面的整合文本信息。
151.本发明实施例中，可选的，检测要素信息可以包括每个目标页面的检测标识；进一步可选的，每个目标页面均存在对应的原始页面。
152.可见，实施图3所描述的页面的智能定位装置能够通过文本图像检测模型以及检测标识对多个目标页面进行文本图像的检测，并在识别出每个目标页面对应的每个文本图像的文本信息后，对每个目标页面对应的所有文本图像中的文本信息进行排序以及整合，从而确定出每个目标页面对应的整合文本信息。这样，可以无需人工对目标页面文本信息进行识别，提升识别文本图像中文本信息的速率，并可以通过与原始页面文本信息的对比，提高目标页面文本信息的识别准确率，从而正确定位出原始页面中关键页对应的目标页面的文本信息。
153.在一个可选的实施例中，该装置还可以包括：
154.计算模块304，用于在上述确定模块303执行上述根据每个目标页面对应的所有文本图像的文本信息，确定每个目标页面的整合文本信息之后，计算所有目标页面的整合文本信息与确定出的至少一个关键页面的文本信息的文本编辑距离；
155.筛选模块305，用于根据所有目标页面的整合文本信息与任一关键页面的文本信息的文本编辑距离，从所有目标页面的整合文本信息中，筛选出文本编辑距离小于等于预设的文本编辑距离阈值的所有目标页面的整合文本信息，作为该关键页面对应的目标输出页面的文本信息。
156.在该可选的实施例中，可选的，所有关键页面来源于所有目标页面对应的原始页面；进一步可选的，所有目标页面包括目标输出页面。
157.可见，实施图4所描述的页面的智能定位装置能够通过所有目标页面的整合文本信息与每个关键页面的文本信息形成的文本编辑距离矩阵，形成两者页面全局文本信息的对比，匹配出与关键页面相似的一个或多个目标页面的文本信息。不仅可以降低因目标页面文本信息的错误识别造成的定位错误率，提高定位的鲁棒性，还可以根据具体的筛选需求进行灵活定位。
158.在另一个可选的实施例中，上述检测模块301根据确定出的文本图像检测模型以及检测要素信息检测多个目标页面，得到每个目标页面对应的至少一个文本图像的方式具体为：
159.将多个目标页面以及检测要素信息输入到确定出的文本图像检测模型中进行分析，得到每个目标页面对应的至少一个目标检测区域的位置信息；
160.根据每个目标页面对应的每个目标检测区域的位置信息，从该目标页面中提取该目标检测区域的文本图像，并作为该目标页面对应的至少一个文本图像。
161.可见，实施图4所描述的页面的智能定位装置可以根据具体需求，有针对性地定位到所需检测的每个目标页面中包含文本图像的目标检测区域，有利于提高目标页面文本图像的检测效率以及检测灵活性，进而提高提取到的文本图像的可靠性。
162.在又一个可选的实施例中，上述识别模块302根据确定出的文本识别模型对每个目标页面对应的每个文本图像执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息的方式具体为：
163.将每个目标页面对应的每个文本图像输入到确定出的文本识别模型中，提取每个目标页面对应的每个文本图像的文本特征；
164.融合每个目标页面对应的每个文本图像的文本特征，得到每个目标页面对应的每个文本图像的融合文本特征；
165.对每个目标页面对应的每个文本图像的融合文本特征进行序列分析，得到每个目标页面对应的每个文本图像的融合文本特征序列；
166.对每个目标页面对应的每个文本图像的融合文本特征序列执行文本识别操作，得到每个目标页面对应的每个文本图像的文本信息。
167.可见，实施图4所描述的页面的智能定位装置能够根据每个目标页面对应的每个文本图像的文本特征分布，识别出每个目标页面对应的每个文本图像的文本信息，有利于提高文本图像文本信息的识别准确性以及可靠性，从而可以根据正确的目标页面的文本信息执行定位操作。
168.在又一个可选的实施例中，上述确定模块303根据每个目标页面对应的所有文本图像的文本信息，确定每个目标页面的整合文本信息的方式具体为：
169.根据每个目标页面对应的所有目标检测区域的位置信息以及确定出的排序要素信息对每个目标页面对应的所有文本图像的文本信息进行排序，得到每个目标页面对应的文本信息的排序结果；
170.根据预先确定出的文本信息整合方式整合每个目标页面对应的文本信息的排序结果，得到每个目标页面的整合文本信息。
171.可见，实施图4所描述的页面的智能定位装置能够将每个目标页面对应的所有目标检测区域中的文本信息进行整合，得到每个目标页面对应的整合文本信息。这样，可以灵活处理每个目标页面中的所有局部文本信息，从而提高每个目标页面对应的整合文本信息的可靠性以及准确性。
172.在又一个可选的实施例中，该装置还可以包括：
173.确定模块303，还用于根据任一关键页面对应的目标输出页面的文本信息，确定该关键页面对应的目标输出页面的页数；
174.判断模块306，用于判断目标输出页面的页数是否大于预设的页数阈值；
175.更改模块307，用于当判断模块306判断出目标输出页面的页数大于预设的页数阈值时，对检测要素信息执行更改操作，得到更改后的检测要素信息；
176.更新模块308，用于将检测要素信息更新为更改后的检测要素信息，以触发检测模块301重新执行上述的根据文本图像检测模型以及更改后的检测要素信息检测所有目标页面的操作。
177.在该可选的实施例中，可选的，所有关键页面的文本信息可以通过以下方式确定出：
178.计算至少一个原始页面的文本信息与预设特征条件的匹配度；
179.根据所有原始页面的文本信息与预设特征条件的匹配度，从所有原始页面的文本信息中，筛选出匹配度大于等于预设的匹配度阈值的所有原始页面的文本信息，作为所有关键页面的文本信息。
180.可见，实施图4所描述的页面的智能定位装置能够通过对目标输出页面页数的调
discread-only memory，cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
196.最后应说明的是：本发明实施例公开的一种页面的智能定位方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数字协调的动态可调适时钟和电压供应装置及方法与流程

页面的智能定位方法及装置与流程

相关文献

最热文献