文本识别模型的确定方法、装置、存储介质及计算机设备与流程

2022-12-20 21:09:41 来源：中国专利 TAG：

1.本技术涉及文本识别技术领域，尤其涉及一种文本识别模型的确定方法、装置、存储介质及计算机设备。

背景技术：

2.ocr(optical character recognition，光学字符识别)是指能够对待识别图像中的待识别文本进行识别的技术。目前，ocr广泛应用于物流、医疗、金融、保险等领域，还可以搭载于pda上，从而实现更多领域的应用。
3.目前，pda包括消费品pda和工业级pda，消费品pda包括智能手机、平板电脑、手持游戏机等；工业级pda主要应用在工厂制造、物流仓储、户外物资巡检等领域，常见的有条码扫描器(也称巴枪)、rfid读写器、pos机等，这些都可以称作pda。工业级pda可以用在很多环境比较恶劣的地方，同时针对工业使用特点做了很多的优化，支持rfid读写和条码扫描功能，具备ip54及以上工业等级，这些是消费类手持终端所不具备的。
4.但是，由于ocr识别需求在工业级pda上还没有形成规模化应用，无法自主学习要识别的文本内容，导致用户在使用工业级pda进行文本识别时，需要手动选择相关场景下的文本识别模型，用户体验较差。

技术实现要素：

5.本技术的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中ocr识别需求在工业级pda上还没有形成规模化应用，无法自主学习要识别的文本内容的技术缺陷。
6.本技术提供了一种文本识别模型的确定方法，所述方法包括：
7.获取待识别场景下的多个样本图像，以及预先配置的多个候选文本识别模型，其中，每一候选文本识别模型对应的识别场景不同；
8.针对每一候选文本识别模型，将各个样本图像中的待识别文本块分别输入至所述候选文本识别模型中，得到所述候选文本识别模型输出的各个样本图像中的待识别文本块的识别结果；
9.对每一候选文本识别模型输出的各个识别结果分别进行置信度打分，并根据打分结果统计每一候选文本识别模型的最终置信度得分，将最终置信度得分最高的候选文本识别模型确定为目标文本识别模型，并利用所述目标文本识别模型对待识别场景下的待识别图像进行识别。
10.可选地，所述将各个样本图像中的待识别文本块分别输入至所述候选文本识别模型中之前，还包括：
11.针对每一样本图像：
12.确定所述样本图像中位于同一行的待识别文本框；
13.将所述样本图像中位于同一行的待识别文本框进行合并，并将合并后的待识别文本框从所述样本图像中裁剪出，得到各个样本图像中的待识别文本块。
14.可选地，所述确定所述样本图像中位于同一行的待识别文本框，包括：
15.确定距离所述样本图像的中心点最近的文本框，以所述文本框为基准，确定所述样本图像中与所述文本框处于同一方向的其他文本框；
16.根据其他文本框与所述文本框之间的高度差，确定与所述文本框位于同一行的其他文本框；
17.将所述文本框以及与所述文本框位于同一行的其他文本框作为所述样本图像中位于同一行的待识别文本框。
18.可选地，所述确定所述样本图像中与所述文本框处于同一方向的其他文本框，包括：
19.在所述样本图像中查找宽高比在预设宽高比范围内的文本框，其中，所述预设宽高比范围与所述文本框的宽高比相关；
20.将宽高比在预设宽高比范围内的文本框作为与所述文本框处于同一方向的其他文本框。
21.可选地，所述根据其他文本框与所述文本框之间的高度差，确定与所述文本框位于同一行的其他文本框，包括：
22.根据其他文本框与所述文本框的高度，确定其他文本框与所述文本框之间的高度差；
23.将所述高度差与预设高度差范围进行比对，若所述高度差不超过所述预设高度差范围，则将其他文本框确定为与所述文本框位于同一行的其他文本框。
24.可选地，所述对每一候选文本识别模型输出的各个识别结果分别进行置信度打分，得到每一识别结果对应的打分结果，包括：
25.针对每一候选文本识别模型输出的每一样本图像中的待识别文本块的识别结果：
26.遍历所述识别结果对应的时序中各个时刻的字符，保留连续时刻下的相同字符中概率值最大的字符，并剔除保留后的字符中的占位符；
27.对剔除后的各个字符的概率值进行乘积，并将乘积结果作为所述识别结果对应的打分结果。
28.可选地，所述根据打分结果统计每一候选文本识别模型的最终置信度得分，包括：
29.对每一候选文本识别模型中的各打分结果进行平均值计算，得到每一候选文本识别模型的得分均值；
30.将每一候选文本识别模型的得分均值作为每一候选文本识别模型的最终置信度得分。
31.本技术还提供了一种文本识别模型的确定装置，包括：
32.数据获取模块，用于获取待识别场景下的多个样本图像，以及预先配置的多个候选文本识别模型，其中，每一候选文本识别模型对应的识别场景不同；
33.文本识别模块，用于针对每一候选文本识别模型，将各个样本图像中的待识别文本块分别输入至所述候选文本识别模型中，得到所述候选文本识别模型输出的各个样本图像中的待识别文本块的识别结果；
34.模型确定模块，用于对每一候选文本识别模型输出的各个识别结果分别进行置信度打分，并根据打分结果统计每一候选文本识别模型的最终置信度得分，将最终置信度得
分最高的候选文本识别模型确定为目标文本识别模型，并利用所述目标文本识别模型对待识别场景下的待识别图像进行识别。
35.本技术还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述文本识别模型的确定方法的步骤。
36.本技术还提供了一种计算机设备，包括：一个或多个处理器，以及存储器；
37.所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如上述实施例中任一项所述文本识别模型的确定方法的步骤。
38.从以上技术方案可以看出，本技术实施例具有以下优点：
39.本技术提供的文本识别模型的确定方法、装置、存储介质及计算机设备，在使用工业级pda进行文本识别时，可以获取待识别场景下的多个样本图像，以及预先配置的多个不同场景下的候选文本识别模型，并将多个样本图像中的待识别文本块分别输入不同场景下的候选文本识别模型中进行文本识别，相对于直接将样本图像输入至候选文本识别模型而言，本技术将尺寸较小的待识别文本块作为候选文本识别模型的输入，能够在一定程度上减少模型的计算量，提高模型的识别效率，有效缩短文本识别模型的配置时长，节省用户的等待时间，提高用户体验；接着，本技术可以对每一候选文本识别模型输出的各个样本图像中的待识别文本的识别结果进行置信度打分，并根据打分结果统计每一候选文本识别模型的最终置信度得分，将最终置信度得分最高的候选文本识别模型确定为目标文本识别模型，由于该目标文本识别模型对待识别场景下的样本图像的识别结果更加精确，因此，后续通过该目标文本识别模型来对待识别场景下的待识别图像进行识别，能够得到更为精准的识别结果，且上述过程无需用户手动设置，工业级pda可以自动根据获取到的样本图像以及不同场景下的候选文本识别模型来确定最终的目标文本识别模型，从而有效提高工业级pda的自主学习能力。
附图说明
40.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
41.图1为本技术实施例提供的一种文本识别模型的确定方法的流程示意图；
42.图2为本技术实施例提供的银行卡类型的样本图像示意图；
43.图3为本技术实施例提供的重量类型的样本图像示意图；
44.图4为本技术实施例提供的单行文本块类型的样本图像示意图；
45.图5为本技术实施例提供的编号类型的样本图像示意图；
46.图6为本技术实施例提供的对识别结果进行置信度打分的过程展示图；
47.图7为本技术实施例提供的一种文本识别模型的确定装置结构示意图；
48.图8为本技术实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
49.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
50.目前，由于ocr识别需求在工业级pda上还没有形成规模化应用，无法自主学习要识别的文本内容，导致用户在使用工业级pda进行文本识别时，需要手动选择相关场景下的文本识别模型，用户体验较差。因此，本技术提出了如下技术方案，具体参见下文：
51.在一个实施例中，如图1所示，图1为本技术实施例提供的一种文本识别模型的确定方法的流程示意图；本技术提供了一种文本识别模型的确定方法，所述方法可以包括：
52.s110：获取待识别场景下的多个样本图像，以及预先配置的多个候选文本识别模型。
53.本步骤中，在对待识别场景进行识别之前，可以先获取待识别场景下的多个样本图像，以及预先配置的多个候选文本识别模型，通过候选文本识别模型来对样本图像进行识别。
54.其中，本技术中的待识别场景包括但不限于对银行卡号，身份证件，重量信息，钢印，面单等进行识别的场景，而本技术中预先配置的每一候选文本识别模型对应的识别场景不同，且均为单一场景的识别模型。
55.可以理解的是，由于日常生活中存在多种多样需要进行文本识别的场景，常见的场景有银行卡号，身份证件，重量信息，单一字符串等。现有的工业级pda无法使用同一种识别模型来识别不同场景下的文本，并且，即使使用同一种识别模型对不同场景下的文本进行识别，相较于使用单一场景的识别模型对同场景下的文本进行识别而言，其识别准确度具有较大的误差。
56.因此，本技术可以预先配置多种单一场景下的候选文本识别模型，并通过待识别场景下采集的多张样本图像来选取与该待识别场景对应的目标文本识别模型，这样既可以自主选择目标文本识别模型，提升用户体验，又可以通过单一场景下的目标文本识别模型对该场景下的文本进行精准识别，提高识别准确率。
57.需要说明的是，由于本技术中预先配置的单一场景下的候选文本识别模型是预先通过各自的训练样本进行训练后得到的识别模型，因此，本技术在获取待识别场景下的样本图像时，无需获取大量的样本图像，只需采集少量样本图像，如将50张样本图像分别输入至候选文本识别模型中进行识别，并保证识别结果的数量能够使用打分机制进行打分即可。这样既可以自主选择目标文本识别模型，又可以减少自主选择时所耗费的时间。
58.s120：针对每一候选文本识别模型，将各个样本图像中的待识别文本块分别输入至候选文本识别模型中，得到候选文本识别模型输出的各个样本图像中的待识别文本块的识别结果。
59.本步骤中，通过s110获取待识别场景下的多个样本图像，以及预先配置的多个候选文本识别模型后，本技术可以针对每一候选文本识别模型，将各个样本图像中的待识别文本块分别输入至该候选文本识别模型中，并得到该候选文本识别模型输出的各个样本图像中的待识别文本块的识别结果。
60.可以理解的是，不同的识别场景下待识别文本块的位置以及设计样式等存在一定的区别，当本技术中获取的候选文本识别模型被预先配置为仅识别单一场景下的文本时，对于与该候选文本识别模型所识别的场景对应的待识别文本块而言，其识别准确度相对较高，而对于与该候选文本识别模型所识别的场景有出入的待识别文本块而言，其识别准确度则相对较低。
61.示意性地，如图2、3、4、5所示，图2为本技术实施例提供的银行卡类型的样本图像示意图；图3为本技术实施例提供的重量类型的样本图像示意图；图4为本技术实施例提供的单行文本块类型的样本图像示意图；图5为本技术实施例提供的编号类型的样本图像示意图；由图2、3、4、5可知，不同识别场景下的样本图像中的背景存在显著的区别，且待识别文本块在样本图像中的字体样式、排版格式等也存在一定的区别。因此，使用不同的候选文本识别模型对同一待识别场景下的样本图像进行识别后得到的识别结果也存在区别，本技术可以依据此区别来确定最终的目标文本识别模型。
62.进一步地，本技术在使用候选文本识别模型对样本图像进行识别时，可以先获取样本图像中的待识别文本块，如将样本图像中指定区域的文本块进行裁剪后得到待识别文本块等，接着将该待识别文本块输入至候选文本识别模型中进行识别，这样既可以滤除样本图像中复杂的背景对识别结果的影响，又可以在一定程度上减少模型的计算量，提高模型的识别效率，有效缩短文本识别模型的配置时长，节省用户的等待时间，提高用户体验。
63.s130：对每一候选文本识别模型输出的各个识别结果分别进行置信度打分，并根据打分结果统计每一候选文本识别模型的最终置信度得分，将最终置信度得分最高的候选文本识别模型确定为目标文本识别模型，并利用目标文本识别模型对待识别场景下的待识别图像进行识别。
64.本步骤中，通过s120得到每一候选文本识别模型输出的各个样本图像中的待识别文本块的识别结果后，可以分别对每一候选文本识别模型输出的各个识别结果进行置信度打分，并根据打分结果来选取目标文本识别模型，利用该目标文本识别模型来对待识别场景下的待识别图像进行识别。
65.具体地，本技术在对每一候选文本识别模型输出的各个识别结果进行置信度打分时，可以选用不同的打分机制进行置信度打分。例如，本技术可以使用贪婪算法或聚束算法等来对识别结果进行打分，其中，贪婪算法主要是取识别结果中每一时序中各字符的最大概率值，并将非占位符的字符对应的最大概率值求平均，而聚束算法则是沿着时序不断递归迭代的一种算法。当选择好打分机制后，则可以利用该打分机制来对每一候选文本识别模型输出的各个识别结果进行置信度打分，并根据打分结果来选取目标文本识别模型。
66.例如，本技术可以根据每一候选文本识别模型输出的各个识别结果对应的置信度得分，来计算每一候选文本识别模型的最终置信度得分，计算最终置信度得分时，可以根据各个识别结果的置信度得分的均值进行确定，也可以根据各个识别结果中置信度得分较多的区间来确定，还可以根据各个识别结果中最高的置信度得分来确定，具体可视实际情况进行选择，在此不做限制。
67.上述实施例中，在使用工业级pda进行文本识别时，可以获取待识别场景下的多个样本图像，以及预先配置的多个不同场景下的候选文本识别模型，并将多个样本图像中的待识别文本块分别输入不同场景下的候选文本识别模型中进行文本识别，相对于直接将样
本图像输入至候选文本识别模型而言，本技术将尺寸较小的待识别文本块作为候选文本识别模型的输入，能够在一定程度上减少模型的计算量，提高模型的识别效率，有效缩短文本识别模型的配置时长，节省用户的等待时间，提高用户体验；接着，本技术可以对每一候选文本识别模型输出的各个样本图像中的待识别文本的识别结果进行置信度打分，并根据打分结果统计每一候选文本识别模型的最终置信度得分，将最终置信度得分最高的候选文本识别模型确定为目标文本识别模型，由于该目标文本识别模型对待识别场景下的样本图像的识别结果更加精确，因此，后续通过该目标文本识别模型来对待识别场景下的待识别图像进行识别，能够得到更为精准的识别结果，且上述过程无需用户手动设置，工业级pda可以自动根据获取到的样本图像以及不同场景下的候选文本识别模型来确定最终的目标文本识别模型，从而有效提高工业级pda的自主学习能力。
68.在一个实施例中，s120中将各个样本图像中的待识别文本块分别输入至所述候选文本识别模型中之前，还可以包括：
69.s121：针对每一样本图像：确定所述样本图像中位于同一行的待识别文本框。
70.s122：将所述样本图像中位于同一行的待识别文本框进行合并，并将合并后的待识别文本框从所述样本图像中裁剪出，得到各个样本图像中的待识别文本块。
71.本实施例中，在对样本图像中的待识别文本块进行识别之前，可以先确定样本图像中位于同一行的待识别文本框，并将位于同一行的待识别文本框进行合并后，将合并后的待识别文本框从样本图像中剪出，这样便可以得到样本图像中的待识别文本块了。
72.可以理解的是，本技术中的待识别文本框指的是样本图像中圈定的文本区域，而待识别文本块则指的是文本区域中的文本。因此，当本技术将位于同一行的待识别文本框进行合并后裁剪后，便可以得到与该合并后的待识别文本框对应的待识别文本块。
73.在一个实施例中，s121中确定所述样本图像中位于同一行的待识别文本框，可以包括：
74.s1211：确定距离所述样本图像的中心点最近的文本框，以所述文本框为基准，确定所述样本图像中与所述文本框处于同一方向的其他文本框。
75.s1212：根据其他文本框与所述文本框之间的高度差，确定与所述文本框位于同一行的其他文本框。
76.s1213：将所述文本框以及与所述文本框位于同一行的其他文本框作为所述样本图像中位于同一行的待识别文本框。
77.本实施例中，在确定样本图像中位于同一行的待识别文本框时，可以先确定距离样本图像的中心点最近的文本框，并以该文本框为基准，确定样本图像中与该文本框处于同一方向的其他文本框，接着可以根据其他文本框与该文本框之间的高度差，来确定与该文本框位于同一行的其他文本框，最后将该文本框以及与该文本框位于同一行的其他文本框作为样本图像中位于同一行的待识别文本框。
78.可以理解的是，本技术提供了一种ocr识别组件，采用准星定位作为基准点，并捕获样本图像中出现在视野(fov)中的若干个文本块。因此，本技术可以选择距离样本图像的中心点最近的文本框以及与该文本框位于同一行的文本框，作为与待识别文本块对应的待识别文本框。
79.在一个实施例中，s1211中确定所述样本图像中与所述文本框处于同一方向的其
他文本框，可以包括：
80.s210：在所述样本图像中查找宽高比在预设宽高比范围内的文本框，其中，所述预设宽高比范围与所述文本框的宽高比相关。
81.s211：将宽高比在预设宽高比范围内的文本框作为与所述文本框处于同一方向的其他文本框。
82.本实施例中，在确定样本图像中与距离样本图像中心点最近的文本框后，可以根据该文本框的宽高比来确定预设宽高比范围，并在样本图像中查找宽高比在该预设宽高比范围内的文本框，将这类文本框作为与该文本框处于同一方向的其他文本框。
83.具体地，本技术在获取到距离样本图像中心点最近的一个文本框后，可以以此文本框为基准，在样本图像中查找预设宽高比范围在0.6～1.67之间的文本框为相同方向的文本框。
84.在一个实施例中，s1212中根据其他文本框与所述文本框之间的高度差，确定与所述文本框位于同一行的其他文本框，包括：
85.s220：根据其他文本框与所述文本框的高度，确定其他文本框与所述文本框之间的高度差。
86.s221：将所述高度差与预设高度差范围进行比对，若所述高度差不超过所述预设高度差范围，则将其他文本框确定为与所述文本框位于同一行的其他文本框。
87.本实施例中，当获取到与样本图像的中心点距离最近的文本框，以及与该文本框位于同一方向的其他文本框后，可以根据其他文本框与该文本框的高度，来确定其他文本框与该文本框之间的高度差，并将高度差超过预设高度差范围的文本框进行剔除，将剩余的高度差不超过预设高度差范围的文本框作为与该文本框位于同一行的其他文本框。
88.举例来说，如果样本图像中的其他文本框只有一个或者有多个，但是都处于同一行，并且高度差小于0.2，则认为要识别是单行文本块类型，如果有多个并且有高度差超过0.2的文本框，则过滤掉高度差超过0.2的文本框，只保留处于同行的高度差小于0.2的文本框。
89.在一个实施例中，s130中对每一候选文本识别模型输出的各个识别结果分别进行置信度打分，得到每一识别结果对应的打分结果，可以包括：
90.s131：针对每一候选文本识别模型输出的每一样本图像中的待识别文本块的识别结果：遍历所述识别结果对应的时序中各个时刻的字符，保留连续时刻下的相同字符中概率值最大的字符，并剔除保留后的字符中的占位符。
91.s132：对剔除后的各个字符的概率值进行乘积，并将乘积结果作为所述识别结果对应的打分结果。
92.本实施例中，在对每一候选文本识别模型输出的各个识别结果分别进行置信度打分时，可以选取其中一个识别结果，并遍历该识别结果对应的时序中各个时刻的字符，保留连续时刻下的相同字符中概率值最大的字符，并提出保留后的字符中的占位符，接着对剔除占位符后的各个字符的概率值进行乘积，并将乘积结果作为识别结果对应的打分结果。
93.示意性地，如图6所示，图6为本技术实施例提供的对识别结果进行置信度打分的过程展示图；图6中展示的对识别结果进行置信度打分的具体过程如下：
94.第一步，设置初始概率值为1；
95.第二步，遍历识别结果中的时序判断最大是不是占位符；
96.第三步，如果不是占位符，判断是不是跟上一个时刻的最大值是相同的；
97.第四步，如果是不同的，则将最大概率值与初始概率相乘，得到新概率值，并根据新概率值更新初始概率值；
98.第五步，如果是和上一时刻最大概率值对应的字符是相同的，那么取较大的概率值，直到当前时刻最大概率值不是相同字符为止，将最大概率值与初始概率值相乘，得到新概率值，并根据新概率值更新初始概率值；
99.第六步，计算所有纳入计算的概率个数次方根，例如，图6中计算得到的打分结果为0.9*0.98*0.9*0.8*0.9＝0.89。
100.上述打分方法的计算量和贪婪算法相同，但是也考虑了不同时刻之间的关联，对于易错字符更加鲁棒。
101.在一个实施例中，s130中根据打分结果统计每一候选文本识别模型的最终置信度得分，包括：
102.s310：对每一候选文本识别模型中的各打分结果进行平均值计算，得到每一候选文本识别模型的得分均值。
103.s311：将每一候选文本识别模型的得分均值作为每一候选文本识别模型的最终置信度得分。
104.本实施例中，在得到每一候选文本识别模型中的各识别结果对应的打分结果后，可以对各打分结果进行平均值计算，当得到每一候选文本识别模型的得分均值后，可以将每一候选文本识别模型的得分均值作为每一候选文本识别模型的最终置信度得分，这样便可以得到每一候选文本识别模型的最终置信度得分了。
105.下面对本技术实施例提供的文本识别模型的确定装置进行描述，下文描述的文本识别模型的确定装置与上文描述的文本识别模型的确定方法可相互对应参照。
106.在一个实施例中，如图7所示，图7为本技术实施例提供的一种文本识别模型的确定装置结构示意图；本技术还提供了一种文本识别模型的确定装置，可以包括数据获取模块210、文本识别模块220、模型确定模块230，具体包括如下：
107.数据获取模块210，用于获取待识别场景下的多个样本图像，以及预先配置的多个候选文本识别模型，其中，每一候选文本识别模型对应的识别场景不同；
108.文本识别模块220，用于针对每一候选文本识别模型，将各个样本图像中的待识别文本块分别输入至所述候选文本识别模型中，得到所述候选文本识别模型输出的各个样本图像中的待识别文本块的识别结果；
109.模型确定模块230，用于对每一候选文本识别模型输出的各个识别结果分别进行置信度打分，并根据打分结果统计每一候选文本识别模型的最终置信度得分，将最终置信度得分最高的候选文本识别模型确定为目标文本识别模型，并利用所述目标文本识别模型对待识别场景下的待识别图像进行识别。
110.上述实施例中，在使用工业级pda进行文本识别时，可以获取待识别场景下的多个样本图像，以及预先配置的多个不同场景下的候选文本识别模型，并将多个样本图像中的待识别文本块分别输入不同场景下的候选文本识别模型中进行文本识别，相对于直接将样本图像输入至候选文本识别模型而言，本技术将尺寸较小的待识别文本块作为候选文本识
别模型的输入，能够在一定程度上减少模型的计算量，提高模型的识别效率，有效缩短文本识别模型的配置时长，节省用户的等待时间，提高用户体验；接着，本技术可以对每一候选文本识别模型输出的各个样本图像中的待识别文本的识别结果进行置信度打分，并根据打分结果统计每一候选文本识别模型的最终置信度得分，将最终置信度得分最高的候选文本识别模型确定为目标文本识别模型，由于该目标文本识别模型对待识别场景下的样本图像的识别结果更加精确，因此，后续通过该目标文本识别模型来对待识别场景下的待识别图像进行识别，能够得到更为精准的识别结果，且上述过程无需用户手动设置，工业级pda可以自动根据获取到的样本图像以及不同场景下的候选文本识别模型来确定最终的目标文本识别模型，从而有效提高工业级pda的自主学习能力。
111.在一个实施例中，所述装置，还可以包括：
112.文本框确定模块，用于针对每一样本图像：确定所述样本图像中位于同一行的待识别文本框。
113.文本框合并模块，用于将所述样本图像中位于同一行的待识别文本框进行合并，并将合并后的待识别文本框从所述样本图像中裁剪出，得到各个样本图像中的待识别文本块。
114.在一个实施例中，所述文本框确定模块，可以包括：
115.第一确定模块，用于确定距离所述样本图像的中心点最近的文本框，以所述文本框为基准，确定所述样本图像中与所述文本框处于同一方向的其他文本框。
116.第二确定模块，用于根据其他文本框与所述文本框之间的高度差，确定与所述文本框位于同一行的其他文本框。
117.最终确认模块，用于将所述文本框以及与所述文本框位于同一行的其他文本框作为所述样本图像中位于同一行的待识别文本框。
118.在一个实施例中，所述第一确定模块，可以包括：
119.文本框查找模块，用于在所述样本图像中查找宽高比在预设宽高比范围内的文本框，其中，所述预设宽高比范围与所述文本框的宽高比相关。
120.文本框选取模块，用于将宽高比在预设宽高比范围内的文本框作为与所述文本框处于同一方向的其他文本框。
121.在一个实施例中，所述第二确定模块，可以包括：
122.高度差确定模块，用于根据其他文本框与所述文本框的高度，确定其他文本框与所述文本框之间的高度差。
123.高度差比较模块，用于将所述高度差与预设高度差范围进行比对，若所述高度差不超过所述预设高度差范围，则将其他文本框确定为与所述文本框位于同一行的其他文本框。
124.在一个实施例中，所述模型确定模块230，可以包括：
125.概率值选取模块，用于针对每一候选文本识别模型输出的每一样本图像中的待识别文本块的识别结果：遍历所述识别结果对应的时序中各个时刻的字符，保留连续时刻下的相同字符中概率值最大的字符，并剔除保留后的字符中的占位符。
126.打分模块，用于对剔除后的各个字符的概率值进行乘积，并将乘积结果作为所述识别结果对应的打分结果。
127.在一个实施例中，所述模型确定模块230，可以包括：
128.均值计算模块，用于对每一候选文本识别模型中的各打分结果进行平均值计算，得到每一候选文本识别模型的得分均值；
129.得分确定模块，用于将每一候选文本识别模型的得分均值作为每一候选文本识别模型的最终置信度得分。
130.在一个实施例中，本技术还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述文本识别模型的确定方法的步骤。
131.在一个实施例中，本技术还提供了一种计算机设备，包括：一个或多个处理器，以及存储器。
132.所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如上述实施例中任一项所述文本识别模型的确定方法的步骤。
133.示意性地，如图8所示，图8为本技术实施例提供的一种计算机设备的内部结构示意图，该计算机设备300可以被提供为一服务器。参照图8，计算机设备300包括处理组件302，其进一步包括一个或多个处理器，以及由存储器301所代表的存储器资源，用于存储可由处理组件302的执行的指令，例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件302被配置为执行指令，以执行上述任意实施例的文本识别模型的确定方法。
134.计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理，一个有线或无线网络接口304被配置为将计算机设备300连接到网络，和一个输入输出(i/o)接口305。计算机设备300可以操作基于存储在存储器301的操作系统，例如windows server tm、mac os xtm、unix tm、linux tm、free bsdtm或类似。
135.本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
136.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
137.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。
138.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一
致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于评级系统的用户识别方法、装置、设备及存储介质与流程

文本识别模型的确定方法、装置、存储介质及计算机设备与流程

相关文献

最热文献