一种用于任意长度文本识别的方法和装置与流程

2022-04-27 07:21:22 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种用于任意长度文本识别的技术方案。

背景技术：

2.随着时代的发展，文本识别技术已广泛应用于各领域。当前通用的图像文本识别方法主要包括三个步骤，第一步是朝向检测，给定输入图片，将图片旋转至正确朝向；第二步是文本检测，给定正确朝向图片，图像文本检测方法将图像中的文字内容以文本行的形式检测出来，裁剪得到每行文本行图片；第三步是文本行识别，该方法将第二步检测、裁剪得到的文本行图片中的文字识别出来。
3.目前，朝向检测和文本检测算法已经比较成熟，在足够数量的数据上学习后，朝向检测和文本检测模型都能在通用数据上实现较高的准确率和召回率。然而，文本识别模型在25个字符以内的短文本上的识别精度尚可，而一旦文本行图片中包含的字符个数较多，文本识别模型的精度就会大打折扣，而人们日常生活的诸多场景中图片(如合同扫描件图片、相关文档扫描图片等)中的文本行都是数量在40～50个字符的长文本，而现有技术中的文本识别针对长文本场景的识别效果较差。现有文本识别模型的输入为文本检测模型裁剪得到的文本行图片，通过针对文本行图片执行resize操作将文本行图片resize成32*200、32*250、32*320等分辨率。以通常使用的32*200分辨率为例，由于字符个数较少的短文本在32*200输入的情况下不会压缩或较小程度压缩，因此短文本行图片的识别精度较高，但是，一旦文本行图片中的字符个数超过一定个数，该文本行图片在被resize到32*200之后，其中的字符宽度将被严重压缩，从而会大幅度降低识别精度。

技术实现要素：

4.本技术的目的是提供一种用于任意长度文本识别的技术方案，该技术方案能从根本上解决长文本识别精度低的问题，实现任意长度文本的高精度识别。
5.根据本技术的一个实施例，提供一种用于任意长度文本识别的方法，其中，该方法包括：
6.将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向；
7.将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片；
8.对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。
9.根据本技术的另一个实施例，提供了一种用于任意长度文本识别的装置，其中，该装置包括：
10.用于将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将
所述目标图片旋转至正确朝向；
11.用于将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片的装置；
12.用于对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息的模块的装置。
13.根据本技术的另一个实施例，还提供了一种计算机设备，其中，所述计算机设备包括：存储器，用于存储一个或多个程序；一个或多个处理器，与所述存储器相连，当所述一个或多个程序被所述一个或者多个处理器执行时，使得所述一个或多个处理器执行如下操作：
14.将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向；
15.将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片；
16.对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。
17.根据本技术的另一个实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如下操作：
18.将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向；
19.将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片；
20.对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。
21.与现有技术相比，本技术具有以下优点：通过将字符检测模型引入文本识别过程中，能够利用字符检测模型的检测结果将识别精度较低的长文本识别转化为识别精度较高的短文本识别或字符识别，从而能够在无需改变文本识别模型输入尺寸的前提下，解决任意长度文本的识别问题，能够确保针对任意长度文本均具备极高的识别精准度。
附图说明
22.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
23.图1示出了本技术一个实施例的用于任意长度文本识别的方法的流程示意图；
24.图2示出了本技术一个示例的用于任意长度文本识别的流程图；
25.图3示出了本技术一个实施例的用于任意长度文本识别的装置的结构示意图；
26.图4示出了可被用于实施本技术中所述的各个实施例的示例性系统。
27.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
28.在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
29.在上下文中所称“设备”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的程序指令来执行预定处理过程，或是由专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)等硬件执行预定处理过程，或是由上述二者组合来实现。
30.本技术的技术方案主要由计算机设备来实现。其中，所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloud computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于pc机、平板电脑、智能手机、iptv、pda、可穿戴设备等。其中，所述计算机设备可单独运行来实现本技术，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本技术。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(ad hoc网络)等。
31.需要说明的是，上述计算机设备仅为举例，其他现有的或今后可能出现的计算机设备如可适用于本技术，也应包含在本技术保护范围以内，并以引用方式包含于此。
32.本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
33.这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本技术的示例性实施例的目的。但是本技术可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。
34.应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
35.这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
36.还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附
图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
37.图1示出了本技术一个实施例的用于任意长度文本识别的方法的流程示意图。根据本实施例的方法包括步骤s11、步骤s12和步骤s13。在步骤s11中，计算机设备将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向；在步骤s12中，计算机设备将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片；在步骤s13中，计算机设备对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。
38.在步骤s11中，计算机设备将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向。其中，所述朝向检测模型用于预测输入图片的朝向。在一些实施例中，所述目标图片可以是包含文本的任意图片，如合同扫描图片、广告图片等。作为一个示例，响应于用户上传目标图片的上传操作或者选择目标图片的选择操作，计算机设备将该目标图片输入至朝向检测模型。在一些实施例中，若基于所述预测结果可确定目标图片的当前朝向即为正确朝向，则无需旋转目标图片。在一些实施例中，若基于所述预测结果确定目标图片的当前朝向并非正确朝向，则根据该预测结果将目标图片旋转至正确朝向。
39.在步骤s12中，计算机设备将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片。其中，所述文本检测模型可以是现有的或者未来可能出现的任何用于文本检测的模型。在一些实施例中，所述文本检测模型使用文本检测效果较好的dbnet模型。作为一个示例，计算机设备将已旋转至正确朝向的目标图片输入至文本检测模型，文本检测模型将该目标图片裁剪成多个文本行图片并输出。
40.在步骤s13中，计算机设备对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。在一些实施例中，所述字符数量用于指示该文本行图片中字符的个数，所述字符位置信息用于指示该文本行图片中每个字符的位置坐标，每个字符的位置坐标包括该字符四个顶点的坐标。在一些实施例中，对于文本检测模型裁剪得到的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量以及字符位置信息。在一些实施例中，根据字符检测模型输出的与文本行图片对应的字符数量以及字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。在一些实施例中，获得一个文本行图片对应的文本信息之后，直接在计算机设备屏幕上的相应位置呈现该文本信息。在一些实施例中，获得每个文本行图片对应的文本信息之后，根据该等文本信息以及各个文本行图片的位置或顺序信息，生成与目标图片对应的文档。在一些实施例中，收集大量文字和字符样本数据(在常用文字和字符样本数据的基础上，增加生僻字、形近字、特殊字符、网络新造字等样本数据)，来训练文本识别模型和/或字符识别模型。其中，所述字符检测模型可以是现有的或者未来可能出现的任何用于字符检测的模型；在一些实施例中，所述字符检测模型使用craft模型。其中，所述文本识别模型可以是现有的或者未来可能出现
的任何用于文本识别的模型；所述字符识别模型可以是现有的或者未来可能出现的任何用于字符识别的模型，本技术对此并不作限制。
41.在一些实施例中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量以及字符位置信息；若所述字符数量大于或等于预定数量，根据所述字符位置信息将该文本行图片切分为多个短文本图片，按照切分顺序将所述多个短文本图片依次输入至文本识别模型获得每个短文本图片对应的短文本信息，之后按照所述切分顺序将所述每个短文本图片对应的短文本信息进行拼接，得到该文本行图片对应的文本信息，否则，将该文本行图片直接输入至文本识别模型，获得与该文本行图片对应的文本信息。在一些实施例中，基于所述预定数量来判断文本行图片是短文本还是长文本，若一个文本行图片对应的字符数量大于或等于所述预定数量，则确定该文本行图片为长文本，否则确定为短文本；在一些实施例中，可以基于所使用的文本识别模型的能力，来设定所述预定数量；在一些实施例中，可基于识别结果的准确程度或者用户的反馈信息来调整所述预定数量，例如，若准确率较低，则降低所述预定数量的取值；又例如，若用户反馈识别速度太慢，则可基于所使用的文本识别模型的能力来适当提高所述预定数量的取值，以在保证识别准确率的情况下加快识别速度。在一些实施例中，所述多个短文本图片对应的切分顺序也即各个短文本图片在目标图片或者在文本行图片中出现的先后顺序，可基于切分操作来确定切分顺序，也可直接基于所述字符位置信息来确定切分顺序，例如，基于所述字符位置信息可以得到文本行图片中每个字符的横坐标，而横坐标的顺序也即表示了字符的排序，从而可以用于确定多个短文本图片对应的切分顺序。由于字符检测模型可精准定位到每个字符的位置，因此上述方案中可根据检测得到的字符位置信息将长文本行作精准切分，且上述方案的鲁棒性好，由于字符检测模型能够提供长文本的切分位置，因此即便漏检个别字符也只会将切分位置向左或向右平移1到2个字符，而不会影响最终识别结果，因此能够极大提高业务场景中长文本的识别精度。
42.在一些实施例中，所述根据所述字符位置信息将该文本行图片切分为多个短文本图片，包括：根据预设字符个数以及所述字符位置信息，确定该文本行图片对应的至少一个切分位置；根据所述至少一个切换位置，将该文本行图片切分为多个短文本图片。例如，预设字符个数为10，也即每隔10个字符做一次切分，则基于第10个字符的位置坐标确定第一个切分位置，基于第20个字符的位置坐标确定第二个切分位置，以此类推，确定文本行图片对应的多个切分位置，并在各个切分位置处进行切分，以将该文本行图片切分为多个短文本图片。图2示出了本技术一个示例的用于任意长度文本识别的流程图，具体流程包括：首先，输入图片至文本检测模型；之后，文本检测模型裁剪文本行图片，如图2所示，将所输入的图片裁剪为三个文本行图片；之后，将裁剪得到的文本行图片输入至字符检测模型，得到文本行图片中字符个数n(也即字符数量)及个字符位置坐标(也即字符位置信息)；之后，判断字符数量n是否大于15(预定字符个数为15)，若否，将文本行图片直接输入至文本识别模型，获得识别结果，若是，对文本行图片进行长文本切分，根据字符位置坐标将长文本切分为若干段短文本图片，每段短文本中字符个数不超过15，之后将切分得到的各个短文本图片依次输入至文本识别模型，该文本识别模型为常规文本识别模型，依次识别各段短文本
图片中的文字，之后，将切分的短文本段识别结果(也即每段短文本对应的识别结果)按顺序拼接，得到原始文本行识别结果。
43.在一些实施例中，可基于预定像素距离以及所述字符位置信息，确定文本行图片对应的至少一个切分位置，例如，将每隔预定像素距离的位置作为初始位置，之后基于字符位置信息对每个初始位置进行微调(如在距离初始位置最近的一个字符处做切分)，从而确定多个切分位置。
44.在一些实施例中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息以及经所述字符检测模型裁剪得到的多个字符图片，将所述多个字符图片输入至字符识别模型，获得每个字符图片对应的字符，并根据所述字符位置信息将所获得的多个字符进行拼接，获得该文本行图片对应的文本信息。在一些实施例中，字符检测模型对文本行图片进行裁剪得到各个字符对应的字符图片，之后将该等字符图片输入至字符识别模型，以识别得到文本行图片中的各个字符，之后根据字符检测模型输出的字符位置信息(也即各个字符的位置坐标)将识别得到的各个字符进行拼接，得到原始文本行识别结果。由此，能够对每个文本行图片进行逐个字符的识别，以保证有较高的识别精度。在一些实施例中，对于每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量、字符位置信息以及经所述字符检测模型裁剪得到的多个字符图片，该方法还包括：判断所述多个字符的数量与所述字符数量是否一致，若否，生成提示信息并呈现。在一些实施例中，若识别得到的字符的数量与字符检测模型输出的字符数量一致，则说明不存在漏检或错检字符的情况，若不一致，则表示存在漏检或错检字符的情况，则可生成提示信息并呈现，以提示用户识别结果存在错误；在一些实施例中，若不一致，可触发预先设定的错误处理机制，如将错误上报至相应的服务设备或者发送相关信息至特定人员或者重复进行识别(也可更换识别方法)等。
45.在一些实施例中，在利用文本识别模型或字符识别模型之前，该方法还包括：若所述目标图片满足预定触发条件，执行数据增强和/或图像增强操作。其中，所述预定触发条件包括任何预定的用于触发数据增强和/或图像增强操作的条件；优选地，所述预定触发条件包括但不限于：图片质量较低、分辨率较低、目标图片来自预定来源、提供目标图片的用户为vip用户、目标图片为预定类型(如合同)、目标图片中含有预定标识等。在一些实施例中，对目标图片进行裁剪所得到的图片满足预定触发条件，也可相当于目标图片满足预定触发条件。在一些实施例中，若提供目标图片的用户非vip用户，可向所述用户呈现询问信息，以提示用户可通过开通vip或付费来获得数据增强和/或图像增强服务，若用户执行了相应的开通vip或付费操作，则执行数据增强和/或图像增强操作。在一些实施例中，所述数据增强和/或图像增强操作，可以是直接针对目标图片执行的，也可以是针对基于目标图片得到的图片执行的，如可以针对文本检测模型裁剪得到的每个文本行图片执行数据增强和/或图像增强操作，也可以针对切分得到的各个短文本图片执行数据增强和/或图像增强操作，或者还可以针对字符检测模型裁剪得到的各个字符图片执行数据增强和/或图像增强操作。在一些实施例中，可在利用文本识别模型或字符识别模型之前的任意时间执行数据增强和/或图像增强操作；例如，若目标图片的分辨率低于预定分辨率，则先对切分得到
的多个短文本图片执行图像增强操作，之后再将增强后的各个短文本图片按顺序输入至文本识别模型；又例如，可先对目标图片执行数据增强和/或图像增强操作，之后将增强后的目标图片输入至文本检测模型。
46.根据本技术的方案，通过将字符检测模型引入文本识别过程中，能够利用字符检测模型的检测结果将识别精度较低的长文本识别转化为识别精度较高的短文本识别或字符识别，从而能够在无需改变文本识别模型输入尺寸的前提下，解决任意长度文本(尤其长文本、超长文本)的识别问题，能够确保针对任意长度文本均具备极高的识别精准度。
47.图3示出了本技术一个实施例的用于任意长度文本识别的装置的结构示意图。该用于任意长度文本识别的装置(以下简称为“识别装置1”)包括：用于将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向的装置(以下简称为“朝向检测装置11”)、用于将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片的装置(以下简称为“第一获得装置12”)，以及用于对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息的装置(以下简称为“第二获得装置13”)。
48.朝向检测装置11用于将目标图片输入至朝向检测模型，根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向。其中，所述朝向检测模型用于预测输入图片的朝向。在一些实施例中，所述目标图片可以是包含文本的任意图片，如合同扫描图片、广告图片等。作为一个示例，响应于用户上传目标图片的上传操作或者选择目标图片的选择操作，朝向检测装置11将该目标图片输入至朝向检测模型。在一些实施例中，若基于所述预测结果可确定目标图片的当前朝向即为正确朝向，则无需旋转目标图片。在一些实施例中，若基于所述预测结果确定目标图片的当前朝向并非正确朝向，则根据该预测结果将目标图片旋转至正确朝向。
49.第一获得装置12用于将正确朝向的目标图片输入至文本检测模型，获得经所述文本检测模型裁剪得到的至少一个文本行图片。其中，所述文本检测模型可以是现有的或者未来可能出现的任何用于文本检测的模型。在一些实施例中，所述文本检测模型使用文本检测效果较好的dbnet模型。作为一个示例，第一获得装置12将已旋转至正确朝向的目标图片输入至文本检测模型，文本检测模型将该目标图片裁剪成多个文本行图片并输出。
50.第二获得装置13用于对于所述至少一个文本行图片中的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。在一些实施例中，所述字符数量用于指示该文本行图片中字符的个数，所述字符位置信息用于指示该文本行图片中每个字符的位置坐标，每个字符的位置坐标包括该字符四个顶点的坐标。在一些实施例中，对于文本检测模型裁剪得到的每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量以及字符位置信息。在一些实施例中，根据字符检测模型输出的与文本行图片对应的字符数量以及字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息。在一些实施例中，获得一个文本行图片对应的文本信息之后，直接在计算机设备屏幕上的相应位置呈现该文本信息。在
一些实施例中，获得每个文本行图片对应的文本信息之后，根据该等文本信息以及各个文本行图片的位置或顺序信息，生成与目标图片对应的文档。在一些实施例中，收集大量文字和字符样本数据(在常用文字和字符样本数据的基础上，增加生僻字、形近字、特殊字符、网络新造字等样本数据)，来训练文本识别模型和/或字符识别模型。其中，所述字符检测模型可以是现有的或者未来可能出现的任何用于字符检测的模型；在一些实施例中，所述字符检测模型使用craft模型。其中，所述文本识别模型可以是现有的或者未来可能出现的任何用于文本识别的模型；所述字符识别模型可以是现有的或者未来可能出现的任何用于字符识别的模型，本技术对此并不作限制。
51.在一些实施例中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量以及字符位置信息；若所述字符数量大于或等于预定数量，根据所述字符位置信息将该文本行图片切分为多个短文本图片，按照切分顺序将所述多个短文本图片依次输入至文本识别模型获得每个短文本图片对应的短文本信息，之后按照所述切分顺序将所述每个短文本图片对应的短文本信息进行拼接，得到该文本行图片对应的文本信息，否则，将该文本行图片直接输入至文本识别模型，获得与该文本行图片对应的文本信息。在一些实施例中，基于所述预定数量来判断文本行图片是短文本还是长文本，若一个文本行图片对应的字符数量大于或等于所述预定数量，则确定该文本行图片为长文本，否则确定为短文本；在一些实施例中，可以基于所使用的文本识别模型的能力，来设定所述预定数量；在一些实施例中，可基于识别结果的准确程度或者用户的反馈信息来调整所述预定数量，例如，若准确率较低，则降低所述预定数量的取值；又例如，若用户反馈识别速度太慢，则可基于所使用的文本识别模型的能力来适当提高所述预定数量的取值，以在保证识别准确率的情况下加快识别速度。在一些实施例中，所述多个短文本图片对应的切分顺序也即各个短文本图片在目标图片或者在文本行图片中出现的先后顺序，可基于切分操作来确定切分顺序，也可直接基于所述字符位置信息来确定切分顺序，例如，基于所述字符位置信息可以得到文本行图片中每个字符的横坐标，而横坐标的顺序也即表示了字符的排序，从而可以用于确定多个短文本图片对应的切分顺序。由于字符检测模型可精准定位到每个字符的位置，因此上述方案中可根据检测得到的字符位置信息将长文本行作精准切分，且上述方案的鲁棒性好，由于字符检测模型能够提供长文本的切分位置，因此即便漏检个别字符也只会将切分位置向左或向右平移1到2个字符，而不会影响最终识别结果，因此能够极大提高业务场景中长文本的识别精度。
52.在一些实施例中，所述根据所述字符位置信息将该文本行图片切分为多个短文本图片，包括：根据预设字符个数以及所述字符位置信息，确定该文本行图片对应的至少一个切分位置；根据所述至少一个切换位置，将该文本行图片切分为多个短文本图片。例如，预设字符个数为10，也即每隔10个字符做一次切分，则基于第10个字符的位置坐标确定第一个切分位置，基于第20个字符的位置坐标确定第二个切分位置，以此类推，确定文本行图片对应的多个切分位置，并在各个切分位置处进行切分，以将该文本行图片切分为多个短文本图片。图2示出了本技术一个示例的用于任意长度文本识别的流程图，具体流程包括：首先，输入图片至文本检测模型；之后，文本检测模型裁剪文本行图片，如图2所示，将所输入
的图片裁剪为三个文本行图片；之后，将裁剪得到的文本行图片输入至字符检测模型，得到文本行图片中字符个数n(也即字符数量)及个字符位置坐标(也即字符位置信息)；之后，判断字符数量n是否大于15(预定字符个数为15)，若否，将文本行图片直接输入至文本识别模型，获得识别结果，若是，对文本行图片进行长文本切分，根据字符位置坐标将长文本切分为若干段短文本图片，每段短文本中字符个数不超过15，之后将切分得到的各个短文本图片依次输入至文本识别模型，该文本识别模型为常规文本识别模型，依次识别各段短文本图片中的文字，之后，将切分的短文本段识别结果(也即每段短文本对应的识别结果)按顺序拼接，得到原始文本行识别结果。
53.在一些实施例中，可基于预定像素距离以及所述字符位置信息，确定文本行图片对应的至少一个切分位置，例如，将每隔预定像素距离的位置作为初始位置，之后基于字符位置信息对每个初始位置进行微调(如在距离初始位置最近的一个字符处做切分)，从而确定多个切分位置。
54.在一些实施例中，所述将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息，根据所述字符位置信息，并利用文本识别模型或字符识别模型，获得该文本行图片对应的文本信息，包括：将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符位置信息以及经所述字符检测模型裁剪得到的多个字符图片，将所述多个字符图片输入至字符识别模型，获得每个字符图片对应的字符，并根据所述字符位置信息将所获得的多个字符进行拼接，获得该文本行图片对应的文本信息。在一些实施例中，字符检测模型对文本行图片进行裁剪得到各个字符对应的字符图片，之后将该等字符图片输入至字符识别模型，以识别得到文本行图片中的各个字符，之后根据字符检测模型输出的字符位置信息(也即各个字符的位置坐标)将识别得到的各个字符进行拼接，得到原始文本行识别结果。由此，能够对每个文本行图片进行逐个字符的识别，以保证有较高的识别精度。在一些实施例中，对于每个文本行图片，将该文本行图片输入至字符检测模型，获得该文本行图片对应的字符数量、字符位置信息以及经所述字符检测模型裁剪得到的多个字符图片，该识别装置1还包括判断装置(图未示)，该判断装置用于判断所述多个字符的数量与所述字符数量是否一致，若否，生成提示信息并呈现。在一些实施例中，若识别得到的字符的数量与字符检测模型输出的字符数量一致，则说明不存在漏检或错检字符的情况，若不一致，则表示存在漏检或错检字符的情况，则可生成提示信息并呈现，以提示用户识别结果存在错误；在一些实施例中，若不一致，可触发预先设定的错误处理机制，如将错误上报至相应的服务设备或者发送相关信息至特定人员或者重复进行识别(也可更换识别方法)等。
55.在一些实施例中，该识别装置1还包括用于在利用文本识别模型或字符识别模型之前执行操作的增强装置(图未示)。该增强装置用于若所述目标图片满足预定触发条件，执行数据增强和/或图像增强操作。其中，所述预定触发条件包括任何预定的用于触发数据增强和/或图像增强操作的条件；优选地，所述预定触发条件包括但不限于：图片质量较低、分辨率较低、目标图片来自预定来源、提供目标图片的用户为vip用户、目标图片为预定类型(如合同)、目标图片中含有预定标识等。在一些实施例中，对目标图片进行裁剪所得到的图片满足预定触发条件，也可相当于目标图片满足预定触发条件。在一些实施例中，若提供目标图片的用户非vip用户，可向所述用户呈现询问信息，以提示用户可通过开通vip或付费来获得数据增强和/或图像增强服务，若用户执行了相应的开通vip或付费操作，则执行
数据增强和/或图像增强操作。在一些实施例中，所述数据增强和/或图像增强操作，可以是直接针对目标图片执行的，也可以是针对基于目标图片得到的图片执行的，如可以针对文本检测模型裁剪得到的每个文本行图片执行数据增强和/或图像增强操作，也可以针对切分得到的各个短文本图片执行数据增强和/或图像增强操作，或者还可以针对字符检测模型裁剪得到的各个字符图片执行数据增强和/或图像增强操作。在一些实施例中，可在利用文本识别模型或字符识别模型之前的任意时间执行数据增强和/或图像增强操作；例如，若目标图片的分辨率低于预定分辨率，则先对切分得到的多个短文本图片执行图像增强操作，之后再将增强后的各个短文本图片按顺序输入至文本识别模型；又例如，可先对目标图片执行数据增强和/或图像增强操作，之后将增强后的目标图片输入至文本检测模型。
56.根据本技术的方案，通过将字符检测模型引入文本识别过程中，能够利用字符检测模型的检测结果将识别精度较低的长文本识别转化为识别精度较高的短文本识别或字符识别，从而能够在无需改变文本识别模型输入尺寸的前提下，解决任意长度文本(尤其长文本、超长文本)的识别问题，能够确保针对任意长度文本均具备极高的识别精准度。
57.本技术还提供了一种计算机设备，其中，所述计算机设备包括：存储器，用于存储一个或多个程序；一个或多个处理器，与所述存储器相连，当所述一个或多个程序被所述一个或者多个处理器执行时，使得所述一个或多个处理器执行本技术所述的用于任意长度文本识别的方法。
58.本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行本技术所述的用于任意长度文本识别的方法。
59.本技术还提供了一种计算机程序产品，当所述计算机程序产品被设备执行时，使得所述设备执行本技术所述的用于任意长度文本识别的方法。
60.图4示出了可被用于实施本技术中所述的各个实施例的示例性系统。
61.在一些实施例中，系统1000能够作为本技术实施例中的任意一个处理设备。在一些实施例中，系统1000可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或nvm/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本技术中所述的动作的一个或多个处理器(例如，(一个或多个)处理器1005)。
62.对于一个实施例，系统控制模块1010可包括任意适当的接口控制器，以向(一个或多个)处理器1005中的至少一个和/或与系统控制模块1010通信的任意适当的设备或组件提供任意适当的接口。
63.系统控制模块1010可包括存储器控制器模块1030，以向系统存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。
64.系统存储器1015可被用于例如为系统1000加载和存储数据和/或指令。对于一个实施例，系统存储器1015可包括任意适当的易失性存储器，例如，适当的dram。在一些实施例中，系统存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
65.对于一个实施例，系统控制模块1010可包括一个或多个输入/输出(i/o)控制器，以向nvm/存储设备1020及(一个或多个)通信接口1025提供接口。
66.例如，nvm/存储设备1020可被用于存储数据和/或指令。nvm/存储设备1020可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性
存储设备(例如，一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
67.nvm/存储设备1020可包括在物理上作为系统1000被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，nvm/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。
68.(一个或多个)通信接口1025可为系统1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
69.对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器(例如，存储器控制器模块1030)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
70.在各个实施例中，系统1000可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统1000可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统1000包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
71.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其他的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于X86平台使用QEMU搭建Jailhouse的方法与流程

一种用于任意长度文本识别的方法和装置与流程

相关文献

最热文献