文本识别方法、装置、介质及电子设备与流程

2021-11-09 22:43:00 来源：中国专利 TAG：

1.本公开涉及人工智能和图像识别技术领域，特别涉及一种文本识别方法、装置、介质及电子设备。

背景技术：

2.目前，人工智能技术快速发展，但在很多领域依然存在局限性。ocr(optical character recognition，光学字符识别)是图像识别领域的重要研究方向之一，其本质上是一种从图片中提取文字，即文本识别的技术。然而，目前该技术对于特定类型的文本，比如长文本依然存在识别效果差、识别准确率低的问题。

技术实现要素：

3.在人工智能和图像识别技术领域，为了解决上述技术问题，本公开的目的在于提供一种文本识别方法、装置、介质及电子设备。
4.根据本公开的一方面，提供了一种文本识别方法，所述方法包括：
5.获取待识别图片；
6.对所述待识别图片进行文本检测，得到包含目标文本的文本区域图像；
7.将所述文本区域图像进行分割，得到多个文本子区域图像；
8.利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容；
9.根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果。
10.根据本公开的另一方面，提供了一种文本识别装置，所述装置包括：
11.获取模块，被配置为获取待识别图片；
12.检测模块，被配置为对所述待识别图片进行文本检测，得到包含目标文本的文本区域图像；
13.分割模块，被配置为将所述文本区域图像进行分割，得到多个文本子区域图像；
14.识别模块，被配置为利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容；
15.生成模块，被配置为根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果。
16.根据本公开的另一方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行如前所述的方法。
17.根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：
18.处理器；
19.存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。
20.本公开的实施例提供的技术方案可以包括以下有益效果：
21.对于本公开所提供的文本识别方法、装置、介质及电子设备，该方法包括如下步骤：获取待识别图片；对所述待识别图片进行文本检测，得到包含目标文本的文本区域图像；将所述文本区域图像进行分割，得到多个文本子区域图像；利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容；根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果。
22.此方法下，通过在实际进行文本识别之前，先从待识别图片中提取出包含目标文本的文本区域图像，然后将文本区域图像切分成多个文本子区域图像，并对各文本子区域图像分别进行识别，最后根据对各文本子区域图像的识别结果得到最终识别结果。因此，本技术的方案大大降低了单个识别区域的大小，减少了识别区域中包含的信息量，可以大幅度提升模型识别准确率，提高了模型在识别长文本时的识别效果。此方法可以对医疗领域中的处方笺等文本进行识别。
23.应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。
附图说明
24.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
25.图1是根据一示例性实施例示出的一种文本识别方法的系统架构示意图；
26.图2是根据一示例性实施例示出的一种文本识别方法的流程图；
27.图3是根据一示例性实施例示出的在利用第一文本识别模型对文本子区域图像进行识别之前的步骤的流程图；
28.图4是根据一示例性实施例示出的建立样本数据集的流程图；
29.图5是根据一示例性实施例示出的一种文本识别装置的框图；
30.图6是根据一示例性实施例示出的一种实现上述文本识别方法的电子设备示例框图；
31.图7是根据一示例性实施例示出的一种实现上述文本识别方法的程序产品。
具体实施方式
32.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
33.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。
34.本公开首先提供了一种文本识别方法。文本识别方法是从图片中提取文本或者文字的方法。这里的图片可以是各种领域的包含了文本信息的图片，比如，可以是身份证的图
片、票据的图片、书籍的图片、海报的图片等等。本公开提供的文本识别方法能够提高对包含了文本，特别是长文本的图片的识别效果。
35.本公开的实施终端可以是任何具有运算、处理以及通信功能的设备，该设备可以与外部设备相连，用于接收或者发送数据，具体可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑、pda(personal digital assistant)等，也可以是固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等，还可以是多个设备的集合，比如云计算的物理基础设施或者服务器集群。
36.可选地，本公开的实施终端可以为服务器或者云计算的物理基础设施。
37.图1是根据一示例性实施例示出的一种文本识别方法的系统架构示意图。如图1所示，该系统架构包括个人计算机110、服务器120和数据库130，个人计算机110和服务器120之间、服务器120和数据库130之间均通过通信链路相连，可以用于发送或接收数据。服务器120为本实施例中的实施终端，其上部署有原始模型和文本检测模型，数据库130存储有样本数据集。当本公开提供的一种文本识别方法应用于图1所示的系统架构中时，一个过程可以是这样的：首先，服务器120从数据库130中获取样本数据集；然后，服务器120利用样本数据集对原始模型进行训练，从而得到第一文本识别模型；接着，个人计算机110向服务器120提交待识别图片，如身份证图片；接下来，服务器120在获得了该待识别图片之后，利用文本检测模型对该待识别图片进行文本检测，提取出包含目标文本的文本区域图像；然后，服务器120对文本区域图像进行分割，得到多个文本子区域图像；最后，服务器120利用第一文本识别模型对各文本子区域图像分别进行识别，并利用对各文本子区域图像的识别结果，生成对待识别图片的最终识别结果。
38.值得一提的是，图1仅为本公开的一个实施例。虽然在本实施例中的实施终端为服务器并且待识别图片的来源终端为个人计算机，但在其他实施例中，实施终端以及待识别图片的来源终端可以为如前所述的各种终端或设备；虽然在本实施例中，待识别图片和训练模型用的样本数据集均来自实施终端之外的终端设备上，但在其他实施例或者具体应用中，待识别图片或者训练模型用的样本数据集还可以预先存储在实施终端本地；虽然在本实施例中样本数据集是从一个终端设备获取得到的，但在其他实施例中，样本数据集还可以利用从多个终端设备获取到的数据构建得到的。本公开对此不作任何限定，本公开的保护范围也不应因此而受到任何限制。
39.图2是根据一示例性实施例示出的一种文本识别方法的流程图。本实施例提供的文本识别方法可以由服务器执行，如图2所示，包括以下步骤：
40.步骤210，获取待识别图片。
41.待识别图片是各种包含字符、文字、数字等文本内容的图片，比如，待识别图片可以是身份证的照片。待识别图片中包含的文本内容的长度可以是任意的。待识别图片的格式可以是bmp、jpg、png等各种计算机能够存储和识别的格式，待识别图片还是视频中的视频帧。
42.步骤220，对所述待识别图片进行文本检测，得到包含目标文本的文本区域图像。
43.文本区域图像中记录了目标文本。
44.可以利用各种文本检测模型对待识别图片进行文本检测，比如，可以利用ctpn(detecting text in natural image with connectionist text proposal network，基
于连接预选框网络的文本检测)模型进行文本检测。ctpn模型的基本原理是是在卷积获得的特征图上生成的一系列适当尺寸的文本预选框，以进行文本行的检测。
45.步骤230，将所述文本区域图像进行分割，得到多个文本子区域图像。
46.利用文本区域图像可以分割得到至少两个文本子区域图像。对文本区域图像进行分割的方式可以是各种各样的，比如可以以指定大小对文本区域图像进行分割，还可以先检测文本区域图像的大小，然后根据文本区域图像的大小对文本区域图像进行平均分割。
47.在一个实施例中，所述将所述文本区域图像进行分割，得到多个文本子区域图像，包括：利用分割线对所述文本区域图像进行分割，调整所述分割线的位置，使所述分割线不与所述文本区域图像中的文本像素重叠，得到多个文本子区域图像。
48.由于若分割线与文本像素重叠，这意味利用该分割线可能将同一个文字切分为两个，本实施例通过调整分割线位置，使分割线避开文本的像素，从而避免了同一文字被切分。
49.步骤240，利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容。
50.第一文本识别模型是预先训练好的能够对包含文本的图像进行文本识别的模型。具体可以采用各种模型实现。
51.比如，可以采用crnn(convolutional recurrent neural network，卷积循环神经网络)或者densent网络与ctc(connectionist temporal classification)算法的结合来进行文本识别。
52.图3是根据一示例性实施例示出的在利用第一文本识别模型对文本子区域图像进行识别之前的步骤的流程图。如图3所示，在利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容之前，还包括以下步骤：
53.步骤310，建立样本数据集。
54.其中，所述样本数据集包括多个文本图像和与各文本图像对应的文本内容。
55.样本数据集是用于进行模型训练的样本的集合，一个文本图像和与该文本图像对应的文本内容可以组成一个样本。
56.建立样本数据集的方式可以是多种多样的。比如，在获取到文本图像之后，由人工逐一对文本图像进行识别和文本内容的标注。
57.图4是根据一示例性实施例示出的建立样本数据集的流程图。如图4所示，包括以下步骤：
58.步骤410，获取第一样本数据子集和多个第二文本图像。
59.其中，所述第一样本数据子集包括多个第一文本图像以及为每一所述第一文本图像对应标注的文本内容。
60.第二文本图像是未经标注文本内容的文本图像。第一文本图像对应标注的文本内容可以是由文本鉴别专家进行标注的。
61.步骤420，将所述第一文本图像和所述第二文本图像作为系统操作验证码加入系统操作验证码库，随机选择并推送所述系统操作验证码库中的所述系统操作验证码，以获取与所述系统操作验证码对应的校验信息。
62.系统操作验证码是校验用户在系统中的某一项操作的合法性的验证码。系统可以是任意类型的软件系统，比如可以是购物平台、数据管理平台等。系统操作验证码所校验的操作可以是登录操作、支付操作等，比如，在业务管理系统中，系统操作可以是登录操作；再比如，在购物系统中，系统操作可以是支付操作。
63.系统操作验证码库包括多个用于推送的系统操作验证码，系统按照一定机制对系统操作验证码库中的系统操作验证码向用户进行推送。
64.比如，当用户用手机号登录一个软件系统时，软件系统的登录界面上可以显示推送的系统操作验证码，用户需要先根据显示的系统操作验证码，输入对应的校验信息，该校验信息即为系统操作验证码中包含的文本内容。
65.在一个实施例中，所述将所述第一文本图像和所述第二文本图像作为系统操作验证码加入系统操作验证码库，随机选择并推送所述系统操作验证码库中的所述系统操作验证码，以获取与所述系统操作验证码对应的校验信息，包括：
66.将所述第一文本图像和所述第二文本图像作为系统操作验证码加入系统操作验证码库；
67.确定每次要推送的系统操作验证码的类型，其中，所述类型包括所述第一文本图像和所述第二文本图像中的一种；
68.随机选择并推送所述系统操作验证码库中的所述类型对应的系统操作验证码，以获取与所述系统操作验证码对应的校验信息。
69.每次要推送的系统操作验证码的类型可以是随机确定的，也可以是按照一定规则确定的。比如，当要推送系统操作验证码时，可以先确定当前时间的时间戳，然后根据该时间戳的尾数来确定要推送的系统操作验证码的类型。具体地，当该时间戳的尾数为奇数时，确定要推送的系统操作验证码的类型为第一文本图像；当该时间戳的尾数为奇数时，确定要推送的系统操作验证码的类型为第二文本图像。
70.在本技术实施例中，首先确定系统操作验证码的类型，然后按照该类型随机选择系统操作验证码进行推送，保证了系统操作的安全性。
71.在一个实施例中，所述确定每次要推送的系统操作验证码的类型，包括：
72.按照指定推送概率确定每次要推送的系统操作验证码的类型。
73.在一个实施例中，所述第一文本图像的推送概率大于所述第二文本图像的推送概率。
74.比如，第一文本图像的推送概率可以为0.7，第二文本图像的推送概率可以为0.3。
75.在本技术实施例中，实现了用户在刷新验证码时，第一文本图像能够被更大概率地选择并推送，使得第一文本图像能够被更多地用于校验系统操作，第二文本图像被选择和推送的概率更低，从而能够在获取到第二文本图像对应的文本内容的同时，保证了能够向用户高频地展示更安全的验证码，有效保护了系统安全。
76.在一个实施例中，所述确定每次要推送的系统操作验证码的类型，包括：
77.获取预设的推送规则，所述推送规则指示了每次要推送的系统操作验证码的类型；
78.根据所述推送规则确定每次要推送的系统操作验证码的类型。
79.比如，推送规则可以为：先连续推送第一数目个类型为第一文本图像的系统操作
验证码，再连续推送第二数目个类型为第二文本图像的系统操作验证码，然后继续推送类型为第一文本图像的系统操作验证码。
80.具体地，第一数目和第二数目可以为任意正整数，第一数目可以大于第二数目，比如第一数目可以为7，第二数目可以为1，那么，在本实施例中，每当推送7个类型为第一文本图像的系统操作验证码，就推送1个类型为第二文本图像的系统操作验证码，然后再继续连续推送7个类型为第一文本图像的系统操作验证码，以此类推。
81.在一个实施例中，在确定每次要推送的系统操作验证码的类型之前，所述方法还包括：
82.在目标用户首次请求获取验证码之后，持续随机选择并向所述目标用户推送所述系统操作验证码库中的所述第一文本图像，以向所述目标用户推送多个所述第一文本图像；
83.判断验证码推送方式切换条件是否成立，其中，在验证码推送方式切换条件成立的情况下，执行所述确定每次要推送的系统操作验证码的类型及之后的步骤，所述验证码推送方式切换条件为：当前时间之前所述目标用户提交的连续预定数目个所述第一文本图像对应的校验信息是否均校验通过。
84.目标用户可以以客户端标识、ip地址等各种方式进行标识。
85.比如，当目标用户针对连续的7个第一文本图像提交的7个校验信息均一次性校验通过，说明目标用户的操作合法性和安全性比较高，目标用户的验证码校验准确率也比较高。
86.在本技术实施例中，前期一直向目标用户推送第一文本图像，只有该目标用户满足验证码推送方式切换条件时，才可以向其推送第二文本图像，能够在提高系统安全性的同时，保证获取到的第二文本图像对应的校验信息(第二文本图像的标签)的准确率。
87.步骤430，当获取到与所述第一文本图像对应的校验信息，根据所述第一文本图像对应的文本内容与所述校验信息一致，判断校验通过。
88.与第一文本图像对应的校验信息即为用户根据第一文本图像这一系统操作验证码输入并提交的校验信息。
89.当第一文本图像对应的文本内容与校验信息一致，说明用户提交了正确的校验信息。
90.步骤440，当获取到与所述第二文本图像对应的校验信息，直接判断校验通过，并将与所述第二文本图像对应的校验信息作为与所述第二文本图像对应的文本内容。
91.由于第二文本图像是未经标注文本内容的文本图像，获取到的与第二文本图像对应的校验信息相当于利用用户对第二文本图像进行了标注，使得用户不经意间就实现了对一部分样本的标注。
92.步骤450，根据所述多个第二文本图像以及与各第二文本图像对应的文本内容，建立第二样本数据子集。
93.以第二文本图像和对应的文本内容作为样本，构建得到第二样本数据子集。
94.步骤460，对所述第一样本数据子集和所述第二样本数据子集进行集成，得到样本数据集。
95.第一样本数据子集和第二样本数据子集中都包括文本图像以及对应标注的文本
内容，因此，第一样本数据子集和第二样本数据子集中包含的数据的整体可以作为用于训练模型的样本数据集。
96.本技术实施例中，第一样本数据子集中为第一文本图像对应标注的文本内容可以由标注人员手动进行标注，而第二文本图像对应的文本内容是由系统使用人员以验证码的校验信息的方式提供的，使得最终构建的样本数据集包括第一文本图像、第二文本图像以及为每一文本图像对应标注的文本内容，因此，第二文本图像是系统使用人员在使用系统的过程中随手标注的，无需专门设置标注人员对第二文本图像进行标注，只需要标注少量文本图像即可获得对更多的文本图像的标注信息，大大节省了人力成本。
97.在一个实施例中，所述建立样本数据集，包括：
98.获取第三样本数据子集和多个第四文本图像，其中，所述第三样本数据子集包括多个第三文本图像以及为每一所述第三文本图像对应标注的文本内容；
99.将所述第三文本图像和所述第四文本图像作为系统操作验证码加入系统操作验证码库；
100.随机选择并推送所述系统操作验证码库中的所述第三文本图像，以获取与所述第三文本图像对应的校验信息；
101.当获取到与所述第三文本图像对应的校验信息，根据所述第三文本图像对应的文本内容与所述校验信息一致，判断校验通过，并推送提示信息，以提示校验不通过；
102.随机选择并推送所述系统操作验证码库中的所述第四文本图像，以获取与所述第四文本图像对应的校验信息；
103.当获取到与所述第四文本图像对应的校验信息，直接判断校验通过，并将与所述第四文本图像对应的校验信息作为与所述第四文本图像对应的文本内容；
104.根据所述多个第四文本图像以及与各第四文本图像对应的文本内容，建立第四样本数据子集；
105.对所述第三样本数据子集和所述第四样本数据子集进行集成，得到样本数据集。
106.本技术实施例中，每当对第三文本图像这一验证码校验成功，欺骗用户对该验证码校验不成功，并继续要求用户对第四文本图像这一验证码进行校验，使得用户能够为更多的第四文本图像进行校验，进一步提高了样本数据集的构建效率。
107.在本技术的一些实施例中，同一个第四文本图像会被作为验证码推送至多个用户，当多个用户根据该第四文本图像提交的校验信息均一致时，再利用该第四文本图像提交的校验信息建立第四样本数据子集。
108.在本技术实施例中，只有在多个用户针对同一个第四文本图像提交的校验信息均一致时，才会利用该校验信息建立样本数据集，进一步提高了样本数据集中文本内容的准确性。
109.请继续参见图3，步骤320，利用所述样本数据集进行模型训练，得到第一文本识别模型。
110.将样本数据集中的数据输入至模型中，根据模型的损失函数调整模型的参数，直至模型收敛或者模型的训练次数达到预定次数。
111.请继续参见图2，步骤250，根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果。
112.目标识别结果是基于对文本子区域图像进行识别而得到的，因此，目标识别结果也是与文本区域图像相对应的。在理想情况下，目标识别结果与目标文本是一致的。
113.在一个实施例中，所述根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果，包括：
114.对各所述文本子区域图像分别对应的文本识别内容进行拼接处理，得到所述待识别图片对应的目标识别结果。
115.在一个实施例中，所述对各所述文本子区域图像分别对应的文本识别内容进行拼接处理，得到所述待识别图片对应的目标识别结果，包括：
116.根据文本子区域图像在文本区域图像的位置，对各所述文本子区域图像分别对应的文本识别内容依次进行排列，得到所述待识别图片对应的目标识别结果。
117.比如，各文本子区域图像是从左至右对文本区域图像进行分割得到的，那么，对各所述文本子区域图像分别对应的文本识别内容按照各文本子区域图像从左到右的顺序依次进行输出。
118.本技术实施例可以将各个文本识别内容拼接为一个目标识别结果。
119.在一个实施例中，所述根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果，包括：
120.对各所述文本子区域图像分别对应的文本识别内容进行拼接处理，得到所述待识别图片对应的第一识别结果；
121.将所述文本区域图像输入至第二文本识别模型，得到所述待识别图片对应的第二识别结果；
122.判断所述第一识别结果和所述第二识别结果是否一致；
123.在所述第一识别结果和所述第二识别结果一致的情况下，将所述第一识别结果作为所述待识别图片对应的目标识别结果。
124.第二文本识别模型是能够对文本区域图像中的长文本进行识别的模型，其可以与第一文本识别模型使用相同的样本数据集训练得到。
125.本技术实施例中，通过在获得目标识别结果之前，先利用第二文本识别模型对由各个文本识别内容进行拼接得到的第一识别结果进行校验，只有校验成功时才将第一识别结果作为目标识别结果，进一步提高了文本识别的准确性。
126.在一个实施例中，在判断所述第一识别结果和所述第二识别结果是否一致之后，所述方法还包括：
127.在所述第一识别结果和所述第二识别结果不一致的情况下，将所述文本区域图像推送至人工校验端，由所述人工校验端进行识别操作；
128.获取所述人工校验端返回的第三识别结果，并将所述第三识别结果所述待识别图片对应的目标识别结果。
129.人工校验端上可以设置客户端和显示屏，由人工对客户端在显示屏上显示的内容进行识别操作，客户端上设置有识别结果提交入口，人工通过从识别结果提交入口进行识别结果提交，从而返回第三识别结果。
130.在本技术实施例中，当第一识别结果和第二识别结果不一致时，说明校验未通过，此时将由人工识别的第三识别结果作为目标识别结果，进一步提高了文本识别的准确性。
131.在一个实施例中，在获取所述人工校验端返回的第三识别结果之后，所述方法还包括：
132.若所述第三识别结果与所述第一识别结果不一致，则将所述文本区域图像和所述第三识别结果加入所述样本数据集。
133.具体来说，将文本区域图像作为文本图像、将第三识别结果作为与各文本图像对应的文本内容，加入样本数据集。
134.在一个实施例中，在获取所述人工校验端返回的第三识别结果之后，所述方法还包括：
135.若所述第三识别结果与所述第二识别结果不一致，则将所述文本区域图像和所述第三识别结果加入用于训练所述第二文本识别模型的样本数据集。
136.用于训练第二文本识别模型的样本数据集与用于训练第一文本识别模型的样本数据集相比，两者可以为同一样本数据集，也可以为不同的样本数据集。
137.在一个实施例中，所述将所述文本区域图像进行分割，得到多个文本子区域图像，包括：
138.按照预定数量集合中每一数量分别所述文本区域图像进行分割，得到与每一所述数量对应的多个文本子区域图像；
139.所述利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容，包括：
140.针对每一所述数量，利用第一文本识别模型对所述数量对应的各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容；
141.所述根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果，包括：
142.针对每一所述数量，对所述数量对应的各所述文本识别内容进行拼接处理，得到所述数量对应的候选识别结果；
143.获取所述文本区域图像的文本特征信息；
144.在各所述数量对应的候选识别结果中确定出与所述文本特征信息匹配的候选识别结果作为所述待识别图片对应的目标识别结果。
145.比如，文本特征信息可以是：身份证号为18位，预定数量集合中的数量可以分别为2,3,4,5，那么，可以把文本区域图像分别分割为2、3、4、5个小块，分别进行识别，然后将识别结果拼接起来，得到最终拼接结果，可以将拼接结果为18位的作为最终的目标识别结果。
146.本技术实施例中，只有与文本特征信息匹配的候选识别结果才能作为最终识别结果，进一步提高了文本识别的准确率。
147.综上所述，根据图2实施例提供的文本识别方法，通过在实际进行文本识别之前，先从待识别图片中提取出包含目标文本的文本区域图像，然后将文本区域图像切分成多个文本子区域图像，并对各文本子区域图像分别进行识别，最后根据对各文本子区域图像的识别结果得到最终识别结果。因此，本技术的方案大大降低了单个识别区域的大小，减少了识别区域中包含的信息量，可以大幅度提升模型识别准确率，提高了模型在识别长文本时的识别效果。
148.本公开还提供了一种文本识别装置，以下是本公开的装置实施例。
149.图5是根据一示例性实施例示出的一种文本识别装置的框图。如图5所示，装置500包括：
150.获取模块510，被配置为获取待识别图片；
151.检测模块520，被配置为对所述待识别图片进行文本检测，得到包含目标文本的文本区域图像；
152.分割模块530，被配置为将所述文本区域图像进行分割，得到多个文本子区域图像；
153.识别模块540，被配置为利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容；
154.生成模块550，被配置为根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果。
155.根据本公开的第三方面，还提供了一种能够实现上述方法的电子设备。
156.所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
157.下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
158.如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。
159.其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。
160.存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(rom)623。
161.存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
162.总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
163.电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行，比如与显示单元640通信。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬
件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
164.通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd
‑
rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
165.根据本公开的第四方面，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
166.参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
167.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
168.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
169.可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
170.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
171.此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
172.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于局部最大对齐的后期融合人脸图像聚类方法及系统与流程

文本识别方法、装置、介质及电子设备与流程

相关文献

最热文献