文本识别方法、介质、装置和计算设备与流程

2022-02-22 19:35:44 来源：中国专利 TAG：

1.本公开的实施方式涉及文本识别技术领域，更具体地，本公开的实施方式涉及文本识别方法、介质、装置和计算设备。

背景技术：

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.随着科技的不断发展，文本识别技术以被应用于各种场景，例如，识别图像中的文本或者识别语音当中的文本等。
4.相关技术中，为提升文本识别效率，通常采用目标文本识别模型进行识别。然而，目前的目标文本识别模型通常是通过分类层计算每个字符的字符分类概率，从而根据字符分类概率来确定字符对应的文本，由于目标文本识别模型通常需要识别成千上万的字符，且这些分类层通常为fp32全精度分类层，这就使得字符分类概率对应的参数量非常大，进而导致目标文本识别模型的包体较大，对采用该模型进行文本识别的设备的性能要求较高。

技术实现要素：

5.本公开实施方式提供一种文本识别方法、介质、装置和计算设备，用于解决目前的文本识别过程中，目标文本识别模型的包体较大，对采用该模型进行文本识别的设备的性能要求较高的技术问题。
6.在本公开实施方式的第一方面中，提供了一种文本识别方法，包括：获取待识别数据，待识别数据对应多个待识别字符；通过目标文本识别模型，获取待识别字符的字符特征，目标文本识别模型是基于样本数据中样本字符的样本字符特征进行训练得到的，样本字符中包括待识别字符；根据待识别字符的字符特征，确定待识别字符对应的文本；根据待识别字符对应的文本，确定待识别数据对应的目标文本。
7.在本公开的一实施例中，目标文本识别模型包括字符特征抽取层；通过字符特征抽取层获取待识别字符的字符特征。
8.在本公开的一实施例中，根据待识别字符的字符特征和预设码本，确定待识别字符对应的文本，包括：根据待识别字符的字符特征与预设码本的之间的相似度，确定预设码本中对应于待识别字符的目标码本；根据预设码本与预设状态特征的对应关系，确定目标码本对应的目标状态；根据待识别字符对应的目标状态，确定待识别字符中的目标字符；根据目标字符的目标码本，确定目标字符对应的文本。
9.在本公开的一实施例中，目标文本识别模型包括分类层；通过分类层，根据待识别字符的字符特征与预设码本的之间的相似度，确定预设码本中对应于待识别字符的目标码本，分类层是将预设码本进行归一化后得到的。
10.在本公开的一实施例中，不同的目标状态对应于不同的字符类型，字符类型包括
空符和重复字符；根据待识别字符的目标状态，确定待识别字符中的目标字符，包括：根据待识别字符的目标状态，确定待识别字符的字符类型；确定待识别数据中除空符和重复字符之外的字符为目标字符。
11.在本公开的一实施例中，该文本识别方法，还包括：获取多个样本数据和样本数据中样本字符的样本特征；通过特征生成模型，获取样本字符对应的预测状态特征；根据样本字符的样本特征和预测状态特征，确定样本字符的状态特征；根据多个样本数据中同一样本字符的状态特征，确定样本字符对应的预设码本。
12.在本公开的一实施例中，根据多个样本数据中同一样本字符的状态特征，确定样本字符对应的预设码本，包括：将同一样本字符的状态特征进行二值化处理，得到状态特征对应的字符特征；根据状态特征对应的字符特征，确定样本字符对应的预设码本。
13.在本公开实施方式的第二方面中，提供了一种目标文本识别模型的训练方法，包括：
14.获取多个样本数据，样本数据对应多个样本字符；在第i次训练过程中，通过第i-1文本识别模型获取样本字符的样本字符特征，第i-1文本识别模型是基于样本字符的样本字符特征进行训练得到的，i为大于1的整数；根据各样本字符的样本字符特征和预设码本，确定第i-1文本识别模型对应损失函数值，损失函数值用于指示样本字符特征和预设码本的之间的距离；当损失函数值满足预设要求时，输出第i-1文本识别模型为目标文本识别模型。
15.在本公开的一个实施例中，根据样本数据中样本字符的样本字符特征和样本字符的预设码本，确定第i-1文本识别模型对应损失函数值，包括：
16.根据各样本字符的状态特征，确定样本字符中的空符；获取样本数据中预设数量的目标空符的样本字符特征；根据非空符字符对应的样本字符特征、目标空符的样本字符特征和预设码本，输出第i-1文本识别模型对应损失函数值。
17.在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现第一方面的文本识别方法或者第二方面的目标文本识别模型的训练方法。
18.在本公开实施方式的第四方面中，提供了一种文本识别装置，包括：
19.获取模块，用于获取待识别数据，待识别数据对应多个待识别字符，通过目标文本识别模型，获取待识别字符的字符特征，目标文本识别模型是基于样本数据中样本字符的样本字符特征进行训练得到的，样本字符中包括待识别字符；
20.确定模块，用于根据待识别字符的字符特征，确定待识别字符对应的文本，根据待识别字符对应的文本，确定待识别数据对应的目标文本。
21.在本公开的一个实施例中，目标文本识别模型包括字符特征抽取层；通过字符特征抽取层获取待识别字符的字符特征。
22.在本公开的一个实施例中，确定模块具体用于：根据待识别字符的字符特征与预设码本的之间的相似度，确定预设码本中对应于待识别字符的目标码本；根据预设码本与预设状态特征的对应关系，确定目标码本对应的目标状态；根据待识别字符对应的目标状态，确定待识别字符中的目标字符；根据目标字符的目标码本，确定目标字符对应的文本。
23.在本公开的一个实施例中，目标文本识别模型包括分类层；通过分类层，根据待识
别字符的字符特征与预设码本的之间的相似度，确定预设码本中对应于待识别字符的目标码本，分类层是将预设码本进行归一化后得到的。
24.在本公开的一个实施例中，不同的目标状态对应于不同的字符类型，字符类型包括空符和重复字符；
25.确定模块具体用于：根据待识别字符的目标状态，确定待识别字符的字符类型；确定待识别数据中除空符和重复字符之外的字符为目标字符。
26.在本公开的一个实施例中，获取模块还用于：获取多个样本数据和样本数据中样本字符的样本特征；通过特征生成模型，获取样本字符对应的预测状态特征；
27.确定模块还用于：根据样本字符的样本特征和预测状态特征，确定样本字符的状态特征；根据多个样本数据中同一样本字符的状态特征，确定样本字符对应的预设码本。
28.在本公开的一个实施例中，确定模块具体用于：将同一样本字符的状态特征进行二值化处理，得到状态特征对应的字符特征；根据状态特征对应的字符特征，确定样本字符对应的预设码本。
29.在本公开实施方式的第五方面中，提供了一种目标文本识别模型的训练装置，包括：
30.获取模块，用于获取多个样本数据，样本数据对应多个样本字符，通过初始目标文本识别模型获取样本字符的样本字符特征；
31.处理模块，用于在第i次训练过程中，通过第i-1文本识别模型获取样本字符的样本字符特征，第i-1文本识别模型是基于样本字符的样本字符特征进行训练得到的，i为大于1的整数；；
32.确定模块，用于根据各样本字符的样本字符特征和预设码本，确定所述第i-1文本识别模型对应损失函数值，所述损失函数值用于指示样本字符特征和预设码本的之间的距离；
33.输出模块，用于响应于所述损失函数值满足预设要求，输出所述第i-1文本识别模型为目标文本识别模型。
34.在本公开的一个实施例中，确定模块具体用于：根据样本字符的状态特征，确定样本字符中的空符；获取样本数据中预设数量的目标空符的样本字符特征；根据非空符字符对应的样本字符特征、目标空符的样本字符特征和预设码本，确定第i-1文本识别模型对应损失函数值。
35.在本公开实施方式的第六方面中，提供了一种计算设备，包括：至少一个处理器和存储器；存储器存储计算机执行指令；至少一个处理器至少存储器存储的计算机执行指令，使得至少一个处理器执行第一方面的文本识别方法或者第二方面的目标文本识别模型的训练方法。
36.在本公开实施方式的第七方面中，提供了一种计算机程序产品，计算机程序产品包括计算机程序；计算机程序被执行时实现第一方面的文本识别方法或者第二方面的目标文本识别模型的训练方法。
37.本公开实施方式提供的文本识别方法、介质、装置和计算设备，该方法包括：获取待识别数据；通过目标文本识别模型，获取待识别字符的字符特征，目标文本识别模型是基于样本数据中样本字符的样本字符特征进行训练得到的，样本字符中包括待识别字符；根
据待识别字符的字符特征，确定待识别字符对应的文本；根据待识别字符对应的文本，确定待识别数据对应的目标文本。由于目标文本识别模型中剔除了常规的分类层，而采用的预设码本的参数量相对较小，可以降低目标文本识别模型的包体大小，使得目标文本识别模型可以灵活的应用于各种计算设备，同时还能够保证文本识别结果的准确性。
附图说明
38.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
39.图1为本公开实施例提供的应用场景示意图；
40.图2为本公开实施例提供的文本识别方法的流程示意图一；
41.图3为本公开实施例提供的预设码本获取过程的流程示意图；
42.图4为本公开实施例提供的预设码本获取过程的原理示意图；
43.图5为本公开实施例提供的文本识别方法的流程示意图二；
44.图6为本公开实施例提供的目标文本识别模型的原理示意图一；
45.图7为本公开实施例提供的目标文本识别模型的原理示意图二；
46.图8为本公开实施例提供的目标文本识别模型的训练方法的流程示意图一；
47.图9为本公开实施例提供的目标文本识别模型的训练过程的原理示意图；
48.图10为本公开实施例提供的目标文本识别模型的训练方法的流程示意图二；
49.图11为本公开实施例提供的存储介质的示意图；
50.图12为本公开实施例提供的文本识别装置的结构示意图；
51.图13为本公开实施例提供的目标文本识别模型的训练装置的结构示意图；
52.图14为本公开实施例提供的计算设备的结构示意图。
53.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
54.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
55.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
56.根据本公开的实施方式，提出了一种文本识别方法、介质、装置和计算设备。
57.在本文中，需要理解的是，所涉及的术语光学字符识别(optical character recognition，ocr)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。
58.语音识别技术(automatic speech recognition，asr)，是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列的技术。
59.基于神经网络的时序类分类(connectionist temporal classification，ctc)，是一种常用在语音识别、文本识别等领域的算法，用来解决模型的输入数据和输出数据长度不一、无法对齐的问题。
60.此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
61.下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。
62.发明概述
63.本发明人发现，目前的目标文本识别模型通常需要计算每个字符的字符分类概率，再通过分类层根据字符分类概率来确定字符对应的文本，例如，ocr模型和asr模型等。由于这些目标文本识别模型通常需要识别成千上万的字符，这就使得字符分类概率对应的参数量非常大，例如，fp32全精度的分类层中参数量会超出10mb，这就使得目标文本识别模型的包体较大，对采用该模型进行文本识别的设备的性能要求较高。
64.有鉴于此，本公开实施例提供了一种文本识别方法、介质、装置和计算设备，首先采用目标文本识别模型来提取待识别字符的字符特征，再通过字符特征与预设码本获得字符进行对比，从而根据对比结果获得对应的文本。通过字符特征与预设码本获得字符对应的文本，可以剔除目标文本识别模型中常规的分类层，且采用的预设码本的参数量相对较小，可以在够保证文本识别结果的准确性的同时，降低目标文本识别模型的包体大小，使得目标文本识别模型可以灵活的应用于各种计算设备。
65.其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。
66.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
67.应用场景总览
68.首先参考图1，图1为本公开实施例提供的应用场景示意图。其示意性地示出了本公开实施方式的文本识别方法，和/或，目标文本识别模型的训练方法的应用场景，如图1所示，该场景包括服务器101和/或终端102，通过服务器101或者终端102实现文本识别过程或者目标文本识别模型的训练过程。
69.需要说明的是，文本识别过程和目标文本识别模型的训练过程均可以在云端(即服务器101端)执行，也可以在本地执行(即终端102)，本公开实施例不做具体限定。
70.其中，服务器101可以为单个服务器，也可以为服务器集群，可以为分布式服务器，也可以为集中式服务器，还可以为云服务器。
71.终端102可以是个人数字处理(personal digital assistant，简称pda)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，简称pc))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能显示设备)等。
72.示例性方法
73.下面结合图1的应用场景，参考图2～6来描述根据本公开示例性实施方式的用于
文本识别方法和目标文本识别模型的训练方法的方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
74.图2为本公开实施例提供的文本识别方法的流程示意图一。如图2所示，该实施例提供的文本识别方法包括如下步骤：
75.s201、获取待识别数据。
76.其中，待识别数据对应多个待识别字符。
77.在一些实施例中，针对不同的识别场景，所获取的待识别数据不同，一方面，待识别数据可以为图像数据，此时待识别字符为图像中的文字。另一方面，待识别数据还可以为语音数据，此时待识别字符为语音中的词汇内容。
78.s202、通过目标文本识别模型，获取待识别字符的字符特征。
79.需要说明的是，目标文本识别模型的类型与上述待识别数据的类型对应，即，当待识别数据为图像数据时，目标文本识别模型可以为基于ocr技术的目标文本识别模型；当待识别数据为语音数据时，目标文本识别模型可以为基于asr技术的目标文本识别模型。
80.其中，目标文本识别模型是基于样本数据中样本字符的样本字符特征进行训练得到的，样本字符中包括待识别字符，经过训练，该目标文本识别模型具备了获取待识别字符的字符特征的能力。本步骤中，将待识别数据输入到该目标文本识别模型中，目标文本识别模型首先识别出待识别数据中的待识别字符，再获取待识别字符的字符特征。
81.应理解，对于目标文本识别模型的具体结构及实现原理，在后续实施例中示出。
82.一些实施例中，对于字符特征的类型，本公开实施例也不做具体限定，例如，字符特征可以为二进制字符序列的embedding向量。
83.示例性的，以待识别数据为图像数据，且图像数据中包含的待识别字符为“c、a、t”为例，本步骤中，通过目标文本识别模型，分别获取“c”、“a”、“t”这三个字符的字符特征，即将图像数据中的“c”、“a”、“t”这三个字符转换为二进制字符序列。
84.s203、根据待识别字符的字符特征和预设码本，确定待识别字符对应的文本。
85.其中，预设码本为预设字符的字符特征，每个预设码本对应于唯一的一个预设字符，且预设字符中包含待识别字符。本步骤中，在获取到待识别字符的字符特征之后，可以根据该字符特征从预设码本中获取与该字符特征对应的目标码本，再根据预设码本与预设字符的对应关系，确定该目标码本对应的预设字符，该预设字符对应的文本即为待识别字符对应的文本。
86.应当理解的是，目标码本可以为预设码本中与字符特征相同的码本。
87.需要说明的是，预设码本也为二进制字符序列的embedding向量。
88.s204、根据待识别字符对应的文本，确定待识别数据对应的目标文本。
89.按照上述步骤，获取待识别数据中所有待识别字符的对应的文本后，可以根据待识别字符中的字符顺序，对各待识别字符对应的文本进行排序、组合，即可得到目标文本。
90.本公开实施例中，通过字符特征与预设码本获得字符对应的文本，可以剔除目标文本识别模型中常规的分类层，且采用的预设码本为高维1bit向量形式存储的二进制字符序列，其参数量相对较小，可以在够保证文本识别结果的准确性的同时，降低目标文本识别模型的包体大小，使得目标文本识别模型可以灵活的应用于各种计算设备。
91.接下来，结合图3所示实施例对预设码本的获取过程进行详细说明：
92.图3为本公开实施例提供的预设码本获取过程的流程示意图。如图3所示，本公开实施例中预设码本的获取过程包括如下步骤：
93.s301、获取多个样本数据和样本数据中样本字符的样本特征。
94.应理解，样本数据的类型与目标文本识别模型的类型相对应，例如，若目标文本识别模型为用于识别图像数据中的文本的模型，则样本数据也为图像数据，若目标文本识别模型为用于识别音频数据中的文本的模型，则样本数据也为音频数据。
95.其中，样本字符的样本特征为对样本数据进行标注的标注数据。示例性的，当样本数据为图像数据时，通过标注，该标注数据为：每个(或多个)像素对应的字符；当样本数据为音频数据时，通过标注，该标注数据为：每个(或多个)音频帧对应的字符。
96.s302、通过特征生成模型，获取样本字符对应的预测状态特征。
97.s303、根据样本字符的样本特征和预测状态特征，确定样本字符的状态特征。
98.在目前的目标文本识别模型中，例如基于ocr、asr等技术的模型等，其输入是图像数据或音频数据，图像数据和音频数据经过模型识别后转换成特征序列，而图像数据或音频数据中往往会包含一些空符或者重复字符。示例性的，在图像数据的识别过程中，是针对图像的一个或多个像素进行识别，此时不包含字符的像素(即空符)也会被转换为特征序列；或者，多个像素包含的是同一字符(即重复字符)时，这些像素均会被转换成同一特征序列。
99.类似的，在对音频数据进行识别时，是对音频数据的一帧或多帧音频进行识别，不包含字符的音频帧(即空符)也会被转换为特征序列，或者，多个音频帧包含的是同一字符(即重复字符)时，这些音频帧均会被转换成同一特征序列。
100.以图像数据为例，图4为本公开实施例提供的预设码本获取过程的原理示意图。如图4所示，输入图像数据中，经过标注，获得的样本特征为“c、a、t”，然而，样本字符“c”、样本字符“a”之前，以及样本字符“t”之后，都存在空符，这些空符也会被转换成特征序列；由于样本字符“a”所占像素空间较大，这些像素均会被转换成同一特征序列，从而会得到重复字符“a”。
101.有鉴于此，本公开的实施例中，可以通过特征生成模型来对样本字符的字符状态进行识别，从而样本字符中的空符、重复字符和正常字符，再获取空符、重复字符和各正常字符对应的预设码本，从而在目标文本识别模型识别出待识别字符的字符特征之后，能够根据字符特征与预设码本的对应关系，准确的确定各待识别字符的状态，以防止空符和重复字符对识别过程的干扰，提升识别结果的准确性。
102.在一些实施例中，特征生成模型可以为ctc模型。
103.以ctc模型为例，本步骤中，将样本数据和样本数据中样本字符的样本特征均输入到ctc模型中，通过ctc模型对样本字符的状态进行预测，获取样本字符的预测状态特征。
104.进一步的，将样本字符的预设状态特征与样本特征进行对齐处理，从而获得每个样本字符对应的状态特征。
105.另外需要说明的是，由于ctc模型输出的特征序列是保序的，因此将特征序列依照顺序分配给对齐后的字符状态，每个样本字符都能得到属于自己的特征高维向量，即状态特征。
106.具体的，ctc方法通过在字符类别外引入空符状态ε和重复状态完成对齐，空符状态ε代表预测点处无输出(即空符)，重复状态代表一个字符的重复输出，重复状态的类别数目为字符数目加1，如图4所示，经过对齐处理，对于图4中所示的样本数据“cat”，其对应的状态特征为“εcεaatε”。
107.s304、根据多个样本数据中同一样本字符的状态特征，确定样本字符对应的预设码本。
108.需要说明的是，由于多个样本数据中可能均包含同一字符，且同一字符在不同样本数据中的字符状态可能不同，在获取同一字符在不同样本数据中的状态特征后，获得同一字符的状态特征集合。
109.示例性的，样本数据“cat”、“crab”、“chick”中均包含字符“c”，在分别获取这些样本数据中字符“c”的状态特征之后，将其分别放置字符“c”对应的状态特征集合中。也即，同一字符对应与多个状态特征，至于其他样本字符，按照相同的处理方法，此处不再一一示出。
110.进一步的，根据同一字符对应的状态特征，获取该字符的字符特征。接下来，结合步骤s3041和步骤s3042进行详细说明：
111.s3041、将同一样本字符的状态特征进行二值化处理，得到状态特征对应的字符特征。
112.需要说明的是，在ctc模型中输出的状态特征的维度高于预设维度时，可以使用随机生成的矩阵将状态特征映射到低维度n，其中，n的值可以需求进行设定，本公开实施例不做限定。
113.示例性的，以每个样本字符包含状态特征的数量为100、每个状态特征的特征维度为1024、n的值为256为例，每个样本字符对应的状态特征矩阵为100*1024，经过映射，获得每个字符的状态特征矩阵为100*256。
114.进一步的，将随机矩阵映射后的状态特征进行二值化处理，获得每个状态特征对应的字符特征，其中，每个字符特征均为n位二进制字符串，对于包含100个状态特征的样本字符，一共对应与100个n位二进制字符串(字符特征)。
115.s3042、根据状态特征对应的字符特征，确定样本字符对应的预设码本。
116.仍以上述为例，本步骤中，针对每个样本字符，需要从该样本字符对应的100个字符特征中，获取一个字符特征为该样本字符的预设码本。
117.需要说明的是，在此过程中，可以从该样本字符对应的100个字符特征中随机抽取一个字符特征作为该样本字符的预设码本，也可以确定该样本字符的100个字符特征的中，出现次数最多的字符特征为该样本字符的预设码本，本公开实施例不做限定。
118.应当理解的是，对于空符字符样本，可以按照步骤s3042的方案获取空符样本字符的预设码本；在一些实施例中，由于空符样本字符的出现次数会比较多，且分布离散，也可以指定一个全为0或者全为1的n位二进制序列作为空符字符的预设码本，以减少运算量，提升预设码本的获取效率。
119.应当理解，由于样本字符中包含待识别字符，因而，通过本实施例的方案，在获得样本字符的预设码本后，即可以直接得出待识别字符的预设码本。
120.接下来，结合目标文本识别模型的具体结构，对目标文本识别模型如何识别文本
的方法进行更详细的说明。
121.图5为本公开实施例提供的文本识别方法的流程示意图二。如图5所示，该实施例提供的文本识别方法包括如下步骤：
122.s501、获取待识别数据。
123.其中，待识别数据对应多个待识别字符。
124.s502、通过字符特征抽取层获取待识别字符的字符特征。
125.图6为本公开实施例提供的目标文本识别模型的原理示意图一。如图6所示，该目标文本识别模型包括字符特征抽取层。
126.本步骤中，将待识别数据输入至目标文本识别模型中，通过字符特征抽取层获取待识别字符的状态特征。其中，字符特征抽取层可以为hamming-ctc模型中的hamming embedding抽取层，也即每个待识别字符对应的状态特征也为embedding向量。
127.s503、根据待识别字符的字符特征和预设码本，确定待识别字符对应的文本。
128.在一些实施例中，步骤s503具体包括如下步骤：
129.s5031、根据待识别字符的字符特征与预设码本的之间的相似度，确定预设码本中对应于待识别字符的目标码本；
130.在一些实施例中，针对每个待识别字符，可以计算待识别字符的字符特征(embedding)与预设码本中的各码本之间的距离，从而根据距离确定待识别字符的字符特征与预设码本的之间的相似度(距离越小，相似度越高)，并确定相似度最高的码本为该待识别字符的目标码本。
131.也即，在通过文本识别模型获取待识别字符的字符特征之后，由计算设备(例如，图1中的服务器101或者终端102)中的处理器根据字符特征与预设码本的之间的相似度，来确定目标码本。本方案中，由计算设备来确定目标码本，可以剔除文本识别模型中常规的分类层，降低文本识别模型的参数量。
132.在另一些实施例中，还可以在文本识别模型中设置分类层，由文本识别模型中的分类层来确定预设码本中对应于待识别字符的目标码本。示例性的，图7为本公开实施例提供的目标文本识别模型的原理示意图二。如图7所示，该目标文本识别模型还包括分类层。
133.应当理解的是，在获取到样本字符的预设码本之后，可以将预设码本进行归一化，并转换层相同维度的分类层，其中，分类层为一个线性的1*1的卷积层。
134.本方案中，在通过分类层获取目标码本时，将待识别字符的字符特征输入到分类层中，分类层即可根据字符特征与分类层中各预设码本之间的余弦相似度，确定该待识别字符的目标码本。
135.由于本实施例中的分类层是通过预设码本进行归一化获得的，其参数量与预设码本的参数量相同，相比于常规的分类层，仍然可以达到降低目标文本识别模型的包体大小、使得目标文本识别模型灵活的应用于各种计算设备的目的。另外，相比于由计算设备来确定目标码本的方式，通过目标文本识别模型的分类层来获取目标码本的效率更高，可以进一步提升计算设备的文本识别效率。
136.s5032、根据预设码本与预设状态特征的对应关系，确定目标码本对应的目标状态。
137.根据图3所示的实施例可以得出，由于预设码本是通过状态特征进行二值化处理
得到的，因此，预设码本与预设状态的对应关系是明确的。
138.本步骤中，在确定目标码本之后，即可确定待识别字符对应的目标状态。
139.其中，不同的目标状态对应于不同的字符类型，字符类型包括空符和重复字符。
140.s5033、根据待识别字符对应的目标状态，确定待识别字符中的目标字符。
141.在一些实施例中，步骤s5033具体包括如下步骤(1)～(2)：
142.(1)根据待识别字符的目标状态，确定待识别字符的字符类型。
143.示例性的，以待识别数据为图4中所示的样本数据为例，该待识别字符中各待识别字符的字符类型分别为“空符、正常字符1、空符、正常字符2、重复字符、正常字符3、空符”。
144.(2)确定待识别数据中除空符和重复字符之外的字符为目标字符。
145.示例性的，对于上述待识别字符，其中的目标字符为“正常字符1、正常字符2、正常字符3”。
146.s5034、根据目标字符的目标码本，确定目标字符对应的文本。
147.需要说明的是，由于预设码本是根据样本字符得到的，每个预设码本对应于唯一一个字符，在确定每个目标字符的目标码本之后，即可根据目标码本确定各目标字符对应的文本。
148.s504、根据待识别字符对应的文本，确定待识别数据对应的目标文本。
149.图8为本公开实施例提供的目标文本识别模型的训练方法的流程示意图一。需要说明的是，本公开实施例中的目标文本识别模型可以为上述图6或图7中任意一种模型，本公开实施例不做限定，如图8所示，本公开实施例的目标文本识别模型训练方法包括如下步骤：
150.s801、获取多个样本数据。
151.其中，样本数据对应于多个样本字符。
152.需要说明的是，本公开样本数据可以与图3所示实施例中的样本数据相同，此处不做赘述。
153.s802、在第i次训练过程中，通过第i-1文本识别模型获取样本字符的样本字符特征。
154.其中，第i-1文本识别模型是基于样本字符的样本字符特征进行训练得到的，i为大于1的整数。
155.s803、根据样本字符的样本字符特征和预设码本，确定样本数据对应损失函数值。
156.一些实施例中，损失函数值用于指示样本字符特征和样本字符的预设码本的之间的距离。
157.图9为本公开实施例提供的目标文本识别模型的训练过程的原理示意图。需要说明的是，图9中仍以样本数据为图像数据为例示出，但不以此为限定。另外，通过特征生成模型，生成样本数据中样本字符对应的状态特征和预设码本的方式请参考图3所示的实施例，此处不做赘述。
158.如图9所示，通过第i-1文本识别模型，分别获取样本数据中样本字符“字符
①
(空符)、字符
②
(c)、字符
③
(空符)、字符
④
(a)、字符
⑤
(重复字符)、字符
⑥
(t)、字符
⑦
(空符)”对应的样本字符特征。
159.进一步的，确定各样本字符的样本字符特征与预设码本之间的距离，从而根据距
离得出第i文本识别模型对应的损失函数值。
160.其中，样本字符的预设码本可以基于图3所示实施例中的方案获得，此处不再赘述，样本字符特征与预设码本之间的距离可以为余弦距离等，本公开实施例不做限定。
161.s804、响应于损失函数值满足预设要求时，输出第i-1文本识别模型为目标文本识别模型。
162.具体的，当损失函数值小于预设损失值，或者，当损失函数值相对于前次训练无变化时，确定损失函数值满足预设要求，此时，说明当前的文本识别模型已满足预设要求，即输出当前的文本识别模型为目标文本识别模型。
163.图10为本公开实施例提供的目标文本识别模型的训练方法的流程示意图二。在图8所示实施例的基础上，本公开实施例将对目标文本识别模型的训练方法进行更详细的说明。如图10所示，本公开实施例的目标文本识别模型训练方法包括如下步骤：
164.s1001、获取多个样本数据。
165.其中，样本数据对应多个样本字符。
166.s1002、在第i次训练过程中，通过第i-1文本识别模型获取样本字符的样本字符特征。
167.s1003、根据各样本字符的状态特征，确定样本字符中的空符。
168.请接续参考图9，由于各样本字符的状态特征为“εcεaatε”，因此，可以得出样本字符中的空符为：字符
①
、字符
③
、字符
⑦
。
169.s1004、获取样本数据中预设数量的目标空符的样本字符特征。
170.需要说明的是，对于预设数量的数值，本公开实施例不做具体限定，一方面，目标空符的数量可以为一固定值，例如，2、3等；另一方面，也可以根据样本字符的数量获得，例如，样本字符的数量越多，目标空符的数量可以设置为较大值。以目标空符的数量为1为例，目标空符可以为“字符
①
、字符
③
、字符
⑦”
中的任意一个。
171.s1005、根据非空符字符对应的样本字符特征、目标空符的样本字符特征，确定第i-1文本识别模型对应损失函数值。
172.以目标空符为“字符
①”
为例，本步骤中，获取字符
①
、字符
②
、字符
④
、字符
⑤
、字符
⑥
的样本字符特征和预设码本，确定各样本字符的样本字符特征和预设码本之间的距离，并根据各样本字符对应的距离，确定第i-1文本识别模型对应损失函数值。
173.s1006、当损失函数值满足预设要求时，输出第i-1文本识别模型为目标文本识别模型。
174.本公开实施例中，仅采取部分空符对模型进行训练，相比于采用所有空符的样本字符特征和预设码本对模型进行训练，可以避免模型偏向对空符的识别，进一步提升模型的准确准确性。
175.示例性介质
176.在介绍了本公开示例性实施方式的方法之后，接下来，参考图11对本公开示例性实施方式的存储介质进行说明。
177.图11为本公开实施例提供的存储介质的示意图。参考图11所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序
产品不限于此。
178.程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
179.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
180.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备。
181.示例性装置
182.在介绍了本公开示例性实施方式的介质之后，接下来，参考图12和图13分别对本公开示例性实施方式的文本识别装置和目标文本识别模型的训练装置进行说明。
183.图12为本公开实施例提供的文本识别装置的结构示意图。如图12所示，本公开实施例提供的文本识别装置1200包括：
184.获取模块1201，用于获取待识别数据，待识别数据对应多个待识别字符，通过目标文本识别模型，获取待识别字符的字符特征，目标文本识别模型是基于样本数据中样本字符的样本字符特征进行训练得到的，样本字符中包括待识别字符；
185.确定模块1202，用于根据待识别字符的字符特征，确定待识别字符对应的文本，根据待识别字符对应的文本，确定待识别数据对应的目标文本。
186.在本公开的一个实施例中，目标文本识别模型包括字符特征抽取层；通过字符特征抽取层获取待识别字符的字符特征。
187.在本公开的一个实施例中，确定模块1202具体用于：根据待识别字符的字符特征与预设码本的之间的相似度，确定预设码本中对应于待识别字符的目标码本；根据预设码本与预设状态特征的对应关系，确定目标码本对应的目标状态；根据待识别字符对应的目标状态，确定待识别字符中的目标字符；根据目标字符的目标码本，确定目标字符对应的文本。
188.在本公开的一个实施例中，目标文本识别模型包括分类层；通过分类层，根据待识别字符的字符特征与预设码本的之间的相似度，确定预设码本中对应于待识别字符的目标码本，分类层是将预设码本进行归一化后得到的。
189.在本公开的一个实施例中，不同的目标状态对应于不同的字符类型，字符类型包括空符和重复字符；确定模块1202具体用于：根据待识别字符的目标状态，确定待识别字符的字符类型；确定待识别数据中除空符和重复字符之外的字符为目标字符。
190.在本公开的一个实施例中，获取模块1201还用于：获取多个样本数据和样本数据中样本字符的样本特征；通过特征生成模型，获取样本字符对应的预测状态特征；确定模块1202还用于：根据样本字符的样本特征和预测状态特征，确定样本字符的状态特征；根据多个样本数据中同一样本字符的状态特征，确定样本字符对应的预设码本。
191.在本公开的一个实施例中，确定模块1202具体用于：将同一样本字符的状态特征进行二值化处理，得到状态特征对应的字符特征；根据状态特征对应的字符特征，确定样本字符对应的预设码本。
192.需要说明的是，本公开实施例提供的上述文本识别装置，可以实现前述文本识别方法的实施例中的各过程，并达到相同的功能和效果，此处不做赘述。
193.图13为本公开实施例提供的目标文本识别模型的训练装置的结构示意图。如图13所示，该训练装置1300包括：
194.获取模块1301，用于获取多个样本数据，样本数据对应多个样本字符，通过初始目标文本识别模型获取样本字符的样本字符特征；
195.处理模块1302，用于在第i次训练过程中，通过第i-1文本识别模型获取样本字符的样本字符特征，第i-1文本识别模型是基于样本字符的样本字符特征进行训练得到的，i为大于1的整数；
196.确定模块1303，用于根据各样本字符的样本字符特征和预设码本，确定第i-1文本识别模型对应损失函数值，损失函数值用于指示样本字符特征和预设码本的之间的距离；
197.输出模块1304，用于当损失函数值满足预设要求时，输出第i-1文本识别模型为目标文本识别模型。
198.在本公开的一个实施例中，确定模块1303具体用于：根据样本字符的状态特征，确定样本字符中的空符；获取样本数据中预设数量的目标空符的样本字符特征；根据非空符字符对应的样本字符特征、目标空符的样本字符特征和预设码本，确定第i-1文本识别模型对应损失函数值。
199.需要说明的是，本公开实施例提供的上述训练装置，可以实现前述目标文本识别模型的训练方法的实施例中的各过程，并达到相同的功能和效果，此处不做赘述。
200.示例性计算设备
201.在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图14对本公开示例性实施方式的计算设备进行说明。
202.应理解，图14显示的计算设备1400仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
203.图14为本公开实施例提供的计算设备的结构示意图。如图14所示，计算设备1400以通用计算设备的形式表现。计算设备1400的组件可以包括但不限于：上述至少一个处理单元1401、上述至少一个存储单元1402，连接不同系统组件(包括处理单元1401和存储单元1402)的总线1403。
204.总线1403包括数据总线、控制总线和地址总线。存储单元1402可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)1412和/或高速缓存存储器1422，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(rom)1432。
205.存储单元1402还可以包括具有一组(至少一个)程序模块1442的程序/实用工具
1452，这样的程序模块1442包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
206.计算设备1400也可以与一个或多个外部设备1404(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口1405进行。并且，计算设备1400还可以通过网络适配器1406与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图14所示，网络适配器1406通过总线1403与计算设备1400的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
207.应当注意，尽管在上文详细描述中提及了各装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
208.此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
209.虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种信息处理系统、方法、装置、设备及介质与流程

文本识别方法、介质、装置和计算设备与流程

相关文献

最热文献