一种文本识别方法、装置、设备及介质与流程

2022-09-01 10:51:38 来源：中国专利 TAG：

1.本公开涉及文本识别技术领域，尤其涉及一种文本识别方法、装置、设备及介质。

背景技术：

2.目前，采用机器学习方法或ocr识别等常见的文本识别方法，取得的文本识别结果准确性并不高，经常出现错误识别字符的情况。同时，文本纠错主要是以自然语言处理技术为基础，再结合易错词表对文本进行纠错。该方式需要较高的人力成本构建易错词表，且易错词表无法穷举全部的易错词，对于未出现过错误文本无法进行纠正。因此，目前的文本识别方法的纠错能力不足，影响文本识别结果的准确性。

技术实现要素：

3.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本识别方法、装置、设备及介质。
4.根据本公开的一方面，提供了一种文本识别方法，包括：获取包含目标语句的待处理图像；所述目标语句由多个初始字符组成；基于所述待处理图像，获取一组字符图像以及与所述目标语句对应的生成语句；其中，每张字符图像包括一个初始字符；对各字符图像进行特征提取，得到各初始字符对应的图像特征；对所述生成语句进行特征提取，得到所述生成语句中各字符对应的文本特征；基于所述图像特征和所述文本特征，得到所述目标语句的文本识别结果。
5.根据本公开的另一方面，提供了一种文本识别装置，包括：第一获取模块，用于获取包含目标语句的待处理图像；所述目标语句由多个初始字符组成；第二获取模块，用于基于所述待处理图像，获取一组字符图像以及与所述目标语句对应的生成语句；其中，每张字符图像包括一个初始字符；图像特征提取模块，用于对各字符图像进行特征提取，得到各初始字符对应的图像特征；文本特征提取模块，用于对所述生成语句进行特征提取，得到所述生成语句中各字符对应的文本特征；文本识别模块，用于基于所述图像特征和所述文本特征，得到所述目标语句的文本识别结果。
6.根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述文本识别方法。
7.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据文本识别方法。
8.本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的文本识别方法、装置、设备及介质，该方法包括：获取包含目标语句的待处理图像；目标语句由多个初始字符组成；基于待处理图像，获取一组字符图像以及与目标语句对应的生成语句；对各字符图像进行特征提取，得到各初始字符对应的图像特征；对生成语句进行特征提取，得到生成语句对应的文本特征；基于图像特征和文本特征，得到目标语句的文本识别结果。本公开能够联合图像特征和文本特征，提升纠错能力和文本识别结果的准确性。
附图说明
9.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
10.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
11.图1为本公开实施例提供的文本识别方法流程图；图2为本公开实施例提供的图文处理网络架构示意图；图3为本公开实施例提供的特征融合过程示意图；图4为本公开实施例提供的文本识别装置的结构示意图；图5为本公开实施例提供的电子设备的结构示意图。
具体实施方式
12.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
13.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
14.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
15.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
16.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
17.考虑到目前的文本识别方法的纠错能力不足，识别准确性较低，本公开实施方式提供一种文本识别方法、装置、设备及介质。该技术可以应用于诸如文本纠错、文本语句自动检查、文字校对等文本识别场景中，为便于理解，以下对本公开实施例展开描述。
18.图1为本公开实施例提供的一种文本识别方法流程图，该方法包括如下步骤：步骤s102，获取包含目标语句的待处理图像；目标语句由多个初始字符组成。
19.在本实施例中，待处理图像可以是用户通过在终端中的图像选择操作、图像拍摄操作或图像上传操作等方式获取的图像。待处理图像包含的目标语句诸如为：手写语句、书面语句、试卷、卡证票据、办公文档等，组成目标语句的多个初始字符可能全部书写正确，也可能存在形近字、易混淆字等使用错误的初始字符，比如将“臼”误拼写为“白”、“的、地、得”混淆使用；为了提高识别准确性，尤其是针对存在错误字符的场景，本实施例需要得到目标语句对应的纠错后准确的文本识别结果。
20.步骤s104，基于待处理图像，获取一组字符图像以及与目标语句对应的生成语句；其中，每张字符图像包括一个初始字符。
21.在一些实施例中，可以对待处理图像进行图像语义分割，得到一组以单个初始字符为单位的字符图像。生成语句可以是对待处理图像进行ocr（optical character recognition，光学字符识别）识别得到的；或者，也可以是先对各字符图像进行ocr识别得到生成字符，再由生成字符组成生成语句。
22.步骤s106，对各字符图像进行特征提取，得到各初始字符对应的图像特征。
23.本实施例可以通过具有图像特征提取能力的神经网络，分别提取每张字符图像中初始字符的图像特征，所提取的图像特征能够反映初始字符书写的形状特征。字符图像之间是相对独立的个体，彼此之间并无信息交互，基于此，通过各字符图像提取得到的图像特征之间也是没有信息交互的。
24.步骤s108，对生成语句进行特征提取，得到生成语句中各字符对应的文本特征。
25.本实施例可以通过具有文本特征提取能力的神经网络提取生成语句的文本特征。由于本实施例中的提取操作是针对生成语句这一整体，而非以单个的字符为单位，因此，生成语句中的每个生成字符都融合上下文的特征，也即各生成字符的文本特征之间是存在信息交互的，从而，生成语句中每个字符对应的文本特征能够融合整个生成语句前后文的语义信息。
26.步骤s110，基于图像特征和文本特征，得到目标语句的文本识别结果。
27.在本实施例中，可以对图像特征和文本特征进行融合，得到融合特征；再对融合特征进行文本识别，得到目标语句的文本识别结果。
28.本实施例提供的文本识别方法，先基于待处理图像获取一组字符图像和生成语句；然后提取各字符图像的图像特征，以及提取生成语句中各字符的文本特征；接着，基于图像特征和文本特征，得到目标语句的文本识别结果。本技术方案中，由于图像特征能够反映初始字符书写的形状特征，文本特征能够反映语句完整的语义信息，因此，综合利用图像特征和文本特征得到的文本识别结果，既能够和书写的文本内容匹配，又能够根据语义信息对使用错误的初始字符进行纠错，避免影响文本识别结果的准确性，从而实现了图文联合纠错，有效提升了纠错能力和文本识别结果的准确性。
29.本实施例提供的方法还可以包括：获取图文处理网络，该图文处理网络的输入为
字符图像和生成语句，输出为文本识别结果。
30.在一种实施例中，如图2所示，图文处理网络包括：图像特征提取模块、文本特征提取模块、特征融合模块和分类器。
31.针对图像特征提取模块，其输入为一组字符图像，输出为各初始字符对应的图像特征；针对文本特征提取模块，其输入为生成语句，输出为文本特征；针对特征融合模块，其输入为图像特征和文本特征，输出为融合特征；针对分类器，其输入为融合特征，输出为目标语句的文本识别结果。
32.在本实施例中，一组字符图像可以表示为t，t=[t0，t1，
……
，ti，
……
tn],ti表示第个初始字符对应的字符图像；生成语句可以表示为c，c=[c0，c1，
……
，ci，
……cn
],ci表示第个初始字符对应的生成字符；上述n表示目标语句的句子长句，也即包括n个初始字符。
[0033]
根据本实施例，可以通过图像特征提取模块分别对各字符图像中的初始字符进行形状特征的提取，得到各初始字符对应的图像特征。具体的，通过图像特征提取模块m
tu
对字符图像ti进行特征提取，以将字符图像ti映射为向量形式的图像特征gi，gi=m
tu
(ti)；一组图像特征组成张量g。
[0034]
根据本实施例，可以通过文本特征提取模块对生成语句进行上下文特征的提取，得到生成语句对应的文本特征。具体的，文本特征提取模块可以使用常见的融合语言结构的bert模型。通过文本特征提取模块m
text
对生成语句c进行特征提取，生成语句中的每个生成字符ci都会得到一个融合上下文的文本特征vi，多个生字字符的文本特征组成生成语句的文本特征，其维度和相同。由于每个生成字符的文本特征之间存在信息交互，生成语句的文本特征作为一个整体，表达式为：v=m
text
(c)。
[0035]
根据以上实施例，将一组字符图像t和生成语句c转换成了图像特征g和文本特征v，于是针对目标语句中每个初始字符，既拥有了包含字形信息的图像特征gi，又拥有了包含了前后文信息的本文特征vi。接下来，对上述图像特征和文本特征这两个特征进行融合。
[0036]
在本实施例中，通过特征融合模块对图像特征和文本特征进行融合，得到融合特征。具体实施时，特征融合模块可以采用神经张量层和残差网络对图像特征和文本特征；如图3所示，可以通过特征融合模块按照以下公式（1）对图像特征和文本特征进行融合，得到融合特征：（1）其中，gi表示第i个初始字符的图像特征，vi表示生成语句中与第i个初始字符对应的生成字符的文本特征，α和β分别表示预设的参数，w表示特征融合模块的三维张量参数，b表示特征融合模块的偏置项，f（）是激活函数，h（vi，gi）表示融合特征。设vi的维度为h
×
1，gi的维度为m
×
1，则三维张量参数w的第一维为h，第三维为m，w的第二维可设为d，相应地，w的维度为h
×d×
m；w的第二维为d，则偏置项b的维度为d
×
1。
[0037]
将融合后的融合特征输入分类器，通过分类器对融合特征进行文本识别，得到目标语句的文本识别结果。其中，分类器例如可以使用全连接神经网络。
[0038]
在一般的ocr识别场景下，即使待处理图像或者字符图像中书写的初始字符都是准确的，然而，在ocr识别过程中，会将形近错别字引入到生成语句中。例如，待处理图像中书写的目标语句是“明白了这件事”，但ocr识别得到的生成语句可能是“明百了这件事”。基
于此，可以根据图像特征和文本特征得到融合特征，再利用分类器根据融合特征，将生成语句纠正为“明白了这件事”。
[0039]
在书写批改的场景下，待处理图像或者字符图像中书写的初始字符可能会有错别字，在ocr识别过程中，可能会将错别字识别成其图片中书写错误的初始字符，但该字符并不是符合目标语句的正确字；例如：待处理图像中书写的目标语句是“明百了这件事”，ocr识别得到的生成语句也是“明百了这件事”。当然，ocr识别也可能引入与错别字形近的其他错别字，如将错误的初始字符“百”识别为“臼”。针对上述情况，如果只依赖文本特征，分类器会根据本文特征生成语义相近的语句，例如“明确了这件事”；但是，本实施例的融合特征联合了反映字符形状的图像特征和反映语义信息的文本特征，分类器根据该融合特征能够对识别有误的生成语句中的错误字符进行纠正，生成符合语境且和书写形状最接近的字符，最终得到准确的“明白了这件事”。
[0040]
需要说明的是，以上仅为本实施例应用场景的两种示例，不应理解为限制。
[0041]
考虑到实际应用中，在根据ocr识别图像的过程中会引入噪声，即待处理图像中的目标语句与识别得到的生成语句不匹配，如上述实施例中将“白”识别为“百”。如果认为ocr识别准确，则将“百”纠正为“白”，但其实图像中的书写并没有错误，这样会造成错别字虚报，影响用户体验。基于此，本实施例提供如下一种通过分类器得到目标语句的文本识别结果的方法，参照以下所示。
[0042]
通过分类器对初始字符对应的融合特征进行文本识别，得到与初始字符对应的目标字符。第i个初始字符对应的目标字符可表示为zi；与i个初始字符对应的生成字符为ci。
[0043]
根据预设字典获取生成字符ci的第一置信分值和目标字符zi的第二置信分值。预设字典中的每个字符都具有综合置信分值，生成字符ci的第一置信分值可表示为r
ij
，目标字符zi的第二置信分值可表示为o
ik
；上述的j和k分别表示生成字符ci和目标字符zi在字典中的索引。
[0044]
根据第一置信分值和第二置信分值确定初始字符的字符识别结果。具体可以按照以下公式（2）并根据第一置信分值和第二置信分值确定初始字符的字符识别结果：（2）其中，thok表示目标字符ci在字典中的置信度阈值，thrj和thrmj表示字典中两个字符之间差异性的区间端点值；上述三个参数是在实验中统计得得到。
[0045]
对于公式（2）中的三个条件，分别为：j≠k，表示生成字符ci和目标字符zi不同，此时需要进行错别字的纠正。o
ik
＞thok，表示目标字符zi的置信度高。的限制，表示需要对生成字符ci和目标字符zi在置信度上存在区分，且不能差距太大，差别太大表示不是形近错别字的情况，本实施例通过thrj和thrmj限制生成字符ci和目标字符zi之间的差异性在合理范围内。
[0046]
当满足以上三个条件时，将目标字符zi确定初始字符i的字符识别结果。
[0047]
参照上述方式得到每个初始字符的字符识别结果，将多个初始字符的字符识别结果生成目标语句的文本识别结果，也即文本识别结果由多个字符识别结果组成。
[0048]
在融合特征的基础上，本实施例中的分类器根据第一置信分值和第二置信分值提供的分值策略，能够在存在错别字的场景下，给出纠错后书写正确的字符识别结果，进一步提高文本识别结果的准确率。
[0049]
为了使图文处理网络可以直接应用于文本识别，需要事先训练该图文处理网络，使训练后的图文处理网络能够得到关于文本识别结果的预期效果。本实施例给出一种图文处理网络的训练方法，该方法包括构建数据集、利用数据集生成训练数据、利用训练数据训练网络三个主要步骤；以下基于该三个步骤对训练过程展开描述。
[0050]
构建数据集的步骤。本实施例获取多张第一图像和与第一图像一一对应的第二图像；其中，第一图像中包括基准字符，第二图像中包括与基准字符形近的对照字符。
[0051]
在一种方式中，可以对字典中的每个字符分别收集第一图像和第二图像这两张图像。第一图像中的字符为书写正确的基准字符，且第一图像上标注该基准字符；第二图像中的对照字符，可以利用ocr对第一图像进行文本识别，将概率最高的错误识别结果确定为与基准字符书写相似的对照字符。例如，对于字典中的字符“白”，第一图像中包含的基准字符为“白”，第二图像中包含的对照字符为“百”。
[0052]
根据上述方式能够得到多组具有对应关系的第一图像和第二图像，以及相应的得到多组具有对应关系的基准字符和对照字符。进而，本实施例可以将基准字符和对照字符生成形近字集；形近字集包括多组形近的基准字符和对照字符。相比于传统的形近字库，上述收集形近字集的方式无需依赖人工构建，就能够为字典中每个字符都找到形近字，增加了形近字的覆盖范围，并且对于计算机模型计算更加友好。
[0053]
至此，本实施例得到包括图像数据（即第一图像、第二图像）和文本数据（即形近字集）的数据集。
[0054]
利用数据集生成训练数据的步骤。在实际应用中，图像与文本联合标注的训练数据较难获取，针对于此，本实施例提出一种利用上述数据集获得训练数据的方法，以获取海量的训练数据。
[0055]
在本实施例中，先确定一条由多个书写正确的样本字符组成的样本语句。而后，从第一图像和第二图像中获取一组样本图像；其中，各样本图像中包括的第一字符与预设的样本语句中的字符一一匹配；以及，从形近字集中获取组成训练生成语句的多个第二字符；其中，各第二字符与样本语句中的字符一一匹配。
[0056]
针对样本语句中的每个样本字符，根据第一图像上标注的基准字符，确定样本字符对应的第一图像以及与第一图像对应的第二图像。具体的，从多张第一图像中确定标注的基准字符与样本字符相同的第一候选图像，按照第一图像和第二图像之间的对应关系，将与第一候选图像对应的第二图像确定为第二候选图像。将第一候选图像或者第二候选图像确定为样本字符对应的样本图像。基于此，得到样本语句对应的一组样本图像，每张样本图像中的第一字符分别匹配一个样本字符。可以理解的是，如果样本图像来自于第一图像，第一字符与其匹配的样本字符是相同字符；如果样本图像来自于第二图像，第一字符与其匹配的样本字符则是形近字符。
[0057]
针对样本语句中的每个样本字符，从形近字集中获取组成训练生成语句的多个第二字符。第二字符可能来自于基准字符或者对照字符，或者说，训练生成语句中可以包含书写错误的第二字符。
[0058]
对于同一样本字符，其对应的样本图像来自书写正确的第一图像（可表示为真）或者书写错误的第二图像（可表示为假），其对应的第二字符来自书写正确的的基准字符（可表示为真）或者书写错误的对照字符（可表示为假）。在此情况下，按照样本图像为第一图像或第二图像，以及第二字符为基准字符或者对照字符，得到样本图像和第二字符之间的多种组合模式；例如可参照如下表1所示。
[0059]
表1表1中，组合模式b：样本图像为真，ocr识别结果对应的第二字符为假，期望输出对应的样本字符为真，这是本实施例应用在一般ocr识别场景中期望达到的效果。基于此，当本实施例提供的文本纠错方法应用于一般的ocr识别场景时，可以在确定组合模式之间的数据分配比例时，增加组合模式b的数据在全部训练数据中的比例。
[0060]
组合模式d：样本图像为假，ocr识别结果对应的第二字符为假，期望输出对应的样本字符为真，这是本实施例应用在书写批改的场景中期望达到的效果。其中，虽然样本图像和第二字符都为假，但可能样本图像和第二字符不匹配，例如：样本图像中写的是“百”，ocr识别的第二字符为“臼”，而正确的样本字符为“白”。基于此，当本实施例提供的文本识别方法应用于书写批改的场景时，可以在确定组合模式之间的数据分配比例时，增加组合模式d的数据在全部训练数据中的比例。
[0061]
在实际场景中，组合模式a的情况更符合真实场景样本分布，组合模式c属于漏检的情况，从而，在确定组合模式之间的数据分配比例时，可以令组合模式a的数据分配比例最大，而组合模式c的数据分配比例最小，甚至可以为0。
[0062]
参照以上不同组合模式适应的不同应用场景的示例，为了更好地满足实际应用，本实施例可以根据实际应用需求，确定组合模式之间的数据分配比例，使按照数据分配比例获取的训练数据，在用于训练图文处理网络时取得令人满意的识别效果。
[0063]
此外，本实施例还需要获取从形近字集的基准字符中获取第二字符的目标概率。由于图文处理网络中需要利用反映上下文信息的文本特征来进行纠错，因而需要保证书写正确的基准字符的比例。基于此，本实施例预先设置从形近字集的基准字符中获取第二字符的目标概率，该目标概率也可以理解为第二字符为基准字符的概率，一般大于60%。
[0064]
在本实施例中，根据目标概率和数据分配比例，从第一图像和第二图像中获取样本图像以及从形近字集中获取第二字符。
[0065]
根据以上实施例得到大量用于训练图文处理网络的样本图像和训练生成语句，进入网络训练阶段。
[0066]
利用训练数据训练网络的步骤。将一组样本图像和训练生成语句输入至待训练的图文处理网络进行处理，得到文本预测结果；根据样本语句和文本预测结果训练图文处理网络。
[0067]
在一种实施例中，图像特征提取模块可以使用预先训练好的模块，于是，图文处理
网络的训练过程可分为预训练和微调两个阶段；在预训练阶段将图像特征提取模块的模型参数锁定，不对图像特征提取模块的模型参数进行更新；在微调阶段，将图文处理网络的所有参数放开进行训练，图像特征提取模块的模型参数参与调优。
[0068]
为便于理解，可以提供一种训练的具体实施例，包括：将一组样本图像输入至图像特征提取模块分别进行形状特征提取，得到预测图像特征；将训练语句输入至文本特征提取模块进行文本特征提取，得到预测文本特征；将预测图像特征和预测文本特征输入至特征融合模块进行融合，得到预测融合特征；将预测融合特征输入至分类器进行文本识别，得到样本语句对应的文本预测结果；根据样本语句、文本预测结果和预设的损失函数，对图文处理网络进行训练，损失函数指示样本语句、文本预测结果之间的相似度。
[0069]
综上，本公开实施例提供的文本纠错方法，利用基于深度学习的图文处理网络，联合图像特征和文本特征，进行文本识别，尤其是能够进行形近错别字的纠正，有效提升了纠错能力和文本识别结果的准确性。同时，通过构建数据集并利用数据集生成训练数据，明显提升了数据增强效果，为图文处理网络取得较好地训练效果提供了数据保障。
[0070]
如图4所示，本公开实施例提供了一种文本纠错装置，用于实现上述文本纠错方法。参照图4，该装置包括如下模块：第一获取模块402，用于获取包含目标语句的待处理图像；目标语句由多个初始字符组成；第二获取模块404，用于基于待处理图像，获取一组字符图像以及与目标语句对应的生成语句；其中，每张字符图像包括一个初始字符；图像特征提取模块406，用于对各字符图像进行特征提取，得到各初始字符对应的图像特征；文本特征提取模块408，用于对生成语句进行特征提取，得到生成语句中各字符对应的文本特征；文本识别模块410，用于基于图像特征和文本特征，得到目标语句的文本识别结果。
[0071]
在一种实施例中，上述装置还包括网络获取模块，其用于：获取图文处理网络，图文处理网络的输入为字符图像和生成语句，输出为文本识别结果。
[0072]
在一种实施例中，图文处理网络包括：图像特征提取模块；图像特征提取模块406具体用于：通过图像特征提取模块分别对各字符图像中的初始字符进行形状特征的提取；在一种实施例中，图文处理网络包括：文本特征提取模块；文本特征提取模块408具体用于：通过文本特征提取模块对生成语句进行上下文特征的提取。
[0073]
在一种实施例中，图文处理网络包括：特征融合模块和分类器；文本识别模块410具体用于：通过特征融合模块对图像特征和文本特征进行融合，得到融合特征；通过分类器对融合特征进行文本识别，得到目标语句的文本识别结果。
[0074]
在一种实施例中，文本识别模块410具体用于：通过分类器对初始字符对应的融合特征进行文本识别，得到与初始字符对应的目标字符；根据预设字典获取生成字符的第一置信分值和目标字符的第二置信分值；生成字
符是生成语句中与初始字符对应的字符；根据第一置信分值和第二置信分值确定初始字符的字符识别结果；将多个初始字符的字符识别结果生成目标语句的文本识别结果。
[0075]
在一种实施例中，上述装置还包括网络训练模块，其用于：获取多张第一图像和与第一图像一一对应的第二图像；其中，第一图像中包括基准字符，第二图像中包括与基准字符形近的对照字符；将基准字符和对照字符生成形近字集；从第一图像和第二图像中获取一组样本图像；其中，各样本图像中包括的第一字符与预设的样本语句中的字符一一匹配；从形近字集中获取组成训练生成语句的多个第二字符；其中，各第二字符与样本语句中的字符一一匹配；将一组样本图像和训练生成语句输入至待训练的图文处理网络进行处理，得到文本预测结果；根据样本语句和文本预测结果训练图文处理网络。
[0076]
在一种实施例中，上述网络训练模块还用于：按照样本图像为第一图像或第二图像，以及第二字符为基准字符或者对照字符，得到样本图像和第二字符之间的多种组合模式；确定组合模式之间的数据分配比例；获取从形近字集的基准字符中获取第二字符的目标概率；根据目标概率和数据分配比例，从第一图像和第二图像中获取样本图像以及从形近字集中获取第二字符。
[0077]
在一种实施例中，第二获取模块404具体用于：对待处理图像进行图像语义分割，得到一组以单个初始字符为单位的字符图像。
[0078]
本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。
[0079]
本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
[0080]
本公开示例性实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使所述计算机执行根据本公开实施例的方法。
[0081]
本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
[0082]
参考图4，现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0083]
如图4所示，电子设备400包括计算单元401，其可以根据存储在只读存储器（rom）402中的计算机程序或者从存储单元408加载到随机访问存储器（ram）403中的计算机程序，来执行各种适当的动作和处理。在ram 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、rom 402以及ram 403通过总线404彼此相连。输入/输出（i/o）接口405也连接至总线404。
[0084]
电子设备400中的多个部件连接至i/o接口405，包括：输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备，输入单元406可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
[0085]
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元（cpu）、图形处理单元（gpu）、各种专用的人工智能（ai）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（dsp）、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中，计算单元401可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别方法。
[0086]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0087]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或快闪存储器）、光纤、便捷式紧凑盘只读存储器（cd-rom）、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0088]
如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0089]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，crt（阴极射线管）或者lcd（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。
[0090]
可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（lan）、广域网（wan）和互联网。
[0091]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0092]
以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于play算子的非对称率相关迟滞建模方法

一种文本识别方法、装置、设备及介质与流程

相关文献

最热文献