文本识别方法、装置、设备及存储介质与流程

2022-06-01 03:06:44 来源：中国专利 TAG：

1.本技术涉及自然语言处理技术领域，尤其涉及一种文本识别方法、装置、设备及计算机可读存储介质。

背景技术：

2.光学字符识别(ocr)技术是一种应用十分广泛的技术，在字符识别相关系统中，判定文本排布是基本任务，对文本排布分析的质量高低直接影响了最终识别的展示效果，现有方法有通过滑动窗口的文本检测方法，设置大量不同大小的窗口进行逐步分析，但这种方法计算量过大，需要耗费大量计算资源，耗时较长，也容易出现过拟合的情况。另一些方法是基于人工设计的各种特征指标来进行分析，这十分有赖于设计者的经验，并且这些指标特征并不能很好的适用于各种场景，方法的适用性不高。

技术实现要素：

3.本技术的主要目的在于提供一种文本识别方法、装置、设备及计算机可读存储介质，旨在提升文本排布识别的准确性。
4.第一方面，本技术提供一种文本识别方法，所述文本识别方法包括以下步骤：
5.获取待识别文本图像，以及对所述待识别文本图像进行特征提取，得到所述待识别文本图像的第一特征矩阵；
6.将所述第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵；
7.基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵；
8.基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵；
9.基于所述文本识别模型的解码子模型，对所述目标特征矩阵进行解码处理，得到所述待识别文本图像中的文本排布信息。
10.第二方面，本技术还提供一种文本识别装置，所述文本识别装置包括：
11.图像特征获取模块，用于获取待识别文本图像，以及对所述待识别文本图像进行特征提取，得到所述待识别文本图像的第一特征矩阵；
12.第一特征计算模块，用于将所述第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵；
13.池化处理模块，用于基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符特征矩阵以及所述字符组合特征矩阵进行池化处理，得到第二特征矩阵；
14.第二特征计算模块，用于基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵；
15.解码处理模块，用于基于所述文本识别模型的解码子模型，对所述目标特征矩阵进行解码处理，得到所述待识别文本图像中的文本排布信息。
16.第三方面，本技术还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的文本识别方法的步骤。
17.第四方面，本技术还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的文本识别方法的步骤。
18.本技术提供一种文本识别方法、装置、设备及计算机可读存储介质，方法包括获取待识别文本图像，以及对所述待识别文本图像进行特征提取，得到所述待识别文本图像的第一特征矩阵；
19.将所述第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵；基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符特征矩阵以及所述字符组合特征矩阵进行池化处理，得到第二特征矩阵；基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵；基于所述文本识别模型的解码子模型，对所述目标特征矩阵进行解码处理，得到所述待识别文本图像中的文本排布信息。通过第一特征计算子模型中并行的第一字符特征计算路径和第二字符特征计算路径，对文本图像进行字符组合特征计算以及字符特征计算，可以有效处理图像中字体差异较大的情况，能够适用各种场景，以及通过对字符特征矩阵、字符组合特征矩阵以及第二特征矩阵进行排布的识别，引入了多维信息进行识别，从而有效提高文本排布信息的准确性。
附图说明
20.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本技术实施例提供的一种文本识别方法的流程示意图；
22.图2为实施本实施例提供的文本识别方法的一场景示意图；
23.图3为本技术实施例提供的一种文本识别模型的示意性框图；
24.图4为本技术实施例提供的一种文本识别装置的示意性框图；
25.图5为本技术一实施例涉及的计算机设备的结构示意框图。
具体实施方式
26.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。
28.本技术实施例提供一种文本识别方法、装置、计算机设备及计算机可读存储介质。其中，该文本识别方法可应用于终端设备中，该终端设备可以是平板电脑、笔记本电脑、台式电脑等电子设备。也可以应用于服务器中，该服务器可以是单独的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
29.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。
30.请参照图1，图1为本技术的实施例提供的一种文本识别方法的流程示意图。
31.如图1所示，该文本识别方法包括步骤s101至步骤s105。
32.步骤s101、获取待识别文本图像，以及对所述待识别文本图像进行特征提取，得到所述待识别文本图像的第一特征矩阵。
33.示例性的，可以通过图像获取装置，获取待识别文本图像，可以理解的，待识别文本图像可以是报纸、文刊、杂志等包括多个文字的图像，可以通过图像获取装置对报纸、杂志等进行图像获取处理，以得到待识别文本图像。
34.可以理解的，文本识别方法可以在服务器中运行，从而服务器能够获取终端发送的待识别文本图像，以对待识别文本图像进行文本排布识别处理。或如图2所示，服务器能够从源终端获取待识别文本图像，并将对待识别文本图像进行文本识别处理后得到的文本排布信息发送至若干个目标终端中。
35.示例性的，将待识别文本图像输入特征提取模型中，以对待识别文本图像进行特征提取处理，得到待识别图像对应的第一特征矩阵，可以理解的，特征提取模型可以是训练好的文本识别模型中的子模型，也可以是进入特征提取模型进行特征提取处理得到第一特征矩阵后，将第一特征矩阵输入训练好的文本识别模型中。
36.示例性的，特征提取模型可以是vgg50网络中的前五层，以进行特征提取处理。可以理解的，对待识别图像进行特征提取处理，得到第一特征矩阵可以抑制图像中的噪点，以得到更精准的文本排布结果。
37.在一些实施方式中，在对待识别文本图像进行特征提取之前，对待识别文本图像进行归一化处理，具体的，通过预设归一化参数阈值，对待识别文本图像上的各个像素对应的原始像素值，进行最大/最小值映射，将所有像素的原始像素值转化为处于预设归一化参数阈值中的目标像素值，以完成归一化处理。
38.通过对归一化处理后的待识别文本图像进行特征提取，能够提升特征提取的准确
性，从而提升对文本排布识别的准确性。
39.步骤s102、将所述第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵。
40.示例性的，训练好的文本识别模型的结构如图3所示，可以理解的，文本识别模型中的具体结构图中并未示出，且图3不对文本识别模型的结构予以限定，实现与图3的模型相同的功能对应的结构有多种。
41.示例性的，文本识别模型包括第一特征计算子模型，将第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型中，以使第一特征计算子模型对第一特征矩阵进行字符组合特征以及字符特征的识别。
42.可以理解的，字符特征可以用于指示待识别文本图像中文字字符的特征，例如中文文字的结构；字符组合特征可以用于指示待识别文本图像中的文本上下文的关系。
43.具体的，在第一特征计算子模型中，包括第一字符特征计算路径和第二字符特征计算路径，其中，第一字符特征计算路径和第二字符特征计算路径为并行路径，可以同时对第一特征矩阵进行处理，以得到在第一字符特征计算路径输出的字符组合特征矩阵，以及在第二字符特征计算路径输出的字符特征矩阵。
44.在一些实施例中，所述将第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵，包括：基于所述第一特征计算子模型的可训练残差层，将所述第一特征矩阵与第一权重矩阵进行矩阵相乘，得到字符组合特征矩阵；以及基于所述第一特征计算子模型的固定残差层，将所述第一特征矩阵与第二权重矩阵进行矩阵相乘得到字符特征矩阵。
45.示例性的，第一字符特征计算路径可以是可训练残差层，第二字符特征计算路径可以是固定残差层，其中，在未经训练的文本识别模型中，可训练残差层与固定残差层的结构、参数可以相同，并在对文本识别模型的训练过程中，根据训练的结果只对可训练残差层的结构和/或参数进行调整，从而引入了一种选择机制，通过分割为两条平行的计算路径，可以防止文本识别模型过度拟合的情况。
46.示例性的，在可训练残差层中，可以将第一特征矩阵与第一权重矩阵进行矩阵相乘，得到字符组合特征矩阵，以及在固定残差层中，可以将第一特征矩阵与第二权重矩阵进行矩阵相乘，得到字符特征矩阵。
47.可以理解的，第一权重矩阵可以用于关注待识别文本图像中的字符之间的组合信息，也可以是字符的上下文信息；第二权重矩阵可以用于关注待识别图像中字符的形状、从而提升文本排布识别的准确性。
48.可以理解的，因为字符的组合更容易被识别以及计算，因而用于关注文字之间的组合信息所对应的第一权重矩阵的模可以小于用于关注文字的形体信息所对应的第二权重的模，以确定预设的第一权重矩阵以及预设的第二权重矩阵。
49.示例性的，在对文本识别模型的训练中，可以根据训练结果调整第一特征计算子
模型中预设的第一权重矩阵，以在对待识别文本图像进行文本排布识别时，通过调整后的第一权重矩阵对第一特征矩阵进行计算，以得到更精确的计算结果。
50.在另一些实施方式中，第一权重矩阵和第二权重矩阵均用于待识别图像中的文字之间的组合信息，但由于在训练的过程中第一权重矩阵可以调整，第二权重矩阵不能调整，因而在未对模型进行训练，对第一权重矩阵和第二权重矩阵进行设置时，第一权重矩阵的模可以小于第二权重矩阵的模，以使在训练的过程中无需进行过多的参数调整和/或参数调整前后的相差不会很大，以提高模型的训练速率。
51.示例性的，利用了第一特征计算子模型中的可训练残差层以及固定残差层进行权重计算，实现了深入理解注意力机制(channel-wise机制)，从而能够对待识别图像中的文字分析残差信息，以及通过可训练残差层以及固定残差层的自适应机制，可以自适应处理字体较大与字体较小的文字，以及样本量较少的情况，从而提高文本识别模型的适用性。
52.步骤s103、基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵。
53.示例性的，通过第一特征矩阵、字符组合特征矩阵以及字符特征矩阵进行拼接，得到第四特征矩阵，并对第四特征矩阵进行池化处理，得到第二特征矩阵，以通过第二特征矩阵对待识别文本图像进行文本排布识别。
54.示例性的，拼接可以例如是矩阵相加处理，对第一特征矩阵、字符组合特征矩阵以及字符特征矩阵进行矩阵相加处理，得到第四特征矩阵。
55.示例性的，对第四特征矩阵进行池化处理可以是下采样处理，以得到第二特征矩阵。
56.在一些实施例中，在所述基于所述文本识别模型的池化子模型，对所述第一特征矩阵，所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵之前，还包括：基于所述第一特征计算子模型的矩阵相加网络，将所述字符组合特征矩阵和字符特征矩阵进行矩阵相加处理，得到第一融合矩阵；基于所述第一特征计算子模型的卷积网络，对所述第一融合矩阵进行卷积处理，得到处理后的第一融合矩阵；基于所述第一特征计算子模型的池化网络，对处理后的第一融合矩阵进行下采样处理，得到第二融合矩阵；基于所述第一特征计算子模型的矩阵分裂网络，确定所述第二融合矩阵的第一因子矩阵和第二因子矩阵，其中，所述第一因子矩阵与所述第二因子矩阵相加得到的矩阵等于预设参数矩阵；所述基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵，包括：基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行池化处理，得到第二特征矩阵。
57.示例性的，得到字符组合特征矩阵以及字符特征矩阵之后，将符组合特征矩阵和字符特征矩阵进行矩阵相加处理，得到第一融合矩阵。
58.示例性的，第一特征计算子模型还包括卷积网络，将第一融合矩阵输入至卷积网络进行卷积处理，得到处理后的第一融合矩阵。
59.在一些实施例方式中，卷积网络还包括多个卷积层以及多个批标准化层，将输入到卷积网络中的第一融合矩阵进行卷积处理以及批标准化处理，以得到处理后第一融合矩阵。
60.示例性的，卷积层的数量与批标准化层的数量可以相同，且卷积层和批标准化层可以间隔排列，例如，将卷积层编号为1、2、3，批标准化层编号为4、5、6，第一卷积网络中的排列顺序为1、4、2、5、3、6，以实现卷积层和批标准化层的间隔排列。
61.示例性的，将卷积网络输出的处理后的第一融合矩阵输入至第一特征计算子模型中的池化网络进行下采样处理，得到第二融合矩阵。
62.可以理解的，通过池化网络对第一融合矩阵进行下采样处理可以提取到第一融合矩阵的全局统计信息，以及能够减少第一融合矩阵中的特征，以加快文本识别速率。
63.在一些实施方式中，在池化网络中还包括若干卷积层，将下采样处理后的第一融合矩阵输入至第二卷积网络进行卷积处理，得到第二融合矩阵。
64.可以理解的，池化网络中可以包含一个卷积层，其中，卷积层的卷积核可以为1
×
1，该卷积层处理后，第二融合矩阵的大小为rc
×2×
1，在一些实施方式中，还可以通过激活函数(softmax函数)对卷积处理后的第二融合矩阵进行非线性计算处理后输出。
65.示例性的，得到第二融合矩阵后，将第二融合矩阵输入至矩阵分裂网络中，以确定第二融合矩阵的第一因子矩阵以及第二因子矩阵。
66.在一些实施方式中，第一因子矩阵与第二因子矩阵相乘能够得到第二融合矩阵。
67.在另一些实施方式中，第一因子矩阵与第二因子矩阵相乘得到的矩阵可以与第二融合矩阵不相同，且第一因子矩阵与第二因子矩阵相加等于预设的参数矩阵。
68.例如，可以在矩阵分裂网络中，通过预设的计算路径进行分裂，例如第二融合矩阵通过矩阵分裂网络的预设计算路径得到第一因子矩阵，并根据预设的参数矩阵与第一因子矩阵进行矩阵相减计算，得到第二因子矩阵。
69.示例性的，预设的参数矩阵可以是单位矩阵。
70.例如，第三融合矩阵为得到的第一因子矩阵为通过预设参数矩阵和第一因子矩阵得到的第二因子矩阵为
71.示例性的，得到第一因子矩阵和第二因子矩阵后，对第一特征矩阵、字符组合特征矩阵、字符特征矩阵以及第二因子矩阵进行池化处理，得到第二特征矩阵。
72.在一些实施例中，所述基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行池化处理，得到第二特征矩阵，包括：基于所述池化子模型的矩阵拼接层，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行拼接，得到第三特征矩阵；基于所述池化子模型的池化层，对所述第三特征矩阵进行平均池化处理，得到第二特征矩阵。
73.示例性的，基于矩阵拼接层，对第一特征矩阵、字符组合特征矩阵、字符特征矩阵、第一因子矩阵以及第二因子矩阵进行拼接，得到第三特征矩阵，并基于池化子模型的池化层，对第三特征矩阵记性平均池化处理，得到第二特征矩阵。
74.在另一些实施例中，可以例如是对各个矩阵进行池化处理后进行拼接，以得到第二特征矩阵，如上所述，在此不再重复撰述。
75.在一些实施例中，所述基于所述池化子模型的矩阵拼接层，对所述第一特征矩阵、
所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行拼接，得到第三特征矩阵，包括：将所述字符组合特征矩阵和所述第一因子矩阵进行矩阵相乘处理，得到第一结果矩阵；将所述字符特征矩阵和所述第二因子矩阵进行矩阵相乘处理，得到第二结果矩阵；将所述第一结果矩阵、所述第二结果矩阵以及所述第一特征矩阵进行矩阵相加处理，得到第三特征矩阵。
76.示例性的，可以通过下述表达式计算得到第三特征矩阵：
77.x
l
＝s
t
(x
l-1
)p
t
(x
l-1
) sf(x
l-1
)pf(x
l-1
) (x
l-1
)
78.其中，x
l
用于指示第三特征矩阵，s
t
(x
l-1
)用于指示第一因子矩阵，p
t
(x
l-1
)用于指示字符组合特征矩阵，sf(x
l-1
)用于指示第二因子矩阵，pf(x
l-1
)用于指示字符特征矩阵，(x
l-1
)用于指示第一特征矩阵。可以理解的，通过第三特征矩阵计算待识别文本图像的文本排布信息可以提高识别的准确性。
79.步骤s104、基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵。
80.示例性的，通过文本识别模型的第二特征计算子模型，能够将第二特征矩阵进行激活处理，以及将激活后的第二特征矩阵与第一特征矩阵、字符组合矩阵以及字符特征矩阵进行融合，得到目标特征矩阵，可以理解的，目标特征矩阵中既包含了未经全局平均池化处理的第一特征矩阵、字符组合矩阵以及字符特征矩阵，也包含了经全局平均池化处理后的第二特征矩阵，即包含了不同维度的信息，以使通过目标特征矩阵进行解码时能够得到更全面的分析图像中的特征，以得到更精准的识别结果。
81.在一些实施例中，基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵，包括：基于所述第二特征计算子模型的第一拼接网络，将所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵以及所述第二特征矩阵进行拼接，得到第三融合矩阵；基于所述第二特征计算子模型的卷积网络，对所述第二特征矩阵进行卷积处理，以及基于激活函数，对卷积处理后的第二特征矩阵进行非线性计算，得到激活矩阵；基于所述第二特征计算子模型的第二拼接网络，将所述第三融合矩阵、所述激活矩阵以及所述第二特征矩阵进行融合，得到目标特征矩阵。
82.示例性的，在第一拼接网络中对第一特征矩阵、字符组合特征矩阵以及字符特征矩阵、第二特征矩阵进行拼接，得到第三融合矩阵。
83.示例性的，第一拼接网络还包括resize层，resize层用于对矩阵进行缩放，具体的，将第一特征矩阵、字符组合特征矩阵以及字符特征矩阵进行拼接，并将拼接得到的矩阵输入至resize层进行缩放，以使缩放后的矩阵与第二特征矩阵进行拼接，得到第三融合矩阵。
84.示例性的，resize层可以是3
×
3的卷积层。
85.示例性的，拼接可以例如是第二特征矩阵为缩放后的矩阵为拼接得到的
第三融合矩阵为通过第三融合矩阵可以得到目标特征矩阵，其中，目标特征矩阵可以用于解码，得到待识别图像中的文字排布信息。
86.示例性的，通过第二特征计算子模型的卷积网络，对第二特征矩阵进行卷及处理，以及将第二特征矩阵与激活函数进行非线性计算，得到激活矩阵。
87.示例性的，卷积网络包括池化层、至少两个卷积层，其中，池化层可以对第二特征矩阵进行下采样处理，第一个卷积层可以对第二特征矩阵进行压缩，压缩后进行批量归一化处理，处理后通过第二个卷积层对压缩后的第二特征矩阵还原为输入第一个卷积层之前的大小，并与sigmoid函数进行非线性计算，以达到激活的目的，得到激活矩阵。
88.示例性的，通过对第三融合矩阵、激活矩阵以及第二特征矩阵进行融合，得到能够用于解码的目标特征矩阵，以得到待识别图像上的文字信息，从而得到文本排布信息。
89.在一些实施例中，所述基于所述第二特征计算子模型的第二拼接网络，将所述第三融合矩阵、所述激活矩阵以及所述第二特征矩阵进行融合，得到目标特征矩阵，包括：对所述第三融合矩阵和所述激活矩阵进行矩阵相乘处理，得到第三结果矩阵；将所述第三结果矩阵与所述第二特征矩阵进行矩阵相加处理，得到目标特征矩阵。
90.示例性的，通过第一融合矩阵与激活矩阵进行相乘处理，得到第三结果矩阵，以及通过第三结果矩阵与第二特征矩阵进行相加，得到目标特征矩阵。
91.可以理解的，目标特征矩阵包括不同维度的特性，以更好的对待识别图像中的文字信息/文本信息进行识别。
92.步骤s105、基于所述文本识别模型的解码子模型，对所述目标特征矩阵进行解码处理，得到所述待识别文本图像中的文本排布信息。
93.示例性的，对目标特征矩阵进行解码处理，以得到待识别图像中的文字信息，从而根据待识别图像中的文字信息确定待识别图像中的文本排布信息。
94.示例性的，可以根据预设的解码规则对目标特征矩阵进行解码处理，得到目标特征矩阵对应的文字信息，也即经过文本识别模型处理后得到的待识别图像中的文本排布信息。
95.示例性的，可以将文本识别模型输出的文本排布信息存储于区块链中，以使在其他终端设备需要获取文本排布信息时，能够通过向区块链进行广播以获取文本排布信息。本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
96.本技术还提供一种文本识别模型的训练方法，方法包括：获取训练数据，所述训练数据包括样本图像和所述样本图像对应的目标文本排布信息；根据所述训练数据对文本识别模型进行训练，得到训练好的文本识别模型。
97.示例性的，获取样本图像以及样本图像对应的目标文本排布信息作为训练数据，以通过训练数据对文本识别模型进行训练，得到训练好的文本识别模型。
98.示例性的，样本图像可以包括多个报纸或文刊的图像，样本图像对应的目标文本
排布信息可以是经人工对样本图像进行标注后，得到的目标文本排布信息，可以理解的，每个样本图像均有各自对应的目标文本排布信息。
99.在一些实施例中，所述根据所述训练数据对文本识别模型进行训练，得到训练好的文本识别模型，包括：获取样本文本图像，以及对所述样本文本图像进行特征提取，得到所述样本文本图像对应的第一样本矩阵；基于所述文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的样本字符组合特征矩阵；以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的样本字符特征矩阵；基于所述训练好的文本识别模型的池化子模型，对所述第一样本矩阵、样本字符组合特征矩阵、样本字符特征矩阵进行池化处理，得到第二样本矩阵；
100.基于所述文本识别模型的第二特征计算子模型，对所述第二样本矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一样本矩阵、所述样本字符组合特征矩阵、所述样本字符特征矩阵进行融合，得到目标样本特征矩阵；基于所述文本识别模型的解码子模型，对所述目标样本特征矩阵进行解码处理，得到所述样本图像中的文本排布信息；根据所述目标文本排列信息和所述样本图像的文本排列信息对所述第一特征计算子模型的参数进行调整，得到训练好的文本识别模型。
101.示例性的，将样本文本图像输入至文本识别模型中，以使文本识别模型进行识别处理得到样本文本图像的文本排布信息，可以理解的，进行识别处理的过程可以如上所述，在此不再重复撰述。
102.示例性的，通过文本识别模型得到的样本文本图像的文本排布信息，以及通过样本文本图像的文本排布信息和目标文本排布信息对文本识别模型进行参数调整。
103.示例性的，可以通过样本图像的文本排布信息和目标文本排布信息进行对比，得到差异信息，以及根据差异信息对文本识别模型进行参数调整。
104.具体的，根据差异信息对第一特征计算子模型中的第一字符特征计算路径，如可训练残差层的参数进行调整，固定残差层的参数不变，以避免文本识别模型对图像进行识别时发生的过拟合情况，从而提升文本识别模型的文本识别准确性。
105.示例性的，训练好的文本识别模型可以存储于区块链中。
106.上述实施例提供的文本识别方法，方法包括获取待识别文本图像，以及对所述待识别文本图像进行特征提取，得到所述待识别文本图像的第一特征矩阵；将所述第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵；基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵；基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵；基于所述文本识别模型的解码子模型，对所述目标特征矩阵进行解码处理，得到所述待识别文本图像中的文本排布信息。通过第一特征计算子模型的第一字符特征计算路径和第二字符特征计算路径分别对第一特征矩阵进行计算得到字符组合特征矩阵和字符
特征矩阵，可以使该方法适用多种不同的应用场景，增加适用性，以及能够防止过拟合的情况，从而得到更精准的文本识别结果。
107.请参阅图4，图4是本技术一实施例提供的一种文本识别装置100的示意图，该文本识别装置100可以配置于服务器或终端中，用于执行前述的文本识别方法。
108.如图4所示，该文本识别装置100，包括：图像特征获取模块110、第一特征计算模块120、池化处理模块130、第二特征计算模块140、解码处理模块150。
109.图像特征获取模块110，用于获取待识别文本图像，以及对所述待识别文本图像进行特征提取，得到所述待识别文本图像的第一特征矩阵。
110.第一特征计算模块120，用于将所述第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵。
111.池化处理模块130，用于基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵。
112.第二特征计算模块140，用于基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵。
113.解码处理模块150，用于基于所述文本识别模型的解码子模型，对所述目标特征矩阵进行解码处理，得到所述待识别文本图像中的文本排布信息。
114.示例性的，第一特征计算模块120还包括可训练残差层子模块，固定残差层子模块。
115.可训练残差层子模块，用于基于所述第一特征计算子模型的可训练残差层，将所述第一特征矩阵与第一权重矩阵进行矩阵相乘得到字符组合特征矩阵。
116.固定残差层子模块，用于基于所述第一特征计算子模型的固定残差层，将所述第一特征矩阵与第二权重矩阵进行矩阵相乘得到字符特征矩阵。
117.示例性的，第一特征计算模块120还包括第一融合处理子模块，卷积处理子模块，第一池化处理子模块，矩阵分裂处理子模块。
118.第一融合处理子模块，用于基于所述第一特征计算子模型的矩阵相加网络，将所述字符组合特征矩阵和字符特征矩阵进行矩阵相加处理，得到第一融合矩阵。
119.卷积处理子模块，用于基于所述第一特征计算子模型的卷积网络，对所述第一融合矩阵进行卷积处理，得到处理后的第一融合矩阵。
120.第一池化处理子模块，用于基于所述第一特征计算子模型的池化网络，对处理后的第一融合矩阵进行下采样处理，得到第二融合矩阵。
121.矩阵分裂处理子模块，用于基于所述第一特征计算子模型的矩阵分裂网络，确定所述第二融合矩阵的第一因子矩阵和第二因子矩阵，其中，所述第一因子矩阵与所述第二因子矩阵相加得到的矩阵等于预设参数矩阵。
122.池化处理模块130，还用于基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行池化处理，得到第二特征矩阵。
123.示例性的，池化处理模块130还包括矩阵拼接子模块，第二池化处理子模块。
124.矩阵拼接子模块，用于基于所述池化子模型的矩阵拼接层，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行拼接，得到第三特征矩阵。
125.第二池化处理子模块，用于基于所述池化子模型的池化层，对所述第三特征矩阵进行平均池化处理，得到第二特征矩阵。
126.示例性的，矩阵拼接子模块还包括第一矩阵相乘子模块、第二矩阵相乘子模块、第一矩阵相加子模块。
127.第一矩阵相乘子模块，用于将所述字符组合特征矩阵和所述第一因子矩阵进行矩阵相乘处理，得到第一结果矩阵。
128.第二矩阵相乘子模块，用于将所述字符特征矩阵和所述第二因子矩阵进行矩阵相乘处理，得到第二结果矩阵。
129.第一矩阵相加子模块，用于将所述第一结果矩阵、所述第二结果矩阵以及所述第一特征矩阵进行矩阵相加处理，得到第三特征矩阵。
130.示例性的，第二特征计算模块140包括第一拼接子模块、第三卷积处理子模块、第二拼接子模块。
131.第一拼接子模块，用于基于所述第二特征计算子模型的第一拼接网络，将所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵以及所述第二特征矩阵进行拼接，得到第三融合矩阵。
132.第三卷积处理子模块，用于基于所述第二特征计算子模型的卷积网络，对所述第二特征矩阵进行卷积处理，以及基于激活函数，对卷积处理后的第二特征矩阵进行非线性计算，得到激活矩阵。
133.第二拼接子模块，用于基于所述第二特征计算子模型的第二拼接网络，将所述第三融合矩阵、所述激活矩阵以及所述第二特征矩阵进行融合，得到目标特征矩阵。
134.示例性的，第二拼接子模块还包括事件第三矩阵相乘子模块、第二矩阵相加子模块。
135.第三矩阵相乘子模块，用于对所述第三融合矩阵和所述激活矩阵进行矩阵相乘处理，得到第三结果矩阵。
136.第二矩阵相加子模块，用于将所述第三结果矩阵与所述第二特征矩阵进行矩阵相加处理，得到目标特征矩阵。
137.需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
138.本技术的方法，可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这
些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
139.示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。
140.请参阅图5，图5为本技术实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。
141.如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。
142.存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种文本识别方法。
143.处理器用于提供计算和控制能力，支撑整个计算机设备的运行。
144.内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种文本识别方法。
145.该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
146.应当理解的是，处理器可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
147.其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：
148.获取待识别文本图像，以及对所述待识别文本图像进行特征提取，得到所述待识别文本图像的第一特征矩阵；
149.将所述第一特征矩阵输入训练好的文本识别模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵；
150.基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵；
151.基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵；
152.基于所述文本识别模型的解码子模型，对所述目标特征矩阵进行解码处理，得到所述待识别文本图像中的文本排布信息。
153.在一个实施例中，所述处理器在实现将所述第一特征矩阵输入训练好的文本识别
模型的第一特征计算子模型，基于所述第一特征计算子模型的第一字符特征计算路径得到所述待识别文本图像中的字符组合特征矩阵，以及基于所述第一特征计算子模型的第二字符特征计算路径得到所述待识别文本图像中的字符特征矩阵时，用于实现：
154.基于所述第一特征计算子模型的可训练残差层，将所述第一特征矩阵与第一权重矩阵进行矩阵相乘得到字符组合特征矩阵；以及
155.基于所述第一特征计算子模型的固定残差层，将所述第一特征矩阵与第二权重矩阵进行矩阵相乘得到字符特征矩阵。
156.在一个实施例中，所述处理器在实现基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵之前，用于实现：
157.基于所述第一特征计算子模型的矩阵相加网络，将所述字符组合特征矩阵和字符特征矩阵进行矩阵相加处理，得到第一融合矩阵；
158.基于所述第一特征计算子模型的卷积网络，对所述第一融合矩阵进行卷积处理，得到处理后的第一融合矩阵；
159.基于所述第一特征计算子模型的池化网络，对处理后的第一融合矩阵进行下采样处理，得到第二融合矩阵；
160.基于所述第一特征计算子模型的矩阵分裂网络，确定所述第二融合矩阵的第一因子矩阵和第二因子矩阵，其中，所述第一因子矩阵与所述第二因子矩阵相加得到的矩阵等于预设参数矩阵；
161.所述处理器在实现基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵以及所述字符特征矩阵进行池化处理，得到第二特征矩阵时，用于实现：
162.基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行池化处理，得到第二特征矩阵。
163.在一个实施例中，所述处理器在实现基于所述文本识别模型的池化子模型，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行池化处理，得到第二特征矩阵时，用于实现：
164.基于所述池化子模型的矩阵拼接层，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行拼接，得到第三特征矩阵；
165.基于所述池化子模型的池化层，对所述第三特征矩阵进行平均池化处理，得到第二特征矩阵。
166.在一个实施例中，所述处理器在实现基于所述池化子模型的矩阵拼接层，对所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵、所述第一因子矩阵以及所述第二因子矩阵进行拼接，得到第三特征矩阵时，用于实现：
167.将所述字符组合特征矩阵和所述第一因子矩阵进行矩阵相乘处理，得到第一结果矩阵；
168.将所述字符特征矩阵和所述第二因子矩阵进行矩阵相乘处理，得到第二结果矩
阵；
169.将所述第一结果矩阵、所述第二结果矩阵以及所述第一特征矩阵进行矩阵相加处理，得到第三特征矩阵。
170.在一个实施例中，所述处理器在实现基于所述文本识别模型的第二特征计算子模型，对所述第二特征矩阵与预设的激活函数进行非线性计算，以及将计算得到的矩阵与所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵进行融合，得到目标特征矩阵时，用于实现：
171.基于所述第二特征计算子模型的第一拼接网络，将所述第一特征矩阵、所述字符组合特征矩阵、所述字符特征矩阵以及所述第二特征矩阵进行拼接，得到第三融合矩阵；
172.基于所述第二特征计算子模型的卷积网络，对所述第二特征矩阵进行卷积处理，以及基于激活函数，对卷积处理后的第二特征矩阵进行非线性计算，得到激活矩阵；
173.基于所述第二特征计算子模型的第二拼接网络，将所述第三融合矩阵、所述激活矩阵以及所述第二特征矩阵进行融合，得到目标特征矩阵。
174.在一个实施例中，所述处理器在实现基于所述第二特征计算子模型的第二拼接网络，将所述第三融合矩阵、所述激活矩阵以及所述第二特征矩阵进行融合，得到目标特征矩阵时，用于实现：
175.对所述第三融合矩阵和所述激活矩阵进行矩阵相乘处理，得到第三结果矩阵；
176.将所述第三结果矩阵与所述第二特征矩阵进行矩阵相加处理，得到目标特征矩阵。
177.需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述文本识别的具体工作过程，可以参考前述文本识别控制方法实施例中的对应过程，在此不再赘述。
178.本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本技术文本识别方法的各个实施例。
179.其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。
180.应当理解，在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
181.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
182.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种MOSFET器件的版图结构及MOSFET器件的制作方法

文本识别方法、装置、设备及存储介质与流程

相关文献

最热文献