模型训练方法及文字识别方法、装置、设备和存储介质与流程

2021-10-19 23:27:00 来源：中国专利 TAG： 方法人工智能识别装置模型

1.本发明涉及人工智能技术领域，尤其涉及一种模型训练方法及文字识别方法、装置、设备和存储介质。

背景技术：

2.在一些应用场景中会存在识别图像中包含的文字的需求。比如，通过对道路上部署的若干摄像头所采集的视频数据进行文字识别，可以识别出街道边存在的商铺的名称，为电子地图中相关数据的更新提供依据。
3.但是，在实际进行文字识别的过程中，经常会因为形近字、图像噪声等干扰导致文字识别结果错误。比如如下两个汉字：“妹”、“妺”，这两个汉字的字形及其相似，在基于现有的文字识别模型进行文字识别时，经常会被误识别。

技术实现要素：

4.本发明实施例提供一种模型训练方法及文字识别方法、装置、设备和存储介质，可以提高文字识别的准确性。
5.第一方面，本发明实施例提供一种文字识别方法，该方法包括：
6.获取包含待识别的文字的图像；
7.获取所述图像的第一图像特征和第二图像特征；
8.根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率；
9.根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字。
10.第二方面，本发明实施例提供一种文字识别装置，该装置包括：
11.获取模块，用于获取包含待识别的文字的图像；
12.提取模块，用于获取所述图像的第一图像特征和第二图像特征；
13.预测模块，用于根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率；
14.输出模块，用于根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字。
15.第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的文字识别方法。
16.第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的文字识别方法。
17.第五方面，本发明实施例提供了一种模型训练方法，包括：
18.获取样本图像和偏旁部首集，所述样本图像中包含文字；
19.确定所述样本图像对应的标注信息，所述标注信息包括所述样本图像中包含的文
字和偏旁部首，所述偏旁部首存在于所述偏旁部首集中；
20.在所述标注信息的监督下，对文字识别模型进行训练。
21.第六方面，本发明实施例提供一种模型训练装置，该装置包括：
22.获取模块，用于获取样本图像和偏旁部首集，所述样本图像中包含文字；
23.标注模块，用于确定所述样本图像对应的标注信息，所述标注信息包括所述样本图像中包含的文字和偏旁部首，所述偏旁部首存在于所述偏旁部首集中；
24.训练模块，用于在所述标注信息的监督下，对文字识别模型进行训练。
25.第七方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第五方面所述的模型训练方法。
26.第八方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第五方面所述的模型训练方法。
27.第九方面，本发明实施例提供了一种文字识别方法，包括：
28.接收调用目标服务的请求，所述请求中包含图像，所述目标服务用于识别图像中包含的文字；
29.利用所述目标服务对应的资源，以获取所述图像的第一图像特征和第二图像特征，根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率，根据所述第二图像特征和所述出现概率，输出所述图像中包含的文字。
30.本发明实施例提供的文字识别方案可以用于识别图像中包含的文字，尤其用于对其中包含的汉字进行准确识别。实际应用中，当获取到某图像，需要识别其中包含的文字时，可以使用预先训练好的文字识别模型来完成文字识别任务。该文字识别模块的工作过程简单来说是，首先，对该图像进行特征提取，以获得该图像的第一图像特征和第二图像特征。其中，第一图像特征可以被用于进行该图像中包含的偏旁部首的预测，从而可以知道该图像中包含哪些偏旁部首。图像中包含的偏旁部首的预测结果对于准确识别出图像中包含的文字具有辅助作用，从而，基于第二图像特征以及该预测结果，可以完成图像中所包含文字的准确识别。
31.由于形近字是影响文字识别结果准确性的一种重要因素，而形近字的差异往往体现为偏旁或部首上的差异，因此，在本方案中，提供了一种能够区分文字偏旁部首的文字识别模型，以便基于该文字识别模型能够获得良好的文字识别结果。
附图说明
32.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
33.图1为本发明实施例提供的一种模型训练方法的流程图；
34.图2为本发明实施例提供的一种文字识别模型的组成示意图；
35.图3为本发明实施例提供的另一种文字识别模型的组成示意图；
36.图4为本发明实施例提供的另一种文字识别模型的组成示意图；
37.图5为本发明实施例提供的另一种文字识别模型的组成示意图；
38.图6为本发明实施例提供的一种文字识别方法的流程图；
39.图7为本发明实施例提供的一种文字识别应用场景的示意图；
40.图8为本发明实施例提供的一种模型训练装置的结构示意图；
41.图9为与图8所示实施例提供的模型训练装置对应的电子设备的结构示意图；
42.图10为本发明实施例提供的一种文字识别装置的结构示意图；
43.图11为与图10所示实施例提供的文字识别装置对应的电子设备的结构示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。
46.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
47.另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
48.本发明实施例提供的文字识别方法可以由一电子设备来执行，该电子设备可以是诸如pc机、笔记本电脑、智能手机、智能机器人等终端设备，也可以是云端的服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云服务器。
49.本发明实施例提供的文字识别方法可以用于识别图像中包含的文字。该图像比如可以是对通过道路旁设置的摄像头采集的视频进行分割而得到的任一帧图像。
50.本发明实施例为了实现对图像中所包含文字的识别处理，提供了一种文字识别模型。概括来说，该文字识别模型的训练过程包括：
51.获取样本图像和偏旁部首集，样本图像中包含文字；
52.确定样本图像对应的标注信息，标注信息包括样本图像中包含的文字和偏旁部首，该偏旁部首存在于偏旁部首集中；
53.在标注信息的监督下，对文字识别模型进行训练。
54.实际应用中，可以收集包含若干样本图像的训练样本集，每个样本图像中都包含文字。基于此，可选地，偏旁部首集可以通过如下方式获取：
55.确定训练样本集中包含的多个文字；
56.确定所述多个文字对应的多个偏旁部首；
57.确定所述多个偏旁部首各自对应的出现次数；
58.确定由出现次数符合设定条件的偏旁部首构成的偏旁部首集。
59.实际应用中，可以人工统计出每个样本图像中包含的文字，从而汇总以获得训练样本集中包含的全部文字(这里可以不对重复文字进行去重处理，也可以对重复文字进行去重处理)，之后，针对每个文字，根据字典中给出的偏旁部首进行拆解，进而统计出每个偏旁部首的出现次数，最终，根据每个偏旁部首对应的出现次数，确定出现次数符合设定条件的偏旁部首。
60.其中，可选地，该设定条件比如是：将偏旁部首按照出现次数进行由高到低的排序，最终选出排在前n位的偏旁部首，n是预设值，比如200。
61.可选地，该设定条件还可以是：出现次数大于预设值，该预设值比如为30次。
62.本发明实施例中，样本图像对应的标注信息中包含其中所包含文字的偏旁部首，意味着文字识别模型最终被训练为具有能够区分文字的偏旁和部首的能力。而由于形近字是影响文字识别结果准确性的一种重要因素，且形近字的差异往往体现为偏旁或部首上的差异，因此，在文字识别模型的训练过程中，通过引入预测偏旁部首的损失函数，使得文字识别模型能够区分形近字中不同的偏旁部首，从而拉远形近字的编码特征，以便基于该文字识别模型能够获得良好的文字识别结果。
63.下面具体说明下文字识别模型的训练过程以及组成结构。
64.图1为本发明实施例提供的一种模型训练方法的流程图，如图1所示，该方法包括如下步骤：
65.101、获取包含文字的样本图像以及偏旁部首集，确定样本图像对应的标注信息，标注信息包括样本图像中包含的文字和偏旁部首，该偏旁部首存在于偏旁部首集中。
66.102、获取样本图像的第一图像特征和第二图像特征。
67.103、通过偏旁部首分类网络对第一图像特征进行分类预测，以确定偏旁部首集中各偏旁部首在样本图像中的出现概率。
68.104、根据样本图像被标注的偏旁部首和出现概率，确定与所述偏旁部首分类网络对应的第一损失函数。
69.105、将第二图像特征和所述出现概率输入至解码网络，以通过解码网络输出样本图像中包含的所述文字。
70.106、根据解码网络输出的文字和样本图像被标注的文字，确定文字识别模型的第二损失函数，根据第一损失函数和第二损失函数对文字识别模型进行训练。
71.概括来说，本发明实施例提供的文字识别模型，可以是对传统的文字识别模型进行改进而得到的一种新的文字识别模型，改进的核心一点在于：增加了用于预测偏旁部首集中各个偏旁部首在当前样本图像中的出现概率的偏旁部首分类网络。
72.由上述步骤可知，在本发明实施例提供的文字识别模型中，会包括偏旁部首分类网络、解码网络。除此之外，该文字识别模型中还会包括一个或多个编码网络，以便通过这些编码网络完成上述第一图像特征和第二图像特征的获取。
73.下面，结合几种可选的文字识别模型的组成，示例性说明上述第一图像特征和第二图像特征的几种可选的获取方式。
74.图2为本发明实施例提供的一种文字识别模型的组成示意图，如图2所示，该文字识别模型中包括：
75.偏旁部首分类网络，其中，该偏旁部首分类网络中包括第一编码网络。除此之外，该偏旁部首分类网络中还可以包括图2中示意的特征变换层(conv)、全连接层(fc)，其中，特征变换层可以实现为卷积层。
76.除了上述偏旁部首分类网络外，该文字识别模型中还包括图2中示意的第二编码网络和解码网络。
77.其中，可选地，第一编码网络和第二编码网络可以实现为卷积神经网络(convolutional neural network，简称cnn)。解码网络可以实现为长短时记忆网络(long short-term memory，简称lstm)，或者，双向长短时记忆网络(bi-directional long short-term memory，简称bi-lstm)。当然，不以此为限。实际应用中，该解码网络可以是采用注意力机制(attention mechanism)的解码网络。
78.基于图2所示的文字识别模型的结构，步骤102中获取样本图像的第一图像特征和第二图像特征，可以实现为：
79.通过第一编码网络对样本图像进行编码处理，以得到第一图像特征；
80.通过第二编码网络对样本图像进行编码处理，以得到第二图像特征。
81.如图2中所示，此时，包含“姐妹烧酒坊”字样的样本图像既作为第一编码网络的输入，又作为第二编码网络的输入。
82.对于偏旁部首分类网络来说，通过第一编码网络对样本图像进行特征提取以获得第一图像特征后，经过conv层的变换后接入fc层，以输出偏旁部首集中每个偏旁部首在该样本图像中的出现概率。基于预先对该样本图像标注的偏旁部首以及fc层输出的上述出现概率，可以得到偏旁部首分类网络对应的第一损失函数。
83.其中，该第一损失函数可以表示为loss
attr
。其数学形式可以如下：
[0084][0085]
其中，freq
attr
表示当前预测的第i个偏旁部首对应的出现次数(在形成偏旁部首集时该偏旁部首对应的出现次数)，是根据当前的样本图像被标注的偏旁部首确定的，对于当前预测的第i个偏旁部首，如果根据标注信息确定其存在于当前的样本图像中，则取值为1，否则取值为0。p
i
为偏旁部首分类网络实际预测输出的第i个偏旁部首在当前的样本图像中的出现概率。nattr表示偏旁部首集中包含的偏旁部首总数，第i个偏旁部首是指位于偏旁部首集中的第i个偏旁部首。
[0086]
可以理解的是，如果当前的样本图像中并不包含位于偏旁部首集中的任一偏旁部首，则上述第一损失函数的取值为0。
[0087]
如图2中所示，样本图像经过第二编码网络的编码处理后，可以得到第二图像特征，可以将偏旁部首分类网络输出的上述出现概率与该第二图像特征都输入到解码网络中，以便解码网络基于该出现概率的指导，对该第二图像特征进行解码，以预测输出样本图像中包含的文字：姐妹烧酒坊eos。其中，eos为空位占位符。
[0088]
举例来说，假设样本图像中包含“妹”这个字，这个字中包含如下的偏旁部首：女、未，当偏旁部首分类网络输出的上述出现概率表明该样本图像中包含这两个偏旁部首，而不包含“末”这个部首时，解码网络基于该指导信息便会输出“妹”这个字，而不会错误地输出“妺”这个字。
[0089]
最终，基于预先标注的样本图像中包含的文字，以及解码网络实际输出的文字，可以得到该文字识别模型对应的第二损失函数，表示为loss
batch
，根据第一损失函数和第二损失函数对文字识别模型进行训练。准确来说，该第二损失函数与图2中的第二编码网络和解码网络构成的编解码结构对应。
[0090]
最终，整个文字识别模型的损失函数可以表示为：loss
sum
＝loss
batch
λ
attr
loss
attr
，其中，λ
attr
为第一损失函数的权重，该权重可以是预设值，比如为5。
[0091]
值得说明的是，在实际应用中，为降低计算量，排除冗余信息的干扰，可以先对样本图像进行文字检测处理，以检测出样本图像中的文字区域，即包含样本图像中所含文字的最小矩形区域。将文字区域抠出后，作为文字识别模型的输入。另外，在抠出该文字区域后，可以将该文字区域重新缩放(resize)到固定的尺寸：wxh。其中，w表示宽度，h表示高度。一般情况下，是需要保留原始样本图像的长宽比进行缩放的。之后，将文字区域输入到第一编码网络和第二编码网络。
[0092]
以第二编码网络为例来说(第一编码网络同理)，第二编码网络对该文字区域进行特征编码，以得到高层次的图像特征，将得到的图像特征称为第二图像特征。此时，经过第二编码网络的卷积和池化层的操作，该第二图像特征对应的特征尺寸可以表示为w’x1，表明图像高度已经从h缩小为1的维度大小了，图像的宽度亦从w缩小为w’了。
[0093]
图3为本发明实施例提供的另一种文字识别模型的组成示意图，如图3所示，该文字识别模型中除了包括图2中示意的偏旁部首分类网络、第二编码网络和解码网络外，还包括连接在第二编码网络的输出端的第三编码网络。
[0094]
其中，可选地，第三编码网络可以实现为长短时记忆网络(long short-term memory，简称lstm)，或者，双向长短时记忆网络(bi-directional long short-term memory，简称bi-lstm)。当然，不以此为限。
[0095]
第三编码网络中包括多个隐藏层，比如图3中示意的多个bi-lstm。
[0096]
基于图3所示的文字识别模型的结构，步骤102中获取样本图像的第一图像特征和第二图像特征，可以实现为：
[0097]
通过第一编码网络对样本图像进行编码处理，以得到第一图像特征；
[0098]
通过第二编码网络对样本图像进行编码处理，将第二编码网络输出的图像特征输入到第三编码网络，确定样本图像的第二图像特征是由第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列。
[0099]
基于上文中的假设结果，假设第二编码网络输出的是w’x1尺寸的图像特征，该特征无时序性，每一个特征对应输入的文字区域中的一块区域。因为文字通常是一个序列，将第二编码网络(cnn)提取的特征再通过第三编码网络(bi-lstm)提取更高层次的序列特征，将文字区域的每一块特征进行时序上的关联，得到更高层次的含有时序信息的特征。将第三编码网络输出的特征序列即为第二图像特征，记为c＝{c1,c2,
…
，c
|w’|
}。
[0100]
在通过上述方式得到第一图像特征和第二图像特征后的处理过程，参考上文中的说明，在此不赘述。
[0101]
图4为本发明实施例提供的另一种文字识别模型的组成示意图，如图4所示，该文字识别模型中包括：
[0102]
偏旁部首分类网络、第二编码网络和解码网络。
[0103]
其中，如图4中所示，本实施例中，该偏旁部首分类网络中可以不再包括上文中的第一编码网络，而只包括图2中示意的特征变换层(conv)、全连接层(fc)。此时，相当于偏旁部首分类网络共享了第二编码网络。
[0104]
基于图4所示的文字识别模型的结构，步骤102中获取样本图像的第一图像特征和第二图像特征，可以实现为：
[0105]
通过第二编码网络对样本图像进行编码处理；
[0106]
确定第二编码网络输出的图像特征作为第一图像特征和第二图像特征。
[0107]
也就是说，第二编码网络输出的图像特征，一方面作为解码网络的输入，另一方面作为conv层的输入。
[0108]
在通过上述方式得到第一图像特征和第二图像特征后的处理过程，参考上文中的说明，在此不赘述。
[0109]
图5为本发明实施例提供的另一种文字识别模型的组成示意图，如图5所示，该文字识别模型中除了包含图4中所示意的偏旁部首分类网络、第二编码网络和解码网络外，还包括第三编码网络。
[0110]
其中，可选地，第三编码网络可以实现为长短时记忆网络(long short-term memory，简称lstm)，或者，双向长短时记忆网络(bi-directional long short-term memory，简称bi-lstm)。当然，不以此为限。
[0111]
第三编码网络中包括多个隐藏层，比如图5中示意的多个bi-lstm。
[0112]
基于图5所示的文字识别模型的结构，步骤102中获取样本图像的第一图像特征和第二图像特征，可以实现为：
[0113]
将第二编码网络输出的图像特征输入到第三编码网络，确定第二图像特征是由第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列；
[0114]
确定第三编码网络输出的目标时刻对应的图像特征作为第一图像特征，所述目标时刻包括所述多个时刻中的最后一个时刻。
[0115]
基于上文中的举例，假设第三编码网络输出的是c＝{c1,c2,
…
，c
|w’|
}，则该特征序列作为第二图像特征，可选地，可以将最后一个时刻的输出c
|w’|
作为第一图像特征输入到conv层。其中，c
|w’|
作为样本图像的全局特征标识。
[0116]
在通过上述方式得到第一图像特征和第二图像特征后的处理过程，参考上文中的说明，在此不赘述。
[0117]
以上介绍了几种文字识别模型的组成以及模型训练过程，在上述两种损失函数的定义下对文字识别模型进行训练，最终可以使得文字识别模型能够区分文字的偏旁部首。针对形近字来说，基于训练好的文字识别模型对一对形近字进行特征编码时，会使得编码得到的图像特征具有明显的可区分性，比如特征之间的距离会很大。
[0118]
下面结合以下一些实施例来说明基于上述文字识别模型的文字识别过程。
[0119]
图6为本发明实施例提供的一种文字识别方法的流程图，如图6所示，该方法包括如下步骤：
[0120]
601、获取包含待识别的文字的图像。
[0121]
602、获取图像的第一图像特征和第二图像特征。
[0122]
603、根据第一图像特征预测预设的多个偏旁部首在图像中的出现概率。
[0123]
604、根据第二图像特征和所述出现概率，输出图像中包含的文字。
[0124]
实际应用中，结合上文中的相关说明，该图像可以是直接通过摄像头采集到的原始图像，也可以是在该原始图像中通过文字区域检测而得到的文字区域。
[0125]
基于上文中介绍的几种文字识别模型的组成，步骤602可以通过如下几种方式实现。
[0126]
第一种，当文字识别模型为图2中示意的组成结构时，即文字识别模型中包括：包含有第一编码网络的偏旁部首分类网络、第二编码网络和解码网络，此时，步骤602可以实现为：
[0127]
通过偏旁部首分类网络中的第一编码网络对所述图像进行编码处理，以得到第一图像特征；
[0128]
通过第二编码网络对所述图像进行编码处理，以得到第二图像特征。
[0129]
第二种，当文字识别模型为图3中示意的组成结构时，即文字识别模型中包括：包含有第一编码网络的偏旁部首分类网络、第二编码网络、第三编码网络和解码网络，此时，步骤602可以实现为：
[0130]
通过偏旁部首分类网络中的第一编码网络对所述图像进行编码处理，以得到第一图像特征；
[0131]
通过第二编码网络对所述图像进行编码处理，将第二编码网络输出的图像特征输入到第三编码网络；确定第二图像特征是由第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列。
[0132]
第三种，当文字识别模型为图4中示意的组成结构时，即文字识别模型中包括：未包含有第一编码网络的偏旁部首分类网络、第二编码网络和解码网络，此时，步骤602可以实现为：
[0133]
通过第二编码网络对所述图像进行编码处理，确定第二编码网络输出的图像特征作为第一图像特征和第二图像特征。
[0134]
第四种，当文字识别模型为图5中示意的组成结构时，即文字识别模型中包括：未包含有第一编码网络的偏旁部首分类网络、第二编码网络、第三编码网络和解码网络，此时，步骤602可以实现为：
[0135]
通过第二编码网络对所述图像进行编码处理，将第二编码网络输出的图像特征输入到第三编码网络；
[0136]
确定第二图像特征是由第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列；
[0137]
确定第三编码网络输出的目标时刻对应的图像特征作为第一图像特征，目标时刻包括所述多个时刻中的最后一个时刻。
[0138]
在通过如上任一种方式得到图像的第一图像特征和第二图像特征后，可以通过偏旁部首分类网络对第一图像特征进行分类预测，以确定多个偏旁部首(即偏旁部首集中的各个偏旁部首)在该图像中的出现概率。将第二图像特征和该出现概率输入到解码网络，以通过解码网络输出该图像中包含的所述文字。
[0139]
下面举例说明上述文字识别方案可以适用于的一些应用场景。
[0140]
在城市的道路两旁往往会设置有很多摄像头，这些摄像头采集的图像中不仅可以
包含道路上行驶的车辆、行人、各种道路标志，还可能拍摄到道路两旁存在的商铺、住宅小区的名称。
[0141]
基于此，在一种应用场景中，可以通过对各摄像头拍摄的视频数据进行文字识别处理，可以得到商铺、住宅小区的名称。进而通过定位技术，还可以得到该商铺、住宅小区的位置。这样，对于比如提供电子地图导航服务的应用程序来说，可以基于上述文字识别结果，更新电子地图上的诸如商铺、住宅小区等兴趣点(point of interest，简称poi)。
[0142]
在上述举例的应用场景中，以任一摄像头采集的视频数据为例，可以对该视频数据进行图像帧的分割，以采样得到多帧图像，针对每帧图像都可以进行文字识别处理。
[0143]
如图7中所示，假设某帧图像为图7中示意的图像x，在该图像x中包括有“姐妹烧酒坊”这个店铺。另外，在图7中假设采用的文字识别模型为图5中示意的模型结构，将该图像x输入到文字识别模型中后，通过第三编码网络输出第二图像特征c＝{c1,c2,
…
，c
|w’|
}以及第一图像特征c
|w’|
，第一图像特征c
|w’|
输入到偏旁部首分类网络，以预测出偏旁部首集中各偏旁部首在该图像x中的出现概率，该出现概率和第二图像特征c＝{c1,c2,
…
，c
|w’|
}进行拼接，输入到解码网络，以解码输出图像x中包含的文字：姐妹烧酒坊。
[0144]
当然，实际应用中，可以使用本文提供的文字识别方案的应用场景不以上述举例场景为限。
[0145]
如前文所述，本发明提供的文字识别方法可以在云端来执行，在云端可以部署有若干计算节点，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。
[0146]
针对本发明提供的方案，云端可以提供有用于识别图像中包含的文字的服务，称为目标服务。当用户需要使用该目标服务的时候，调用该目标服务，以向云端触发调用该目标服务的请求，在该请求中携带有某需要识别其中包含的文字的图像。云端确定响应该请求的计算节点，利用该计算节点中的资源执行如下步骤：
[0147]
获取所述图像的第一图像特征和第二图像特征，根据第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率，根据第二图像特征和所述出现概率，输出所述图像中包含的文字。
[0148]
上述步骤的具体实现方式可以参考前述其他实施例中的相关说明，在此不赘述。
[0149]
可以理解的是，在提供上述文字识别服务的计算节点中，可以预先部署有前文中所提到的文字识别模型，以便利用该文字识别模型完成文字识别处理。
[0150]
以下将详细描述本发明的一个或多个实施例的文字识别装置、模型训练装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
[0151]
图8为本发明实施例提供的一种模型训练装置的结构示意图，如图8所示，该装置包括：获取模块11、标注模块12、训练模块13。
[0152]
获取模块11，用于获取样本图像和偏旁部首集，所述样本图像中包含文字。
[0153]
标注模块12，用于确定所述样本图像对应的标注信息，所述标注信息包括所述样本图像中包含的文字和偏旁部首，所述偏旁部首存在于所述偏旁部首集中。
[0154]
训练模块13，用于在所述标注信息的监督下，对文字识别模型进行训练。
[0155]
可选地，所述文字识别模型包括偏旁部首分类网络，所述训练模块13具体可以用
于：获取所述样本图像的第一图像特征；通过所述偏旁部首分类网络对所述第一图像特征进行分类预测，以确定所述偏旁部首集中各偏旁部首在所述样本图像中的出现概率；根据所述样本图像被标注的偏旁部首和所述出现概率，确定与所述偏旁部首分类网络对应的第一损失函数。
[0156]
可选地，所述文字识别模型中包括解码网络，所述训练模块13具体可以用于：获取所述样本图像的第二图像特征；将所述第二图像特征和所述出现概率输入至所述解码网络，以通过所述解码网络输出所述样本图像中包含的所述文字；根据所述解码网络输出的文字和所述样本图像被标注的文字，确定所述文字识别模型的第二损失函数；根据所述第一损失函数和所述第二损失函数对所述文字识别模型进行训练。
[0157]
在一可选实施例中，所述偏旁部首分类网络中包括第一编码网络，所述文字识别模型中包括第二编码网络；此时，训练模块13用于：通过所述第一编码网络对所述样本图像进行编码处理，以得到所述第一图像特征；通过所述第二编码网络对所述样本图像进行编码处理，以得到所述第二图像特征。
[0158]
在另一可选实施例中，所述偏旁部首分类网络中包括第一编码网络，所述文字识别模型中包括第二编码网络、第三编码网络，所述第三编码网络中包括多个隐藏层；此时，训练模块13用于：通过所述第一编码网络对所述样本图像进行编码处理，以得到所述第一图像特征；将所述第二编码网络输出的图像特征输入到所述第三编码网络，确定所述第二图像特征是由所述第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列。
[0159]
在另一可选实施例中，所述文字识别模型中包括第二编码网络；此时，训练模块13用于：通过所述第二编码网络对所述样本图像进行编码处理；确定所述第二编码网络输出的图像特征作为所述第一图像特征和所述第二图像特征。
[0160]
在另一可选实施例中，所述文字识别模型中包括第二编码网络、第三编码网络，所述第三编码网络中包括多个隐藏层；此时，训练模块13用于：将所述第二编码网络输出的图像特征输入到所述第三编码网络；确定所述第二图像特征是由所述第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列；确定所述第三编码网络输出的目标时刻对应的图像特征作为所述第一图像特征，所述目标时刻包括所述多个时刻中的最后一个时刻。
[0161]
可选地，获取模块11具体可以用于：确定训练样本集中包含的多个文字，所述样本图像是所述训练样本集中的任一样本；确定所述多个文字对应的多个偏旁部首；确定所述多个偏旁部首各自对应的出现次数；确定由出现次数符合设定条件的偏旁部首构成的所述偏旁部首集。
[0162]
图8所示装置可以执行前述实施例中提供的模型训练方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。
[0163]
在一个可能的设计中，上述图8所示模型训练装置的结构可实现为一电子设备，如图9所示，该电子设备可以包括：第一处理器21、第一存储器22。其中，第一存储器22上存储有可执行代码，当所述可执行代码被第一处理器21执行时，使第一处理器21至少可以实现如前述实施例中提供的模型训练方法。
[0164]
可选地，该电子设备中还可以包括第一通信接口23，用于与其他设备进行通信。
[0165]
另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所
述处理器至少可以实现如前述实施例中提供的模型训练方法。
[0166]
图10为本发明实施例提供的一种文字识别装置的结构示意图，如图10所示，该装置包括：获取模块31、提取模块32、预测模块33、输出模块34。
[0167]
获取模块31，用于获取包含待识别的文字的图像。
[0168]
提取模块32，用于获取所述图像的第一图像特征和第二图像特征。
[0169]
预测模块33，用于根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率。
[0170]
输出模块34，用于根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字。
[0171]
可选地，预测模块33具体用于：通过文字识别模型中的偏旁部首分类网络对所述第一图像特征进行分类预测，以确定所述多个偏旁部首在所述图像中的出现概率。
[0172]
可选地，输出模块34具体用于：将所述第二图像特征和所述出现概率输入文字识别模型中的解码网络，以通过所述解码网络输出所述图像中包含的所述文字。
[0173]
在一可选实施例中，所述偏旁部首分类网络中包括第一编码网络，所述文字识别模型中包括第二编码网络；此时，提取模块32用于：通过所述第一编码网络对所述图像进行编码处理，以得到所述第一图像特征；通过所述第二编码网络对所述图像进行编码处理，以得到所述第二图像特征。
[0174]
在一可选实施例中，所述偏旁部首分类网络中包括第一编码网络，所述文字识别模型中包括第二编码网络、第三编码网络，所述第三编码网络中包括多个隐藏层；此时，提取模块32用于：
[0175]
通过所述第一编码网络对所述图像进行编码处理，以得到所述第一图像特征；
[0176]
将所述第二编码网络输出的图像特征输入到所述第三编码网络，确定所述第二图像特征是由所述第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列。
[0177]
在一可选实施例中，所述文字识别模型中包括第二编码网络；此时，提取模块32用于：通过所述第二编码网络对所述图像进行编码处理；确定所述第二编码网络输出的图像特征作为所述第一图像特征和所述第二图像特征。
[0178]
在一可选实施例中，所述文字识别模型中包括第二编码网络、第三编码网络，所述第三编码网络中包括多个隐藏层；此时，提取模块32用于：将所述第二编码网络输出的图像特征输入到所述第三编码网络，所述第三编码网络中包括多个隐藏层；确定所述第二图像特征是由所述第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列；确定所述第三编码网络输出的目标时刻对应的图像特征作为所述第一图像特征，所述目标时刻包括所述多个时刻中的最后一个时刻。
[0179]
可选地，所述第一编码网络包括：卷积神经网络。
[0180]
可选地，所述第二编码网络包括：卷积神经网络；所述第三编码网络包括：长短时记忆网络，或者，双向长短时记忆网络。
[0181]
图10所示装置可以执行前述实施例中提供的文字识别方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。
[0182]
在一个可能的设计中，上述图10所示文字识别装置的结构可实现为一电子设备，如图11所示，该电子设备可以包括：第二处理器41、第二存储器42。其中，第二存储器42上存
储有可执行代码，当所述可执行代码被第二处理器41执行时，使第二处理器41至少可以实现如前述实施例中提供的文字识别方法。
[0183]
可选地，该电子设备中还可以包括第二通信接口43，用于与其他设备进行通信。
[0184]
另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的文字识别方法。
[0185]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0186]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0187]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：基于深度学习的电路板塞孔缺陷检测方法及装置与流程
下一篇：一种植物生长时间的识别方法及装置与流程

模型训练方法及文字识别方法、装置、设备和存储介质与流程

相关文献

最热文献