模型训练方法、文本检测方法及装置与流程

2022-02-24 18:26:53 来源：中国专利 TAG：

1.本说明书涉及计算机技术领域，特别涉及一种模型训练方法、文本检测方法、模型训练装置、文本检测装置、计算设备以及计算机可读存储介质。

背景技术：

2.随着互联网技术的发展，机器学习的应用也越来越广泛，其中，文本识别是机器学习的一个重要分支，在对图像中的文本进行识别之前，需要检测文本在图像中的位置。
3.在一种技术方案中，采用滑动窗口的方式对图像中的文本进行特征提取，根据提取的特征对图像中横向文本的位置进行检测。然而，在该技术方案中，由于采用滑动窗口的方式对图像中的文本进行特征提取，因此，该技术方案主要适用于对图像中的横向文本进行检测，对图像中的竖向文本检测的效果较差。
4.因此，如何准确高效地对图像中的竖向文本的位置进行检测成为了亟待解决的技术难题。

技术实现要素：

5.有鉴于此，本说明书实施例提供了一种模型训练方法、文本检测方法、模型训练装置、文本检测装置、计算设备以及计算机可读存储介质，以解决现有技术中存在的技术缺陷。
6.根据本说明书实施例的第一方面，提供了一种模型训练方法，包括：
7.获取训练样本，所述训练样本包含训练样本图像以及所述训练样本图像中竖向文本的标签框；
8.对所述训练样本图像进行处理，使所述训练样本图像中的竖向文本转换成横向文本；
9.通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框；
10.基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练。
11.在一些示例实施例中，所述文本检测模型包括：特征编码网络、双向循环神经网络以及区域推荐网络，所述通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框，包括：
12.通过所述特征编码网络提取所述训练样本图像对应的文本空间特征；
13.通过所述双向循环神经网络提取所述训练样本图像对应的文本序列特征；
14.基于所述文本空间特征以及所述文本序列特征，通过所述区域推荐网络确定所述训练样本图像对应的文本检测框。
15.在一些示例实施例中，通过区域推荐网络确定所述训练样本图像对应的文本检测
框，包括：
16.通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框；
17.对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；
18.将所述横向文本的文本检测框映射到所述训练样本图像上，得到所述竖向文本的文本检测框。
19.在一些示例实施例中，所述区域推荐网络包括分类网络和回归网络，所述通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框，包括：
20.通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；
21.通过所述回归网络对包含所述横向文本的所述至少一个子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。
22.在一些示例实施例中，所述对所述至少一个子文本检测框进行合并处理，包括：
23.若两个子文本检测框的中心点之间的距离小于预定像素阈值，并且所述两个子文本检测框之间的重合度大于预定重合度阈值，则对所述两个子文本检测框进行合并处理。
24.在一些示例实施例中，所述基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练，包括：
25.基于所述训练样本图像的所述标签框的坐标信息以及所述文本检测框的坐标信息，确定对应的损失函数，所述损失函数包含回归损失函数和分类损失函数；
26.基于所述损失函数，通过反向传播的方式对所述文本检测模型进行训练。
27.在一些示例实施例中，所述方法还包括：
28.获取测试样本，所述测试样本包含多个测试样本图像以及所述测试样本图像中的竖向文本的标签框；
29.对所述多个测试样本图像进行旋转处理，使所述测试样本图像中的竖向文本转换成横向文本；
30.通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述测试样本图像对应的文本检测框；
31.基于所述测试样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行测试。
32.在一些示例实施例中，所述方法还包括：
33.基于语料库生成预定长度范围的文本，所述语料库包括字体以及背景图像；
34.根据所述文本的边缘阈值生成与所述文本的大小对应的透明贴图；
35.对所述文本以及所述透明贴图进行合并处理，生成对应的文字贴图；
36.基于预定的贴图规则将所述文字贴图贴到所述背景图像，生成所述多个训练样本图像，其中，所述透明贴图的边缘形成所述文本的标签框。
37.在一些示例实施例中，所述预定的贴图规则包括多个贴图规则，所述基于预定的贴图规则将所述文字贴图贴到所述背景图像，包括：
38.按照预定比例从所述多个贴图规则中选取目标贴图规则，其中，所述预定比例为从所述多个贴图规则中选取各个贴图规则的概率；
39.根据所选取的目标贴图规则将所述文字贴图贴到所述背景图像。
40.在一些示例实施例中，所述方法还包括：
41.以所述背景图像的左上角点为基准点，确定所述背景图像对应的透明贴图的坐标；
42.将所述透明贴图的坐标配置为所述文本的标签框的坐标。
43.在一些示例实施例中，所述对所述多个训练样本图像进行处理，使所述训练样本图像中的竖向文本转换成横向文本，包括：
44.将所述训练样本图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文本。
45.根据本说明书实施例第二方面，提供了一种文本检测方法，包括：
46.获取待检测图像，所述待检测图像包含竖向文本；
47.对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本；
48.通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征；
49.基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框，
50.其中，所述文本检测模型是根据上述第一方面中任一项所述的模型训练方法训练得到的。
51.在一些示例实施例中，所述基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框，包括：
52.通过特征编码网络提取所述待检测图像的文本空间特征；
53.通过双向循环神经网络提取所述待检测图像的文本序列特征；
54.基于所述文本空间特征以及所述文本序列特征，通过区域推荐网络确定所述竖向文本的文本检测框。
55.在一些示例实施例中，所述通过区域推荐网络确定所述竖向文本的文本检测框，包括：
56.通过所述区域推荐网络确定所述横向文本的至少一个子文本检测框；
57.对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；
58.将所述横向文本的文本检测框映射到所述待检测图像上，得到所述竖向文本的文本检测框。
59.在一些示例实施例中，所述区域推荐网络包括分类网络和回归网络，所述通过所述区域推荐网络确定所述横向文本的至少一个子文本检测框，包括：
60.通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；
61.通过所述回归网络对包含所述横向文本的所述至少一个子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。
62.在一些示例实施例中，所述对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本，包括：
63.将所述待检测图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文
本。
64.根据本说明书实施例的第三方面，提供了一种模型训练装置，包括：
65.样本获取模块，用于获取训练样本，所述训练样本包含训练样本图像以及所述训练样本图像中的竖向文本的标签框；
66.样本预处理模块，用于对所述多个训练样本图像进行处理，使所述训练样本图像中的竖向文本转换成横向文本；
67.检测框确定模块，用于通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框；
68.训练模块，用于基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练。
69.在一些示例实施例中，所述文本检测模型包括：特征编码网络、双向循环神经网络以及区域推荐网络，所述检测框确定模块包括：
70.空间特征提取单元，用于通过所述特征编码网络提取所述训练样本图像对应的文本空间特征；
71.序列特征提取单元，用于通过所述双向循环神经网络提取所述训练样本图像对应的文本序列特征；
72.框确定单元，用于基于所述文本空间特征以及所述文本序列特征，通过所述区域推荐网络确定所述训练样本图像对应的文本检测框。
73.在一些示例实施例中，所述框确定单元包括：
74.子框确定单元，用于通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框；
75.合并单元，用于对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；
76.映射单元，用于将所述横向文本的文本检测框映射到所述训练样本图像上，得到所述竖向文本的文本检测框。
77.在一些示例实施例中，所述区域推荐网络包括分类网络和回归网络，所述子框确定单元具体还用于：
78.通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；
79.通过所述回归网络对包含所述横向文本的所述子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。
80.在一些示例实施例中，所述合并单元具体还用于：
81.若两个子文本检测框的中心点之间的距离小于预定像素阈值，并且所述两个子文本检测框之间的重合度大于预定重合度阈值，则对所述两个子文本检测框进行合并处理。
82.在一些示例实施例中，所述训练模块具体还用于：
83.基于所述训练样本的所述标签框的坐标信息以及所述文本检测框的坐标信息，确定对应的损失函数，所述损失函数包含回归损失函数和分类损失函数；
84.基于所述损失函数，通过反向传播的方式对所述文本检测模型进行训练。
85.在一些示例实施例中，所述装置还包括：测试模块，所述测试模块具体用于：
86.获取测试样本，所述测试样本包含多个测试样本图像以及所述测试样本图像中的竖向文本的标签框；
87.对所述多个测试样本图像进行旋转处理，使所述测试样本图像中的竖向文本转换成横向文本；
88.通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述测试样本图像对应的文本检测框；
89.基于所述测试样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行测试。
90.在一些示例实施例中，所述装置还包括：样本生成模块，所述样本生成模块包括：
91.文本生成单元，用于基于语料库生成预定长度范围的文本，所述语料库包括字体以及背景图像；
92.透明贴图生成单元，用于根据所述文本的边缘阈值生成与所述文本的大小对应的透明贴图；
93.文字贴图生成单元，用于对所述文本以及所述透明贴图进行合并处理，生成对应的文字贴图；
94.样本图像生成单元，用于基于预定的贴图规则将所述文字贴图贴到所述背景图像，生成所述多个训练样本图像，其中，所述透明贴图的边缘形成所述文本的标签框。
95.在一些示例实施例中，所述预定的贴图规则包括多个贴图规则，所述样本图像生成单元具体还用于：
96.按照预定比例从所述多个贴图规则中选取目标贴图规则，其中，所述预定比例为从所述多个贴图规则中选取各个贴图规则的概率；
97.根据所选取的目标贴图规则将所述文字贴图贴到所述背景图像。
98.在一些示例实施例中，所述装置还包括：标签生成模块，所述标签生成模块用于：
99.以所述背景图像的左上角点为基准点，确定所述背景图像对应的透明贴图的坐标；
100.将所述透明贴图的坐标配置为所述文本的标签框的坐标。
101.在一些示例实施例中，所述样本预处理模块具体还用于：
102.将所述训练样本图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文本。
103.根据本说明书实施例的第四方面，提供一种文本检测装置，包括：
104.图像获取模块，用于获取待检测图像，所述待检测图像包含竖向文本；
105.旋转处理模块，用于对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本；
106.特征提取模块，用于通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征；
107.检测框确定模块，用于基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框，
108.其中，所述文本检测模型是根据上述第一方面中任一项所述的模型训练方法训练
得到的。
109.在一些示例实施例中，所述检测框确定模块包括：
110.空间特征提取单元，用于通过特征编码网络提取所述待检测图像的文本空间特征；
111.文本特征提取单元，用于通过双向循环神经网络提取所述待检测图像的文本序列特征；
112.框确定单元，用于基于所述文本空间特征以及所述文本序列特征，通过区域推荐网络确定所述竖向文本的文本检测框。
113.在一些示例实施例中，所述框确定单元包括：
114.子框确定单元，用于通过所述区域推荐网络确定所述横向文本的至少一个子文本检测框；
115.合并处理单元，用于对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；
116.映射单元，用于将所述横向文本的文本检测框映射到所述待检测图像上，得到所述竖向文本的文本检测框。
117.在一些示例实施例中，所述区域推荐网络包括分类网络和回归网络，所述子框确定单元具体用于：
118.通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；
119.通过所述回归网络对包含所述横向文本的所述子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。
120.在一些示例实施例中，所述旋转处理模块具体用于：
121.将所述待检测图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文本。
122.根据本说明书实施例的第五方面，提供了一种计算设备，包括：
123.存储器和处理器；
124.所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现上述第一方面所述的模型训练方法或者上述第二方面所述的文本检测方法。
125.根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述第一方面所述的模型训练方法或者上述第二方面所述的文本检测方法。
126.根据本说明书实施例的技术方案，一方面，将训练样本图像中的竖向文本转换成横向文本，从而能够对图像中的竖向文本的位置进行检测；另一方面，结合文本空间特征以及文本序列特征确定对应的文本检测框，从而能够准确高效地确定训练样本图像对应的文本检测框；再一方面，基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练，使得训练的文本检测模型能够高效准确地对图像中的竖向文本进行检测。
附图说明
127.图1是本说明书一实施例提供的一种文本检测方法的应用场景的流程图；
128.图2是本说明书一实施例提供的一种模型训练方法的处理流程图；
129.图3是本说明书一实施例提供的另一种模型训练方法的处理流程图；
130.图4是本说明书一实施例提供的样本生成过程的处理流程图；
131.图5是本说明书一实施例提供的又一种模型训练方法的处理流程图；
132.图6是本说明书一实施例提供的一种文本检测方法的流程示意图；
133.图7是本说明书一实施例提供的一种模型训练装置的结构示意图；
134.图8是本说明书一实施例提供的一种文本检测装置的结构示意图；
135.图9是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
136.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。
137.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
138.应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。
139.首先，对本说明书一个或多个实施例涉及的名词术语进行解释。
140.文本检测模型：用于对图像中的文本的位置进行检测的模型，主要包括用于提取文本空间特征的特征编码网络、用于提取文本序列特征的双向循环神经网络、用于确定候选检测框的区域推荐网络。
141.rnn(recurrent neural network，循环神经网络)：神经网络的一种，能够有效处理有序列特性的数据，能够挖掘数据中的时序信息以及语义信息，循环神经网络包括lstm(long short-term memory，长短期记忆)网络以及gru(gated recurrent unit，门控循环单元)网络。
142.lstm：一种处理时序信息的网络结构，用于图像特征提取中能够加强特征之间的时序型和有效性。
143.gru：lstm的进阶版模型，gru模型能够保证在检测准确率不变的情况下，减少了计算量，降低了计算资源的消耗。
144.rpn(region proposal network，区域推荐网络)：用于检测可能包含文本的区域即文本检测框。
145.文本空间特征：表示文本在图像上的空间位置信息。
146.文本序列特征：表示文本在图像上的文本的前后顺序的信息。
147.损失函数：是机器学习中模型输出的预测结果与真实结果间的差异的量化函数。
148.子文本检测框：即锚框anchor或anchor box，目标检测中表示固定的参考框。
149.重合度：可以表示两个子文本检测框的重合程度，例如重合度可以为两个子文本检测框的重合面积与总面积的比值，该比值越大，重合度越大。
150.在本说明书中，提供了一种模型训练方法、文本检测方法、模型训练装置、文本检测装置、计算设备以及计算机可读存储介质，在下面的实施例中逐一进行详细说明。
151.图1示出了根据本说明书一些实施例的文本检测方法的应用场景的示意图。参照图1所示，该应用场景包括：图像获取装置110以及文本检测装置120，图像获取装置110与文本检测装置120通过有线或无线网络130进行通信。其中，图像获取装置110获取包含竖向文本的图像，例如漫画图像或广告牌图像等，通过网络130将获取的图像发送至文本检测装置120，文本检测装置120接收图像或者装置110发送的图像，通过训练好的文本检测模型对接收图像中的竖向文本的位置进行检测，得到图像中的竖向文本的检测框。
152.需要说明的是，图像获取装置110可以为拍摄装置例如摄像头，文本检测装置120可以为台式计算机、膝上型计算机以及笔记本电脑等，也可以为分布式系统中的节点，本说明书实施例对此不进行特殊限定。
153.下面结合图1的应用场景，参考图2来描述根据本说明书的示例性实施例的方法。需要注意的是，上述应用场景仅是为了便于理解本说明书实施例的精神和原理而示出，本说明书的实施例在此方面不受任何限制。相反，本说明书的实施例可以应用于适用的任何场景。
154.图2示出了根据本说明书一实施例提供的模型训练方法的处理流程图。该模型训练方法可以由图1的文本检测装置120执行，该模型训练方法包括步骤s210至步骤s240，下面结合附图对该模型训练方法进行详细的描述。
155.在步骤s210中，获取训练样本，训练样本包含训练样本图像以及训练样本图像中竖向文本的标签框。
156.在示例实施例中，训练样本包含多个训练样本图像，训练样本图像中包含竖向文本，训练样本还包括竖向文本的标签框，标签框用于表示竖向文本在训练样本图像中的位置。
157.进一步地，标签框可以用坐标表示，例如以图像的左上角点为基准点计算每个标签框的左上角点和右下角点坐标，作为图像的标签框，标签框是txt文件格式，txt文件的内容是标签框的左上角点和右下角点坐标例如(x1，y1)、(x2，y2)。
158.需要说明的是，也可以用其他适当的坐标表示标签框，例如，用标签框的左上角、左下角、右上角、右下角四个坐标表示标签框，记作[x1，y1、x2，y2、x3，y3、x4，y4]，这同样在本说明书的保护范围内。
[0159]
在步骤s220中，对训练样本图像进行处理，使训练样本图像中的竖向文本转换成横向文本。
[0160]
在示例实施例中，将训练样本图像以逆时针方向旋转90度，使训练样本图像中的竖向文本转换成横向文本；也可以将训练样本图像以顺时针方向旋转90度，使训练样本图像中的竖向文本转换成横向文本，本说明书对此不进行特殊限定。
[0161]
在步骤s230中，通过文本检测模型提取横向文本的文本空间特征和文本序列特征，基于文本空间特征以及文本序列特征确定训练样本图像对应的文本检测框。
[0162]
在示例实施例中，文本检测模型为对图像中文本的位置进行检测的模型，文本空间特征表示文本在图像上的空间位置信息，文本序列特征表示文本在图像上的文本的前后顺序的信息。由于文本的位置不仅与文本在图像中的空间位置有关，还与文本中文字的前后顺序有关，也就是说，文本中各个文字与其前后的文字具有依赖性，因此，在文本检测中，不仅需要确定文本在训练样本图像中的文本空间特征，还需要确定文本在训练样本图像中的文本序列特征。
[0163]
具体而言，在示例实施例中，文本检测模型包括：空间特征提取网络例如vgg(visual geometry group，视觉几何组)16网络以及序列特征提取网络例如循环神经网络。通过文本检测模型中的空间特征提取网络例如vgg(visual geometry group，视觉几何组)16网络提取训练样本图像的文本空间特征，通过文本检测模型中的序列特征提取网络例如gru网络提取训练样本图像的文本序列特征，基于文本空间特征以及文本序列特征确定训练样本图像对应的文本检测框。
[0164]
需要说明的是，本说明书实施例中的空间特征提取网络还可以为其他适当的空间特征提取网络例如alexnet网络，序列特征提取网络还可以为其他适当的序列特征提取网络例如lstm网络，这同样在本说明书实施例的保护范围内。
[0165]
在步骤s240中，基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练。
[0166]
在示例实施例中，基于训练样本图像对应的标签框与文本检测模型得到的文本检测框之间的差异，确定对应的损失函数，基于该损失函数对文本检测模型进行训练。
[0167]
具体而言，在示例实施例中，损失函数包含回归损失函数和分类损失函数，基于训练样本的标签框的坐标信息以及文本检测框的坐标信息，确定对应的损失函数，基于该损失函数，通过反向传播的方式对文本检测模型进行训练。
[0168]
根据图2的示例实施例中的技术方案，一方面，将训练样本图像中的竖向文本转换成横向文本，从而能够对图像中的竖向文本的位置进行检测；另一方面，结合文本空间特征以及文本序列特征确定对应的文本检测框，从而能够准确高效地确定训练样本图像对应的文本检测框；再一方面，基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练，使得训练的文本检测模型能够高效准确地对图像中的竖向文本进行检测。
[0169]
图3是本说明书一实施例提供的另一种模型训练方法的处理流程图。
[0170]
参照图3所示，在步骤s310中，获取训练样本，训练样本包含多个训练样本图像以及训练样本图像中的竖向文本的标签框。
[0171]
在步骤s320中，对多个训练样本图像进行旋转处理，使训练样本图像中的竖向文本转换成横向文本。
[0172]
由于步骤s310、步骤s320与步骤s210、步骤s220的实现过程以及实现效果基本相同，在此不再赘述。
[0173]
在步骤s330中，通过特征编码网络提取横向文本对应的文本空间特征。
[0174]
在示例实施例中，特征编码网络为vgg16网络，vgg16网络包括5个卷积块，每个卷积块包含若干卷积层，将训练样本图像输入到vgg16网络中，得到训练样本图像对应的特征图，将该特征图输入到conv5卷积块，通过滑动窗口得到该训练样本图像的文本空间特征，例如该文本空间特征可以包含k个固定宽度为16像素、高度为11到283像素的锚框。
[0175]
在步骤s340中，通过双向循环神经网络提取训练样本图像对应的文本序列特征。
[0176]
在示例实施例中，双向循环神经网络可以为双向gru网络，通过双向gru网络提取训练样本图像对应的文本序列特征。gru网络是克服短期记忆问题提出的解决方案，引入被称作“门”的内部机制，gru网络中的“门”可以学习序列中哪些数据是要保留的重要信息，哪些是要删除的，从而沿着长链序列传递相关信息来执行预测。gru网络包括两个门，分别是重置门r
t
和更新门z
t
，重置门r
t
用于控制gru网络的隐藏层需要保留多少之前的信息，如果重置门r
t
为0，则表示隐藏层只保留当前序列的输入信息；更新门z
t
用于控制需要从前一序列的隐藏层中遗忘多少信息和需要加入多少当前序列的隐藏层信息，从而得到当前序列的输出隐藏层信息。
[0177]
基于双向gru网络提取文本序列特征，能够增强特征之间的联系，与采用lstm网络相比，能够降低需要的运算资源，减少了计算量。
[0178]
具体而言，将得到的文本空间特征输入到双向gru网络，由gru网络的r
t
和更新门z
t
确定当前隐藏层需要保留的信息、遗忘的信息以及加入的信息，从而得到当前文本序列的输出隐藏层信息，即提取文本空间特征中的各行的序列特征，得到该训练样本图像对应的文本序列特征。
[0179]
在步骤s350中，基于文本空间特征以及文本序列特征，通过区域推荐网络确定训练样本图像对应的文本检测框。
[0180]
在示例实施例中，将得到的文本序列特征、文本空间特征输入到区域推荐网络rpn，rpn网络包含回归网络和分类网络，其中，回归网络用于对之前网络得到的锚框的位置进行修正，分类网络用于根据是否包含文本对锚框进行分类，通过rpn网络，根据文本序列特征以及文本空间特征对锚框进行分类和回归处理，对包含文本的锚框进行合并处理，得到训练样本图像对应的文本检测框。
[0181]
具体而言，通过区域推荐网络确定横向文本对应的至少一个子文本检测框；对至少一个子文本检测框进行合并处理，确定横向文本对应的文本检测框；将横向文本的文本检测框映射到训练样本图像上，得到竖向文本的文本检测框。举例而言，每个像素点为中心点生成k个锚框anchor即子文本检测框，这些框有相同的水平位置且宽度固定为16像素，但是垂直位置却有k个不同的高度。设k为10，子文本检测框的高取值为输入图像中的11到283像素区间，[11,16,23,33,48,68,97,139,198,283](每次除以0.7)，每一个预测的子文本检测框的大小为h*16。确定这些框中与前景的重合面积占比大于预定阈值的框，对所确定的框进行合并处理，合并处理后的框即文本检测框，文本检测框的中心坐标、宽/高四个值分别与原训练样本图像的标签框的坐标做映射，得到竖向文本的文本检测框。
[0182]
进一步地，区域推荐网络包括分类网络和回归网络，通过区域推荐网络确定横向文本对应的至少一个子文本检测框，包括：通过分类网络对子文本检测框进行分类，确定包含横向文本的至少一个子文本检测框；通过回归网络对包含横向文本的子文本检测框的位置进行修正，确定至少一个子文本检测框修正后的位置。
[0183]
此外，在示例实施例中，对至少一个子文本检测框进行合并处理，包括：若两个子文本检测框的中心点之间的距离小于预定像素阈值，并且两个子文本检测框之间的重合度大于预定重合度阈值，则对两个子文本检测框进行合并处理。举例而言，设子文本检测框的宽为16个像素，若相邻两个子文本检测框的中心点之间的距离小于50个像素，并且如果相
邻的两个子文本检测框的重合度》0.7，将这两个子文本检测框就合并成一个框，再继续在所有框中按上述规则合并，直到各个框临近50个像素内没有可合并框。
[0184]
通过对子文本检测框进行合并处理，能够避免模型预测生成的检测框过小的问题，达到了准确定位图像中的文本的效果。
[0185]
在步骤s360中，基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练，该文本检测模型包括：特征编码网络、双向循环神经网络以及区域推荐网络。
[0186]
在示例实施例中，基于训练样本图像对应的标签框与文本检测模型得到的文本检测框之间的差异，确定对应的损失函数，基于该损失函数对文本检测模型进行训练。具体而言，损失函数包含回归损失函数和分类损失函数，基于训练样本的标签框的坐标信息以及文本检测框的坐标信息，确定对应的损失函数，基于该损失函数，通过反向传播的方式对文本检测模型进行训练。
[0187]
根据图3的示例实施例中的技术方案，一方面，将训练样本图像中的竖向文本转换成横向文本，从而能够对图像中的竖向文本的位置进行检测；另一方面，结合特征编码网络、双向循环神经网络以及区域推荐网络确定对应的文本检测框，从而能够准确高效地确定训练样本图像对应的文本检测框；再一方面，基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练，使得训练的文本检测模型能够高效准确地对图像中的竖向文本进行检测。
[0188]
图4是本说明书一实施例提供的样本生成过程的处理流程图。
[0189]
参照图4所示，在步骤s410中，输入语料库和背景图像。
[0190]
在示例实施例中，语料库为漫画语料库或者广告语料库，语料库包括字体、语料以及背景图像，若语料库为漫画语料库，则对应的背景图像为漫画图像，例如可以为近似漫画图像的简笔画背景图像；若语料库为广告语料库，则对应的背景图像为广告图像。
[0191]
在步骤s420中，基于输入的语料库生成预定长度范围的文本或文字串。
[0192]
在示例实施例中，从语料库中选取预定字体和语料，根据该预定字体以及语料，生成预定长度范围的文字串。例如，预定字体为楷体，对应的语料为“热带雨林”，将该语料以楷体的形式生成预定长度的文本或文字串。
[0193]
在步骤s430中，根据该文本的边缘阈值生成与该文本的大小对应的透明贴图。
[0194]
在示例实施例中，通过边缘检测确定该文本的边缘阈值，生成与该文本的大小对应的透明贴图，例如，该文本的边缘阈值可以为该文本的上下左右四个方向上的坐标阈值，根据该文本的各个方向上的坐标阈值，生成与该文本的大小对应的透明贴图。
[0195]
在步骤s440中，将文本与透明贴图进行合并，生成文字贴图。
[0196]
在示例实施例中，将文本渲染到透明贴图上，或者将文本粘贴到透明贴图上，生成文字贴图。
[0197]
在步骤s450中，确定将文字贴图贴回背景图像的贴图规则。
[0198]
在示例实施例中，针对将文字贴图贴回背景图的操作，预先设定了多个贴图规则，从多个贴图规则中选取将文字贴图贴回背景图像的目标贴图规则。举例而言，可以按照预定比例从多个贴图规则中选取目标贴图规则，其中，预定比例为从多个贴图规则中选取各个贴图规则的概率。
[0199]
具体而言，设预先设定了两种贴图规则，第一种贴图规则是将文字贴图随机贴到
背景图像上，不考虑文字贴图在背景图像上的位置；第二种规则是按照瀑布流的形式，生成多行瀑布流形式的数据，行与行之间的间距距离是随机的。进一步地，选取各个贴图规则的概率为0.5，按照该概率值从两个贴图规则中选取目标贴图规则，例如，可以从两个贴图规则中轮流选取一个贴图规则。
[0200]
在步骤s460中，基于选取的贴图规则将文字贴图贴到背景图像。
[0201]
在示例实施例中，根据步骤s450中选取的贴图规则，将文字贴图贴到背景图像中，例如，若选取的贴图规则为将文字贴图随机贴到背景图像上，则将获取到的文字贴图随机贴到背景图像上。
[0202]
在步骤s470中，输出样本图像，样本图像包含文字贴图和背景图像的图像。
[0203]
在示例实施例中，透明贴图或文字贴图的边缘为该样本图像上的文本的标签框的边缘，得到样本图像之后，以样本图像的左上角点为基准点计算每个文字贴图的左上角点和右下角点坐标，作为样本图像的标签框，标签框可以是txt文件格式，该txt文件中存储有各个样本图像的文字贴图的左上角点和右下角点坐标例如(x1，y1)、(x2，y2)。
[0204]
根据图4的示例实施例中的技术方案，能够自动生成样本数据，解决了人工标记样本数据成本较高的问题，并且增加了模型的泛化性。
[0205]
图5是本说明书一实施例提供的又一种模型训练方法的处理流程图。
[0206]
参照图5所示，在步骤s510中，对样本数据进行预处理使样本图像中的竖向文本转换成横向文本。
[0207]
在示例实施例中，样本数据包括多个样本图像，将各个样本图像逆时针旋转90度，使样本图像中的竖向文本转换成横向文本，或者使样本图像中竖向文本的标签框转换成水平方向。也可以将样本图像顺时针旋转90度，使样本图像中的竖向文本转换成横向文本，或者使样本图像中竖向文本的标签框转换成水平方向。
[0208]
进一步地，在示例实施例中，按照预定比例将旋转处理后的多个样本图像划分成训练样本图像和测试样本图像。例如，可以按照10:1的比例将旋转处理后的多个样本图像划分成训练样本图像和测试样本图像。
[0209]
在步骤s520中，将处理后的训练样本图像输入到特征编码网络，通过特征编码网络提取横向文本的文本空间特征。
[0210]
在示例实施例中，特征编码网络为vgg16网络，vgg16网络包括5个卷积块，每个卷积块包含若干卷积层，将训练样本图像输入到vgg16网络中，得到训练样本图像对应的特征图，将该特征图输入到conv5卷积块，通过滑动窗口得到该训练样本图像的文本空间特征，例如该文本空间特征可以包含k个固定宽度为16像素、高度为11到283像素的锚框。
[0211]
在步骤s530中，将文本空间特征输入到双向的gru网络，通过双向的gru网络提取对应的文本序列特征。
[0212]
在示例实施例中，gru网络包括两个门，分别是重置门r
t
和更新门z
t
，重置门r
t
用于控制gru网络的隐藏层需要保留多少之前的信息，如果重置门r
t
为0，则表示隐藏层只保留当前序列的输入信息；更新门z
t
用于控制需要从前一序列的隐藏层中遗忘多少信息和需要加入多少当前序列的隐藏层信息，从而得到当前序列的输出隐藏层信息。
[0213]
具体而言，将得到的文本空间特征输入到双向gru网络，由gru网络的r
t
和更新门z
t
确定当前隐藏层需要保留的信息、遗忘的信息以及加入的信息，从而得到当前文本序列的
输出隐藏层信息，即提取文本空间特征中的各行的序列特征，得到该训练样本图像对应的文本序列特征。
[0214]
在步骤s540中，将文本空间特征以及文本序列特征输入到区域推荐网络，通过区域推荐网络确定对应的文本检测框。
[0215]
在示例实施例中，将得到的文本序列特征、文本空间特征输入到区域推荐网络rpn，rpn网络包含回归网络和分类网络，其中，回归网络用于对之前网络得到的锚框的位置进行修正，分类网络用于根据是否包含文本对锚框进行分类，通过rpn网络，根据文本序列特征以及文本空间特征对锚框进行分类和回归处理，对包含文本的锚框进行合并处理，得到训练样本图像对应的文本检测框。
[0216]
具体而言，步骤s540可以包括步骤s543、步骤s546、步骤s549。下面对这几个步骤进行详细的说明。
[0217]
在步骤s543中，通过卷积层对文本空间特征以及文本序列特征进行处理，得到保护文本空间特征以及文本序列特征的特征图，该特征图对应多个子文本检测框或锚框。
[0218]
在步骤s546中，通过分类网络对子文本检测框进行分类，确定包含横向文本的至少一个子文本检测框，分类网络例如softmax层用于根据是否包含文本对锚框进行分类。
[0219]
在步骤s549中，通过回归网络对包含横向文本的子文本检测框的位置进行修正，确定至少一个子文本检测框修正后的位置。
[0220]
通过rpn网络，根据文本序列特征以及文本空间特征对锚框进行分类和回归处理，对包含文本的锚框进行合并处理，得到训练样本图像对应的文本检测框。
[0221]
进一步地，通过区域推荐网络确定横向文本对应的至少一个子文本检测框；对至少一个子文本检测框进行合并处理，确定横向文本对应的文本检测框；将横向文本的文本检测框映射到训练样本图像上，得到竖向文本的文本检测框。
[0222]
接下来，在步骤s550中，进行文本检测框后处理。
[0223]
参照图5所示，文本检测框后处理的过程包括步骤s552和步骤s554。在步骤s552中，在横向方向或水平方向对文本检测框进行合并处理；在步骤s554中，在竖向方向对文本检测框进行合并处理。
[0224]
具体而言，针对水平方向或竖向方向，若两个子文本检测框的中心点之间的距离小于预定像素阈值，并且两个子文本检测框之间的重合度大于预定重合度阈值，则对两个子文本检测框进行合并处理。举例而言，设子文本检测框的宽为16个像素，若相邻两个子文本检测框的中心点之间的距离小于50个像素，并且如果相邻的两个子文本检测框的重合度》0.7，将将这两个子文本检测框就合并成一个框，再继续在所有框中按上述规则合并，直到各个框临近50个像素内没有可合并框。
[0225]
在步骤s560中，根据训练样本对文本检测模型进行训练，在训练迭代收敛之后，输入测试数据，经过步骤s520至步骤s550，得到预测结果。
[0226]
在示例实施例中，基于训练样本图像对应的标签框与文本检测模型得到的文本检测框之间的差异，确定对应的损失函数，基于该损失函数对文本检测模型进行训练。具体而言，损失函数包含回归损失函数和分类损失函数，基于训练样本的标签框的坐标信息以及文本检测框的坐标信息，确定对应的损失函数，基于该损失函数，通过反向传播的方式对文本检测模型进行训练。
[0227]
进一步地，在训练迭代收敛之后，获取测试样本，测试样本包含多个测试样本图像以及所述测试样本图像中的竖向文本的标签框；对多个测试样本图像进行旋转处理，使测试样本图像中的竖向文本转换成横向文本；通过文本检测模型提取横向文本的文本空间特征和文本序列特征，基于文本空间特征以及文本序列特征确定测试样本图像对应的文本检测框；基于测试样本图像对应的标签框以及所述文本检测框，对文本检测模型进行测试，得到测试结果。
[0228]
根据图5的示例实施例中的技术方案，一方面，将训练样本图像中的竖向文本转换成横向文本，从而能够对图像中的竖向文本的位置进行检测；另一方面，结合特征编码网络、双向循环神经网络以及区域推荐网络确定对应的文本检测框，从而能够准确高效地确定训练样本图像对应的文本检测框；再一方面，基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练，使得训练的文本检测模型能够高效准确地对图像中的竖向文本进行检测。
[0229]
图6是本说明书一实施例提供的一种文本检测方法的流程示意图。
[0230]
参照图6所示，在步骤s610中，获取待检测图像，待检测图像包含竖向文本。
[0231]
在示例实施例中，可以通过拍摄装置获取待检测图像，也可以从数据库获取待检测图像，待检测图像上包含竖向文本。
[0232]
在步骤s620中，对待检测图像进行旋转处理，将竖向文本转换成横向文本；
[0233]
在示例实施例中，可以将待检测图像逆时针旋转90度，使待检测图像中的竖向文本转换成横向文本；也可以将待检测图像顺时针旋转90度，使待检测图像中的竖向文本转换成横向文本。
[0234]
在步骤s630中，通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征。
[0235]
在示例实施例中，文本检测模块为根据上述模型训练方法训练得到的模型，文本检测模型包括：空间特征提取网络例如vgg(visual geometry group，视觉几何组)16网络以及序列特征提取网络例如循环神经网络。通过文本检测模型中的空间特征提取网络例如vgg(visual geometry group，视觉几何组)16网络提取训练样本图像的文本空间特征，通过文本检测模型中的序列特征提取网络例如gru网络提取训练样本图像的文本序列特征，
[0236]
在步骤s640中，基于文本空间特征以及文本序列特征确定所述待检测图像对应的文本检测框。
[0237]
在示例实施例中，将得到的文本序列特征、文本空间特征输入到区域推荐网络rpn，rpn网络包含回归网络和分类网络，其中，回归网络用于对之前网络得到的锚框的位置进行修正，分类网络用于根据是否包含文本对锚框进行分类，通过rpn网络，根据文本序列特征以及文本空间特征对锚框进行分类和回归处理，对包含文本的锚框进行合并处理，得到待检测图像对应的文本检测框。
[0238]
根据图6的示例实施例中的技术方案，一方面，将待检测图像中的竖向文本转换成横向文本，从而能够对图像中的竖向文本的位置进行检测；另一方面，结合文本空间特征以及文本序列特征确定对应的文本检测框，从而能够准确高效地确定待检测图像对应的文本检测框。
[0239]
进一步地，在本说明书的一些示例实施例中，通过文本检测模型确定所述待检测
图像对应的文本检测框，包括：通过特征编码网络提取所述待检测图像的文本空间特征；通过双向循环神经网络提取所述待检测图像的文本序列特征；基于文本空间特征以及所述文本序列特征，通过区域推荐网络确定竖向文本的文本检测框。
[0240]
在本说明书的一些示例实施例中，所述通过区域推荐网络确定所述竖向文本的文本检测框，包括：通过所述区域推荐网络确定所述横向文本的至少一个子文本检测框；对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；将所述横向文本的文本检测框映射到所述待检测图像上，得到所述竖向文本的文本检测框。
[0241]
此外，在示例实施例中，对至少一个子文本检测框进行合并处理，包括：若两个子文本检测框的中心点之间的距离小于预定像素阈值，并且两个子文本检测框之间的重合度大于预定重合度阈值，则对两个子文本检测框进行合并处理。举例而言，设子文本检测框的宽为16个像素，若相邻两个子文本检测框的中心点之间的距离小于50个像素，并且如果相邻的两个子文本检测框的重合度》0.7，将将这两个子文本检测框就合并成一个框，再继续在所有框中按上述规则合并，直到各个框临近50个像素内没有可合并框。
[0242]
通过对子文本检测框进行合并处理，能够避免模型预测生成的检测框过小的问题，达到了准确定位图像中的文本的效果。
[0243]
与上述方法实施例相对应，本说明书还提供了一种模型训练装置的实施例，图7是本说明书一实施例提供的一种模型训练装置的结构示意图。
[0244]
参照图7所示，该模型训练装置700包括：
[0245]
样本获取模块710，用于获取训练样本，所述训练样本包含多个训练样本图像以及所述训练样本图像中的竖向文本的标签框；
[0246]
样本预处理模块720，用于对所述多个训练样本图像进行旋转处理，使所述训练样本图像中的竖向文本转换成横向文本；
[0247]
检测框确定模块730，用于通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框；
[0248]
训练模块740，用于基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练。
[0249]
根据图7的示例实施例中的技术方案，一方面，将训练样本图像中的竖向文本转换成横向文本，从而能够对图像中的竖向文本的位置进行检测；另一方面，结合文本空间特征以及文本序列特征确定对应的文本检测框，从而能够准确高效地确定训练样本图像对应的文本检测框；再一方面，基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练，使得训练的文本检测模型能够高效准确地对图像中的竖向文本进行检测。
[0250]
在一些示例实施例中，所述文本检测模型包括：特征编码网络、双向循环神经网络以及区域推荐网络，所述检测框确定模块730包括：
[0251]
空间特征提取单元，用于通过所述特征编码网络提取所述训练样本图像对应的文本空间特征；
[0252]
序列特征提取单元，用于通过所述双向循环神经网络提取所述训练样本图像对应的文本序列特征；
[0253]
框确定单元，用于基于所述文本空间特征以及所述文本序列特征，通过所述区域
推荐网络确定所述训练样本图像对应的文本检测框。
[0254]
在一些示例实施例中，所述框确定单元包括：
[0255]
子框确定单元，用于通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框；
[0256]
合并单元，用于对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；
[0257]
映射单元，用于将所述横向文本的文本检测框映射到所述训练样本图像上，得到所述竖向文本的文本检测框。
[0258]
在一些示例实施例中，所述区域推荐网络包括分类网络和回归网络，所述子框确定单元具体还用于：
[0259]
通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；
[0260]
通过所述回归网络对包含所述横向文本的所述子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。
[0261]
在一些示例实施例中，所述合并单元具体还用于：
[0262]
若两个子文本检测框的中心点之间的距离小于预定像素阈值，并且所述两个子文本检测框之间的重合度大于预定重合度阈值，则对所述两个子文本检测框进行合并处理。
[0263]
在一些示例实施例中，所述训练模块740具体还用于：
[0264]
基于所述训练样本的所述标签框的坐标信息以及所述文本检测框的坐标信息，确定对应的损失函数，所述损失函数包含回归损失函数和分类损失函数；
[0265]
基于所述损失函数，通过反向传播的方式对所述文本检测模型进行训练。
[0266]
在一些示例实施例中，所述装置700还包括：测试模块，所述测试模块具体用于：
[0267]
获取测试样本，所述测试样本包含多个测试样本图像以及所述测试样本图像中的竖向文本的标签框；
[0268]
对所述多个测试样本图像进行旋转处理，使所述测试样本图像中的竖向文本转换成横向文本；
[0269]
通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述测试样本图像对应的文本检测框；
[0270]
基于所述测试样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行测试。
[0271]
在一些示例实施例中，所述装置700还包括：样本生成模块，所述样本生成模块包括：
[0272]
文本生成单元，用于基于语料库生成预定长度范围的文本，所述语料库包括字体以及背景图像；
[0273]
透明贴图生成单元，用于根据所述文本的边缘阈值生成与所述文本的大小对应的透明贴图；
[0274]
文字贴图生成单元，用于对所述文本以及所述透明贴图进行合并处理，生成对应的文字贴图；
[0275]
样本图像生成单元，用于基于预定的贴图规则将所述文字贴图贴到所述背景图
像，生成所述多个训练样本图像，其中，所述透明贴图的边缘形成所述文本的标签框。
[0276]
在一些示例实施例中，所述预定的贴图规则包括多个贴图规则，所述样本图像生成单元具体还用于：
[0277]
按照预定比例从所述多个贴图规则中选取目标贴图规则，其中，所述预定比例为从所述多个贴图规则中选取各个贴图规则的概率；
[0278]
根据所选取的目标贴图规则将所述文字贴图贴到所述背景图像。
[0279]
在一些示例实施例中，所述装置700还包括：标签生成模块，所述标签生成模块用于：
[0280]
以所述背景图像的左上角点为基准点，确定所述背景图像对应的透明贴图的坐标；
[0281]
将所述透明贴图的坐标配置为所述文本的标签框的坐标。
[0282]
在一些示例实施例中，所述样本预处理模块720具体还用于：
[0283]
将所述训练样本图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文本。
[0284]
上述为本实施例的一种模型训练装置的示意性方案。需要说明的是，该模型训练装置的技术方案与上述的模型训练方法的技术方案属于同一构思，该模型训练装置的技术方案未详细描述的细节内容，均可以参见上述模型训练方法的技术方案的描述。
[0285]
与上述方法实施例相对应，本说明书还提供了一种文本检测装置的实施例，图8是本说明书一实施例提供的一种文本检测装置的结构示意图。
[0286]
参照图8所示，该文本检测装置800包括：
[0287]
图像获取模块810，用于获取待检测图像，所述待检测图像包含竖向文本；
[0288]
旋转处理模块820，用于对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本；
[0289]
特征提取模块830，用于通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征；
[0290]
检测框确定模块840，用于基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框，
[0291]
其中，所述文本检测模型是根据上述模型训练方法训练得到的。
[0292]
根据图8的示例实施例中的技术方案，一方面，将待检测图像中的竖向文本转换成横向文本，从而能够对图像中的竖向文本的位置进行检测；另一方面，结合文本空间特征以及文本序列特征确定对应的文本检测框，从而能够准确高效地确定待检测图像对应的文本检测框。
[0293]
在一些示例实施例中，所述检测框确定模块840包括：
[0294]
空间特征提取单元，用于通过特征编码网络提取所述待检测图像的文本空间特征；
[0295]
文本特征提取单元，用于通过双向循环神经网络提取所述待检测图像的文本序列特征；
[0296]
框确定单元，用于基于所述文本空间特征以及所述文本序列特征，通过区域推荐网络确定所述竖向文本的文本检测框。
[0297]
在一些示例实施例中，所述框确定单元包括：
[0298]
子框确定单元，用于通过所述区域推荐网络确定所述横向文本的至少一个子文本检测框；
[0299]
合并处理单元，用于对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；
[0300]
映射单元，用于将所述横向文本的文本检测框映射到所述待检测图像上，得到所述竖向文本的文本检测框。
[0301]
在一些示例实施例中，所述区域推荐网络包括分类网络和回归网络，所述子框确定单元具体用于：
[0302]
通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；
[0303]
通过所述回归网络对包含所述横向文本的所述子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。
[0304]
在一些示例实施例中，所述旋转处理模块820具体用于：
[0305]
将所述待检测图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文本。
[0306]
上述为本实施例的一种文本检测装置的示意性方案。需要说明的是，该文本检测装置的技术方案与上述的文本检测方法的技术方案属于同一构思，该文本检测装置的技术方案未详细描述的细节内容，均可以参见上述文本检测方法的技术方案的描述。
[0307]
需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0308]
图9示出了根据本说明书一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。
[0309]
计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
[0310]
在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
[0311]
计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动
电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
[0312]
其中，处理器920用于执行如下计算机可执行指令：获取训练样本，所述训练样本包含多个训练样本图像以及所述训练样本图像中的竖向文本的标签框；对所述多个训练样本图像进行旋转处理，使所述训练样本图像中的竖向文本转换成横向文本；通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框；基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练。
[0313]
进一步地，处理器920还用于执行如下计算机可执行指令：获取待检测图像，所述待检测图像包含竖向文本；对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本；通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征；基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框。
[0314]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的模型训练方法或文本检测方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述模型训练方法或文本检测方法的技术方案的描述。
[0315]
本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：获取训练样本，所述训练样本包含多个训练样本图像以及所述训练样本图像中的竖向文本的标签框；对所述多个训练样本图像进行旋转处理，使所述训练样本图像中的竖向文本转换成横向文本；通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框；基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练。
[0316]
该指令被处理器执行时以还用于：获取待检测图像，所述待检测图像包含竖向文本；对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本；通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征；基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框。
[0317]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的模型训练方法或文本检测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述模型训练方法或文本检测方法的技术方案的描述。
[0318]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0319]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所
述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0320]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。
[0321]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0322]
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

模型训练方法、文本检测方法及装置与流程

相关文献

最热文献