模型训练方法、文本检测方法及装置与流程

2022-02-24 18:26:53 来源：中国专利 TAG：

技术特征：
1.一种模型训练方法，其特征在于，包括：获取训练样本，所述训练样本包含训练样本图像以及所述训练样本图像中竖向文本的标签框；对所述训练样本图像进行处理，使所述训练样本图像中的竖向文本转换成横向文本；通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框；基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练。2.根据权利要求1所述的方法，其特征在于，所述文本检测模型包括：特征编码网络、双向循环神经网络以及区域推荐网络，所述通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框，包括：通过所述特征编码网络提取所述训练样本图像对应的文本空间特征；通过所述双向循环神经网络提取所述训练样本图像对应的文本序列特征；基于所述文本空间特征以及所述文本序列特征，通过所述区域推荐网络确定所述训练样本图像对应的文本检测框。3.根据权利要求2所述的方法，其特征在于，通过区域推荐网络确定所述训练样本图像对应的文本检测框，包括：通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框；对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；将所述横向文本的文本检测框映射到所述训练样本图像上，得到所述竖向文本的文本检测框。4.根据权利要求3所述的方法，其特征在于，所述区域推荐网络包括分类网络和回归网络，所述通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框，包括：通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；通过所述回归网络对包含所述横向文本的所述至少一个子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。5.根据权利要求3所述的方法，其特征在于，所述对所述至少一个子文本检测框进行合并处理，包括：若两个子文本检测框的中心点之间的距离小于预定像素阈值，并且所述两个子文本检测框之间的重合度大于预定重合度阈值，则对所述两个子文本检测框进行合并处理。6.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练，包括：基于所述训练样本图像的所述标签框的坐标信息以及所述文本检测框的坐标信息，确定对应的损失函数，所述损失函数包含回归损失函数和分类损失函数；基于所述损失函数，通过反向传播的方式对所述文本检测模型进行训练。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取测试样本，所述测试样本包含多个测试样本图像以及所述测试样本图像中的竖向
文本的标签框；对所述多个测试样本图像进行旋转处理，使所述测试样本图像中的竖向文本转换成横向文本；通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述测试样本图像对应的文本检测框；基于所述测试样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行测试。8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：基于语料库生成预定长度范围的文本，所述语料库包括字体以及背景图像；根据所述文本的边缘阈值生成与所述文本的大小对应的透明贴图；对所述文本以及所述透明贴图进行合并处理，生成对应的文字贴图；基于预定的贴图规则将所述文字贴图贴到所述背景图像，生成所述多个训练样本图像，其中，所述透明贴图的边缘形成所述文本的标签框。9.根据权利要求8所述的方法，其特征在于，所述预定的贴图规则包括多个贴图规则，所述基于预定的贴图规则将所述文字贴图贴到所述背景图像，包括：按照预定比例从所述多个贴图规则中选取目标贴图规则，其中，所述预定比例为从所述多个贴图规则中选取各个贴图规则的概率；根据所选取的目标贴图规则将所述文字贴图贴到所述背景图像。10.根据权利要求8所述的方法，其特征在于，所述方法还包括：以所述背景图像的左上角点为基准点，确定所述背景图像对应的透明贴图的坐标；将所述透明贴图的坐标配置为所述文本的标签框的坐标。11.根据权利要求1至7中任一项所述的方法，其特征在于，所述对所述多个训练样本图像进行处理，使所述训练样本图像中的竖向文本转换成横向文本，包括：将所述训练样本图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文本。12.一种文本检测方法，其特征在于，包括：获取待检测图像，所述待检测图像包含竖向文本；对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本；通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征；基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框，其中，所述文本检测模型是根据上述1至11中任一项所述的模型训练方法训练得到的。13.根据权利要求12所述的方法，其特征在于，所述基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框，包括：通过特征编码网络提取所述待检测图像的文本空间特征；通过双向循环神经网络提取所述待检测图像的文本序列特征；基于所述文本空间特征以及所述文本序列特征，通过区域推荐网络确定所述竖向文本的文本检测框。14.根据权利要求13所述的方法，其特征在于，所述通过区域推荐网络确定所述竖向文本的文本检测框，包括：
通过所述区域推荐网络确定所述横向文本的至少一个子文本检测框；对所述至少一个子文本检测框进行合并处理，确定所述横向文本对应的文本检测框；将所述横向文本的文本检测框映射到所述待检测图像上，得到所述竖向文本的文本检测框。15.根据权利要求14所述的方法，其特征在于，所述区域推荐网络包括分类网络和回归网络，所述通过所述区域推荐网络确定所述横向文本的至少一个子文本检测框，包括：通过所述分类网络对所述子文本检测框进行分类，确定包含所述横向文本的至少一个子文本检测框；通过所述回归网络对包含所述横向文本的所述至少一个子文本检测框的位置进行修正，确定所述至少一个子文本检测框修正后的位置。16.根据权利要求12所述的方法，其特征在于，所述对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本，包括：将所述待检测图像以逆时针方向旋转90度，使所述竖向文本转换成所述横向文本。17.一种模型训练装置，其特征在于，包括：样本获取模块，用于获取训练样本，所述训练样本包含训练样本图像以及所述训练样本图像中的竖向文本的标签框；样本预处理模块，用于对所述多个训练样本图像进行处理，使所述训练样本图像中的竖向文本转换成横向文本；检测框确定模块，用于通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征，基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框；训练模块，用于基于所述训练样本图像对应的所述标签框以及所述文本检测框，对所述文本检测模型进行训练。18.一种文本检测装置，其特征在于，包括：图像获取模块，用于获取待检测图像，所述待检测图像包含竖向文本；旋转处理模块，用于对所述待检测图像进行旋转处理，将所述竖向文本转换成横向文本；特征提取模块，用于通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征；检测框确定模块，用于基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框，其中，所述文本检测模型是根据上述1至11中任一项所述的模型训练方法训练得到的。19.一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现权利要求1至11中任一项所述的模型训练方法或者权利要求12至16中任一项所述的文本检测方法。20.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至11中任一项所述的模型训练方法或者权利要求12至16中任一项所述的文本检测方法。

技术总结
本说明书实施例提供一种模型训练方法、文本检测方法及装置，该模型训练方法包括：获取训练样本，训练样本包含训练样本图像以及训练样本图像中竖向文本的标签框；对训练样本图像进行处理，使训练样本图像中的竖向文本转换成横向文本；通过文本检测模型提取横向文本的文本空间特征和文本序列特征，基于文本空间特征以及文本序列特征确定训练样本图像对应的文本检测框；基于训练样本图像对应的标签框以及文本检测框，对文本检测模型进行训练。根据本说明书实施例的技术方案，能够高效准确地对图像中的竖向文本进行检测。像中的竖向文本进行检测。像中的竖向文本进行检测。

技术研发人员：张鹏远李长亮
受保护的技术使用者：北京金山数字娱乐科技有限公司
技术研发日：2020.08.17
技术公布日：2022/2/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

模型训练方法、文本检测方法及装置与流程

相关文献

最热文献