一种文字定位模型的训练方法及文字定位方法与流程

2021-12-07 22:00:00 来源：中国专利 TAG：

技术特征：
1.一种文字定位模型的训练方法，包括：获取样本图像，其中，所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框；将所述样本图像输入至待训练的文字定位模型中对所述样本待定位文字进行定位，输出所述样本图像的预测文本框；获取所述样本图像对应的样本先验锚点框；根据所述样本先验锚点框、所述标注文本框和所述预测文本框，对所述文字定位模型的模型参数进行调整，并使用下一个样本图像对调整后的所述文字定位模型继续训练，直至模型训练结束生成目标文字定位模型。2.根据权利要求1所述的文字定位模型的训练方法，其中，所述根据所述样本先验锚点框、所述标注文本框和所述预测文本框，对所述文字定位模型的模型参数进行调整，包括：根据所述样本先验锚点框和所述标注文本框，获取第一损失函数；根据所述标注文本框和所述预测文本框，获取第二损失函数；根据所述第一损失函数和所述第二损失函数，获取所述文字定位模型的损失函数；基于所述损失函数对所述文字定位模型的模型参数进行调整。3.根据权利要求2所述的文字定位模型的训练方法，其中，所述根据所述样本先验锚点框和所述标注文本框，获取第一损失函数，包括：根据所述标注文本框的属性信息和所述样本先验锚点框的属性信息，获取所述第一损失函数。4.根据权利要求3所述的文字定位模型的训练方法，其中，所述根据所述标注文本框的属性信息和所述样本先验锚点框的属性信息，获取所述第一损失函数，包括：获取所述标注文本框的x轴角点与中心点之间的第一距离，以及所述标注文本框的y轴角点与所述中心点之间的第二距离；获取所述样本先验锚点框的长度以及宽度；分别获取所述第一距离与所述宽度之间的第一比值，以及所述第二距离与所述长度之间的第二比值；根据所述第一比值和所述第二比值，获取所述第一损失函数。5.根据权利要求4所述的文字定位模型的训练方法，其中，所述标注文本框的所述中心点与所述样本先验锚点框的中心点重合。6.根据权利要求1所述的文字定位模型的训练方法，其中，所述获取所述样本图像对应的样本先验锚点框，包括：对所述样本图像进行特征提取，以获取所述样本图像对应的特征图；根据所述特征图，获取匹配的所述样本先验锚点框。7.根据权利要求6所述的文字定位模型的训练方法，其中，所述根据所述特征图，获取匹配的所述样本先验锚点框，包括：根据所述特征图，获取至少一个所述样本待定位文字；获取每个所述样本待定位文字的尺寸；针对每个所述样本待定位文字，获取与所述样本待定位文字的尺寸对应的所述样本先验锚点框。
8.一种文字定位方法，包括：获取图像，其中，所述图像中包括待定位文字；将所述图像输入至目标文字定位模型中对所述待定位文字进行定位，输出所述图像的目标文本框，其中，所述目标文字定位模型为基于权利要求1
‑
7任一项所述的训练方法训练出的模型。9.一种文字定位模型的训练装置，包括：第一获取模块，用于获取样本图像，其中，所述样本图像中包括样本待定位文字和所述样本待定位文字的标注文本框；输出模块，用于将所述样本图像输入至待训练的文字定位模型中对所述样本待定位文字进行定位，输出所述样本图像的预测文本框；第二获取模块，用于获取所述样本图像对应的样本先验锚点框；生成模块，用于根据所述样本先验锚点框、所述标注文本框和所述预测文本框，对所述文字定位模型的模型参数进行调整，并使用下一个样本图像对调整后的所述文字定位模型继续训练，直至模型训练结束生成目标文字定位模型。10.根据权利要求9所述的文字定位模型的训练装置，其中，所述生成模块，还用于：根据所述样本先验锚点框和所述标注文本框，获取第一损失函数；根据所述标注文本框和所述预测文本框，获取第二损失函数；根据所述第一损失函数和所述第二损失函数，获取所述文字定位模型的损失函数；基于所述损失函数对所述文字定位模型的模型参数进行调整。11.根据权利要求10所述的文字定位模型的训练装置，其中，所述生成模块，还用于：根据所述标注文本框的属性信息和所述样本先验锚点框的属性信息，获取所述第一损失函数。12.根据权利要求11所述的文字定位模型的训练装置，其中，所述生成模块，还用于：获取所述标注文本框的x轴角点与中心点之间的第一距离，以及所述标注文本框的y轴角点与所述中心点之间的第二距离；获取所述样本先验锚点框的长度以及宽度；分别获取所述第一距离与所述宽度之间的第一比值，以及所述第二距离与所述长度之间的第二比值；根据所述第一比值和所述第二比值，获取所述第一损失函数。13.根据权利要求12所述的文字定位模型的训练装置，其中，所述标注文本框的所述中心点与所述样本先验锚点框的中心点重合。14.根据权利要求9所述的文字定位模型的训练装置，其中，所述第二获取模块，还用于：对所述样本图像进行特征提取，以获取所述样本图像对应的特征图；根据所述特征图，获取匹配的所述样本先验锚点框。15.根据权利要求14所述的文字定位模型的训练方法，其中，所述第二获取模块，还用于：根据所述特征图，获取至少一个所述样本待定位文字；获取每个所述样本待定位文字的尺寸；
针对每个所述样本待定位文字，获取与所述样本待定位文字的尺寸对应的所述样本先验锚点框。16.一种文字定位装置，包括：获取模块，用于获取图像，其中，所述图像中包括待定位文字；输出模块，用于将所述图像输入至目标文字定位模型中对所述待定位文字进行定位，输出所述图像的目标文本框，其中，所述目标文字定位模型为基于权利要求1
‑
7任一项所述的训练方法训练出的模型。17.一种电子设备，其特征在于，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1
‑
7或者8中任一项所述的方法。18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1
‑
7或者8中任一项所述的方法。19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1
‑
7或者8中任一项所述方法的步骤。

技术总结
本公开提供了一种文字定位方法及文字定位模型的训练方法，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别OCR等场景。具体实现方案为：获取样本图像；将样本图像输入至待训练的文字定位模型中，输出预测文本框；获取样本先验锚点框；根据样本先验锚点框、标注文本框和预测文本框，对文字定位模型的模型参数进行调整，并使用下一个样本图像对调整后的文字定位模型继续训练，直至模型训练结束生成目标文字定位模型。由此，本公开能够通过结合先验锚点框进行文字定位模型的训练，不再需要在模型训练过程中从零开始进行回归预测，降低了模型训练过程中的耗时及难度，提高了模型训练结果的可靠性。性。性。

技术研发人员：黄聚李煜林王鹏谢群义钦夏孟姚锟
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.08.23
技术公布日：2021/12/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种文字定位模型的训练方法及文字定位方法与流程

相关文献

最热文献