一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本识别方法、装置、可读介质及电子设备与流程

2022-03-23 06:40:17 来源:中国专利 TAG:

技术特征:
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别的文本图像对应的文本特征图像;根据所述文本特征图像,确定所述文本图像对应的高度特征图像和宽度特征图像,所述高度特征图像用于表征所述文本图像的高度方向的特征,所述宽度特征图像用于表征所述文本图像的宽度方向的特征;根据所述文本特征图像、所述高度特征图像以及所述宽度特征图像,通过预先训练的文本识别模型,获取所述文本图像对应的文本内容。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本特征图像,确定所述文本图像对应的高度特征图像和宽度特征图像包括:将所述文本特征图像输入预先训练的高度特征获取模型,以获取所述高度特征获取模型输出的所述文本图像对应的所述高度特征图像;将所述文本特征图像输入预先训练的宽度特征获取模型,以获取所述宽度特征获取模型输出的所述文本图像对应的所述宽度特征图像。3.根据权利要求1所述的方法,其特征在于,所述文本识别模型包括第一编码子模型、第二编码子模型以及字符识别子模型;在所述根据所述文本特征图像、所述高度特征图像以及所述宽度特征图像,通过预先训练的文本识别模型,获取所述文本图像对应的文本内容前,所述方法还包括:将所述高度特征图像输入所述第一编码子模型,以获取所述第一编码子模型输出的所述高度特征图像对应的高度编码特征向量;将所述宽度特征图像输入所述第二编码子模型,以获取所述第二编码子模型输出的所述宽度特征图像对应的宽度编码特征向量;所述根据所述文本特征图像、所述高度特征图像以及所述宽度特征图像,通过预先训练的文本识别模型,获取所述文本图像对应的文本内容包括:根据所述文本特征图像、所述高度编码特征向量以及所述宽度编码特征向量,通过所述字符识别子模型,获取所述文本图像对应的文本内容。4.根据权利要求3所述的方法,其特征在于,所述根据所述文本特征图像、所述高度编码特征向量以及所述宽度编码特征向量,通过所述字符识别子模型,获取所述文本图像对应的文本内容包括:循环执行字符识别步骤,直至所述字符识别子模型输出的目标字符为预设终止字符,将新的文本字符作为所述文本图像对应的文本内容;所述字符识别步骤包括:获取所述文本图像中已识别的文本字符对应的字符嵌入特征向量;将所述文本特征图像、所述高度编码特征向量、所述宽度编码特征向量以及所述字符嵌入特征向量输入所述字符识别子模型,以获取所述字符识别子模型输出的所述目标字符;将所述文本字符和所述目标字符作为新的文本字符。5.根据权利要求4所述的方法,其特征在于,所述字符识别子模型包括第一解码子模型和第二解码子模型;所述将所述文本特征图像、所述高度编码特征向量、所述宽度编码特征向量以及所述字符嵌入特征向量输入所述字符识别子模型,以获取所述字符识别子模型输出的所述目标字符包括:
将所述字符嵌入特征向量输入所述第一解码子模型,以获取所述第一解码子模型输出的所述文本字符对应的字符解码特征向量;将所述文本特征图像、所述高度编码特征向量、所述宽度编码特征向量以及所述字符解码特征向量输入所述第二解码子模型,以获取所述第二解码子模型输出的所述目标字符。6.根据权利要求5所述的方法,其特征在于,所述第二解码子模型包括多头注意力层和前馈神经网络层,所述多头注意力层包括第一线性子层、缩放点乘积注意力子层、连接子层以及第二线性子层,所述第一线性子层的输出端与所述缩放点乘积注意力子层的输入端耦合,所述缩放点乘积注意力子层的输出端与所述连接子层的输入端耦合,所述连接子层的输出端与所述第二线性子层的输入端耦合;所述将所述文本特征图像、所述高度编码特征向量、所述宽度编码特征向量以及所述字符解码特征向量输入所述第二解码子模型,以获取所述第二解码子模型输出的所述目标字符包括:将所述高度编码特征向量、所述宽度编码特征向量以及所述字符解码特征向量输入所述第一线性子层,以获取所述第一线性子层输出的目标高度编码特征向量、目标宽度编码特征向量以及目标字符解码特征向量;将所述文本特征图像、所述目标高度编码特征向量、所述目标宽度编码特征向量以及所述目标字符解码特征向量输入所述缩放点乘积注意力子层,以通过所述缩放点乘积注意力子层根据所述文本特征图像、所述目标高度编码特征向量、所述目标宽度编码特征向量以及所述目标字符解码特征向量,确定文本解码特征向量;将所述文本解码特征向量输入所述连接子层,以通过所述连接子层和所述第二线性子层输出所述目标字符。7.根据权利要求6所述的方法,其特征在于,所述根据所述文本特征图像、所述目标高度编码特征向量、所述目标宽度编码特征向量以及所述目标字符解码特征向量,确定文本解码特征向量包括:根据所述目标高度编码特征向量和所述目标字符解码特征向量,确定高度解码特征向量;根据所述目标宽度编码特征向量和所述目标字符解码特征向量,确定宽度解码特征向量;根据所述高度解码特征向量和所述宽度解码特征向量,确定待定解码特征向量;根据所述待定解码特征向量和所述文本特征图像,确定所述文本解码特征向量。8.一种文本识别装置,其特征在于,所述装置包括:第一特征图像获取模块,用于获取待识别的文本图像对应的文本特征图像;第二特征图像获取模块,用于根据所述文本特征图像,确定所述文本图像对应的高度特征图像和宽度特征图像,所述高度特征图像用于表征所述文本图像的高度方向的特征,所述宽度特征图像用于表征所述文本图像的宽度方向的特征;文本内容获取模块,用于根据所述文本特征图像、所述高度特征图像以及所述宽度特征图像,通过预先训练的文本识别模型,获取所述文本图像对应的文本内容。9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。

技术总结
本公开涉及一种文本识别方法、装置、可读介质及电子设备,所述方法包括:获取待识别的文本图像对应的文本特征图像;根据所述文本特征图像,确定所述文本图像对应的高度特征图像和宽度特征图像,所述高度特征图像用于表征所述文本图像的高度方向的特征,所述宽度特征图像用于表征所述文本图像的宽度方向的特征;根据所述文本特征图像、所述高度特征图像以及所述宽度特征图像,通过预先训练的文本识别模型,获取所述文本图像对应的文本内容。也就是说,可以根据高度特征图像、宽度特征图像以及文本特征图像,获取该文本图像对应的文本内容,这样,在文本图像识别过程中,可以结合该文本图像的不同维度的特征,从而提高了文本图像识别的准确率。识别的准确率。识别的准确率。


技术研发人员:蔡悦 黄灿 王长虎
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2021.12.14
技术公布日:2022/3/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献