多姿态文本识别方法、装置及电子设备与流程

2022-07-01 22:08:30 来源：中国专利 TAG：

技术特征：
1.一种多姿态文本识别方法，其特征在于，包括：获取待识别的目标文本图像，通过特征提取网络提取所述目标文本图像的二维图像特征；将所述二维图像特征切分为多个等长的特征片段；将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；融合所述多个等长的特征片段的编码特征，并将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息。2.如权利要求1所述的方法，其特征在于，所述编码器网络包括二维注意力网络，以及与所述二维注意力网路级联的平行注意力网络，所述将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，包括：针对所述多个等长的特征片段融合位置编码，得到二维的融合特征片段序列；将所述融合特征片段序列输入至所述二维注意力网络中进行自注意力计算，得到二维的第一输出片段序列；将所述第一输出片段序列和所述多个等长的特征片段输入至所述平行注意力网络中进行并行编码，得到第二输出片段序列，所述第二输出片段序列包含每个特征片段对应的编码特征。3.如权利要求2所述的方法，其特征在于，所述二维注意力网络采用多层二维注意力层，其中，每层二维注意力层包含多个自注意力单元；所述将所述融合特征片段序列输入至所述二维注意力网络中进行自注意力计算，得到二维的第一输出片段序列，包括：通过所述多层二维注意力层顺序处理所述融合特征片段序列，得到所述第一输出片段序列。4.如权利要求3所述的方法，其特征在于，所述通过所述多层二维注意力层顺序处理所述融合特征片段序列，得到所述第一输出片段序列，包括：将所述融合特征片段序列输入至第一层二维注意力层，通过所述第一层二维注意力层对所述融合特征片段序列进行自注意力计算；通过第二层二维注意力层的每个自注意力单元，对所述第一层二维注意力层的加权输出进行自注意力计算；通过第三层二维注意力层的每个自注意力单元，对所述第二层二维注意力层的加权输出进行自注意力计算，得到所述第一输出片段序列。5.如权利要求1-4中任一所述的方法，其特征在于，在所述通过特征提取网络提取所述目标文本图像的二维图像特征之前，还包括：预先利用变长文本图像样本，对所述特征提取网络、所述编码器网络和所述解码器网络进行联合训练。6.一种多姿态文本识别方法，应用于服务端，其特征在于，所述方法包括：在接收到用户设备采集的目标文本图像时，通过特征提取网络提取所述目标文本图像的二维图像特征；将所述二维图像特征切分为多个等长的特征片段；
将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；融合所述多个等长的特征片段的编码特征，并将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息；反馈所述文字信息至所述用户设备，以使所述用户设备输出所述文字信息。7.一种多姿态文本识别装置，其特征在于，包括：图像获取单元，用于获取待识别的目标文本图像，通过特征提取网络提取所述目标文本图像的二维图像特征；特征切分单元，用于将所述二维图像特征切分为多个等长的特征片段；编码单元，用于将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；特征融合单元，用于融合所述多个等长的特征片段的编码特征；解码单元，用于将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息。8.一种多姿态文本识别装置，应用于服务端，其特征在于，所述装置包括：图像接收单元，用于接收到用户设备采集的目标文本图像；特征提取单元，用于通过特征提取网络提取所述目标文本图像的二维图像特征；特征切分单元，用于将所述二维图像特征切分为多个等长的特征片段；编码单元，用于将所述多个等长的特征片段输入至编码器网络中进行编码，分别得到所述特征片段对应的编码特征，其中，所述编码器网络基于注意力机制创建；特征融合单元，用于融合所述多个等长的特征片段的编码特征；解码单元，用于将融合得到的融合编码特征序列输入至解码器网络进行解码，得到所述目标文本图像中的文字信息；文字发送单元，用于反馈所述文字信息至所述用户设备，以使所述用户设备输出所述文字信息。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-6中任一项所述方法。10.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-6中任一项所述方法。

技术总结
本发明公开了一种多姿态文本识别方法、装置及电子设备，应用于识别技术领域，通过特征提取网络提取目标文本图像的二维图像特征；将二维图像特征切分为多个等长的特征片段；将多个等长的特征片段输入至基于注意力机制创建的编码器网络中进行编码，分别得到特征片段；融合多个等长的特征片段的编码特征，并将融合得到的融合编码特征序列输入至解码器网络进行解码，得到目标文本图像中的文字信息。通过本发明实现了对多姿态变长文本的准确识别。本发明实现了对多姿态变长文本的准确识别。本发明实现了对多姿态变长文本的准确识别。

技术研发人员：韦涛张宏源
受保护的技术使用者：北京搜狗科技发展有限公司
技术研发日：2020.12.28
技术公布日：2022/6/30

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种页面滑动的处理方法及相关装置与流程

多姿态文本识别方法、装置及电子设备与流程

相关文献

最热文献