处理文本图像的方法、神经网络及其训练方法与流程

2022-12-13 10:19:24 来源：中国专利 TAG：

技术特征：
1.一种利用神经网络处理文本图像的方法，其特征在于，所述神经网络包括编码子网络、解码子网络、以及预测子网络，所述方法包括：将文本图像输入所述编码子网络，以得到文本图像特征；利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征；以及分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果。2.根据权利要求1所述的方法，其特征在于，所述文本图像处理结果包括：文本查询结果，所述文本查询结果指示对应的文本查询特征是否在所述文本图像中查询到了文本实例；以及文本识别结果，所述文本识别结果指示对应的文本查询特征所查询到的文本实例的文本内容。3.根据权利要求2所述的方法，其特征在于，所述多个文本查询特征中的每一个文本查询特征包括实例查询特征和多个字符查询特征，与该文本查询特征对应的查询结果特征包括与该实例查询特征对应的实例查询结果特征和与该多个字符查询特征对应的多个字符查询结果特征，其中，所述预测子网络包括查询结果预测子网络和识别结果预测子网络，分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果包括：针对所述多个查询结果特征中的每一个查询结果特征，将该查询结果特征所包括的实例查询结果特征输入所述查询结果预测子网络，以得到对应的文本查询结果；将该查询结果特征所包括的多个字符查询结果特征输入所述识别结果预测子网络，以得到多个字符识别结果；以及基于所述多个字符识别结果，确定与查询到的文本实例对应的文本识别结果。4.根据权利要求3所述的方法，其特征在于，所述解码子网络包括实例间自注意力子网络，所述多个文本查询特征中的任意两个文本查询特征包括一一对应的多个字符查询特征，其中，利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征包括：针对所述多个文本查询特征中的每一个文本查询特征，针对该文本查询特征所包括的多个字符查询特征中的每一个字符查询特征，利用实例间自注意力子网络，基于自注意力机制利用所述多个文本查询特征各自所包括的与该字符查询特征对应的字符查询特征对该字符查询特征进行强化。5.根据权利要求4所述的方法，其特征在于，利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征还包括：针对所述多个文本查询特征中的每一个文本查询特征，利用实例间自注意力子网络，基于自注意力机制利用所述多个文本查询特征各自所包括的实例查询特征对该文本查询
特征所包括的实例查询特征进行强化。6.根据权利要求4所述的方法，其特征在于，所述解码子网络包括实例内自注意力子网络，其中，利用所述解码子网络，基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征包括：针对所述多个文本查询特征中的每一个文本查询特征，利用实例内自注意力子网络，基于自注意力机制对该文本查询特征所包括的实例查询特征和多个字符查询特征进行强化。7.根据权利要求3所述的方法，其特征在于，所述文本图像处理结果还包括文本检测结果，所述文本检测结果指示对应的文本查询特征所查询到的文本实例在所述文本图像中的位置和检测框中的至少一个，其中，所述预测子网络还包括检测结果预测子网络，分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果还包括：针对所述多个查询结果特征中的每一个查询结果特征，将该查询结果特征所包括的实例查询结果特征输入所述检测结果预测子网络，以得到与查询到的文本实例对应的文本检测结果。8.一种神经网络的训练方法，其特征在于，所述神经网络包括编码子网络、解码子网络、以及预测子网络，所述方法包括：获取样本文本图像和所述样本文本图像所包括的多个样本文本各自的真实标签；将所述样本文本图像输入所述编码子网络，以得到文本图像特征；利用所述解码子网络，基于多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征；分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的样本文本图像处理结果；基于所述样本文本图像所包括的多个样本文本各自的真实标签和所述多个查询结果特征各自对应的样本文本图像处理结果，确定综合损失值；以及基于所述综合损失值调整所述神经网络的参数和所述多个文本查询特征，以得到训练后的神经网络和经训练的多个文本查询特征。9. 根据权利要求8所述的方法，其特征在于，所述样本文本图像处理结果包括：文本查询结果，所述文本查询结果指示对应的文本查询特征是否在所述样本文本图像中查询到了文本实例；以及文本识别结果，所述文本识别结果指示对应的文本查询特征所查询到的文本实例的文本内容，其中，所述综合损失值包括识别损失值，所述样本文本的真实标签包括该样本文本的真实文本内容，基于所述样本文本图像所包括的多个样本文本各自的真实标签和所述多个查询结果特征各自对应的样本文本图像处理结果，确定损失值包括：将所述多个样本文本和利用所述多个文本查询特征查询到的多个文本实例进行匹配；以及基于匹配的样本文本的真实文本内容和匹配的文本实例对应的文本识别结果，确定所述识别损失值。
10.根据权利要求9所述的方法，其特征在于，其中，所述多个文本查询特征中的每一个文本查询特征包括实例查询特征和多个字符查询特征，与该文本查询特征对应的查询结果特征包括与该实例查询特征对应的实例查询结果特征和与该多个字符查询特征对应的多个字符查询结果特征，其中，所述预测子网络包括查询结果预测子网络和识别结果预测子网络，分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的样本文本图像处理结果包括：针对所述多个查询结果特征中的每一个查询结果特征，将该查询结果特征所包括的实例查询结果特征输入所述查询结果预测子网络，以得到对应的文本查询结果；将该查询结果特征所包括的多个字符查询结果特征输入所述识别结果预测子网络，以得到多个字符识别结果；以及基于所述多个字符识别结果，确定与查询到的文本实例对应的文本识别结果。11.根据权利要求10所述的方法，其特征在于，所述样本文本图像处理结果还包括文本检测结果，所述文本检测结果指示对应的文本查询特征所查询到的文本实例在所述样本文本图像中的位置和检测框中的至少一个，其中，所述预测子网络还包括检测结果预测子网络，分别将所述多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的样本文本图像处理结果还包括：针对所述多个查询结果特征中的每一个查询结果特征，将该查询结果特征所包括的实例查询结果特征输入所述检测结果预测子网络，以得到与查询到的文本实例对应的文本检测结果，其中，所述综合损失值包括检测损失值，所述样本文本的真实标签包括该样本文本的真实检测结果，基于所述样本文本图像所包括的多个样本文本各自的真实标签和所述多个查询结果特征各自对应的样本文本图像处理结果，确定损失值包括：基于匹配的样本文本的真实检测结果和匹配的文本实例对应的文本检测结果，确定所述检测损失值。12.根据权利要求10所述的方法，其特征在于，所述解码子网络包括实例间自注意力子网络，所述多个文本查询特征中的任意两个文本查询特征包括一一对应的多个字符查询特征，其中，利用所述解码子网络，基于多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征包括：针对所述多个文本查询特征中的每一个文本查询特征，针对该文本查询特征所包括的多个字符查询特征中的每一个字符查询特征，利用实例间自注意力子网络，基于自注意力机制利用所述多个文本查询特征各自所包括的与该字符查询特征对应的字符查询特征对该字符查询特征进行强化。13.根据权利要求12所述的方法，其特征在于，利用所述解码子网络，基于多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征还包括：针对所述多个文本查询特征中的每一个文本查询特征，利用实例间自注意力子网络，
基于自注意力机制利用所述多个文本查询特征各自所包括的实例查询特征对该文本查询特征所包括的实例查询特征进行强化。14.根据权利要求12所述的方法，其特征在于，所述解码子网络包括实例内自注意力子网络，其中，利用所述解码子网络，基于多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征包括：针对所述多个文本查询特征中的每一个文本查询特征，利用实例内自注意力子网络，基于自注意力机制对该文本查询特征所包括的实例查询特征和多个字符查询特征进行强化。15.一种神经网络，其特征在于，所述神经网络包括：编码子网络，被配置为对文本图像进行处理，以得到文本图像特征；解码子网络，被配置为基于经训练的多个文本查询特征对所述文本图像特征进行解码，以得到与所述多个文本查询特征对应的多个查询结果特征；以及预测子网络，被配置为分别对所述多个查询结果特征中的每一个查询结果特征进行处理，以得到与该查询结果特征对应的文本图像处理结果。16. 根据权利要求15所述的神经网络，其特征在于，所述文本图像处理结果包括：文本查询结果，所述文本查询结果指示对应的文本查询特征是否在所述文本图像中查询到了文本实例；以及文本识别结果，所述文本识别结果指示对应的文本查询特征所查询到的文本实例的文本内容。17.根据权利要求16所述的神经网络，其特征在于，所述多个文本查询特征中的每一个文本查询特征包括实例查询特征和多个字符查询特征，与该文本查询特征对应的查询结果特征包括与该实例查询特征对应的实例查询结果特征和与该多个字符查询特征对应的多个字符查询结果特征，其中，所述预测子网络包括：查询结果预测子网络，被配置为针对所述多个查询结果特征中的每一个查询结果特征，对该查询结果特征所包括的实例查询结果特征进行处理，以得到对应的文本查询结果；以及识别结果预测子网络，被配置为对该查询结果特征所包括的多个字符查询结果特征进行处理，以得到多个字符识别结果，其中，所述预测子网络被配置为基于所述多个字符识别结果，确定与查询到的文本实例对应的文本识别结果。18.根据权利要求17所述的神经网络，其特征在于，所述多个文本查询特征中的任意两个文本查询特征包括一一对应的多个字符查询特征，其中，所述解码子网络包括实例间自注意力子网络，被配置为针对所述多个文本查询特征中的每一个文本查询特征，针对该文本查询特征所包括的多个字符查询特征中的每一个字符查询特征，基于自注意力机制利用所述多个文本查询特征各自所包括的与该字符查询特征对应的字符查询特征对该字符查询特征进行强化。19.根据权利要求18所述的神经网络，其特征在于，所述实例间自注意力子网络被配置为针对所述多个文本查询特征中的每一个文本查询特征，基于自注意力机制利用所述多个
文本查询特征各自所包括的实例查询特征对该文本查询特征所包括的实例查询特征进行强化。20.根据权利要求18所述的神经网络，其特征在于，所述解码子网络包括实例内自注意力子网络，被配置为针对所述多个文本查询特征中的每一个文本查询特征，利用实例内自注意力子网络，基于自注意力机制对该文本查询特征所包括的实例查询特征和多个字符查询特征进行强化。21.根据权利要求17所述的神经网络，其特征在于，所述文本图像处理结果还包括文本检测结果，所述文本检测结果指示对应的文本查询特征所查询到的文本实例在所述文本图像中的位置和检测框中的至少一个，其中，所述预测子网络还包括检测结果预测子网络，被配置为针对所述多个查询结果特征中的每一个查询结果特征，将该查询结果特征所包括的实例查询结果特征输入所述检测结果预测子网络，以得到与查询到的文本实例对应的文本检测结果。22. 一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。23.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行根据权利要求1-14中任一项所述的方法。

技术总结
本公开提供了一种处理文本图像的方法、神经网络及其训练方法，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。神经网络包括编码子网络、解码子网络、以及预测子网络，处理文本图像的方法包括：将文本图像输入编码子网络，以得到文本图像特征；利用解码子网络，基于经训练的多个文本查询特征对文本图像特征进行解码，以得到与多个文本查询特征对应的多个查询结果特征；以及分别将多个查询结果特征中的每一个查询结果特征输入预测子网络，以得到与该查询结果特征对应的文本图像处理结果。询结果特征对应的文本图像处理结果。询结果特征对应的文本图像处理结果。

技术研发人员：张晓强钦夏孟章成全姚锟
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.11.07
技术公布日：2022/12/6

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

处理文本图像的方法、神经网络及其训练方法与流程

相关文献

最热文献