一种文本识别方法、装置、电子设备和存储介质与流程

2022-07-16 22:26:19 来源：中国专利 TAG：

技术特征：
1.一种文本识别方法，其特征在于，包括：获取待识别图像，所述待识别图像为文本图像；将所述待识别图像输入到预先构建的识别网络模型中进行文本识别，得到第一识别结果，其中，所述识别模型包括特征提取模块、语义模块、第一识别模块和第二识别模块，利用所述特征提取模块提取所述待识别图像的特征，得到第一特征信息，利用所述第一识别模块对所述第一特征信息进行识别，得到第二识别结果，利用所述语义模块计算所述第二识别结果对应的语义表征向量，利用所述第二识别模块基于所述第一特征信息和所述语义表征向量，得到所述第一识别结果。2.根据权利要求1所述的方法，其特征在于，所述特征提取模块包括第一特征提取子模块和第二特征提取子模块；所述利用所述特征提取模块提取所述待识别图像的特征，得到第一特征信息，包括：利用所述第一特征提取子模块提取所述待识别图像的特征，得到第二特征信息；利用所述第二特征提取子模块对所述第二特征信息进行上下文建模，得到第一特征信息。3.根据权利要求1所述的方法，其特征在于，所述语义模块包括词嵌入层和长短时记忆网络层；所述利用所述语义模块计算所述第二识别结果对应的语义表征向量，包括：将所述第二识别结果随机掩盖至少一个字符，并利用所述词嵌入层将掩盖至少一个字符后的所述第二识别结果转换为目标嵌入向量，其中，所述第二识别结果包括至少一个字符；利用所述长短时记忆网络层计算所述目标嵌入向量的语义表征向量。4.根据权利要求3所述的方法，其特征在于，所述将所述第二识别结果随机掩盖至少一个字符，并利用所述词嵌入层将掩盖至少一个字符后的所述第二识别结果转换为目标嵌入向量，包括：将所述第二识别结果多次随机掩盖至少一个字符，且每次掩盖的至少一个字符不完全相同，得到所述第二识别结果对应的多个掩盖结果；针对每个掩盖结果，利用所述词嵌入层将所述掩盖结果转换为嵌入向量；根据多个所述嵌入向量得到目标嵌入向量。5.根据权利要求1所述的方法，其特征在于，所述第二识别模块包括注意力层、解码层和全连接层；所述第一特征信息包括n个时间步的特征信息，n为大于1的整数；所述利用所述第二识别模块基于所述第一特征信息和所述语义表征向量，得到所述第一识别结果，包括：利用注意力层对所述第一特征信息进行处理，得到每个时间步的上下文向量；在所述解码层中，对于第一个时间步，将获取的初始隐状态向量和所述语义表征向量进行拼接得到第一拼接向量，并根据所述第一拼接向量和所述第一个时间步的上下文向量生成第一输出向量和第一个时间步的目标隐状态向量；对于第m个当前时间步，将所述第m个当前时间步的上一个时间步输出的目标隐状态向量和所述语义表征向量进行拼接得到当前拼接向量，并根据所述当前拼接向量和所述第m个当前时间步的上下文向量生成第m个当前时间步对应的当前输出向量和第m个当前时间步的目标隐状态向量，m为大于1小于n的整数；
针对所述n个时间步中除所述第一个时间步之外的其他时间步，依次执行得到第m个当前时间步对应的当前输出向量的过程，直到完成n个时间步的识别，根据所述第一输出向量和n-1个当前时间步的当前输出向量，基于所述全连接层得到所述第一识别结果。6.根据权利要求1所述的方法，其特征在于，所述识别网络模型通过以下方法训练获得：获取样本图像和所述样本图像对应的标注文本信息；将所述标注文本信息输入到预先训练的语言模型中，得到第一预测表征向量；将所述样本图像、所述标注文本信息和所述第一预测表征向量输入到预先构建的识别模型中，得到第二预测表征向量、第一预测识别结果和第二预测识别结果；根据所述标注文本信息、所述第一预测表征向量、所述第二预测表征向量、所述第一预测识别结果和所述第二预测识别结果计算损失值，并根据所述损失值更新所述识别模型的网络参数。7.根据权利要求6所述的方法，其特征在于，所述将所述样本图像、所述标注文本信息和所述第一预测表征向量输入到预先构建的识别模型中，得到第二预测表征向量、第一预测识别结果和第二预测识别结果，包括：将所述样本图像、所述标注文本信息和所述第一预测表征向量输入到预先构建的所述识别模型中，以使所述识别模型中的所述特征提取模块提取所述样本图像的特征，所述语义模块基于所述标注文本信息得到第二预测表征向量，所述第一识别模块基于所述样本图像的特征得到第一预测识别结果，所述第二识别模块基于所述样本图像的特征和所述第一预测表征向量得到第二预测识别结果。8.根据权利要求6所述的方法，其特征在于，所述损失值包括第一损失值、第二损失值和第三损失值；所述根据所述标注文本信息、所述第一预测表征向量、所述第二预测表征向量、所述第一预测识别结果和所述第二预测识别结果计算损失值，包括：采用第一损失函数根据所述第一预测表征向量和所述第二预测表征向量计算所述第一损失值；采用第二损失函数根据所述标注文本信息和所述第一预测识别结果计算所述第二损失值；采用第三损失函数根据所述标注文本信息和所述第二预测识别结果计算所述第三损失值。9.根据权利要求6所述的方法，其特征在于，所述将所述标注文本信息输入到预先训练的语言模型中，得到第一预测表征向量，包括：将所述标注文本信息进行分词处理，得到多个分词；针对所述多个分词，每次掩盖所述多个分词中的一个分词，得到多个掩盖后的分词；将多个所述掩盖后的分词依次输入到预先训练的语言模型中，得到多个第三预测表征向量；根据多个所述第三预测表征向量得到第一预测表征向量。10.一种文本识别装置，其特征在于，包括：获取单元，用于获取待识别图像，所述待识别图像为文本图像；识别单元，用于将所述待识别图像输入到预先构建的识别网络模型中进行文本识别，
得到第一识别结果，其中，所述识别模型包括特征提取模块、语义模块、第一识别模块和第二识别模块，利用所述特征提取模块提取所述待识别图像的特征，得到第一特征信息，利用所述第一识别模块对所述第一特征信息进行识别，得到第二识别结果，利用所述语义模块计算所述第二识别结果对应的语义表征向量，利用所述第二识别模块基于所述第一特征信息和所述语义表征向量，得到所述第一识别结果。11.一种电子设备，其特征在于，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至9所述的文本识别方法。12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至9所述的文本识别方法。

技术总结
本公开涉及一种文本识别方法、装置、电子设备和存储介质。本公开提供的方法包括：获取待识别图像，所述待识别图像为文本图像；将待识别图像输入到预先构建的识别网络模型中进行文本识别，得到第一识别结果，其中，识别模型包括特征提取模块、语义模块、第一识别模块和第二识别模块，利用特征提取模块提取待识别图像的特征，得到第一特征信息，利用第一识别模块对第一特征信息进行识别，得到第二识别结果，随后利用语义模块计算第二识别结果对应的语义表征向量，利用第二识别模块基于第一特征信息和语义表征向量，得到第一识别结果。本公开提供的方法能够快速准确的识别出图像中的文本。文本。文本。

技术研发人员：秦勇
受保护的技术使用者：深圳市星桐科技有限公司
技术研发日：2022.04.22
技术公布日：2022/7/15

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种文本识别方法、装置、电子设备和存储介质与流程

相关文献

最热文献