图像处理方法、装置、设备及介质与流程

2022-11-30 21:32:47 来源：中国专利 TAG：

技术特征：
1.一种图像处理方法，其特征在于，包括：获取包含目标公式的目标图像；将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述公式识别模型是基于具有标注信息的公式样本图像训练得到的，所述标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；根据所述每个字符对应的第一字符预测结果和第一关系预测结果，得到所述目标图像中所述目标公式的识别结果。2.根据权利要求1所述的方法，其特征在于，所述公式识别模型包括：特征映射模块、自注意力模块、语义提取模块和字符预测模块；所述将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的字符预测结果和关系预测结果，包括：将所述目标图像输入至所述特征映射模块，通过所述特征映射模块对所述目标图像进行特征映射，得到所述目标图像对应的第一映射特征；通过所述自注意力模块对所述第一映射特征进行特征提取，得到第二映射特征；通过所述语义提取模块对所述第二映射特征进行语义特征提取，得到第一全局语义向量；通过所述字符预测模块基于所述第二映射特征和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述第一关系预测结果用于指示字符与相邻前一位置处字符的关系。3.根据权利要求2所述的方法，其特征在于，所述字符预测模块包括：词嵌入层、注意力层和解码器；所述通过所述字符预测模块基于所述第二映射特征和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果，包括：通过所述词嵌入层将所述第二映射特征进行向量化表示，得到所述第二映射特征的语义特征；通过所述注意力层基于所述第二映射特征的语义特征，得到注意力向量；通过所述解码器基于所述注意力向量和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果。4.根据权利要求1所述的方法，其特征在于，所述公式识别模型的训练过程包括：获取第一训练集和第二训练集；其中，所述第一训练集中的公式样本图像上标注有公式样本对应的字符序列、语义特征向量和字符检测框，所述第二训练集中的公式样本图像上标注有公式样本对应的字符序列、语义特征向量；获取待训练的第一模型；所述第一模型包括：特征映射模块、自注意力模块、语义提取模块、字符预测模块、卷积模块和数量预测模块；根据所述第一训练集对所述第一模型进行训练；在所述第一模型训练结束后，将所述卷积模块的参数保持不变，得到第二模型；根据所述第二训练集对所述第二模型进行训练；当所述第二模型训练收敛时，将所述特征映射模块、所述自注意力模块、所述语义提取模块、所述字符预测模块确定为所述公式识别模型。
5.根据权利要求4所述的方法，其特征在于，所述根据所述第一训练集对所述第一模型进行训练，包括：将第一公式样本图像输入到所述第一模型；其中，所述第一公式样本图像为所述第一训练集中的公式样本图像；通过所述特征映射模块输出所述第一公式样本图像对应的第三映射特征；通过所述自注意力模块基于所述第三映射特征输出第四映射特征；通过所述语义提取模块基于所述第四映射特征输出第二全局语义向量；通过所述卷积模块基于所述第四映射特征输出所述第一公式样本图像的公式样本中每个字符的字符中心点；通过所述数量预测模块基于所述第四映射特征输出所述第一公式样本图像的公式样本中的字符数量；通过所述字符预测模块基于所述第四映射特征和所述第二全局语义向量，输出所述第一公式样本图像的公式样本中每个字符对应的第二字符预测结果和第二关系预测结果；根据所述第一公式样本图像上标注的公式样本对应的字符序列、语义特征向量和字符检测框，所述第二字符预测结果、第二关系预测结果、所述第二全局语义向量、所述字符中心点和所述字符数量，以及预设损失函数，对所述第一模型进行训练。6.根据权利要求5所述的方法，其特征在于，所述根据所述第一公式样本图像上标注的公式样本对应的字符序列、语义特征向量和字符检测框，所述第二字符预测结果、第二关系预测结果、所述第二全局语义向量、所述字符中心点和所述字符数量，以及预设损失函数，对所述第一模型进行训练，包括：根据所述第一公式样本图像上标注的语义特征向量、所述第二全局语义向量和l1损失函数，计算所述语义提取模块的第一损失函数值；根据所述第一公式样本图像上标注的公式样本对应的字符检测框、所述字符中心点和分类损失函数focal loss损失函数，计算所述卷积模块的第二损失函数值；根据所述第一公式样本图像上标注的公式样本对应的字符检测框、所述字符数量和多分类交叉熵损失函数，计算所述数量预测模块的第三损失函数值；根据所述第二字符预测结果、第二关系预测结果，得到所述第一公式样本图像中公式样本的预测字符序列；根据所述预测字符序列、所述第一公式样本图像上标注的公式样本对应的字符序列以及多分类交叉熵损失函数，计算所述字符预测模块的第四损失函数值；根据所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值，对所述第一模型进行训练。7.根据权利要求4所述的方法，其特征在于，所述方法还包括：获取标注有字符序列和字符检测框的第二公式样本图像；根据标注的字符序列和字符检测框对所述第二公式样本图像中的各字符进行三元组编码，得到三元组结构，所述三元组结构包括：当前字符、所述当前字符对应的前一位置处的相邻字符、所述当前字符和所述相邻字符之间的关系；通过词嵌入方法得到所述三元组结构对应的词嵌入向量；将各字符对应的所述词嵌入向量输入至预先训练好的语义信息提取模型，得到所述第
二公式样本图像的字符序列对应的语义特征向量。8.一种图像处理装置，其特征在于，包括：图像获取模块，用于获取包含目标公式的目标图像；公式识别模块，用于将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述公式识别模型是基于具有标注信息的公式样本图像训练得到的，所述标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；结果获取模块，用于根据所述每个字符对应的第一字符预测结果和第一关系预测结果，得到所述目标图像中所述目标公式的识别结果。9.一种电子设备，其特征在于，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至7任一所述的图像处理方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至7任一所述的图像处理方法。

技术总结
本公开涉及一种图像处理方法、装置、设备及介质，该方法包括：获取包含目标公式的目标图像；将目标图像输入至预先训练好的公式识别模型进行公式识别，得到目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，公式识别模型是基于具有标注信息的公式样本图像训练得到的，标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；根据每个字符对应的第一字符预测结果和第一关系预测结果，得到目标图像中目标公式的识别结果。本公开能够提高公式识别准确性。本公开能够提高公式识别准确性。本公开能够提高公式识别准确性。

技术研发人员：李兵
受保护的技术使用者：深圳市星桐科技有限公司
技术研发日：2022.08.26
技术公布日：2022/11/22

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：文档搜索的优化处理方法、装置及电子设备与流程

图像处理方法、装置、设备及介质与流程

相关文献

最热文献