图像处理方法、装置、设备及介质与流程

2022-11-23 17:12:02 来源：中国专利 TAG：

1.本公开涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、设备及介质。

背景技术：

2.自然场景文字识别是从包括文本内容的图像中识别出字符序列的过程。图像上的文本内容涵盖非常广泛，其中公式排列复杂，如多行和单行交错、包括上标下标、字体大小不一等。相比于常规文本识别，由于公式的排列复杂，从而采用常规的文本识别方式对公式进行识别时，公式的识别难度很大、识别效果差。

技术实现要素：

3.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种图像处理方法、装置、设备及介质。
4.根据本公开的一方面，提供了一种图像处理方法，包括：
5.获取包含目标公式的目标图像；
6.将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述公式识别模型是基于具有标注信息的公式样本图像训练得到的，所述标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；
7.根据所述每个字符对应的第一字符预测结果和第一关系预测结果，得到所述目标图像中所述目标公式的识别结果。
8.根据本公开的另一方面，提供了一种图像处理装置，包括：
9.图像获取模块，用于获取包含目标公式的目标图像；
10.公式识别模块，用于将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述公式识别模型是基于具有标注信息的公式样本图像训练得到的，所述标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；
11.结果获取模块，用于根据所述每个字符对应的第一字符预测结果和第一关系预测结果，得到所述目标图像中所述目标公式的识别结果。
12.根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述图像处理方法。
13.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据图像处理方法。
14.本公开实施例提供的技术方案与现有技术相比具有如下优点：
15.本公开实施例提供的图像处理方法、装置、设备及介质，通过获取包含目标公式的目标图像；将目标图像输入至预先训练好的公式识别模型进行公式识别，得到目标公式中
每个字符对应的第一字符预测结果和第一关系预测结果；根据每个字符对应的第一字符预测结果和第一关系预测结果，得到目标图像中目标公式的识别结果。上述技术方法能够提高公式识别的准确性。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
17.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
18.图1为本公开实施例提供的图像处理方法流程图；
19.图2为本公开实施例提供的模型训练方法流程图；
20.图3为本公开实施例提供的图像处理装置的结构示意图；
21.图4为本公开实施例提供的电子设备的结构示意图。
具体实施方式
22.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
23.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
24.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
25.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
26.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
27.自然场景下的文字识别是一项具有极大挑战性的课题，除了图片背景复杂，光照变化等因素外，识别输出空间的复杂性也是一大困难，由于文字由数量不固定的字母组成，因此，自然场景文字识别需要从图像中识别长度不固定的序列。目前通常包括如下两种识别方法，一种是基于自底向上的策略，将识别问题拆分为字符检测、字符识别和字符组合，逐个解决；另一种是基于整体分析的策略，即序列到序列的方法，先将图像编码，然后进行
序列解码直接得出整个字符串。然而，上述第一种方法需要字符级别的标注，即每个字符在输入图像上的位置和信息都需要标注，耗费大量的人力成本；第二种方法虽然标注简单，只需转录字符串即可，但是其识别结果可能存在多识别字符或漏识别字符的情况。
28.文本图像上的文本内容涵盖非常广泛，比如可以是中文、英文、数字或者几者的结合体，当然也可以是公式。其中，中英文文字或数字，其排列结构比较简单，所见即所得，同时字体大小差别不大，整体呈线性结构；而公式，其排列结构比一般的文本内容更为复杂，如多行和单行交错、包括上标下标、字体大小不一等，整体呈非线性结构。因此可以理解，相比于常规文本识别，针对排列结构复杂的公式的识别难度会更大，
29.目前可以采用常规的文本识别方式对公式进行识别，但是识别准确率较低、识别效果差。例如，基于字符标注的方法成本高，同时字符检测部分因字符大小变化及位置排列而很难精准检测；基于序列到序列的方法无法实现较好的对齐，经常会有漏识别或多识别的问题。
30.其中，crnn(convolutional recurrent neural network，卷积循环神经网络结构)模型是一种基于序列到序列进行文本识别的方法，它在精度和速度上取得了很好的平衡，但是它仍然有参数量过大，训练周期过长的问题存在；transformer作为一种非常有效的编解码网络结构，已经在自然语言处理和计算机视觉等任务中取得了非常好的效果，可以使用基于ctc(connectionist temporal classification，连接时序分类)或者基于attention的方式进行解码。针对复杂公式的识别而言，基于ctc或者基于attention的方式都无法实现预测字符和其对应特征区域的有效对齐，因此两者效果都很差。但是，attention的方式比ctc的方式的精度要高，经发明人研究发现，其原因在于：一是attention方式的对齐方式更灵活，能利用到全局信息，二是attention方式在解码的过程中能够学到隐式的语言模型。进一步考虑到，基于ctc和基于attention这两种方式的解码结构都是线性的，从左往右解码，每个竖直位置都只有一个字符，而对于公式这种非线性结构，公式的每个位置可能一个或两个以上的字符，这就导致如果采用线性解码的方式，那么需要强行学习一种不太有规律的对齐方式，或者说是强行学习一种规律非常复杂的对齐方式。对于网络来说，规律越复杂学习难度就越大，效果也就越难保证。
31.对于公式图像而言，可以考虑以下关键信息：整个公式中字符数量、每个字符的位置信息、字符与字符之间的结构信息以及整体公式的语义信息。
32.基于上述情况，为了提升针对结构复杂的公式的识别准确性，本公开实施例提供一种图像处理方法、装置、设备及介质；本实施例在现有一些网络模型的基础上构建一种新的网络结构的公式识别模型，以使该公式识别模型能够综合利用字符数量、字符位置和语义信息对图像进行公式识别，由此提高公式识别的准确性。为便于理解，以下对本公开实施例展开描述。
33.图1为本公开实施例提供一种图像处理方法的流程图，该方法可以由配置于终端或服务器中的图像处理装置执行，该装置可以采用软件和/或硬件实现。参照图1，该方法包括如下步骤：
34.步骤s102，获取包含目标公式的目标图像。
35.本实施例可以在终端中通过图像选择操作、图像拍摄操作或图像上传操作等方式，获取目标图像。目标图像中包含的目标公式可以为数学、物理学、化学等自然科学中用
数学符号表示几个量之间关系的式子，目标公式中的字符可以包括中文字符、英文字符、数字和/或运算符号等，目标公式的每个位置包括至少一个字符。
36.步骤s104，将目标图像输入至预先训练好的公式识别模型进行公式识别，得到目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，公式识别模型是基于具有标注信息的公式样本图像训练得到的，标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框。
37.在本实施例中，公式样本图像的标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；其中，字符序列能够表示公示样本中的字符以及字符的数量，语义特征向量能够表示公式样本所定义或表达的命题的逻辑语义信息，字符检测框能够表示公式样本中各字符的位置。利用具有上述标注信息的公式样本图像训练得到的公式识别模型，能够学习到公式样本的字符数量、字符位置、和语义信息。在此基础上，本实施例将包含目标公式的目标图像输入至训练好的公式识别模型，公式识别模型在对目标图像进行公式识别时，能够对目标公式的字符数量、字符位置和语义信息等多维度信息进行充分利用，提高公式识别的准确度。
38.公式识别模型可以包括：依次相连的特征映射模块、自注意力模块、语义提取模块，以及与自注意力模块、语义提取模块分别相连的字符预测模块。其中，特征映射模块的输入为目标图像，输出为目标图像对应的第一映射特征；自注意力模块的输入为第一映射特征，输出为第二映射特征；语义提取模块的输入为第二映射特征，输出为第一全局语义向量；字符预测模块的输入为第二映射特征和第一全局语义特征，输出为目标公式中每个字符对应的第一字符预测结果和第一关系预测结果，该第一关系预测结果用于指示任一位置i处的字符ci与相邻前一位置i-1处的字符c
i-1
的关系，具体例如平方、立方、上标、下标等关系。
39.步骤s106，根据每个字符对应的第一字符预测结果和第一关系预测结果，得到目标图像中目标公式的识别结果。
40.可以理解，得到每个字符对应的第一字符预测结果和第一关系预测结果后，可以按照第一关系预测结果将各个字符的第一字符预测结果进行排列，得到目标图像中目标公式的识别结果。
41.本公开实施例提供的一种图像处理方法，通过获取包含目标公式的目标图像；将目标图像输入至预先训练好的公式识别模型进行公式识别，得到目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；根据每个字符对应的第一字符预测结果和第一关系预测结果，得到目标图像中目标公式的识别结果。这种图像处理方法，公式识别模型能够充分利用字符数量、字符位置和语义信息，从而处理目标图像时从以上多个维度进行公式识别，有效提高了公式识别的准确性。
42.为了使公式识别模型能够直接应用于针对图像的公式识别中，需要对该公式识别模型进行训练，公式识别模型的参数需要经过训练得到，对公式识别模型进行训练的目的，是最终确定可满足要求的参数。利用已训练得到的参数，公式识别模型能够得到预期的公式识别效果。如图2所示，本实施例给出了一种公式识别模型的训练方法，参照如下步骤所示：
43.步骤s202，获取第一训练集和第二训练集；其中，第一训练集中的公式样本图像上
标注有公式样本对应的字符序列、语义特征向量和字符检测框，第二训练集中的公式样本图像上标注有公式样本对应的字符序列、语义特征向量。
44.在一实施例中，获取多张原始公式样本图像。原始公式样本图像中包括单行的公式文本内容，也即公式样本。为了增加训练样本的丰富性、多样性，本实施例中的公示样本可以为直文本、倾斜文本和/或弯曲文本等样式，原始公式样本图像可以为模糊图像、影印图像、高清图像等效果的图像。对原始公式样本图像标注文本字符信息，得到公式样本对应的字符序列；具体例如可以采用人工方式，标注公式样本对应的latex(拉泰赫)字符序列。
45.本实施例还可以根据多张原始公式样本图像中标注的字符序列建立字典，字典中包括多张原始公式样本图像中的字符；具体建立方式诸如：通过将标注的字符序列进行单字符的集合与操作，得到字典，字典中的各个字符独立且不重复。在此建立的字典可以用于后续基于公式识别模型进行字符识别时的字符数据库，根据识别概率在字符识别库中确定具体的字符。
46.对原始公式样本图像标注字符检测框。在一具体方式中，可以按照预设的分配比例将获取到的多张原始公式样本图像划分为第一图像集和第二图像集，该分配比例例如为第一图像集的图像数量为第二图像集的图像数量的九分之一。而后，对第一图像集的原始公式样本图像上的每个字符进行字符检测框标注，字符检测框可以使用矩形框。
47.对原始公式样本图像标注语义特征向量。在此提供一种语义特征向量的获取实施例，参照如下内容。
48.获取标注有字符序列和字符检测框的第二公式样本图像；或者说，第二公式样本图像是任一标注有字符序列和字符检测框的原始公式样本图像。
49.根据标注的字符序列和字符检测框对第二公式样本图像中的各字符进行三元组编码，得到三元组结构，三元组结构包括：当前字符、当前字符对应的前一位置处的相邻字符、当前字符和相邻字符之间的关系。在一具体示例中，根据字符序列和字符检测框，确定样本公式中每相邻的两个字符，每相邻的两个字符包括任一位置i对应的当前字符ci、当前字符对应的前一位置i-1处的相邻字符c
i-1
。在数学、物理学等自然科学中，公式中相邻两个字符之间存在着有限的关系，如平方、立方、上标、下标等；从而，根据样本公式的语法规则，确定上述每相邻的两个字符之间的关系。将每相邻的两个字符以及该两个字符之间的关系编码为三元组结构，三元组结构可表示为(节点1，节点2，关系)，节点1和节点2分别对应于当前字符ci和前一位置处的相邻字符c
i-1
。
50.接下来，通过词嵌入方法得到三元组结构对应的词嵌入向量；将各字符对应的词嵌入向量输入至预先训练好的语义信息提取模型，得到第二公式样本图像的字符序列对应的语义特征向量。
51.其中，语义信息提取模型可以是基于transformer模型构建得到的。语义信息提取模型的主体结构与transformer基本相同，不同之处包括如下两点。第一、语义信息提取模型中编码器的位置编码部分，使用网格对第二公式样本图像中的字符进行划分，以保证每个字符都有一个二维坐标位置；编码器的输入是一维正余弦向量，输出为二维向量。第二、语义信息提取模型的解码器部分只进行一次解码，解码器的输入是字符序列中任一字符ci的词嵌入向量，输出是下一个字符c
i-1
的预测结果。本实施例中，transformer不仅能够极大地加快网络训练和推理的时间，更是能有效提升各类任务的精度，从而，通过基于
transformer构建的语义信息提取模型来提取语义特征向量，能够使提取到的语义特征向量在精度和准确性上取得更好地效果。
52.语义信息提取模型需要经过预先训练，其可能的训练方式包括：使用标注有字符序列和字符检测框的第一图像集、标注有字符序列的第二图像集，对待训练的模型进行训练，当训练结束时，只保留编码器，得到训练好的语义信息提取模型。
53.将各字符对应的词嵌入向量输入至训练好的语义信息提取模型，词嵌入向量是一维正余弦向；通过语义信息提取模型将各字符对应的词嵌入向量编码改为二维向量，即得到第二公式样本图像的字符序列对应的语义特征向量。而后，对原始公式样本图像进行语义特征向量的标注。
54.根据上述实施例，多张原始公式样本图像被划分为了第一图像集和第二图像集，第一图像集中的图像上标注有字符序列、语义特征向量和字符检测框，第二图像集中的图像上标注有字符序列和语义特征向量；于是，将上述完成信息标注的第一图像集作为第一训练集，将上述完成信息标注的第二图像集作为第二训练集。
55.步骤s204，获取待训练的第一模型；第一模型包括：特征映射模块、自注意力模块、语义提取模块、字符预测模块、卷积模块和数量预测模块。
56.在一实施例中，特征映射模块可以使用resnet网络。resnet网络能够有效解决当网络模型层数加深以后出现模型性能退化的问题，从而使得网络可以增加层数(加深)进行更加复杂的特征模式提取。resnet网络的主要核心是被称为残差块(block)的结构，残差结构主要的特点是跨层跳跃连接，即一个block块包括多个卷积层，其输入经过block块之后的输出会与输入进行一次逐通道逐点相加操作，相当于输入有两个分支，一个经过block块，另一个直接快速绕过block块，最后两个分支合并。resnet网络能在自然场景图像分类上取得良好效果。
57.在一种具体示例中，特征映射模块可以使用resnet18网络，resnet18包括n个block块，每个block块由若干卷积操作组成，每一个block的输出是后一个block块的输入；此处，获得每个block块的输出，得到n组映射特征；本实施例考虑到前面的block块能够得到浅层细节特征，后面的block块能够得到高层语义特征，同时，后面block块得到的特征可能丧失了大量的细节信息，因此，可以将n组映射特征缩放到同样大小并串联叠加，以通过信息融合获得更好的表征，最终得到目标图像对应的第三映射特征。在一示例中，针对公式同一竖直位置可能有多个字符的情况，在高度方向，block块的数量不小于四。经过特征映射模块后得到的第三映射特征作为自注意力模块的输入。
58.自注意力模块可以使用两个自注意力层，对特征映射模块提取的第三映射特征做进一步的特征提取，得到一组新的特征映射，即为第四映射特征。第四映射特征维度与第三映射特征维度相同。
59.语义提取模块主要包括一个卷积层和一个最大池化层，池化窗口的大小与第二映射特征尺度大小一致，得到第二全局语义向量。
60.卷积模块与语义提取模块并行，可以包括三个等宽卷积层，输出为一通道映射特征。卷积模块主要用于基于第四映射特征预测样本公式中每个字符的字符中心点。
61.数量预测模块与卷积模块、语义提取模块并行，可以包括两个卷积层和一个全连接层；两个卷积层由于对第四映射特征进行特征提取，全连接层用于将前面两个卷积层提
取到的特征综合起来，预测样本公式中的字符数量。
62.字符预测模块包括词嵌入层、注意力层和lstm(long short-term memory，长短期记忆网络)单元，lstm单元作为解码器。字符预测模块的输入包括第四映射特征和第二全局语义向量，以第二全局语义向量作为初始隐状态，以第四映射特征作为key和value，计算并输出对当前字符的预测结果以及当前字符和相邻前一位置处字符之间的关系。
63.步骤s206，根据第一训练集对第一模型进行训练。具体训练过程包括如下内容。
64.将第一公式样本图像输入到第一模型；其中，第一公式样本图像为第一训练集中的公式样本图像。
65.通过特征映射模块输出第一公式样本图像对应的第三映射特征；通过自注意力模块基于第三映射特征输出第四映射特征；通过语义提取模块基于第四映射特征输出第二全局语义向量；通过卷积模块基于第四映射特征输出第一公式样本图像的公式样本中每个字符的字符中心点；通过数量预测模块基于第四映射特征输出第一公式样本图像的公式样本中的字符数量；通过字符预测模块基于第四映射特征和第二全局语义向量，输出第一公式样本图像的公式样本中每个字符对应的第二字符预测结果和第二关系预测结果。
66.根据第一公式样本图像上标注的公式样本对应的字符序列、语义特征向量和字符检测框，第二字符预测结果、第二关系预测结果、第二全局语义向量、字符中心点和字符数量，以及预设损失函数，对第一模型进行训练。
67.本步骤具体包括：根据第一公式样本图像上标注的语义特征向量、第二全局语义向量和l1损失函数，计算语义提取模块的第一损失函数值。l1损失函数也可以称为最小绝对值偏差或绝对值损失函数，它用于最小化目标值(标注的语义特征向量)与估计值(第二全局语义向量)的绝对差值。
68.根据第一公式样本图像上标注的公式样本对应的字符检测框、字符中心点和分类损失函数focal loss损失函数，计算卷积模块的第二损失函数值。
69.根据第一公式样本图像上标注的公式样本对应的字符检测框、字符数量和多分类交叉熵损失函数，计算数量预测模块的第三损失函数值。
70.根据第二字符预测结果、第二关系预测结果，得到第一公式样本图像中公式样本的预测字符序列；根据预测字符序列、第一公式样本图像上标注的公式样本对应的字符序列以及多分类交叉熵损失函数，计算字符预测模块的第四损失函数值。
71.根据第一损失函数值、第二损失函数值、第三损失函数值和第四损失函数值，对第一模型进行训练。例如，可以根据预设的权重系数对第一损失函数值、第二损失函数值、第三损失函数值和第四损失函数值进行加权，得到综合损失函数值，根据综合损失函数值对第一模型进行训练。
72.步骤s208，在第一模型训练结束后，将卷积模块的参数保持不变，得到第二模型。
73.步骤s210，根据第二训练集对第二模型进行训练。根据第二训练集对第二模型进行训练的方式与上述步骤s206相近，区别在于卷积模块不再参与训练过程，而其他多个模块使用第二训练集进行训练。
74.步骤s212，当第二模型训练收敛时，将特征映射模块、自注意力模块、语义提取模块、字符预测模块确定为公式识别模型。当第二模型训练收敛时，去除卷积模块和数量预测模块，将保留的特征映射模块、自注意力模块、语义提取模块和字符预测模块确定为公式识
别模型，直接用于公式识别。
75.上述实施例将训练过程分为两个阶段，分别为利用第一训练集训练得到第二模型的第一阶段、利用第二训练集训练得到公式识别模型的第二阶段，能够有效提升模型的学习率，缩短模型的训练周期。上述方法训练得到的公式识别模型能够对输入的目标图像进行公式识别，有效提升公式识别的准确性。
76.至此，可以根据上述实施例得到训练好的公式识别模型。在此基础上，本实施例提供一种基于公式识别模型的图像处理方法，具体包括如下内容。
77.获取包含目标公式的目标图像。将所述目标图像输入至预先训练好的公式识别模型进行公式识别；公式识别模型包括：特征映射模块、自注意力模块、语义提取模块和字符预测模块；其中：
78.将目标图像输入至特征映射模块，通过特征映射模块对目标图像进行特征映射，得到目标图像对应的第一映射特征；通过自注意力模块对第一映射特征进行特征提取，得到第二映射特征；通过语义提取模块对第二映射特征进行语义特征提取，得到第一全局语义向量；通过字符预测模块基于第二映射特征和第一全局语义特征，得到目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，第一关系预测结果用于指示字符与相邻前一位置处字符的关系。
79.针对字符预测模块，其包括：词嵌入层、注意力层和解码器；在字符预测模块的预测过程中，可以通过词嵌入层将第二映射特征进行向量化表示，得到第二映射特征的语义特征；通过注意力层基于第二映射特征的语义特征，得到注意力向量；通过解码器基于注意力向量和第一全局语义特征，得到目标公式中每个字符对应的第一字符预测结果和第一关系预测结果。为了提高识别准确性，上述第一字符预测结果可以是根据预先建立的包括多个字符的字典得到的。
80.接下来，根据每个字符对应的第一字符预测结果和第一关系预测结果，得到所述目标图像中所述目标公式的识别结果。
81.综上，上述实施例提供的图像处理方法，通过训练好的公式识别模型对目标图像进行公式识别，公式识别模型将目标图像包含的字符数量、字符位置和语义信息等多维度信息全部进行充分利用，能有效提升公式的识别精度和准确性。
82.图3为本公开实施例提供的图像处理装置的结构示意图。本公开实施例提供的图像处理装置可以执行图像处理方法实施例提供的处理流程，如图3所示，图像处理装置300包括：
83.图像获取模块302，用于获取包含目标公式的目标图像；
84.公式识别模块304，用于将所述目标图像输入至预先训练好的公式识别模型进行公式识别，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述公式识别模型是基于具有标注信息的公式样本图像训练得到的，所述标注信息包括：公式样本对应的字符序列、语义特征向量和字符检测框；
85.结果获取模块306，用于根据所述每个字符对应的第一字符预测结果和第一关系预测结果，得到所述目标图像中所述目标公式的识别结果。
86.在一些实施例中，公式识别模型包括：特征映射模块、自注意力模块、语义提取模块和字符预测模块；公式识别模块304还用于：
87.将所述目标图像输入至所述特征映射模块，通过所述特征映射模块对所述目标图像进行特征映射，得到所述目标图像对应的第一映射特征；
88.通过所述自注意力模块对所述第一映射特征进行特征提取，得到第二映射特征；
89.通过所述语义提取模块对所述第二映射特征进行语义特征提取，得到第一全局语义向量；
90.通过所述字符预测模块基于所述第二映射特征和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果；其中，所述第一关系预测结果用于指示字符与相邻前一位置处字符的关系。
91.在一些实施例中，字符预测模块包括：词嵌入层、注意力层和解码器；公式识别模块304还用于：
92.通过所述词嵌入层将所述第二映射特征进行向量化表示，得到所述第二映射特征的语义特征；
93.通过所述注意力层基于所述第二映射特征的语义特征，得到注意力向量；
94.通过所述解码器基于所述注意力向量和所述第一全局语义特征，得到所述目标公式中每个字符对应的第一字符预测结果和第一关系预测结果。
95.在一些实施例中，图像处理装置300还包括模型训练模块，该模型训练模块用于：
96.获取第一训练集和第二训练集；其中，所述第一训练集中的公式样本图像上标注有公式样本对应的字符序列、语义特征向量和字符检测框，所述第二训练集中的公式样本图像上标注有公式样本对应的字符序列、语义特征向量；
97.获取待训练的第一模型；所述第一模型包括：特征映射模块、自注意力模块、语义提取模块、字符预测模块、卷积模块和数量预测模块；
98.根据所述第一训练集对所述第一模型进行训练；
99.在所述第一模型训练结束后，将所述卷积模块的参数保持不变，得到第二模型；
100.根据所述第二训练集对所述第二模型进行训练；
101.当所述第二模型训练收敛时，将所述特征映射模块、所述自注意力模块、所述语义提取模块、所述字符预测模块确定为所述公式识别模型。
102.在一些实施例中，模型训练模块还用于：
103.将第一公式样本图像输入到所述第一模型；其中，所述第一公式样本图像为所述第一训练集中的公式样本图像；
104.通过所述特征映射模块输出所述第一公式样本图像对应的第三映射特征；
105.通过所述自注意力模块基于所述第三映射特征输出第四映射特征；
106.通过所述语义提取模块基于所述第四映射特征输出第二全局语义向量；
107.通过所述卷积模块基于所述第四映射特征输出所述第一公式样本图像的公式样本中每个字符的字符中心点；
108.通过所述数量预测模块基于所述第四映射特征输出所述第一公式样本图像的公式样本中的字符数量；
109.通过所述字符预测模块基于所述第四映射特征和所述第二全局语义向量，输出所述第一公式样本图像的公式样本中每个字符对应的第二字符预测结果和第二关系预测结果；
110.根据所述第一公式样本图像上标注的公式样本对应的字符序列、语义特征向量和字符检测框，所述第二字符预测结果、第二关系预测结果、所述第二全局语义向量、所述字符中心点和所述字符数量，以及预设损失函数，对所述第一模型进行训练。
111.在一些实施例中，模型训练模块还用于：
112.根据所述第一公式样本图像上标注的语义特征向量、所述第二全局语义向量和l1损失函数，计算所述语义提取模块的第一损失函数值；
113.根据所述第一公式样本图像上标注的公式样本对应的字符检测框、所述字符中心点和分类损失函数focal loss损失函数，计算所述卷积模块的第二损失函数值；
114.根据所述第一公式样本图像上标注的公式样本对应的字符检测框、所述字符数量和多分类交叉熵损失函数，计算所述数量预测模块的第三损失函数值；
115.根据所述第二字符预测结果、第二关系预测结果，得到所述第一公式样本图像中公式样本的预测字符序列；
116.根据所述预测字符序列、所述第一公式样本图像上标注的公式样本对应的字符序列以及多分类交叉熵损失函数，计算所述字符预测模块的第四损失函数值；
117.根据所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值，对所述第一模型进行训练。
118.在一些实施例中，图像处理装置300还包括语义特征向量获取模块，其用于：
119.获取标注有字符序列和字符检测框的第二公式样本图像；
120.根据标注的字符序列和字符检测框对所述第二公式样本图像中的各字符进行三元组编码，得到三元组结构，所述三元组结构包括：当前字符、所述当前字符对应的前一位置处的相邻字符、所述当前字符和所述相邻字符之间的关系；
121.通过词嵌入方法得到所述三元组结构对应的词嵌入向量；
122.将各字符对应的所述词嵌入向量输入至预先训练好的语义信息提取模型，得到所述第二公式样本图像的字符序列对应的语义特征向量。
123.本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。
124.本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
125.本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
126.参考图4，现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
127.如图4所示，电子设备400包括计算单元401，其可以根据存储在只读存储器(rom)402中的计算机程序或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序，来执行各种适当的动作和处理。在ram 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
128.电子设备400中的多个部件连接至i/o接口405，包括：输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备，输入单元406可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
129.计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。
130.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
131.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
132.如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
133.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
134.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
135.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
136.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

图像处理方法、装置、设备及介质与流程

相关文献

最热文献