图像的处理方法、装置、电子设备及存储介质与流程

2022-03-16 03:34:14 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术领域，可应用于光学字符识别(optical character recognition，ocr)等场景下，具体涉及一种图像的处理方法、装置、电子设备及存储介质。

背景技术：

2.文档是保存信息的重要途径，文档中包含很多结构化信息，因此，对文档中的信息进行结构化分析，有助于实现对数据的挖掘，分析和处理。但是，对于从自然场景中，获取的图像形式的文档，经常包含弯曲的文本。因此，如何提取弯曲文本中包含的结构化信息，成为重点的研究方向。

技术实现要素：

3.本公开提供了一种图像的处理方法、装置、电子设备及存储介质。
4.根据本公开的第一方面，提供了一种图像的处理方法，包括：
5.将目标图像进行预处理，以获取所述目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图；
6.基于所述第一掩膜图及所述第二掩摸图，分别从所述目标图像中提取键字段对应的第一图像及值字段对应的第二图像；
7.基于所述第一掩膜图及所述第二掩摸图，分别确定所述键字段对应的第一位置特征及值字段对应的第二位置特征；
8.根据所述第一位置特征与所述第二位置特征间的第一关联度、和/或所述第一图像中的第一文本与所述第二图像中的第二文本间的第二关联度，确定所述目标图像对应的结构化文本。
9.根据本公开的第二方面，提供了一种图像的处理装置，包括：
10.第一获取模块，用于将目标图像进行预处理，以获取所述目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图；
11.第二获取模块，用于基于所述第一掩膜图及所述第二掩摸图，分别从所述目标图像中提取键字段对应的第一图像及值字段对应的第二图像；
12.第一确定模块，用于基于所述第一掩膜图及所述第二掩摸图，分别确定所述键字段对应的第一位置特征及值字段对应的第二位置特征；
13.第二确定模块，用于根据所述第一位置特征与所述第二位置特征间的第一关联度、和/或所述第一图像中的第一文本与所述第二图像中的第二文本间的第二关联度，确定所述目标图像对应的结构化文本。
14.根据本公开的第三方面，提供了一种电子设备，包括：
15.至少一个处理器；以及
16.与所述至少一个处理器通信连接的存储器；其中，
17.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的图像的处理方法。
18.根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的图像的处理方法。
19.根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现如第一方面所述的图像的处理方法的步骤。
20.本公开提供的图像的处理方法、装置、电子设备及存储介质，存在如下有益效果：
21.本公开实施例中，首先将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图，之后基于第一掩膜图及第二掩摸图，从目标图像中提取键字段对应的第一图像及值字段对应的第二图像，从特征图中，确定键字段对应的第一位置特征及值字段对应的第二位置特征，最后根据第一位置特征与第二位置特征间的第一关联度、和/或第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本。由此，通过基于键字段对应的第一位置特征及第一文本，分别与值字段对应的第二文本及第二位置特征间的关联度，确定目标图像对应的结构化文本，从而不仅从弯曲文本中提取了结构化信息，而且提高了确定的结构化信息的准确性。
22.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案，不构成对本公开的限定。其中：
24.图1是根据本公开一实施例提供的一种图像的处理方法的流程示意图；
25.图2是根据本公开又一实施例提供的一种图像的处理方法的流程示意图；
26.图3是根据本公开又一实施例提供的一种图像的处理方法的流程示意图；
27.图4是根据本公开一实施例提供的一种图像的处理装置的结构示意图；
28.图5是用来实现本公开实施例的图像的处理方法的电子设备的框图。
具体实施方式
29.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
30.本公开实施例涉及计算机视觉、深度学习等人工智能技术领域。
31.人工智能(artificial intelligence)，英文缩写为ai。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
32.计算机视觉，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
33.深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。
34.光学字符识别ocr，是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。
35.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
36.图1是根据本公开一实施例提供的一种图像的处理方法的流程示意图。
37.其中，需要说明的是，本实施例的图像的处理方法的执行主体为图像的处理装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。
38.如图1所示，该图像的处理方法包括：
39.s101：将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图。
40.其中，目标图像中可以包含结构化文本，比如，结构化文本中的键字段可以为“姓名”、“年龄”，值字段可以为“张三”、“28岁”等等，本公开对此不做限定。
41.可选的，目标图像中包含的结构化文本，可以为弯曲文本，也可以为正常文本，本公开对此不做限定。
42.可选的，第一掩膜图的大小与目标图像的大小相同。其中，第一掩膜图中可以包含n个连通域，其中，n为大于1的正整数。
43.需要说明的是，第一掩膜图中包含的每个连通域对应一个键字段。每一个连通域内的像素值全为1，其余部分全为0。连通域的形状可以为矩形，也可以为不规则的多边形，本公开对此不做限定。
44.可选的，第二掩膜图的大小与目标图像的大小相同。其中，第二掩膜图中可以包含p个连通域，其中，p为大于1的正整数。p的数值可以与n相同，也可以与n不同，本公开对此不做限定。
45.需要说明的是，第二掩膜图中包含的每个连通域对应一个值字段。每一个连通域内的像素值全为1，其余部分全为0。连通域的形状可以为矩形，也可以为不规则的多边形，本公开对此不做限定。
46.第二掩膜图的大小与目标图像的大小相同，其中，第二掩膜图中值字段对应的掩膜的像素值全为1，其余部分全为0。键字段对应的掩膜可以为矩形，也可以为不规则的多边形，本公开对此不做限定。
47.可选的，可以先将目标图像进行特征提取，以获取目标图像对应的特征图，之后根据特征图中每个特征点的特征值，确定目标图像对应的第一掩摸图及第二掩摸图。
48.需要说明的是，本公开中考虑结构化文本的结构化特定，可以从目标图像中主要提取每个特征点对应的位置特征，即特征图中每个特征点对应的特征值，主要用于表征该特征点的位置特征，之后即可根据每个特征点对应的特征值，确定键字段对应的特征点，及值字段对应的特征点，进而确定目标图像中对应的第一掩模图及第二掩模图。
49.可选的，可以采用预先训练好的卷积神经网络获取键字段对应的第一掩摸图及值
字段对应的第二掩摸图。即将目标图像输入卷积神经网络中，以获取第一掩摸图及第二掩摸图。
50.或者，还可以对大量的结构化文本中的键字段及值字段的位置特征进行统计分析，以确定键字段对应的参考位置特征及值字段对应的参考位置特征，之后基于确定的参考位置特征及特征图中特征点的特征值，将特征图中的特征点进行分类，以确定键字段对应的特征点，及值字段对应的特征点，进而确定目标图像中对应的第一掩模图及第二掩模图。
51.需要说明的是，在卷积神经网络的训练过程中，需要对样本训练集中的每个字段对应的位置信息，及字段类型进行标注。其中，样本训练集中包含的样本中，键字段与值字段的位置关系可以为左右关系，即键字段在值字段的左侧。或者，键字段与值字段的位置关系可以为上下关系，即键字段在值字段的上方，本公开对此不做限定。
52.s102：基于第一掩膜图及第二掩摸图，分别从目标图像中提取键字段对应的第一图像及值字段对应的第二图像。
53.可选的，可以将第一掩膜图与目标图像相乘，得到第一图像；将第二掩膜图与目标图像相乘，得到第二图像。
54.其中，第一图像中只包含目标图像中键字段对应的图像，键字段之外的部分的像素值全为0。第二图像中只包含目标图像中值字段对应的图像，值字段之外的部分的像素值全为0。
55.可选的，第一图像中包含的键字段可以为一个，也可以为多个。第二图像中包含的值字段可以为一个，也可以为多个。目标图像中包含的键字段的数量与值字段的数量可以相同，也可以不同，本公开对此不做限定。
56.可以理解的是，利用掩膜图提取目标图像中包含的键字段对应的第一图像，及值字段对应的第二图像，可以剔除目标图像中包含的与结构化信息无关的内容，且在第一掩膜图像及第二掩膜图像中的连通域为不规则多边形的情况下，可以准确地剔除弯曲文本附近的干扰信息、背景信息等。从而不仅提高了弯曲文本提取的准确性，而且降低了提取结构化信息的复杂度，提高了结构化文本提取的效率。
57.s103：基于第一掩膜图及第二掩摸图，分别确定键字段对应的第一位置特征及值字段对应的第二位置特征。
58.可选的，由于第一掩膜图中可以包括n个连通域，因此，可以基于第一掩模图中每个连通域对应的位置信息，从特征图中，提取每个键字段对应的第一位置特征。
59.同理，由于第二掩膜图中可以包括p个连通域，因此，可以基于第二掩模图中每个连通域对应的位置信息，从特征图中，提取每个值字段对应的第一位置特征。
60.可选的，可以将第一掩膜图与特征图相乘，获取每个键字段对应的第一位置特征；将第二掩膜图与特征图相乘，获取每个值字段对应的第二位置特征。
61.可以理解的是，利用掩膜图提取特征图中包含的键字段对应的第一位置特征，及值字段对应的第二位置特征，可以剔除特征图中包含的与结构化信息无关的特征点，且在第一掩膜图像及第二掩膜图像中的连通域为不规则多边形的情况下，可以准确地剔除弯曲文本附近的干扰信息、背景信息等。从而不仅提高了弯曲文本提取的准确性，而且降低了提取结构化信息的复杂度，提高了结构化文本提取的效率。
62.s104：根据第一位置特征与第二位置特征间的第一关联度、和/或第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本。
63.其中，第一图像中的第一文本，可以为目标图像中包含的键字段对应的文本，比如，“姓名”、“年龄”等等，本公开对此不做限定。
64.其中，第二图像中的第二文本，可以为目标图像中包含的值字段对应的文本，比如，“张三”、“28岁”等等，本公开对此不做限定。
65.可以理解的是，可以根据第一位置特征与第二位置特征间的第一关联度，确定目标图像对应的结构化文本，也可以根据第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本，还可以根据第一位置特征与第二位置特征间的第一关联度、和第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本。本公开对此不做限定。
66.本公开实施例中，首先将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图，之后基于第一掩膜图及第二掩摸图，从目标图像中提取键字段对应的第一图像及值字段对应的第二图像，从特征图中，确定键字段对应的第一位置特征及值字段对应的第二位置特征，最后根据第一位置特征与第二位置特征间的第一关联度、和/或第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本。由此，通过基于键字段对应的第一位置特征及第一文本，分别与值字段对应的第二文本及第二位置特征间的关联度，确定目标图像对应的结构化文本，从而不仅从弯曲文本中提取了结构化信息，而且提高了确定的结构化信息的准确性。
67.图2是根据本公开又一实施例提供的一种图像的处理方法的流程示意图。如图2所示，该图像的处理方法包括：
68.s201：将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图。
69.s202：基于第一掩膜图及第二掩摸图，分别从目标图像中提取键字段对应的第一图像及值字段对应的第二图像。
70.s203：基于第一掩膜图及第二掩摸图，分别确定键字段对应的第一位置特征及值字段对应的第二位置特征。
71.其中，步骤201-步骤203的具体实现形式，可参照本公开中其他各实施例中的详细描述，此处不再详细赘述。
72.s204：根据第一位置特征与第二位置特征间的匹配度，确定第一关联度。
73.可选的，可以使用欧式距离、余弦距离计算第一位置特征与第二位置特征间的匹配度，或者，还可以通过计算第一位置特征与第二位置特征之间的余弦相似度，将余弦相似度作为第一位置特征与第二位置特征间的匹配度，进而将匹配度作为第一关联度，本公开在此不做限定。
74.s205：对第一文本及第二文本分别进行语义识别，以确定第一文本对应的第一语义及第二文本对应的第二语义。
75.可选的，可以采用预先训练好的语义识别模型，对第一文本及第二文本分别进行语义识别，以确定第一文本对应的第一语义及第二文本对应的第二语义。
76.或者，还可以对大量的结构化文本中的键字段及值字段的语义特征进行统计分
析，以确定键字段对应的参考语义特征及值字段对应的参考语义特征，之后基于键字段或值字段分别对应的参考语义特征，确定第一文本对应的第一语义及第二文本对应的第二语义。
77.s206：根据第一语义与第二语义间的相似度，确定第二关联度。
78.可选的，可以使用欧式距离、余弦距离计算第一语义与第二语义间的相似度，或者，还可以通过计算第一语义与第二语义间的余弦相似度，将余弦相似度作为第一语义与第二语义间的相似度，进而将相似度作为第二关联度，本公开在此不做限定。
79.可以理解的是，获取第一文本对应的第一语义，及第二文本对应的第二语义，进而根据第一语义及第二语义之间的相似度确定第二关联度，由此，使确定的第二关联度更加准确，进而使根据第一关联度及第二关联度确定的目标图像中结构化文本更加准确。
80.s207：在第一文本及第二文本的数量分别为一个、且第一关联度大于阈值的情况下，确定第一文本与第二文本为目标图像中包含的结构化文本。
81.其中，第一阈值可以为提前设定好的阈值，比如可以为0.6、0.8等等，本公开对此不做限定。比如说，阈值为0.8。第一文本a与第二文本间的第一匹配度大于阈值0.8，则可以确定第一文本与第二文本为目标图像中包含的结构化文本，本公开对此不做限定。
82.可以理解的是，若目标图像中只包含一个第一文本及一个第二文本，则表示，目标图像中只包含一个键字段及一个值字段，因此，在键字段对应的第一位置特征，及值字段对应的第二位置特征间的第一关联度大于阈值的情况下，即可确定第一文本与第二文本为目标图像中包含的结构化文本。或者，第一图像中的第一文本与第二图像中的第二文本间的第二关联度大于对应的阈值，即可确定第一文本与第二文本为目标图像中包含的结构化文本。本公开对此不做限定。
83.本公开实施例中，首先将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图，之后基于第一掩膜图及第二掩摸图，目标图像中提取键字段对应的第一图像及值字段对应的第二图像，从特征图中确定键字段对应的第一位置特征及值字段对应的第二位置特征，对第一图像中第一文本及第二图像中第二文本分别进行语义识别，以确定第一文本对应的第一语义及第二文本对应的第二语义。在第一文本及第二文本的数量分别为一个、且第一关联度大于阈值的情况下，确定第一文本与第二文本为目标图像中包含的结构化文本。由此，在第一文本及第二文本的数量分别为一个的情况下，通过基于第一文本对应的第一位置特征及第一语义，分别与第二文本对应的第二语义及第二位置特征间的关联度，确定目标图像对应的结构化文本，从而不仅从弯曲文本中提取了结构化信息，而且提高了确定的结构化信息的准确性。
84.图3是根据本公开又一实施例提供的一种图像的处理方法的流程示意图。如图3所示，该图像的处理方法包括：
85.s301：将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图。
86.s302：基于第一掩膜图及第二掩摸图，分别从目标图像中提取键字段对应的第一图像及值字段对应的第二图像。
87.s303：基于第一掩膜图及第二掩摸图，分别确定键字段对应的第一位置特征及值字段对应的第二位置特征。
88.其中，步骤s301-步骤s303的具体实现形式，可参照本公开中其他各实施例中的详细描述，此处不再详细赘述。
89.s304：在第一图像中的第一文本及第二图像中的第二文本的数量分别为多个的情况下，确定每个第一文本与每个第二文本间的第二关联度。
90.可以理解的是，在第一文本及第二文本的数量分别为多个的情况下，与第一文本具有结构化的目标第二文本，可能在第一文本的左侧，也可能在第二文本的右侧，由此，仅根据键字段对应的第一位置特征与值字段对应的第二位置特征，不能准确地确定与每个第一文本对应的目标第二文本，因此，可以将每个键字段对应的第一位置特征、每个值字段对应的第二位置特征、每个键字段对应的语义特征及每个值字段对应的语义特征结合起来，确定每个第一文本对应的目标第二文本。
91.s305：确定每个第一位置特征与每个第二位置特征间的第一关联度。
92.其中，步骤305的具体实现形式，可参照本公开中其他各实施例中的详细描述，此处不再详细赘述。
93.s306：在任一第一文本对应的第一位置特征与m个第二位置特征间的m个第一关联度均大于阈值的情况下，确定任一第一文本的第一语义、及m个第二位置特征分别对应的m个第二文本中分别对应的m个第二语义。
94.可以理解的是，任一第一文本对应的第一位置特征与m个第二位置特征间的m个第一关联度均大于阈值，则表示m个第二位置特征对应的第二文本中包含目标第二文本及非目标特征文本，因此，需要进一步地根m个第二文本对应的第二语义，及第一文本对应的第一语义，确定第一文本对应的目标第二文本。
95.s307：根据第一语义与每个第二语义间的相似度，确定m个第二关联度。
96.可选的，可以使用余弦距离计算第一语义与m个第二语义中每个第二语义间的相似度，或者，还可以通过计算第一语义与m个第二语义中每个第二语义间的余弦相似度，将余弦相似度作为第一语义与每个第二语义间的相似度，进而确定m个第二关联度，本公开在此不做限定。
97.s308：根据m个第一关联度及m个第二关联度，确定任一第一文本与m个第二文本中每个第二文本间的关联度和。
98.可以理解的是，可以先获取第一文本对应的第一位置特征与任一第二位置特征之间的第一关联度，之后确定该第二位置信息对应的第二文本，再获取第一文本对应的第一语义，该第二文本对应的第二语义，最后将第一关联度，及第一语义及第二语义之间的第二关联度相加，得到第一文本与该第二文本之间的关联度和。
99.举例来说，第一文本对应的m个第二文本为[x1、x2]，第一文本的第一位置特征与第二文本x1的第二位置特征间的第一关联度为a1，第一文本的第一位置特征与第二文本x2的第二位置特征间的第一关联度为a2，第一文本的第一语义与第二文本x1的第二语义间的第二关联度为b1，第一文本的第一语义与第二文本x2的第二语义间的第二关联度为b2，则第一文本与第二文本x1间的关联度和为a1 b1，第一文本与第二文本x2间的关联度和为a2 b2。
[0100]
需要说明的是，上述示例只是简单的举例说明，不能作为本公开实施例中第一文本、第二文本、第一关联度、及第二关联度的具体限定。
[0101]
s309：根据关联度和，确定与任一第一文本对应的目标第二文本。
[0102]
可选的，可以将多个关联度和由从大到小一次排序，确定最大的关联度和对应的第二文本为目标第二文本。
[0103]
或者，设置关联度和阈值，进而从大于关联度和阈值的多个关联度和中，选择第一关联度与第二关联度差值最小关联度和对应的第二文本，作为目标第二文本。本公开对此不做限定。
[0104]
可以理解的是，在第一文本及第二文本的数量分别为多个的情况下，将每个第一文本对应的第一位置特征、第二语义与每个第二文本对应的第二位置特征、第二语义度结合起来，确定目标图像中包含的结构化文本，从而提高了对弯曲文本进行结构化信息提取的准确性。
[0105]
本公开实施例中，首先获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图，之后基于第一掩膜图及第二掩摸图，从目标图像中提取键字段对应的第一图像及值字段对应的第二图像，从特征图中确定键字段对应的第一位置特征及值字段对应的第二位置特征，在第一文本及第二文本的数量分别为多个的情况下，获取第一关联度大于阈值对应的m个第二文本，根据m个第二文本中每个第二文本与第一文本间的第二关联度与第一关联度的关联度和，确定任一第一文本对应的目标第二文本。由此，在目标图像中包含多个第一文本及多个第二文本的情况下，可以基于每个第一文本对应的第一位置特征及第一语义，分别与每个第二文本对应的第二语义及第二位置特征间的关联度，确定目标图像对应的结构化文本，从而不仅从弯曲文本中提取了结构化信息，而且进一步提高了确定的结构化信息的准确性。
[0106]
图4是根据本公开一实施例提供的一种图像的处理装置的结构示意图，如图4所示，该图像的处理装置400，包括：
[0107]
第一获取模块410，用于将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图；
[0108]
第二获取模块420，用于基于第一掩膜图及第二掩摸图，分别从目标图像中提取键字段对应的第一图像及值字段对应的第二图像；
[0109]
第一确定模块430，用于基于第一掩膜图及第二掩摸图，分别确定键字段对应的第一位置特征及值字段对应的第二位置特征；
[0110]
第二确定模块440，用于根据第一位置特征与第二位置特征间的第一关联度、和/或第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本。
[0111]
可选的，第一确定模块430，具体用于：
[0112]
将目标图像进行特征提取，以获取目标图像对应的特征图；
[0113]
根据特征图中每个特征点的特征值，确定目标图像对应的第一掩摸图及第二掩摸图。
[0114]
可选的，第一掩摸图中包括n个连通域，其中，n为大于1的正整数，第一确定模块，具体用于：
[0115]
基于每个连通域对应的位置信息，从特征图中，提取每个键字段对应的第一位置特征。
[0116]
可选的，还包括第三确定模块，第三确定模块，具体用于：
[0117]
根据第一位置特征与第二位置特征间的匹配度，确定第一关联度；
[0118]
对第一文本及第二文本分别进行语义识别，以确定第一文本对应的第一语义及第二文本对应的第二语义；
[0119]
根据第一语义与第二语义间的相似度，确定第二关联度。
[0120]
可选的，第二确定模块，具体用于：
[0121]
在第一文本及第二文本的数量分别为一个、且第一关联度大于阈值的情况下，确定第一文本与第二文本为目标图像中包含的结构化文本。
[0122]
可选的，第二确定模块，具体用于：
[0123]
在第一文本及第二文本的数量分别为多个的情况下，确定每个第一文本与每个第二文本间的第二关联度；
[0124]
确定每个第一位置特征与每个第二位置特征间的第一关联度；
[0125]
在任一第一文本对应的第一位置特征与m个第二位置特征间的m个第一关联度均大于阈值的情况下，确定任一第一文本的第一语义、及m个第二位置特征分别对应的m个第二文本中分别对应的m个第二语义；
[0126]
根据第一语义与每个第二语义间的相似度，确定m个第二关联度；
[0127]
根据m个第一关联度及m个第二关联度，确定任一第一文本与m个第二文本中每个第二文本间的关联度和；
[0128]
根据关联度和，确定与任一第一文本对应的目标第二文本。
[0129]
需要说明的是，前述对图像的处理方法的解释说明也适用于本实施例的图像的处理装置，此处不再赘述。
[0130]
本公开实施例中的装置，首先将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图，之后基于第一掩膜图及第二掩摸图，从目标图像中提取键字段对应的第一图像及值字段对应的第二图像，从特征图中，确定键字段对应的第一位置特征及值字段对应的第二位置特征，最后根据第一位置特征与第二位置特征间的第一关联度、和/或第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本。由此，通过基于键字段对应的第一位置特征及第一文本，分别与值字段对应的第二文本及第二位置特征间的关联度，确定目标图像对应的结构化文本，从而不仅从弯曲文本中提取了结构化信息，而且提高了确定的结构化信息的准确性。
[0131]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0132]
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0133]
如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(rom)502中
的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序，来执行各种适当的动作和处理。在ram 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0134]
设备500中的多个部件连接至i/o接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0135]
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如图像的处理方法。例如，在一些实施例中，图像的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到ram 503并由计算单元501执行时，可以执行上文描述的图像的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像的处理方法。
[0136]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0137]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0138]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0139]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0140]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网及区块链网络。
[0141]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtual private server"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0142]
本公开实施例中，首先将目标图像进行预处理，以获取目标图像中键字段对应的第一掩摸图及值字段对应的第二掩摸图，之后基于第一掩膜图及第二掩摸图，从目标图像中提取键字段对应的第一图像及值字段对应的第二图像，从特征图中，确定键字段对应的第一位置特征及值字段对应的第二位置特征，最后根据第一位置特征与第二位置特征间的第一关联度、和/或第一图像中的第一文本与第二图像中的第二文本间的第二关联度，确定目标图像对应的结构化文本。由此，通过基于键字段对应的第一位置特征及第一文本，分别与值字段对应的第二文本及第二位置特征间的关联度，确定目标图像对应的结构化文本，从而不仅从弯曲文本中提取了结构化信息，而且提高了确定的结构化信息的准确性。
[0143]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0144]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

图像的处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献