一种图像内容提取方法、装置、设备及存储介质与流程

2023-02-19 08:54:56 来源：中国专利 TAG：

1.本技术实施例涉及图像处理技术领域，尤其涉及一种图像内容提取方法、装置、设备及存储介质。

背景技术：

2.智能搜题是智能学习的重要功能之一，智能搜题可以通过提取题目图像中的文本内容确定题目内容，以搜索题目答案。但题目图像中不仅包含题目对应的文本，还包含作答痕迹、其他题目的文本片段等噪声文本，这些噪声文本导致题目内容的提取准确度降低。为提高题目内容的提取准确度，现有的题目内容提取方法是将图像中所有包含文本的区域通过边界框标记，识别边界框内的文本内容并合并，得到文本字符串，通过不断收集停用词来过滤文本字符串中的无效词汇，或通过文本纠错模型修正文本字符串中错别字。
3.发明人发现，题目图像中的文字可能存在倾斜现象，文字检测和识别出来的边界框也会出现倾斜，直接将倾斜的边界框中的内容进行合并，会导致文本字符串存在语义错乱和语义分歧等问题。不断收集停用词的噪声过滤方式需要花费较多的人力成本，且停用词可能在某个题目文本中是有效内容，删除会导致题目内容出现语义残缺的问题。错别字纠正方式可以解决错误识别的问题，但其无法过滤噪声文本，这导致题目内容包含大段噪声文本。基于此，现有题目内容提取方法提取到的题目内容准确度较低，严重影响搜题准确率。

技术实现要素：

4.本技术实施例提供一种图像内容提取方法、装置、设备及存储介质，解决现有题目内容提取方法提取准确度低的问题，提高搜题准确率。
5.在第一方面，本技术实施例提供了一种图像内容提取方法，包括：
6.获取题目图像中标记的文本框对应的位置信息和文本内容，根据所述位置信息对所述文本框进行对齐矫正；
7.根据矫正文本框的位置信息确定任意两个所述矫正文本框之间的位置关系，以所述矫正文本框为顶点和以所述位置关系为边构建无向图；
8.以所述无向图中各个顶点作为对应子图中的锚点，从所述无向图中提取各个顶点对应的子图；
9.以所述子图的锚点对应的矫正文本框的文本内容为开头，将所述子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容；
10.根据预设的语言模型计算所述候选文本内容的困惑度，根据所述候选文本内容的困惑度和文本长度确定题目文本内容。
11.在第二方面，本技术实施例提供了一种图像内容提取装置，包括：
12.获取题目图像中标记的多个文本框对应的位置信息和文本内容，根据所述位置信息对所述文本框进行对齐矫正，得到对应的矫正文本框；
13.根据所述矫正文本框的位置信息确定任意两个所述矫正文本框之间的位置关系，以所述矫正文本框为顶点和以所述位置关系为边构建无向图；
14.以所述无向图中各个顶点作为对应子图中的锚点，从所述无向图中提取各个顶点对应的子图；
15.以所述子图的锚点对应的矫正文本框的文本内容为开头，将所述子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容；
16.根据预设的语言模型计算所述候选文本内容的困惑度，根据所述候选文本内容的困惑度和文本长度确定题目文本内容。
17.在第三方面，本技术实施例提供了一种图像内容提取设备，包括：
18.一个或多个处理器；
19.存储器，用于存储一个或多个程序；
20.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的图像内容提取方法。
21.在第四方面，本技术实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的图像内容提取方法。
22.上述图像内容提取方法、装置、设备及存储介质，通过对题目图像中检测出的多个文本框进行对齐矫正，以避免在后续将多个文本框的文本内容进行合并时，出现因文本框倾斜导致的文本内容位置错乱的问题。通过对齐矫正后的矫正文本框在题目图像中的结构信息，构建表征题目图像中各文本内容之间结构关系的无向图。通过模块度的评价指标从无向图中提取以各个矫正文本框为锚点的结构密度较高的子图，并以子图中的锚点对应的矫正文本框为开头，将子图中所有矫正文本框的文本内容进行合并，得到符合题目图像中文本内容顺序的候选文本内容。通过语言模型计算候选文本内容的困惑度，以根据困惑度评估候选文本内容的准确性，将准确性较高的候选内容确定为题目内容。通过上述技术手段，结合文本框的结构和文本内容，获取满足题目图像结构以及题目语义的题目文本内容，提高题目内容的准确度。
附图说明
23.图1是本技术一个实施例提供的一种图像内容提取方法的流程图；
24.图2是本技术实施例提供的文本框的第一示意图；
25.图3是本技术实施例提供的文本框的第二示意图；
26.图4是本技术实施例提供的文本框的第三示意图；
27.图5是本技术实施例提供的矫正文本框的第一示意图；
28.图6是本技术一个实施例提供的一种图像内容提取装置的结构示意图；
29.图7是本技术一个实施例提供的一种图像内容提取设备的结构示意图。
具体实施方式
30.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本技术，而非对本技术的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本技术相关的部分而非全部结构。
31.需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或操作或对象与另一个实体或操作或对象区分开来，而不一定要求或者暗示这些实体或操作或对象之前存在任何这种实际的关系或顺序。例如，第一样本集和第二样本集的“第一”和“第二”用来区分不同的样本集合。
32.本技术实施例中提供的图像内容提取方法可以由图像内容提取设备执行，该图像内容提取设备可以通过软件和/或硬件的方式实现，该图像内容提取设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。例如，图像内容提取设备可以是手机、平板和电脑这一类智能设备。
33.图像内容提取设备安装有至少一类操作系统，其中，操作系统包括但不限定于安卓系统、linux系统及windows系统。图像内容提取设备可以基于操作系统安装至少一个应用程序，应用程序可以为操作系统自带的应用程序，也可以为从第三方设备或者服务器中下载的应用程序。在该实施例中，图像内容提取设备至少按照有可以执行图像内容提取方法的应用程序，因此，图像内容提取设备也可以是应用程序本身。
34.为了便于理解，实施例中以电脑为图像内容提取设备进行示例性描述。
35.图1是本技术一个实施例提供的一种图像内容提取方法的流程图。参考图1，该图像内容提取方法包括：
36.s110、获取题目图像中标记的多个文本框对应的位置信息和文本内容，根据位置信息对文本框进行对齐矫正，得到对应的矫正文本框。
37.其中，题目图像是指用户上传的用于智能搜题的包含题目文本内容的图像。为提取题目图像中的题目文本内容需对其进行文字识别，获取题目图像中所有文字对应的文本内容。由于题目图像中不至包含有题目文字，还有噪声文字，对于不同位置处的文字，文字识别时会通过不同的文本框标记出，因此当题目图像中包含噪声文字时，文字识别会在题目图像中标记出多个文本框。当文字识别在题目图像中标记出文本框时，会对应获取到文本框在题目图像中的像素坐标，以像素坐标来表征文本框在题目图像中的位置信息。相应的，当标记出文本框后，对文本框中的文字进行识别，得到文本框对应的文本内容。示例性的，将各个文本框的像素坐标组合成位置列表，以及将各个文本框的文本内容组合成内容列表，两个列表中的元素相互对应，及每一个文本框的像素坐标对应其文本内容。
38.进一步的，如果题目图像是用户通过手机拍摄上传的照片，其照片内的文字可能存在倾斜现象，文字识别得到的文本框也会随着对应文本内容出现倾斜，直接将倾斜的文本框中的内容进行合并会导致题目文本内容出现语义错乱和语义分歧的问题。对此，本实施例根据文本框的位置信息对文本框进行对齐矫正，以避免后续文本内容合并出现语义错乱的问题，也便于后续无向图的构建。在该实施例中，对文本内容进行对齐矫正的步骤包括s1101-s1105：
39.s1101、将任意两个文本框的纵坐标进行比较，确定位于同一行的文本框。
40.示例性的，文本框的像素坐标包括纵坐标和横坐标。为将倾斜文本框进行对齐调整，需根据确定位于同一行的倾斜文本框，以便后续将同一行的倾斜文本框调整至与水平面平行且同处一行的矩形文本框。对此，确定同行文本框的步骤包括s11011-s11014：
41.s11011、根据两个文本框的最大纵坐标和最小纵坐标，分别计算两个文本框的高度。
42.示例性的，文本框一般为四边形框，位置列表中记录有文本框的四个顶点的纵坐标和横坐标，以这个四个顶点表征文本框在题目图像中的位置。从位置列表中获取文本框的四个顶点的纵坐标，将其纵坐标进行比较，确定最大纵坐标和最小纵坐标。将最大纵坐标与最小纵坐标作差，得到文本框在竖直方向的高度。
43.s11012、确定两个文本框的高度中的最大高度和最小高度，根据最小高度的一半和最大高度确定高度范围。
44.示例性的，如果两个文本框处于同一行的话，两个文本框的纵坐标会存在重合，本实施例设置如果两个文本框的纵坐标重合度超过其中任意文本框的一半高度，则确定两个文本框的处于同一行。具体的，图2是本技术实施例提供的文本框的第一示意图。如图2所示，文本框a和文本框b在竖直方向的高度分别为ha和hb，将高度ha和高度hb进行比较，确定高度ha》高度hb，则确定高度ha为最大高度，确定高度hb为最小高度，将范围[1/2hb，ha]确定为两个文本框的重合高度的高度范围。
[0045]
s11013、根据两个文本框的纵坐标，确定两个文本框的重合高度。
[0046]
示例性的，将文本框a和文本框b的纵坐标进行比较，确定两个文本框相同的纵坐标，将相同纵坐标中的最大纵坐标y
max
减去最小纵坐标y
min
，得到文本框a和文本框b的重合高度h(boxa∩boxb)。
[0047]
s11014、确定重合高度满足高度范围时，确定两个文本框位于同一行。
[0048]
示例性的，如果文本框a和文本框b的重合高度h(boxa∩boxb)满足1/2hb≤h(boxa∩boxb)≤ha，则确定文本框a和文本框b的纵坐标重合度超过其中任意文本框的一半高度，进而确定文本框a和文本框b处于同一行。
[0049]
s1102、将每一行的文本框的左上角顶点的纵坐标，调整为对应行的最左侧文本框的左上角顶点的纵坐标。
[0050]
示例性的，当所有文本框的纵坐标进行比较后，根据文本框所属行进行分组，得到每一行的位置列表。根据每一行的文本框的左上角顶点的纵坐标，按照从上到下的顺序将所有行的位置列表汇集，得到所有行的位置集合r＝{row1，...，rowi，...，rown}，其中rowi代表从上到下的第i行上的位置列表。在根据每一行文本框的横坐标，将每一行的位置列表中的文本框按照从左到右顺序进行排列得到每一行的位置列表为rowi＝[pos1，...，posj，...，posk]，其中posj表示所属行从左到右的第j个文本框。根据每一行的位置列表可确定每一行最左侧的文本框pos1。
[0051]
进一步的，图3是本技术实施例提供的文本框的第二示意图。如图3所示，文本框b是其对应行的最左侧文本框，文本框a是与文本框b处于同一行的其他文
[0052]
s1104、将每个文本框的左下角顶点本框，将文本框a左上角顶点的纵坐标ya调整为文本框b左上角顶点的纵坐标yb。
[0053]
s1103、根据每个文本框的左上角顶点的纵坐标的移动距离，相应调整对应文本框的右下角顶点的纵坐标。
[0054]
示例性的，根据文本框a左上角顶点的纵坐标ya调整到纵坐标yb后纵坐标的移动距离y
a-yb，一同将文本框a的其余三个顶点的纵坐标移动y
a-yb，相当于将文本框a整体在竖直方向上向下移动y
a-yb。
[0055]
s1104、根据每个文本框的左上角顶点的横坐标和纵坐标，分别调整为对应文本框
的左上角顶点的横坐标和右下角顶点的纵坐标。
[0056]
示例性的，图4是本技术实施例提供的文本框的第三示意图。如图4所示，将位置列表中文本框a的左下角顶点的横坐标和纵坐标，分别调整为文本框a的左上角顶点的横坐标和右下角的纵坐标。相应的，位置列表中其他文本框的左下角顶点的横坐标和纵坐标也做类似的调整。
[0057]
s1105、将每个文本框的右上角顶点的横坐标和纵坐标，分别调整为对应文本框的右下角顶点的横坐标和左上角顶点的纵坐标。
[0058]
示例性的，参考图4，将位置列表中文本框a的右上角顶点的横坐标和纵坐标，分别调整为文本框a的右下角顶点的横坐标和左上角的纵坐标。相应的，位置列表中其他文本框的右上角顶点的横坐标和纵坐标也做类似的调整。
[0059]
进一步的，参考图4，在将文本框a以及与文本框a处于同一行的文本框b的各个顶点坐标进行调整后，文本框a与文本框b的上边框处于同一水平线，且文本框a和文本框b都调整为与水平面平行的矩形。本实施例通过文本框的纵坐标重合度确定位于同一行的文本框，并根据每一行的最左侧文本框的左上角顶点为基准点，以将对应行中其余的文本框对齐至与最左侧文本框同一水平线上。通过将每个文本框的左上角顶点和右下角顶点为固定对角线，对应调整左下角顶点和右上角顶点，将每个文本框矫正至与水平面平行的矩形，以避免后续因倾斜文本框导致的语义错乱问题。
[0060]
s120、根据矫正文本框的位置信息确定任意两个矫正文本框之间的位置关系，以矫正文本框为顶点和以位置关系为边构建无向图。
[0061]
示例性的，当所有文本框进行对齐矫正得到对应的矫正文本框后，将所有矫正文本框转化为无向图，其中每一个文本框作为无向图中的一个顶点v，第i个矫正文本框与第j个矫正文本框之间的位置关系作为无向图中的一条边e(vi，vj)，并将第i个矫正文本框与第j个矫正文本框之间的距离d(vi，vj)作为边e(vi，vj)的权重w。
[0062]
在一个实施例中，不是任意两个矫正文本框之间的位置关系都能作为无向图中的边。由于一般题目内容都遵从从左到右、从上到下的结构顺序，因此本实施例定义行相邻或者同行相邻的两个矫正文本框之间的位置关系才能作为无向图中的边。因此，在构建无向图时需根据矫正文本框的位置信息确定满足行相邻或同行相邻的矫正文本框，进而构建该矫正文本框对应顶点之间的边。在该实施例中，根据位置信息确定位置关系的步骤包括s1201-s1203：
[0063]
s1201、根据每行所述矫正文本框的横坐标，确定同行的两个所述矫正文本框之间的同行相邻关系。
[0064]
示例性的，每一行的位置列表中记录有对应矫正文本框的四个顶点坐标，将每行的位置列表中的矫正文本框的左上角顶点的横坐标进行比较，如果同行的两个矫正文本框之间的横坐标之间不存在同行其他矫正文本框的横坐标，则这两个矫正文本框之间为同行相邻关系。除此之外，每一行的位置列表中的矫正文本框已事先根据横坐标将矫正文本框按照从左到右的顺序进行排列。因此基于每一行的位置列表rowi可以直接确定同行相邻的两个矫正文本框。图5是本技术实施例提供的矫正文本框的第一示意图。如图5所示，文本框a和文本框b之间为同行相邻关系。
[0065]
s1202、根据每行所述矫正文本框的纵坐标，确定行相邻的两个所述矫正文本框。
[0066]
示例性的，同一行所有的矫正文本框的左上角顶点的纵坐标相同，因此以每一行的任意矫正文本框的左上角顶点的纵坐标作为对应行的纵坐标。将两行的纵坐标进行比较，如果两行的纵坐标之间不存在其他行的纵坐标，则确定这两行为相邻行，进而确定这两行的矫正文本框为行相邻的矫正文本框。除此之外，所有行的位置集合r已事先根据每行的纵坐标将每行的位置列表按照从上到下的顺序进行排列。因此基于所有行的位置集合r可以直接确定相邻行，进而将相邻行的矫正文本框为行相邻的矫正文本框。
[0067]
s1203、根据行相邻的两个所述矫正文本框的横坐标，确定行相邻的两个所述矫正文本框之间的相邻行关系。
[0068]
示例性的，行相邻的矫正文本框之间也存在不同的位置关系，如行相邻的矫正文本框之间是正上下方关系还是斜上下方关系等，对此本实施例根据行相邻的两个矫正文本框的横坐标交集确定对应矫正文本框之间的相邻行关系。在该实施例中，根据行相邻的两个矫正文本框的横坐标交集确定相邻行关系的步骤包括s12031-s12033：
[0069]
s12031、若矫正文本框的横坐标包含行相邻的矫正文本框的所有横坐标，确定对应两个矫正文本框之间为相邻行包含关系。
[0070]
示例性的，参考图5，文本框c与文本框d之间为相邻行包含关系，也即正上下方关系。此时文本框c的部分横坐标与文本框d的所有横坐标相同，如果把文本框c和文本框d的横坐标分别汇集成横坐标集合c和横坐标集合d，那么横坐标集合d为横坐标集合c的子集。
[0071]
s12032、若矫正文本框的横坐标包含行相邻的矫正文本框的部分横坐标，确定对应两个矫正文本框之间为相邻行交集关系。
[0072]
示例性的，参考图5，文本框e和文本框f之间为相邻行交集关系，也即竖直方向有交集的斜上下方关系。此时文本框e的部分横坐标与文本框f的部分横坐标相同，即横坐标集合e与横坐标集合f的交集不是子集也不是空集。
[0073]
s12033、若矫正文本框的横坐标不包含相邻行的矫正文本框的横坐标，确定对应两个矫正文本框之间为相邻行对角关系。
[0074]
示例性的，参考图5，文本框g和文本框h之间为相邻行对角关系，也即竖直方向没有交集的斜上下方关系。此时文本框g的横坐标与文本框h的横坐标完全不同，即横坐标集合g和横坐标集合h的交集为空集。
[0075]
进一步的，在确定两个矫正文本框之间的位置关系后，根据位置关系计算对应两个矫正文本框之间的距离，将距离确定为无向图中对应边的边权重。本实施例通过矫正文本框之间的距离表征对应矫正文本框之间的结构关系，将矫正文本框之间的距离作为对应边的权重，以无向图表征题目图像中各文本内容之间的结构关系。在该实施例中，计算存在位置关系的两个矫正文本框之间的距离的步骤包括s1204-s1207：
[0076]
s1204、若两个矫正文本框之间的位置关系为同行相邻关系，则计算根据左矫正文本框的右边框中心点与右矫正文本框的左边框中心点的距离。
[0077]
示例性的，参考图5，文本框a和文本框b之间的位置关系为同行相邻关系，根据文本框a和文本框b的横坐标可确定文本框b为左矫正文本框，文本框a为右矫正文本框。计算文本框b的右边框中心点与文本框a的左边框中心点之间的距离d(a，b)，并将文本框a与文本框b之间的距离d(a，b)作为无向图中对应顶点a与顶点b之间边e(a，b)的权重w
ab
。
[0078]
s1205、若两个矫正文本框之间的位置关系为相邻行包含关系，则计算上矫正文本
框的下边框中心点与下矫正文本框的上边框中心点的距离。
[0079]
示例性的，参考图5，文本框c和文本框d之间的位置关系为相邻行包含关系，根据文本框c和文本框d的纵坐标可确定文本框c为上矫正文本框，文本框d为下矫正文本框。计算文本框c的下边框中心点与文本框d的上边框中心点之间的距离d(c，c)，并将文本框c与文本框d之间的距离d(c，d)作为无向图中对应顶点c与顶点d之间边e(c，d)的权重w
cd
。
[0080]
s1206、若两个矫正文本框之间的位置关系为相邻行交集关系，则计算上矫正文本框的第一下顶点与下矫正文本框的第一上顶点的距离，第一下顶点与第一上顶点的横坐标分别与下矫正文本框和上矫正文本框的横坐标重合。
[0081]
示例性的，参考图5，文本框e和文本框f之间的位置关系为相邻行交集关系，根据文本框e和文本框f的纵坐标可确定文本框e为上矫正文本框，文本框f为下矫正文本框。根据文本框e和文本框f的四个顶点的横坐标，确定文本框e的左下角顶点的横坐标处于文本框e的左上角顶点与右上角顶点横坐标之间，进而确定文本框e的左下角顶点的横坐标与文本框f的横坐标重合。相应的，确定文本框f的右上角顶点的横坐标处于文本框的左下角顶点与右下角顶点横坐标之间，进而确定文本框f的右上角的横坐标与文本框e的横坐标重合。计算文本框e的左下角顶点与文本框f的右上角顶点之间的距离d(e，f)，并将文本框e与文本框f之间的距离d(e，f)作为无向图中对应顶点e与顶点f之间边e(e，f)的权重w
ef
。
[0082]
s1207、若两个矫正文本框之间的位置关系为相邻行对角关系，则计算上矫正文本框的第二下顶点与下矫正文本框的第二上顶点的距离，第二下顶点为左下角顶点时对应第二上顶点为右上角顶点，第二下顶点为右下角顶点时对应第二上顶点为左上角顶点。
[0083]
示例性的，参考图5，文本框g和文本框h之间的位置关系为相邻行对角关系，根据文本框g和文本框h的纵坐标可确定文本框g为上矫正文本框，文本框h为下矫正文本框。进一步的，根据文本框g和文本框h的横坐标，确定文本框g位于文本框h的左上方，此时将文本框g的左下角顶点与文本框h的右上角顶点之间的距离确定为文本框g与文本框h之间的距离d(g，h)。相应的，如果文本框g位于文本框h的右上方，将文本框g的右下角顶点与文本框h的左上角顶点之间的距离确定为文本框g与文本框h之间的距离d(g，h)。可理解，对于存在相邻行对角关系的两个矫正文本框，取两者的顶点之间最短距离为对应矫正文本框之间的距离。进一步的，将文本框g与文本框h之间的距离d(g，h)作为无向图中对应顶点e与顶点f之间边e(g，h)的权重w
gh
。
[0084]
需要说明的，本实施例对于两个矫正文本框之间三种不同的相邻行关系，对应设置其距离计算规则，原因在于如果计算两个矫正文本框之间的竖直距离，则无法体现出三种不同相邻行关系的结构区别。
[0085]
s130、以无向图中各个顶点作为对应子图中的锚点，从无向图中提取各个顶点对应的子图。
[0086]
在该实施例中，子图构建步骤包括s1301-s1302：
[0087]
s1301、根据各个矫正文本框的左右位置关系和上下位置关系，确定无向图中各个顶点的排列顺序。
[0088]
基于题目内容遵从从左到右，从上到下的先验知识，按照从左到右，再从上到下的顺序对各个文本框对应的顶点进行标记。示例性的，根据位置集合r中每一行的位置列表rowi，以及每一行的位置列表rowi中的文本框posj，按照从左到右，再从上到下的顺序将各
个文本框对应的顶点标记为a、b、
…
、x，如从第一行开始从左到右依次将各个文本框进行标记，在对第二行的各个文本框进行标记，直至将位置集合中所有行的文本框完全标记。
[0089]
s1302、根据排列顺序依次将各个顶点作为对应子图的锚点，根据无向图中各个边的边权重构建各个顶点对应的子图，其中每构建一个子图并将该子图的锚点和边从无向图中删除，并根据最新无向图的边权重重新构建对应下一顶点对应的子图。
[0090]
示例性的，按照顶点a、顶点b、
…
、顶点x的顺序，先将顶点a作为子图ga的锚点，根据原始无向图的结构构建顶点a的子图ga，其中原始无向图为包含顶点a、顶点b、
…
、顶点x顶点的无向图。在构建完顶点a的子图ga后，将顶点a和与顶点a连接的边从无向图中删除，根据删除顶点a和顶点a的连接边后的无向图，构建以顶点b作为锚点的子图gb。按照顶点标记顺序，依次构建以各个顶点为锚点的子图，直至历遍无向图中的所有顶点，对应得到x个子图。在该实施例中，根据无向图的结构构建子图的步骤包括s13021-s13023：
[0091]
s13021、按照排列顺序，将当前构建子图的锚点的下一顶点添加至当前构建子图中，根据预设的模块度公式计算添加该顶点后的当前构建子图的模块度。
[0092]
s13022、若添加顶点后的模块度大于或等于添加顶点前的模块度，则将当前构建子图中的对应顶点保留，否则将当前构建子图中的对应顶点删除。
[0093]
s13023、按照排列顺序依次往当前构建子图添加顶点，直至确定排列顺序中的最后一个顶点是否保留于当前构建子图中；
[0094]
模块度公式为：
[0095][0096]
其中，q为模块度，m为最新无向图的度，i和j为当前构建子图中任意两个顶点，ki和kj分别为顶点i和顶点j的度，w
ij
为顶点i和顶点j之间的边权重。
[0097]
示例性的，以构建顶点a的子图ga为例进行描述。将顶点a作为子图ga的锚点，此时子图ga中只包含顶点a，即子图ga的初始模块度为零。按照顶点a、顶点b、
…
、顶点x的顺序，将顶点b添加至子图ga中，此时子图ga包括顶点a和顶点b，根据模块度计算公式计算此时子图ga的模块度。其中，模块度计算公式中的m为最新无向图中所有边的数量，而最新无向图包括顶点a、顶点b、
…
、顶点x。模块度计算公式中的ka和kb分别为顶点a和顶点b在最新无向图中连接边的数量。如顶点a连接其他三个顶点，则顶点a的ka为3。模块度计算公式中的w
ab
为最新无向图中顶点a和顶点b之间连接边的边权重，而如果顶点a和顶点b之间没有连接边，则w
ab
＝0。在计算得到此时子图ga的模块度时，将该模块度与子图ga的初始模块度进行比较，若该模块度大于或等于初始模块度，则将顶点b保留在子图ga中，否则将子图ga中的顶点b删除。进一步的，将顶点c添加至子图ga中，计算此时子图ga的模块度，如果添加顶点c后的子图ga的模块度相比于添加顶点c前的子图ga的模块度有所降低，则将顶点c从此时子图ga中剔除。按照顶点a、顶点b、
…
、顶点x的顺序，直至将顶点x添加至子图ga中，根据添加顶点x后子图ga的模块度的变化情况确定是否保留顶点x后，得到一个模块度最优的子图ga。
[0098]
可理解，模块度可用于评估子图中各顶点之间的密度关系，当添加一个新的顶点至子图中使得子图模块度降低时，可确定最新添加的顶点与子图中已存在的顶点之间的结构强度较低，即确定最新添加顶点的文本框的文本内容与子图中其他顶点的文本框的文本
内容的关联性不大，确定因此将该最新添加顶点从子图中删除，以提高后续获取的子图对应的候选文本内容的文本准确性。
[0099]
s140、以子图的锚点对应的矫正文本框的文本内容为开头，将子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容。
[0100]
示例性的，以子图ga为例进行描述。将子图ga的锚点也即顶点a对应的矫正文本框的文本内容为开头，根据题目内容的各种结构顺序，分别将子图ga中的各个顶点对应的矫正文本框的文本内容进行拼接，得到子图ga对应的候选文本内容。其中一般题目内容对应多种结构顺序，因此一个子图ga会对应多个候选文本内容。矫正文本框的文本内容可从位置列表对应的内容列表中获取到。
[0101]
在该实施例中，按照排列顺序，将子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容。示例性的，由于题目内容一般遵从从左到右，从上到下的结构顺序，因此按照顶点a、顶点b、
…
、顶点x的顺序将子图ga中的各个顶点对应的矫正文本框的文本内容依次拼接，得到子图ga唯一对应的候选文本内容。
[0102]
s150、根据预设的语言模型计算候选文本内容的困惑度，根据候选文本内容的困惑度和文本长度确定题目文本内容。
[0103]
示例性的，使用预先训练的语言模型bert在题库的数据集上进行微调，得到基于题库的语言模型。该语言模型可用于评估候选文本内容的题目语义是否通顺，如果候选文本内容的题目语义通顺，则语言模型输出较低的困惑度，如果候选文本内容的题目语义不通顺，则语言模型输出较高的困惑度。在该实施例中，将候选文本内容输入基于题库的语言模型，得到该语言模型输出的困惑度。将候选文本内容的困惑度和文本长度代入预设的分数计算公式，计算候选文本内容的分数，并将分数最高的候选文本内容确定为题目文本内容；分数计算公式为：
[0104][0105]
其中，s为候选文本内容的分数，α为调节参数，l为候选文本内容的文本长度，ppl为候选文本内容的困惑度。具体的，α用于调节文本长度与困惑度对分数的影响程度，其可根据实际情况进行设置。
[0106]
示例性的，困惑度计算公式为其中ti表示待计算困惑度的候选文本内容，n是候选文本内容的文本长度，wi表示候选文本内容经过分词后的第i个词，p(wi)表示第i个词的出现概率。由困惑度计算公式可知，文本长度会影响对应候选文本内容的困惑度，候选文本内容的文本长度越长，语言模型输出高困惑度的概率越大。因此本实施例将文本长度与困惑度的比值作为候选文本内容的分数，以消除文本长度对困惑度的影响。
[0107]
进一步的，由分数计算公式可知，候选文本内容的分数越高表明候选文本内容的题目语义更加通顺，将分数最高的至少一个候选文本内容确定为题目文本内容，即将题目语义较为通顺的候选文本内容确定为题目文本内容。
[0108]
综上，本实施例提供的图像内容提取方法，通过对题目图像中检测出的多个文本框进行对齐矫正，以避免在后续将多个文本框的文本内容进行合并时，出现因文本框倾斜
导致的文本内容位置错乱的问题。通过对齐矫正后的矫正文本框在题目图像中的结构信息，构建表征题目图像中各文本内容之间结构关系的无向图。通过模块度的评价指标从无向图中提取以各个矫正文本框为锚点的结构密度较高的子图，并以子图中的锚点对应的矫正文本框为开头，将子图中所有矫正文本框的文本内容进行合并，得到符合题目图像中文本内容顺序的候选文本内容。通过语言模型计算候选文本内容的困惑度，以根据困惑度评估候选文本内容的准确性，将准确性较高的候选内容确定为题目内容。通过上述技术手段，结合文本框的结构和文本内容，获取满足题目图像结构以及题目语义的题目文本内容，提高题目内容的准确度。
[0109]
图6是本技术一个实施例提供的一种图像内容提取装置的结构示意图。参考图6，该图像内容提取装置包括：对齐矫正模块201、无向图构建模块202、子图构建模块203、候选文本确定模块204和题目文本确定模块205。
[0110]
其中，对齐矫正模块，被配置为获取题目图像中标记的多个文本框对应的位置信息和文本内容，根据位置信息对文本框进行对齐矫正，得到对应的矫正文本框；
[0111]
无向图构建模块，被配置为根据矫正文本框的位置信息确定任意两个矫正文本框之间的位置关系，以矫正文本框为顶点和以位置关系为边构建无向图；
[0112]
子图构建模块，被配置为以无向图中各个顶点作为对应子图中的锚点，从无向图中提取各个顶点对应的子图；
[0113]
候选文本确定模块，被配置为以子图的锚点对应的矫正文本框的文本内容为开头，将子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容；
[0114]
题目文本确定模块，被配置为根据预设的语言模型计算候选文本内容的困惑度，根据候选文本内容的困惑度和文本长度确定题目文本内容。
[0115]
在上述实施例的基础上，位置信息包括纵坐标和横坐标；相应的，对齐矫正模块包括：同行确定单元，被配置为将任意两个文本框的纵坐标进行比较，确定位于同一行的文本框；第一调整单元，被配置为将每一行的文本框的左上角顶点的纵坐标，调整为对应行的最左侧文本框的左上角顶点的纵坐标；第二调整单元，被配置为根据每个文本框的左上角顶点的纵坐标的移动距离，相应调整对应文本框的右下角顶点的纵坐标；第三调整单元，被配置为将每个文本框的左下角顶点的横坐标和纵坐标，分别调整为对应文本框的左上角顶点的横坐标和右下角顶点的纵坐标；第四调整单元，被配置为将每个文本框的右上角顶点的横坐标和纵坐标，分别调整为对应文本框的右下角顶点的横坐标和左上角顶点的纵坐标。
[0116]
在上述实施例的基础上，同行确定单元包括：高度计算子单元，被配置为根据两个文本框的最大纵坐标和最小纵坐标，分别计算两个文本框的高度；高度范围确定子单元，被配置为确定两个文本框的高度中的最大高度和最小高度，根据最小高度的一半和最大高度确定高度范围；重合高度确定子单元，被配置为根据两个文本框的纵坐标，确定两个文本框的重合高度；比较子单元，被配置为确定重合高度满足高度范围时，确定两个文本框位于同一行。
[0117]
在上述实施例的基础上，无向图构建模块包括：同行相邻关系确定单元，被配置为根据每行矫正文本框的横坐标，确定同行的两个矫正文本框之间的同行相邻关系；行相邻确定单元，被配置为根据每行矫正文本框的纵坐标，确定行相邻的两个矫正文本框；相邻行
关系确定单元，被配置为根据行相邻的两个矫正文本框的横坐标，确定行相邻的两个矫正文本框之间的相邻行关系。
[0118]
在上述实施例的基础上，相邻行关系确定单元包括：第一相邻行关系确定子单元，被配置为若矫正文本框的横坐标包含行相邻的矫正文本框的所有横坐标，确定对应两个矫正文本框之间为相邻行包含关系；第二相邻行关系确定子单元，被配置为若矫正文本框的横坐标包含行相邻的矫正文本框的部分横坐标，确定对应两个矫正文本框之间为相邻行交集关系；第三相邻行关系确定子单元，被配置为若矫正文本框的横坐标不包含相邻行的矫正文本框的横坐标，确定对应两个矫正文本框之间为相邻行对角关系。
[0119]
在上述实施例的基础上，无向图构建模块包括：边权重计算单元，被配置为根据位置关系计算对应两个矫正文本框之间的距离，将距离确定为无向图中对应边的边权重。
[0120]
在上述实施例的基础上，边权重计算单元包括：第一距离计算子单元，被配置为若两个矫正文本框之间的位置关系为同行相邻关系，则计算根据左矫正文本框的右边框中心点与右矫正文本框的左边框中心点的距离；第二距离计算子单元，被配置为若两个矫正文本框之间的位置关系为相邻行包含关系，则计算上矫正文本框的下边框中心点与下矫正文本框的上边框中心点的距离；第三距离计算子单元，被配置为若两个矫正文本框之间的位置关系为相邻行交集关系，则计算上矫正文本框的第一下顶点与下矫正文本框的第一上顶点的距离，第一下顶点与第一上顶点的横坐标分别与下矫正文本框和上矫正文本框的横坐标重合；第四距离计算子单元，被配置为若两个矫正文本框之间的位置关系为相邻行对角关系，则计算上矫正文本框的第二下顶点与下矫正文本框的第二上顶点的距离，第二下顶点为左下角顶点时对应第二上顶点为右上角顶点，第二下顶点为右下角顶点时对应第二上顶点为左上角顶点。
[0121]
在上述实施例的基础上，子图构建模块包括：顺序确定单元，被配置为根据各个矫正文本框的左右位置关系和上下位置关系，确定无向图中各个顶点的排列顺序；子图构建单元，被配置为根据排列顺序依次将各个顶点作为对应子图的锚点，根据无向图中各个边的边权重构建各个顶点对应的子图，其中每构建一个子图并将该子图的锚点和边从无向图中删除，并根据最新无向图的边权重重新构建对应下一顶点对应的子图。
[0122]
在上述实施例的基础上，子图构建单元包括：顶点添加子单元，被配置为按照排列顺序，将当前构建子图的锚点的下一顶点添加至当前构建子图中，根据预设的模块度公式计算添加该顶点后的当前构建子图的模块度；顶点保留子单元，被配置为若添加顶点后的模块度大于或等于添加顶点前的模块度，则将当前构建子图中的对应顶点保留，否则将当前构建子图中的对应顶点删除；历遍添加子单元，按照排列顺序依次往当前构建子图添加顶点，直至确定排列顺序中的最后一个顶点是否保留于当前构建子图中；模块度公式为：
[0123][0124]
其中，q为模块度，m为最新无向图的度，i和j为当前构建子图中任意两个顶点，ki和kj分别为顶点i和顶点j的度，w
ij
为顶点i和顶点j之间的边权重。
[0125]
在上述实施例的基础上，候选文本确定模块包括：顺序拼接单元，被配置为按照排列顺序，将子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选
文本内容。
[0126]
在上述实施例的基础上，题目文本确定模块包括：分数计算单元，被配置为将候选文本内容的困惑度和文本长度代入预设的分数计算公式，计算候选文本内容的分数，并将分数最高的候选文本内容确定为题目文本内容；
[0127]
分数计算公式为：
[0128][0129]
其中，s为候选文本内容的分数，α为调节参数，l为候选文本内容的文本长度，ppl为候选文本内容的困惑度。
[0130]
综上，本实施例提供的图像内容提取装置，通过对题目图像中检测出的多个文本框进行对齐矫正，以避免在后续将多个文本框的文本内容进行合并时，出现因文本框倾斜导致的文本内容位置错乱的问题。通过对齐矫正后的矫正文本框在题目图像中的结构信息，构建表征题目图像中各文本内容之间结构关系的无向图。通过模块度的评价指标从无向图中提取以各个矫正文本框为锚点的结构密度较高的子图，并以子图中的锚点对应的矫正文本框为开头，将子图中所有矫正文本框的文本内容进行合并，得到符合题目图像中文本内容顺序的候选文本内容。通过语言模型计算候选文本内容的困惑度，以根据困惑度评估候选文本内容的准确性，将准确性较高的候选内容确定为题目内容。通过上述技术手段，结合文本框的结构和文本内容，获取满足题目图像结构以及题目语义的题目文本内容，提高题目内容的准确度。
[0131]
值得注意的是，上述基于图像内容提取装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。
[0132]
本技术实施例提供的图像内容提取装置包含在图像内容提取设备中，且可用于执行上述任意实施例提供的图像内容提取方法，具备相应的功能和有益效果。
[0133]
图7是本技术一个实施例提供的一种图像内容提取设备的结构示意图。如图7所示，该图像内容提取设备包括处理器30、存储器31、输入装置32、输出装置33以及显示屏34；图像内容提取设备中处理器30的数量可以是一个或多个，图7中以一个处理器30为例；图像内容提取设备中显示屏34的数量可以是一个或多个，图7中以一个显示屏34为例；图像内容提取设备中的处理器30、存储器31、输入装置32、输出装置33以及显示屏34可以通过总线或其他方式连接，图7中以通过总线连接为例。
[0134]
存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本技术实施例中的图像内容提取方法对应的程序指令/模块(例如，图像内容提取装置中的对齐矫正模块201、无向图构建模块202、子图构建模块203、候选文本确定模块204和题目文本确定模块205)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行图像内容提取设备的各种功能应用以及数据处理，即实现上述图像内容提取方法。
[0135]
存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据图像内容提取设备的使用所创
建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至图像内容提取设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0136]
输入装置32可用于接收输入的数字或字母信息，以及产生与图像内容提取设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括扬声器等音频输出设备。
[0137]
上述图像内容提取设备包含图像内容提取装置，可以用于执行任意图像内容提取方法，具备相应的功能和有益效果。
[0138]
本技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行如上述实施例提供的图像内容提取方法。
[0139]
当然,本技术实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本技术任意实施例所提供的图像内容提取方法中的相关操作。
[0140]
通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本技术可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例的方法。
[0141]
注意，上述仅为本技术的较佳实施例及所运用技术原理。本领域技术人员会理解，本技术不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本技术的保护范围。因此，虽然通过以上实施例对本技术进行了较为详细的说明，但是本技术不仅仅限于以上实施例，在不脱离本技术构思的情况下，还可以包括更多其他等效实施例，而本技术的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种眼底图像的处理方法、分割模型训练方法及装置与流程

一种图像内容提取方法、装置、设备及存储介质与流程

相关文献

最热文献