一种图像内容提取方法、装置、设备及存储介质与流程

2023-02-19 08:54:56 来源：中国专利 TAG：

技术特征：
1.一种图像内容提取方法，其特征在于，包括：获取题目图像中标记的多个文本框对应的位置信息和文本内容，根据所述位置信息对所述文本框进行对齐矫正，得到对应的矫正文本框；根据所述矫正文本框的位置信息确定任意两个所述矫正文本框之间的位置关系，以所述矫正文本框为顶点和以所述位置关系为边构建无向图；以所述无向图中各个顶点作为对应子图中的锚点，从所述无向图中提取各个顶点对应的子图；以所述子图的锚点对应的矫正文本框的文本内容为开头，将所述子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容；根据预设的语言模型计算所述候选文本内容的困惑度，根据所述候选文本内容的困惑度和文本长度确定题目文本内容。2.根据权利要求1所述的方法，其特征在于，所述位置信息包括纵坐标和横坐标；相应的，所述根据所述位置信息对所述文本框进行对齐矫正包括：将任意两个所述文本框的纵坐标进行比较，确定位于同一行的文本框；将每一行的文本框的左上角顶点的纵坐标，调整为对应行的最左侧文本框的左上角顶点的纵坐标；根据每个所述文本框的左上角顶点的纵坐标的移动距离，相应调整对应文本框的右下角顶点的纵坐标；将每个所述文本框的左下角顶点的横坐标和纵坐标，分别调整为对应文本框的左上角顶点的横坐标和右下角顶点的纵坐标；将每个所述文本框的右上角顶点的横坐标和纵坐标，分别调整为对应文本框的右下角顶点的横坐标和左上角顶点的纵坐标。3.根据权利要求2所述的方法，其特征在于，所述将任意两个所述文本框的纵坐标进行比较，确定位于同一行的文本框包括：根据两个所述文本框的最大纵坐标和最小纵坐标，分别计算两个所述文本框的高度；确定两个所述文本框的高度中的最大高度和最小高度，根据所述最小高度的一半和所述最大高度确定高度范围；根据两个所述文本框的纵坐标，确定两个所述文本框的重合高度；确定所述重合高度满足所述高度范围时，确定两个所述文本框位于同一行。4.根据权利要求1所述的方法，其特征在于，所述根据矫正文本框的位置信息确定两个所述矫正文本框之间的位置关系包括：根据每行所述矫正文本框的横坐标，确定同行的两个所述矫正文本框之间的同行相邻关系；根据每行所述矫正文本框的纵坐标，确定行相邻的两个所述矫正文本框；根据行相邻的两个所述矫正文本框的横坐标，确定行相邻的两个所述矫正文本框之间的相邻行关系。5.根据权利要求4所述的方法，其特征在于，所述根据行相邻的两个所述矫正文本框的横坐标，确定行相邻的两个所述矫正文本框之间的相邻行位置关系包括：若所述矫正文本框的横坐标包含行相邻的矫正文本框的所有横坐标，确定对应两个所
述矫正文本框之间为相邻行包含关系；若所述矫正文本框的横坐标包含行相邻的矫正文本框的部分横坐标，确定对应两个所述矫正文本框之间为相邻行交集关系；若所述矫正文本框的横坐标不包含相邻行的矫正文本框的横坐标，确定对应两个所述矫正文本框之间为相邻行对角关系。6.根据权利要求1所述的方法，其特征在于，所述以所述矫正文本框为顶点和以所述位置关系为边构建无向图包括：根据所述位置关系计算对应两个所述矫正文本框之间的距离，将所述距离确定为所述无向图中对应边的边权重。7.根据权利要求6所述的方法，其特征在于，所述根据所述位置关系计算对应两个所述矫正文本框之间的距离包括：若两个所述矫正文本框之间的位置关系为同行相邻关系，则计算根据左矫正文本框的右边框中心点与右矫正文本框的左边框中心点的距离；若两个所述矫正文本框之间的位置关系为相邻行包含关系，则计算上矫正文本框的下边框中心点与下矫正文本框的上边框中心点的距离；若两个所述矫正文本框之间的位置关系为相邻行交集关系，则计算上矫正文本框的第一下顶点与下矫正文本框的第一上顶点的距离，所述第一下顶点与所述第一上顶点的横坐标分别与所述下矫正文本框和所述上矫正文本框的横坐标重合；若两个所述矫正文本框之间的位置关系为相邻行对角关系，则计算上矫正文本框的第二下顶点与下矫正文本框的第二上顶点的距离，所述第二下顶点为左下角顶点时对应所述第二上顶点为右上角顶点，所述第二下顶点为右下角顶点时对应所述第二上顶点为左上角顶点。8.根据权利要求1所述的方法，其特征在于，所述以所述无向图中各个顶点作为对应子图中的锚点，从所述无向图中提取各个顶点对应的子图包括：根据各个所述矫正文本框的左右位置关系和上下位置关系，确定所述无向图中各个顶点的排列顺序；根据所述排列顺序依次将各个顶点作为对应子图的锚点，根据所述无向图中各个边的边权重构建各个顶点对应的子图，其中每构建一个子图并将该子图的锚点和边从所述无向图中删除，并根据最新无向图的边权重重新构建对应下一顶点对应的子图。9.根据权利要求8所述的方法，其特征在于，所述根据所述无向图中各个边的边权重构建各个顶点对应的子图包括：按照所述排列顺序，将当前构建子图的锚点的下一顶点添加至所述当前构建子图中，根据预设的模块度公式计算添加该顶点后的当前构建子图的模块度；若添加顶点后的模块度大于或等于添加顶点前的模块度，则将所述当前构建子图中的对应顶点保留，否则将所述当前构建子图中的对应顶点删除；按照所述排列顺序依次往所述当前构建子图添加顶点，直至确定所述排列顺序中的最后一个顶点是否保留于所述当前构建子图中；所述模块度公式为：
其中，q为所述模块度，m为最新无向图的度，i和j为所述当前构建子图中任意两个顶点，k
i
和k
j
分别为顶点i和顶点j的度，w
ij
为顶点i和顶点j之间的边权重。10.根据权利要求9所述的方法，其特征在于，所述以所述子图的锚点对应的矫正文本框的文本内容为开头，将所述子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容包括：按照所述排列顺序，将所述子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容。11.根据权利要求1所述的方法，其特征在于，所述根据所述候选文本内容的困惑度和文本长度确定题目文本内容包括：将所述候选文本内容的困惑度和文本长度代入预设的分数计算公式，计算所述候选文本内容的分数，并将分数最高的候选文本内容确定为所述题目文本内容；所述分数计算公式为：其中，s为所述候选文本内容的分数，α为调节参数，l为所述候选文本内容的文本长度，ppl为所述候选文本内容的困惑度。12.一种图像内容提取装置，其特征在于，包括：对齐矫正模块，被配置为获取题目图像中标记的多个文本框对应的位置信息和文本内容，根据所述位置信息对所述文本框进行对齐矫正，得到对应的矫正文本框；无向图构建模块，被配置为根据所述矫正文本框的位置信息确定任意两个所述矫正文本框之间的位置关系，以所述矫正文本框为顶点和以所述位置关系为边构建无向图；子图构建模块，被配置为以所述无向图中各个顶点作为对应子图中的锚点，从所述无向图中提取各个顶点对应的子图；候选文本确定模块，被配置为以所述子图的锚点对应的矫正文本框的文本内容为开头，将所述子图中各个顶点对应的矫正文本框的文本内容进行拼接，得到对应子图的候选文本内容；题目文本确定模块，被配置为根据预设的语言模型计算所述候选文本内容的困惑度，根据所述候选文本内容的困惑度和文本长度确定题目文本内容。13.一种图像内容提取设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11任一所述的图像内容提取方法。14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-11任一所述的图像内容提取方法。

技术总结
本申请实施例公开一种图像内容提取方法、装置、设备及存储介质。该方法包括：获取题目图像中标记的多个文本框对应的位置信息和文本内容，根据位置信息对文本框进行对齐矫正；根据矫正文本框的位置信息确定任意两个矫正文本框之间的位置关系，以矫正文本框为顶点和以位置关系为边构建无向图；以无向图中各个顶点作为对应子图中的锚点，从无向图中提取各个顶点对应的子图；以子图的锚点对应的文本内容为开头，将子图中各个顶点对应的文本内容进行拼接，得到对应子图的候选文本内容；根据预设的语言模型计算候选文本内容的困惑度，根据候选文本内容的困惑度和文本长度确定题目文本内容。采用上述技术手段，解决现有图像内容提取方法效率低的问题。方法效率低的问题。方法效率低的问题。

技术研发人员：李智
受保护的技术使用者：广州视源人工智能创新研究院有限公司
技术研发日：2021.08.06
技术公布日：2023/2/17

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种眼底图像的处理方法、分割模型训练方法及装置与流程

一种图像内容提取方法、装置、设备及存储介质与流程

相关文献

最热文献