一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

表格识别方法及相关装置和电子设备、存储介质与流程

2021-10-24 09:51:00 来源:中国专利 TAG:电子设备 图像处理 表格 识别 装置

技术特征:
1.一种表格识别方法,其特征在于,包括:提取表格图像的表格特征图;所述表格图像包含若干目标单元格;基于所述表格特征图进行行列识别,得到行分隔线和列分隔线;在所述表格特征图提取得到若干基础单元格的第一特征;其中,所述若干基础单元格是利用所述行分隔线和所述列分隔线划分得到的;基于所述若干基础单元格的第一特征,得到所述目标单元格;基于所述目标单元格的第二特征,得到所述目标单元格内表格文本;其中,所述第二特征是在所述表格特征图提取得到的。2.根据权利要求1所述的方法,其特征在于,所述基于所述若干基础单元格的第一特征,得到所述目标单元格,包括:基于所述基础单元格之间的相关分值,得到若干候选单元格的存在分值;其中,所述相关分值是利用所述第一特征得到的,所述候选单元格是由所述基础单元格合并得到的,且所述存在分值表示所述候选单元格存在于所述表格图像的可能性;基于所述若干候选单元格的存在分值,识别得到所述目标单元格。3.根据权利要求2所述的方法,其特征在于,所述基于所述基础单元格之间的相关分值,得到若干候选单元格的存在分值,包括:将所述若干基础单元格分别作为第一当前单元格,并利用所述第一当前单元格的第一特征和若干参考单元格的第一特征,得到所述第一当前单元格分别与所述若干参考单元格之间的相关分值;其中,所述若干参考单元格为分别位于所述第一当前单元格若干预设方位的基础单元格,所述相关分值表示所述参考单元格是所述第一当前单元格所在的所述候选单元格的边缘单元格的可能性;将所述候选单元格内各个所述基础单元格分别作为第二当前单元格,并利用所述第二当前单元格与其边缘单元格之间的相关分值,得到所述第二当前单元格的子分值,以及统计所述候选单元格内各个所述基础单元格的子分值,得到所述候选单元格的存在分值。4.根据权利要求3所述的方法,其特征在于,所述若干预设方位包括:水平左侧、水平右侧、垂直上侧、垂直下侧中至少一者,所述若干参考单元格包含第一单元格、第二单元格、第三单元格、第四单元格、所述第一当前单元格中至少一者,所述第一单元格位于所述第一当前单元格的水平左侧,所述第二单元格位于所述第一当前单元格的水平右侧,所述第三单元格位于所述第一当前单元格的垂直上侧,所述第四单元格位于所述第一当前单元格的垂直下侧。5.根据权利要求3所述的方法,其特征在于,所述利用所述第二当前单元格与其边缘单元格之间的相关分值,得到所述第二当前单元格的子分值,包括:将所述第二当前单元格与其边缘单元格之间的相关分值进行平均,得到所述第二当前单元格的子分值;其中,所述第二当前单元格的边缘单元格位于所述候选单元格的边缘且位于所述第二当前单元格的若干预设方位;所述统计所述候选单元格内各个所述基础单元格的子分值,得到所述候选单元格的存在分值,包括:将所述候选单元格内各个所述基础单元格的子分值进行平均,得到所述候选单元格的存在分值。
6.根据权利要求1所述的方法,其特征在于,所述基于所述表格特征图进行行列识别,得到行分隔线和列分隔线,包括:基于所述表格特征图,获取所述表格图像中各个像素线的第三特征;利用所述像素线的第三特征进行分类,得到所述像素线的分类结果;其中,所述分类结果包括所述像素线是否为分隔线;其中,在所述像素线为像素行的情况下,所述分隔线为所述行分隔线,在所述像素线为像素列的情况下,所述分隔线为所述列分隔线。7.根据权利要求6所述的方法,其特征在于,所述行列识别是利用行列识别网络执行的,所述行列识别网络的训练步骤包括:基于样本特征图,获取样本图像中各个样本像素线的样本特征;其中,所述样本特征图是对所述样本图像提取得到的,且所述样本像素线标注有第一标记或第二标记,所述第一标记表示所述样本像素线不属于分隔线区域,所述第二标记表示所述样本像素线属于所述分隔线区域;利用所述行列识别网络对所述样本像素线的样本特征进行分类,得到所述样本像素线的分类标记;其中,所述分类标记表示所述样本像素线是否预测为属于所述分隔线区域;对于不属于所述分隔线区域的样本像素线,利用所述第一标记与所述分类标记之间的差异,得到第一损失;以及,对于属于所述分隔线区域的样本像素线,利用所述第二标记与所述分隔线区域的整体标记之间的差异,得到第二损失;其中,所述整体标记是基于属于所述分隔线区域的样本像素线的分类标记得到的;基于所述第一损失和所述第二损失,调整所述行列识别网络的网络参数。8.根据权利要求7所述的方法,其特征在于,在属于所述分隔线区域的样本像素线均预测为属于所述分隔线区域的情况下,所述整体标记与所述第二标记之间存在第一差异,在属于所述分隔线区域的样本像素线预测为不属于所述分隔线区域的情况下,所述整体标记与所述第二标记之间存在第二差异,且所述第一差异小于所述第二差异。9.一种表格识别装置,其特征在于,包括:表格特征提取模块,用于提取表格图像的表格特征图;所述表格图像包含若干目标单元格;行列分隔线识别模块,用于基于所述表格特征图进行行列识别,得到行分隔线和列分隔线;单元格特征提取模块,用于在所述表格特征图提取得到若干基础单元格的第一特征;其中,所述若干基础单元格是利用所述行分隔线和所述列分隔线划分得到的;目标单元格识别模块,用于基于所述若干基础单元格的第一特征,得到所述目标单元格;表格文本识别模块,用于基于所述目标单元格的第二特征,得到所述目标单元格内表格文本;其中,所述第二特征是在所述表格特征图提取得到的。10.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的表格识别方法。
11.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8任一项所述的表格识别方法。

技术总结
本申请公开了一种表格识别方法及相关装置和电子设备、存储介质,其中,表格识别方法包括:提取表格图像的表格特征图;表格图像包含若干目标单元格;基于表格特征图进行行列识别,得到行分隔线和列分隔线;在表格特征图提取得到若干基础单元格的第一特征;其中,若干基础单元格是利用行分隔线和列分隔线划分得到的;基于若干基础单元格的第一特征,得到目标单元格;基于目标单元格的第二特征,得到目标单元格内表格文本;其中,第二特征是在表格特征图提取得到的。上述方案,能够降低表格识别的处理负荷。别的处理负荷。别的处理负荷。


技术研发人员:王烽人
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.06.22
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜