一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

表格文本的处理方法、装置、电子设备和可读介质与流程

2022-05-08 06:12:14 来源:中国专利 TAG:

技术特征:
1.一种表格文本的处理方法,其特征在于,包括:提取图像中的子线段;确定所述子线段的属性信息;根据所述属性信息将所述子线段划分至对应的线段集合;对所述线段集合中的子线段进行聚类处理,以得到表格的第一方向线条、第二方向线条和线条间连接点;根据所述第一方向线条、所述第二方向线条和所述线条间连接点确定所述表格的单元格内的文本信息。2.如权利要求1所述的表格文本的处理方法,其特征在于,在提取图像中的子线段前,还包括:检测待处理图像的着色形式是否为灰度;若所述待处理图像的着色形式不是所述灰度,则将所述待处理图像重新着色为灰度图像;将所述灰度图像确定为待所述lsd线段提取算法的图像。3.如权利要求1或2所述的表格文本的处理方法,其特征在于,根据所述属性信息将所述子线段划分至对应的线段集合包括:解析所述属性信息以确定所述子线段的第一宽度、第一高度和角度;确定所述图像的第二宽度和第二高度;计算所述第一宽度与所述第二宽度之间的宽度比值;计算所述第一高度与所述第二高度之间的高度比值;将宽度比值大于预设宽度比值,且角度属于预设第一角度阈值区间的子线段划分至第一方向线段集合;将高度比值大于预设高度比值,且角度属于预设第二角度阈值区间的子线段划分至第二方向线段集合。4.如权利要求3所述的表格文本的处理方法,其特征在于,对所述线段集合中的子线段进行聚类处理,以得到表格的第一方向线条、第二方向线条和线条间连接点包括:确定所述线段集合中的子线段之间的第一间距;根据所述第一间距将所述子线段聚类至子集合;确定所述子集合之间的第二间距;根据所述第二间距对所述子线段进行聚类和合并,以得到表格的第一方向线条、第二方向线条和线条间连接点。5.如权利要求4所述的表格文本的处理方法,其特征在于,根据所述第二间距对所述子线段进行聚类和合并,以得到表格的第一方向线条、第二方向线条和线条间连接点包括:根据第二间距对所述第一方向线段集合的子线段进行聚类;对聚类后的第一方向线段集合的子线段进行行方向上的首尾拼接,以得到所述表格的第一方向长线段;根据所述第一方向长线段的间距对所述第一方向长线段进行列方向上的合并,以得到所述表格的第一方向线条。6.如权利要求4所述的表格文本的处理方法,其特征在于,根据所述第二间距对所述子
线段进行聚类和合并,以得到表格的第一方向线条、第二方向线条和线条间连接点还包括:根据第二间距对所述第二方向线段集合的子线段进行聚类;对聚类后的第二方向线段集合的子线段进行列方向上的首尾拼接,以得到所述表格的第二方向长线段;根据所述第二方向长线段的间距对所述第二方向长线段进行行方向上的合并,以得到所述表格的第二方向线条。7.如权利要求4-6中任一项所述的表格文本的处理方法,其特征在于,根据所述第二间距对所述子线段进行聚类和合并,以得到表格的第一方向线条、第二方向线条和线条间连接点还包括:根据所述第二间距对所述子线段进行聚类和合并,以得到表格的第一方向线条和第二方向线条;将所述第一方向线条和所述第二方向线条之间的交点确定为所述线条间连接点;根据所述线条间连接点对所述第一方向线条和所述第二方向线条进行筛选;根据筛选后的第一方向线条、筛选后的第二方向线条和所述线条间连接点确定待填充表格。8.如权利要求7所述的表格文本的处理方法,其特征在于,还包括:根据所述第一方向线条、所述第二方向线条和所述线条间连接点将表格从所述图像中提取,并确定所述表格的单元格;对所述单元格内的文本进行文本检测和文本行识别;根据所述文本检测的结果和所述文本行识别的结果确定所述单元格内的文本内容;根据所述线条间连接点的位置坐标将所述文本内容写入对应的待填充表格。9.一种表格文本的处理装置,其特征在于,包括:确定模块,用于提取图像中的子线段;所述确定模块还用于,确定所述子线段的属性信息;划分模块,用于根据所述属性信息将所述子线段划分至对应的线段集合;聚类模块,用于对所述线段集合中的子线段进行聚类处理,以得到表格的第一方向线条、第二方向线条和线条间连接点;所述确定模块还用于,根据所述第一方向线条、所述第二方向线条和所述线条间连接点确定所述表格的单元格内的文本信息。10.一种电子设备,其特征在于,包括:存储器;以及耦合到所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-8任一项所述的表格文本的处理方法。11.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如权利要求1-8任一项所述的表格文本的处理方法。

技术总结
本公开提供一种表格文本的处理方法、装置、电子设备和可读介质,其中,表格文本的处理方法包括:提取图像中的子线段;确定子线段的属性信息;根据属性信息将子线段划分至对应的线段集合;对线段集合中的子线段进行聚类处理,以得到表格的第一方向线条、第二方向线条和线条间连接点;根据第一方向线条、第二方向线条和线条间连接点确定表格的单元格内的文本信息。通过本公开的实施例,降低了对表格的漏检效率,不需要对表格进行标注和迭代训练,提高了表格检测的精度、效率和可靠性。效率和可靠性。效率和可靠性。


技术研发人员:唐铭蔚 裴积全
受保护的技术使用者:京东科技控股股份有限公司
技术研发日:2022.01.27
技术公布日:2022/5/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献