一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

无边框表格复原模型训练方法、装置、计算机设备和介质与流程

2021-12-08 01:05:00 来源:中国专利 TAG:

技术特征:
1.一种无边框表格复原模型训练方法,其特征在于,所述方法包括:获取原始训练数据,所述原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息;识别所述表格图像中表格边框线,并对识别到的各所述表格表框线进行预处理,生成对应所述有边框表格的表格图像的无边框表格图像;根据所述无边框表格图像以及对应的有边框表格的文本结构信息,生成目标训练数据;基于所述目标训练数据对构建的初始复原模型进行训练,得到训练完成的无边框表格复原模型。2.根据权利要求1所述的方法,其特征在于,所述识别所述表格图像中表格边框线,并对识别到的各所述表格表框线进行预处理,生成对应所述有边框表格的表格图像的无边框表格图像,包括:对所述表格图像中的各像素点进行识别,确定所述表格图像中的各表格边框线;基于各表格边框线,确定对应各所述表格边框线的相邻单元格;获取各所述相邻单元格中单元格像素点的单元格像素值;基于各所述单元格像素值,对各所述表格边框线的边框线像素点进行像素值替换,生成对应的无边框表格图像。3.根据权利要求2所述的方法,其特征在于,所述确定所述表格图像中的各表格边框线之后,还包括:判定所述表格边框线之间是否存在延伸关系;当确定表格边框线之间存在延伸关系时,则确定存在延伸关系的至少两条表格边框线为同一表格边框线;所述基于各所述单元格像素值,对各所述表格边框线的边框线像素点进行像素值替换,生成对应的无边框表格图像,包括:基于所述存在延伸关系的至少两条表格边框线中任一表格边框线对应的相邻单元格的单元格像素值,对所述确定为同一表格边框线的至少两条表格边框线的边框线像素点进行像素值替换,生成对应的无边框表格图像。4.根据权利要求2所述的方法,其特征在于,所述基于各所述单元格像素值,对各所述表格边框线进行边框线像素值替换,生成对应的无边框表格图像,包括:从所述表格图像确定的表格边框线中随机确定目标边框线,并基于所述目标边框线的相邻单元格中单元格像素点的单元格像素值,对所述目标边框线的各边框线像素点的像素值进行替换,得到无边框表格图像。5.根据权利要求1所述的方法,其特征在于,所述获取原始训练数据,包括:获取原始文本数据,所述原始文本数据中包括有边框表格;对各所述原始文本数据按照文件页码进行拆分,得到各文本页;对各所述文本页进行文本标题、文本内容以及文本表格的识别,并确定对应各文本标题、文本内容以及文本表格的坐标位置;基于各所述坐标位置,建立对应所述原始文本数据的文本结构信息,并从各所述文本页中裁减出表格图像;
基于所述表格图像以及所述文本结构信息,生成原始训练数据。6.根据权利要求1所述的方法,其特征在于,所述原始训练数据还包括表格图像中的有边框表格的单元格数量以及各单元格之间的位置索引数据;所述根据所述无边框表格图像以及对应的有边框表格的文本结构信息,生成目标训练数据,包括:基于所述无边框表格图像、所述文本结构信息、所述有边框表格的单元格数量以及各所述单元格之间的位置索引数据,生成目标训练数据;所述基于所述目标训练数据,对构建的初始复原模型进行训练,得到训练完成的无边框表格复原模型,包括:通过所述目标训练数据,对构建的初始复原模型进行训练,得到训练完成的无边框表格复原模型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:将所述表格图像、所述文本结构信息、所述无边框表格图像以及所述目标训练数据中的至少一个上传至区块链节点中进行存储。8.一种无边框表格复原模型训练装置,其特征在于,所述装置包括:原始训练数据获取模块,用于获取原始训练数据,所述原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息;无边框表格图像生成模块,用于识别所述表格图像中表格边框线,并对识别到的各所述表格表框线进行预处理,生成对应所述有边框表格的表格图像的无边框表格图像;目标训练数据生成模块,用于根据所述无边框表格图像以及对应的有边框表格的文本结构信息,生成目标训练数据;训练模块,用于基于所述目标训练数据对构建的初始复原模型进行训练,得到训练完成的无边框表格复原模型。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及工智能技术领域,特别是涉及一种无边框表格复原模型训练方法、装置、计算机设备和介质。所述方法包括:获取原始训练数据,原始训练数据包括文本数据中有边框表格的表格图像以及文本结构信息;识别表格图像中表格边框线,并对识别到的各表格表框线进行预处理,生成对应有边框表格的表格图像的无边框表格图像;根据无边框表格图像以及对应的有边框表格的文本结构信息,生成目标训练数据;基于目标训练数据对构建的初始复原模型进行训练,得到训练完成的无边框表格复原模型。采用本方法能够提升无表框表格复原处理的效率。本申请还涉及区块链技术领域,各数据均可以上传至区块链。块链。块链。


技术研发人员:张可昕 高寒冰 李果夫
受保护的技术使用者:平安资产管理有限责任公司
技术研发日:2021.09.08
技术公布日:2021/12/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献