一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种表单分类方法及装置与流程

2022-02-19 05:25:17 来源:中国专利 TAG:

技术特征:
1.一种表单分类方法,其特征在于,包括:获取目标表单图像;对目标表单图像进行文字识别,每个单元格会对应一个文本信息,得到目标表单图像中每个单元格各自对应的第一文本信息及、对应的第一标识信息和第一文本布局坐标,即每一部分文本都会被一个矩形框框出来,矩形框的左上,右上,右下,左下的顺序,就是文本布局的坐标;将所述第一文本信息和第一标识信息输入循环神经网络,得到第一文本特征信息;将所述第一文本布局坐标和第一标识信息输入目标检测网络,得到第一文本布局特征信息;将所述目标表单图像输入卷积神经网络,得到第一图像特征信息;将所述第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行变形,得到同一维度的向量,对变形后的第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行特征融合;将融合后的特征输入表单分类模型,得到目标表单的表单分类结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对带分类标签的样本表单图像进行文字识别,得到样本表单图像中每个单元格各自对应的第二文本信息、第二标识信息和第二文本布局坐标;将所述第二文本信息和第二标识信息输入循环神经网络,得到第二文本特征信息;将所述第二文本布局坐标和第二标识信息输入目标检测网络,得到第二文本布局特征信息;将所述样本表单图像输入卷积神经网络,得到第二图像特征信息;将所述第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行变形,得到同一维度的向量,对变形后的第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行特征融合;利用融合后的特征训练表单分类模型。3.根据权利要求2所述的方法,其特征在于,利用融合后的特征训练表单分类模型的过程中,根据迭代的次数优化学习率l,具体公式如下:其中,l0是初始的学习率,i表示第i次迭代,l表示网络训练的总迭代次数。4.根据权利要求3所述的方法,其特征在于,l0取值为0.005,l取值为800。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取原始样本表单图像集合;对原始样本表单图像集合中的样本表单图像进行以下至少一项操作:加入随机高斯噪声、图像旋转、图像缩放、图像平移,形成增强样本表单图像集合;所述原始表单图像集合和所述增强样本表单图像集合中的样本表单图像用于表单分类模型的训练。6.根据权利要求1至4任一项所述的方法,其特征在于,所述卷积神经网络包括resnet50。7.根据权利要求1至4任一项所述的方法,其特征在于,所述循环神经网络和所述目标
检测网络包括layoutlm。8.一种表单分类装置,其特征在于,包括:目标表单图像获取模块,用于获取目标表单图像;文字识别模块,用于对目标表单图像进行文字识别,得到目标表单图像中每个单元格各自对应的第一文本信息、第一标识信息和第一文本布局坐标;文本特征提取模块,用于将所述第一文本信息和第一标识信息输入循环神经网络,得到第一文本特征信息;文本布局特征提取模块,用于将所述第一文本布局坐标和第一标识信息输入目标检测网络,得到第一文本布局特征信息;图像特征提取模块,用于将所述目标表单图像输入卷积神经网络,得到第一图像特征信息;特征融合模块,用于将所述第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行变形,得到同一维度的向量,对变形后的第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行特征融合;表单分类模块,用于将融合后的特征输入表单分类模型,得到目标表单的表单分类结果。9.根据权利要求8所述的装置,其特征在于,所述装置还包括模型训练模块,用于:对带分类标签的样本表单图像进行文字识别,得到样本表单图像中每个单元格各自对应的第二文本信息、第二标识信息和第二文本布局坐标;将所述第二文本信息和第二标识信息输入循环神经网络,得到第二文本特征信息;将所述第二文本布局坐标和第二标识信息输入目标检测网络,得到第二文本布局特征信息;将所述样本表单图像输入卷积神经网络,得到第二图像特征信息;将所述第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行变形,得到同一维度的向量,对变形后的第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行特征融合;利用融合后的特征训练表单分类模型。

技术总结
本说明书实施例提供了一种表单分类方法及装置。本发明将模型学习到的文本特征信息、文本布局特征信息和图像特征信息进行融合,共同决定表单的分类结果,提高了模型分类的准确率。另外,采用改进的自适应学习率算法,进一步提高了模型的分类准确率,解决了表单分类准确性不高的问题。性不高的问题。性不高的问题。


技术研发人员:王凡 李磊 李军
受保护的技术使用者:华清科盛(北京)信息技术有限公司
技术研发日:2021.09.16
技术公布日:2022/1/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献