一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

针对表格文本的深度学习特征提取分类方法及装置与流程

2022-12-23 20:34:00 来源:中国专利 TAG:

技术特征:
1.一种针对表格文本的深度学习特征提取分类方法,其特征在于,包括:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。2.根据权利要求1所述的针对表格文本的深度学习特征提取分类方法,其特征在于,根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵,具体包括:根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵;根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。3.根据权利要求1所述的针对表格文本的深度学习特征提取分类方法,其特征在于,所述自然语言特征提取网络模型、所述卷积神经网络模型以及所述分类网络模型是分别基于样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。4.根据权利要求3所述的针对表格文本的深度学习特征提取分类方法,其特征在于,还包括:在训练过程中,利用预设的最小化损失函数确定所述分类推断结果与所述真实结果的损失反馈参数调整信息,并通过所述分类网络模型、所述卷积神经网络模型、所述自然语言特征提取网络模型依次梯度回传所述损失反馈参数调整信息,以实现调整网络模型参数。5.根据权利要求3所述的针对表格文本的深度学习特征提取分类方法,其特征在于,所述卷积神经网络模型用于基于对所述样本文本中相邻位置单元格之间的关联信息进行特征提取得到的表示特征,对所述表格文本进行特征提取,并输出相应的包含语义信息和结构信息的目标特征向量。6.根据权利要求2所述的针对表格文本的深度学习特征提取分类方法,其特征在于,还包括:若所述表格文本所包含的单元格跨越多行多列,则对所述内容特征矩阵进行上采样处理,以使所述内容特征矩阵的相对位置和大小与单元格在所述表格文本中的相对位置和大小保持一致,得到表格语义结构特征矩阵。7.一种针对表格文本的深度学习特征提取分类装置,其特征在于,包括:内容特征向量获得单元,用于将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;表格语义结构特征矩阵获得单元,用于根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;目标特征向量获得单元,用于将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;
分类处理单元,用于将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。8.根据权利要求7所述的针对表格文本的深度学习特征提取分类装置,其特征在于,所述表格语义结构特征矩阵获得单元,具体用于:根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵;根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任意一项所述的针对表格文本的深度学习特征提取分类方法的步骤。10.一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的针对表格文本的深度学习特征提取分类方法的步骤。

技术总结
本发明提供一种针对表格文本的深度学习特征提取分类方法及装置。该方法包括:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。采用本发明公开的方法,能够提升表格类型文本文件特征的表达能力,有效提高了表格文本的分类精度和效率。有效提高了表格文本的分类精度和效率。有效提高了表格文本的分类精度和效率。


技术研发人员:刘佳琳
受保护的技术使用者:中移系统集成有限公司 中国移动通信集团有限公司
技术研发日:2021.06.04
技术公布日:2022/12/22
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献