一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于文档理解的数据增强的系统和方法与流程

2021-12-01 02:18:00 来源:中国专利 TAG:

技术特征:
1.一种用于允许多个文档的文档分类的数据增强的方法,所述方法包括:将所述多个文档转换成图像;获得用于被包括在所述多个文档中的每个页面的矢量表示;基于相似性从所述图像创建多个群集,其中所述多个群集中的每个群集代表不同的页面格式;从所述多个群集中的每个群集选择一个图像;编译从所述多个群集中的每个群集选择的所述一个图像,以创建逻辑上完整的文档;以及基于所述完整的文档来训练所述分类。2.根据权利要求1所述的方法,其中从每个群集选择一个图像确保每个格式被用于训练所述模型。3.根据权利要求1所述的方法,其中创建多个群集从所述矢量发生,以标识不同的页面格式。4.根据权利要求1所述的方法,其中所述图像和矢量表示使用预先训练的图像模型而被获得。5.根据权利要求所述的方法,其中经训练的所述模型包括vgg和resnet中的至少一个。6.根据权利要求1所述的方法,其中通过被称为主分量分析(pca)的ml技术或提供页面的大量维度的基于正常vgg的群集以降低维数,所述群集被形成。7.根据权利要求6所述的方法,其中所述维度为6。8.根据权利要求6所述的方法,其中使用pca将所述多维信息编码成较少的简洁维度。9.根据权利要求6所述的方法,其中所述维度为4

10个维度。10.根据权利要求1所述的方法,其中最适合所述图像特征的群集(k)的总数目被获得。11.根据权利要求10所述的方法,其中通过执行图像的所述群集,k的值被获得,并且所述k的值从2变化到10。12.根据权利要求10所述的方法,其中k值能够使用elbow方法和silhouette索引以最小的误差和最高的群集准确性而被确定。13.一种用于执行用于数据增强的方法的计算设备,所述数据增强允许多个文档的文档分类,所述设备包括:处理器,被配置为将所述多个文档转换成图像;存储器,被配置为存储所述图像;所述处理器被配置为:获得用于被包括在所述多个文档中的每个页面的矢量表示;所述处理器被配置为:基于相似性从所述图像创建多个群集,其中所述多个群集中的每个群集代表不同的页面格式;所述处理器被配置为:从所述多个群集中的每个群集选择一个图像;所述处理器被配置为:编译从所述多个群集中的每个群集选择的所述一个图像,以创建逻辑上完整的文档;所述存储器被配置为存储所述逻辑上完整的文档;以及所述处理器被配置为基于所述完整的文档来训练所述分类。14.根据权利要求13所述的设备,其中从每个群集选择一个图像确保每个格式被用于
训练所述模型。15.根据权利要求13所述的设备,其中创建多个群集从所述矢量发生,以标识不同的页面格式。16.根据权利要求13所述的设备,其中所述图像和矢量表示使用预先训练的图像模型而被获得。17.根据权利要求13所述的设备,其中经训练的所述模型包括vgg和resnet中的至少一个。18.根据权利要求13所述的设备,其中通过被称为主分量分析(pca)的ml技术或提供页面的大量维度的基于正常vgg的群集以降低维数,所述群集被形成。19.根据权利要求13所述的设备,其中使用pca将所述多维信息编码成较少的简洁维度。20.根据权利要求13所述的设备,其中k值能够使用elbow方法和silhouette索引以最小的误差和最高的群集准确性而被确定。

技术总结
一种系统、方法和用于执行数据增强的方法的计算设备被公开,数据增强用于允许多个文档的文档分类。该系统、方法和计算设备包括:处理器,被配置为将文档转换成图像;存储器,被配置为存储图像;处理器被配置为:获得用于被包括在文档中的每个页面的矢量表示;处理器被配置为:基于相似性从图像创建群集,其中群集中的每个群集代表不同的页面格式;处理器被配置为:从每个群集选择一个图像;处理器被配置为:编译从每个群集选择的一个图像,以创建逻辑上完整的文档;存储器被配置为存储逻辑上完整的文档;以及处理器被配置为基于完整的文档来训练分类。练分类。练分类。


技术研发人员:R
受保护的技术使用者:尤帕斯公司
技术研发日:2021.03.22
技术公布日:2021/11/30
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献