一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文档分类方法、装置、计算机设备及存储介质与流程

2021-10-20 00:22:00 来源:中国专利 TAG:招标 装置 机及 特别 文档

技术特征:
1.一种文档分类方法,其特征在于,包括:获取待分类的目标招标文档;基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用xgboost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。2.根据权利要求1所述的文档分类方法,其特征在于,所述基于所述目标招标文档的文本内容提取分类特征向量,包括:对所述目标招标文档的文本内容进行预处理;对预处理后的文本内容进行分词处理并得到多个分词;基于所述多个分词提取分类特征向量。3.根据权利要求2所述的文档分类方法,其特征在于,所述基于所述多个分词提取分类特征向量,包括:对所述多个分词进行向量化表示,得到多个特征向量;利用词性级tf

idf算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;根据所述文档频率从所述多个特征向量中确定分类特征向量。4.根据权利要求1

3任一项所述的文档分类方法,其特征在于,所述分类信息至少包括行业类别和项目类型。5.根据权利要求2所述的文档分类方法,其特征在于,所述对预处理后的文本内容进行分词处理并得到多个分词,包括:基于n

gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。6.根据权利要求5所述的文档分类方法,其特征在于,所述n

gram语言模型中n的取值为2和/或3。7.根据权利要求3所述的文档分类方法,其特征在于,所述根据所述文档频率从所述多个特征向量中确定分类特征向量,包括:逐一判断各特征向量的文档频率是否大于设定值;保留文档频率不大于设定值的特征向量,作为分类特征向量。8.一种文档分类装置,其特征在于,包括:文档获取模块,用于获取待分类的目标招标文档;向量提取模块,用于基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;分类模块,用于将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用xgboost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计
算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

技术总结
本发明公开了一种文档分类方法、装置、计算机设备及存储介质,涉及计算机及招标技术领域,该文档分类方法包括:获取待分类的目标招标文档;基于目标招标文档的文本内容提取分类特征向量;所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。可见,本发明实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。成本。成本。


技术研发人员:严蕾 苏晓辉 任泽 沈志远 李维盈 陈建
受保护的技术使用者:中国神华国际工程有限公司
技术研发日:2021.06.02
技术公布日:2021/10/19
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜