一种文本大规模分类的方法和系统与流程

2021-10-24 12:44:00 来源：中国专利 TAG：分类文本方法数据系统

技术特征：
1.一种文本大规模分类的方法，其特征在于，所述方法包括：获取数据库中初始已分类文本的第一simhash值，通过局部敏感哈希算法计算待分类文本的第二simhash值；将所述第一simhash值和所述第二simhash值进行比对，得到所述初始已分类文本与所述待分类文本的距离，从所述初始已分类文本的每种类别中分别选出所述距离最小的前预设数量的文本作为已分类文本；获取所述数据库中所述已分类文本的第一分词结果，根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量；获取所述待分类文本的第二分词结果，根据所述第二分词结果、所述关键词词表和所述关键词的词向量，通过文本向量相似度算法计算所述已分类文本与待分类文本的相似度，将相似度最大的已分类文本的类别定为所述待分类文本的类别。2.根据权利要求1所述的方法，其特征在于，在获取数据库中初始已分类文本的第一simhash值之前，所述方法包括：对获取到的初始已分类文本进行分词并得到第一分词结果，通过局部敏感哈希算法分别计算所述初始已分类文本的第一simhash值；将所述初始已分类文本的文本标签、所述第一simhash值和所述第一分词结果存储到数据库中。3.根据权利要求1所述的方法，其特征在于，在根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量之前，所述方法包括：通过tf
‑
idf算法从所述已分类文本的第一分词结果中确定关键词词表；通过word2vec算法计算所述关键词词表中关键词的词向量。4.根据权利要求1所述的方法，其特征在于，在将相似度最大的已分类文本的类别定为所述待分类文本的类别之后，所述方法还包括：通过人工核对和/或文本分类模型对分类结果进行验证，若所述分类结果通过所述验证，则利用所述待分类文本更新所述数据库。5.根据权利要求1所述的方法，其特征在于，在获取所述待分类文本的分词结果之前，所述方法还包括：对所述待分类文本进行分词得到第二分词结果。6.一种文本大规模分类的系统，其特征在于，所述系统包括数据库模块、预处理模块、计算模块和分类模块；所述数据库模块获取初始已分类文本的第一simhash值；所述预处理模块通过局部敏感哈希算法计算待分类文本的第二simhash值，将所述第一simhash值和所述第二simhash值进行比对，得到所述初始已分类文本与所述待分类文本的距离，从初始已分类文本的每种类别中分别选出所述距离最小的前预设数量的文本作为已分类文本；所述计算模块获取所述数据库中所述已分类文本的第一分词结果，根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量；所述分类模块获取所述待分类文本的第二分词结果，根据所述第二分词结果、所述关键词词表和所述关键词的词向量，通过文本向量相似度算法计算所述已分类文本与待分类
文本的相似度，将相似度最大的已分类文本的类别定为所述待分类文本的类别。7.根据权利要求6所述的系统，其特征在于，在所述数据库模块获取初始已分类文本的第一simhash值之前还包括：所述预处理模块对获取到的初始已分类文本进行分词并得到第一分词结果，通过局部敏感哈希算法分别计算所述初始已分类文本的第一simhash值；所述预处理模块将所述初始已分类文本的文本标签、所述第一simhash值和所述第一分词结果存储到数据库中。8.根据权利要求6所述的系统，其特征在于，在所述计算模块根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量之前还包括：所述计算模块通过tf
‑
idf算法从所述已分类文本的第一分词结果中确定关键词词表；所述计算模块通过word2vec算法计算所述关键词词表中关键词的词向量。9.根据权利要求6所述的系统，其特征在于，在所述分类模块将相似度最大的已分类文本的类别定为所述待分类文本的类别之后，所述系统还包括验证更新模块；所述验证更新模块通过人工核对和/或文本分类模型对分类结果进行验证，若所述分类结果通过所述验证，则利用所述待分类文本更新所述数据库。10.根据权利要求6所述的系统，其特征在于，在所述分类模块获取所述待分类文本的分词结果之前还包括：所述预处理模块对所述待分类文本进行分词得到第二分词结果。

技术总结
本申请涉及一种文本大规模分类的方法和系统，其中，该方法包括：通过获取数据库中初始已分类文本的第一simhash值，计算出待分类文本的第二simhash值，并将两者进行比对，得到初始已分类文本与待分类文本的距离，从初始已分类文本的每种类别中分别选出距离最小的前预设数量的文本作为已分类文本，获取已分类文本的关键词及其词向量，获取待分类文本的第二分词结果，根据第二分词结果、关键词及其词向量，通过文本向量相似度算法计算已分类文本与待分类文本的相似度，完成文本分类，通过本申请，解决了文本大规模分类中数据长尾分布的问题，无需对数据的分布进行人工监督均衡，降低了文本大规模分类中数据处理的成本。本大规模分类中数据处理的成本。本大规模分类中数据处理的成本。

技术研发人员：沈伟杨红飞
受保护的技术使用者：杭州费尔斯通科技有限公司
技术研发日：2021.09.16
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于面部补丁映射的人脸图像真伪识别方法与流程

一种文本大规模分类的方法和系统与流程

相关文献

最热文献