一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本分类方法、装置、设备以及计算机可读存储介质与流程

2022-06-18 00:34:34 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种文本分类方法、装置、设备以及计算机可读存储介质。


背景技术:

2.企业的数据管理十分重要,一般中小型企业一个月的数据量都十分庞大,要对大量数据做管理,并且防止数据泄漏。文档分类是数据管理的基本方法,并且企业数据中最常见的为文本类型文档,因此对文档做好分类是数据治理的重要环节。涉密文档和高价值的文档,例如,人事简历、员工薪酬和公司年报等,需要严格的管理机制,对这类文档的有效梳理有助于提升数据治理水平。
3.现有的方案中,文档分类是通过人工手段对文本类型文档进行分类,由于数据多样性或者管理员水平等诸多限制问题,导致文本类型文档分类的效率低下。


技术实现要素:

4.本发明的主要目的在于提供一种文本分类方法、装置、设备以及计算机可读存储介质,旨在解决无法对文本类型文档进行有效分类的问题。
5.为实现上述目的,本发明提供的一种文本分类方法,所述文本分类方法包括以下步骤:
6.获取待分类文本,提取所述待分类文本中的至少一个关键词;
7.确定所述至少一个关键词的至少一个权重信息;
8.根据所述至少一个权重信息确定所述至少一个关键词的评分,根据所述至少一个关键词的评分确定所述待分类文本在多个类别中的每个类别的评分;
9.根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别。
10.在一实施例中,所述至少一个权重信息包括至少一个局部权重和至少一个全局权重,所述确定所述至少一个关键词的权重信息的步骤之前,还包括:
11.获取目标文本集中多个目标文本的多个关键词;
12.根据所述多个关键词在所述多个目标文本中的出现次数以及所述多个目标文本中的每个目标文本的类别确定所述多个关键词的多个全局权重;
13.根据所述多个关键词之间的关联度确定所述多个关键词的多个局部权重;
14.所述确定所述至少一个关键词的至少一个权重信息的步骤包括:
15.在所述多个全局权重和所述多个局部权重中查询所述至少一个权重信息。
16.在一实施例中,所述根据所述多个关键词在所述多个目标文本中的出现次数以及所述多个目标文本中的每个目标文本的类别确定所述多个关键词的多个全局权重的步骤包括:
17.根据所述多个目标文本的类别以及所述多个关键词在所述多个目标文本中的出
现次数确定所述多个关键词在所述每个类别中的出现次数;
18.根据所述多个目标文本的类别确定所述每个类别中出现同一关键词的文本数量;
19.根据所述多个关键词对应的所述出现次数以及所述文本数量确定所述多个关键词的所述多个全局权重。
20.在一实施例中,所述根据所述多个关键词之间的关联度确定所述多个关键词的多个局部权重的步骤还包括:
21.确定所述多个关键词之间的共现关系,根据所述共现关系生成所述多个关键词之间的关联度;
22.根据所述关联度确定所述多个关键词的所述多个局部权重。
23.在一实施例中,所述根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别的步骤之后,还包括:
24.若所述待分类文本为测试文本,则比对所述待分类文本的参考类别以及得到的所述待分类文本的类别;
25.若所述参考类别与所述待分类文本的类别不一致,则将测试文本添加至所述目标文本集,以更新所述目标文本集。
26.在一实施例中,所述比对所述待分类文本的参考类别以及得到的所述待分类文本的类别的步骤之后,还包括:
27.若所述参考类别与所述待分类文本的类别不一致,则将所述测试文本的至少一个关键词添加至关键词库中,其中,根据所述关键词库提取所述分类文本中的至少一个关键词。
28.在一实施例中,所述根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别的步骤包括:
29.将所述待分类文本在所述每个类别的评分进行归一化处理;
30.比对归一化处理后的所述每个类别的评分以及所述每个类别的参考评分;
31.根据所述归一化处理后的所述每个类别的评分大于所述参考评分的类别确定所述待分类文本的类别。
32.在一实施例中,所述根据所述归一化处理后的所述每个类别的评分大于所述参考评分的类别确定所述待分类文本的类别的步骤包括:
33.获取所述归一化处理后的所述每个类别的评分大于所述参考评分的类别作为目标类别;
34.比对所述待分类文本的关键词数量与所述目标类别对应的参考数量;
35.在所述关键词数量大于所述参考数量时,将所述目标类别作为所述待分类文本的类别。
36.在一实施例中,所述提取所述待分类文本中的至少一个关键词的步骤之前,还包括:
37.删除所述待分类文本中的预设的停用词和/或预设词性的分词。
38.为实现上述目的,本发明提供的一种文本分类装置,所述文本分类装置包括:
39.获取模块,用于获取待分类文本,提取所述待分类文本中的至少一个关键词;
40.确定模块,用于确定所述至少一个关键词的至少一个权重信息;
41.计算模块,用于根据所述至少一个权重信息确定所述至少一个关键词的评分,根据所述至少一个关键词的评分确定所述待分类文本在多个类别中的每个类别的评分;
42.分类模块,用于根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别。
43.为实现上述目的,本发明还提供一种文本分类设备,所述文本分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如上所述的文本分类方法的各个步骤。
44.为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上所述的文本分类方法的各个步骤。
45.本发明提供的文本分类方法、装置、设备以及计算机可读存储介质,获取待分类文本,提取待分类文本中的至少一个关键词;确定至少一个关键词的至少一个权重信息;根据至少一个权重信息确定至少一个关键词的评分,根据至少一个关键词的评分确定待分类文本在多个类别中的每个类别的评分;根据待分类文本在每个类别的评分从多个类别中确定待分类文本的类别。通过待分类文本的关键词以及对应的权重信息计算待分类文本的关键词的评分,根据评分在多个类别中确定待分类文本的类别,从而实现对待分类文本进行分类,在保证文本分类的准确性的同时,提高了文本分类的效率。
附图说明
46.图1为本发明实施例涉及的文本分类设备的硬件结构示意图;
47.图2为本发明文本分类方法的第一实施例的流程示意图;
48.图3为本发明文本分类方法的第二实施例的流程示意图;
49.图4为本发明文本分类方法的第三实施例的步骤s60的细化流程示意图;
50.图5为本发明文本分类方法的第四实施例的步骤s70的细化流程示意图;
51.图6为本发明文本分类方法的第五实施例的流程示意图;
52.图7为本发明文本分类方法的第六实施例的流程示意图;
53.图8为本发明文本分类方法的第七实施例的步骤s40的细化流程示意图;
54.图9为本发明文本分类方法的第八实施例的步骤s40的细化流程示意图;
55.图10为本发明实施例涉及的文本分类装置的结构示意图。
56.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
57.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
58.本发明实施例的主要解决方案是:获取待分类文本,提取待分类文本中的至少一个关键词;确定至少一个关键词的至少一个权重信息;根据至少一个权重信息确定至少一个关键词的评分,根据至少一个关键词的评分确定待分类文本在多个类别中的每个类别的评分;根据待分类文本在每个类别的评分从多个类别中确定待分类文本的类别。
59.通过待分类文本的关键词以及对应的权重信息计算待分类文本的关键词的评分,根据评分在多个类别中确定待分类文本的类别,从而实现对待分类文本进行分类,在保证
文本分类的准确性的同时,还提高了文本分类的效率。
60.作为一种实现方案,基于文本分类设备可以如图1所示。
61.本发明实施例方案涉及的是文本分类设备,文本分类设备包括:处理器101,例如cpu,存储器102,通信总线103。其中,通信总线103用于实现这些组件之间的连接通信。
62.存储器102可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。如图1所示,作为一种计算机可读存储介质的存储器102中可以包括文本分类程序;而处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
63.获取待分类文本,提取所述待分类文本中的至少一个关键词;
64.确定所述至少一个关键词的至少一个权重信息;
65.根据所述至少一个权重信息确定所述至少一个关键词的评分,根据所述至少一个关键词的评分确定所述待分类文本在多个类别中的每个类别的评分;
66.根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别。
67.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
68.获取目标文本集中多个目标文本的多个关键词;
69.根据所述多个关键词在所述多个目标文本中的出现次数以及所述多个目标文本中的每个目标文本的类别确定所述多个关键词的多个全局权重;
70.根据所述多个关键词之间的关联度确定所述多个关键词的多个局部权重;
71.所述确定所述至少一个关键词的至少一个权重信息的步骤包括:
72.在所述多个全局权重和所述多个局部权重中查询所述至少一个权重信息。
73.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
74.根据所述多个目标文本的类别以及所述多个关键词在所述多个目标文本中的出现次数确定所述多个关键词在所述每个类别中的出现次数;
75.根据所述多个目标文本的类别确定所述每个类别中出现同一关键词的文本数量;
76.根据所述多个关键词对应的所述出现次数以及所述文本数量确定所述多个关键词的所述多个全局权重。
77.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
78.确定所述多个关键词之间的共现关系,根据所述共现关系生成所述多个关键词之间的关联度;
79.根据所述关联度确定所述多个关键词的所述多个局部权重。
80.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
81.若所述待分类文本为测试文本,则比对所述待分类文本的参考类别以及得到的所述待分类文本的类别;
82.若所述参考类别与所述待分类文本的类别不一致,则将测试文本添加至所述目标
文本集,以更新所述目标文本集。
83.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
84.若所述参考类别与所述待分类文本的类别不一致,则将所述测试文本的至少一个关键词添加至关键词库中,其中,根据所述关键词库提取所述分类文本中的至少一个关键词。
85.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
86.将所述待分类文本在所述每个类别的评分进行归一化处理;
87.比对归一化处理后的所述每个类别的评分以及所述每个类别的参考评分;
88.根据所述归一化处理后的所述每个类别的评分大于所述参考评分的类别确定所述待分类文本的类别。
89.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
90.获取所述归一化处理后的所述每个类别的评分大于所述参考评分的类别作为目标类别;
91.比对所述待分类文本的关键词数量与所述目标类别对应的参考数量;
92.在所述关键词数量大于所述参考数量时,将所述目标类别作为所述待分类文本的类别。
93.在一实施例中,处理器101可以用于调用存储器102中存储的文本分类程序,并执行以下操作:
94.删除所述待分类文本中的预设的停用词和/或预设词性的分词。
95.基于上述文本分类装置的硬件构架,提出本发明文本分类方法的实施例。
96.参照图2,图2为本发明文本分类方法的第一实施例,所述文本分类方法包括以下步骤:
97.步骤s10:获取待分类文本,提取所述待分类文本中的至少一个关键词。
98.具体的,待分类文本是需要进行分类的文档,即需要在预设类别中确定待分类文本的类别,这里预设类别是文本的类别,不同的类别预先设置有代表每一个类别的关键词,示例性的,类别为“体育”,对应的关键词为比赛、羽毛球、比分等;类别为“艺术”,对应的关键词为歌唱、绘画、舞蹈等。
99.提取待分类文本中与预先设置的关键词相同的关键词,例如,从待分类文本中提取到歌唱、舞蹈、比赛的三个关键词,但是这三个关键词对应两种类别,这时需要对每个关键词的权重进行计算,当关键词的权重越大,表示待分类文本属于该关键词对应的类别的可能性越大。
100.步骤s20:确定所述至少一个关键词的至少一个权重信息。
101.具体的,权重信息表示关键词与类别的关联程度,每个关键词可以对应不同的权重信息,待分类文本的关键词可以对应不同的类别,示例性的,待分类文本中提取到比赛和舞蹈的两个关键词,比赛属于体育这一类别,对应的权重信息为60%;舞蹈属于艺术这一类别,对应的权重信息为30%。
102.步骤s30:根据所述至少一个权重信息确定所述至少一个关键词的评分,根据所述至少一个关键词的评分确定所述待分类文本在多个类别中的每个类别的评分。
103.具体的,根据每个关键词的权重信息确定每个关键词在多个类别的评分,根据待分类文本中的每个关键词的评分,可以确定待分类文本在每个类别的评分。可以由如下公式表示:
[0104][0105]
其中,final_scorek表示待分类文本在第k类类别的评分,recormmeded_score
ik
为第i个关键词在第k类类别的评分,ci为第i个关键词的词频,词频用于表示关键词在待分类文本中的重复程度。
[0106]
步骤s40:根据所述待分类文本在所述每个类别的评分从所述多个类别中确定待分类文本的类别。
[0107]
具体的,确定待分类文本在每个类别的评分之后,若评分满足某一类别的预设分数,则待分类文本属于该类别。可以根据在各个类别的评分的分数进行排序,待分类文本属于评分最高的类别。也可以结合关键词的数目综合对待分类文本的类别进行判断。
[0108]
在本实施例的技术方案中,通过待分类文本的关键词以及对应的权重信息计算待分类文本的关键词的评分,根据评分在各个类别中确定待分类文本的类别,从而实现对待分类文本进行分类,在保证文本分类的准确性的同时,还提高了文本分类的效率。
[0109]
参照图3,图3为本发明文本分类方法的第二实施例,基于文本分类方法的第一实施例,所述步骤s20之前,还包括:
[0110]
步骤s50:获取目标文本集中多个目标文本中的多个关键词;
[0111]
步骤s60:根据所述多个关键词在所述多个目标文本中的出现次数以及所述多个目标文本中每个目标文本的类别确定所述多个关键词的多个全局权重;
[0112]
步骤s70:根据所述多个关键词之间的关联度确定所述多个关键词的多个局部权重;
[0113]
所述步骤s20包括:
[0114]
步骤s21:在所述多个全局权重和所述多个局部权重中查询所述至少一个权重信息。
[0115]
具体的,目标文本是已经明确对应的类别的文本。目标文本集包括多个目标文本,目标文本集可以对应一个类别;目标文本集可以对应多个不同的类别。示例性的,目标文本集可以对应“军事”,“体育”,“政治”,“娱乐”四个类别,每个类别有相应的目标文本,目标文本集中有40000个目标文本,其中,“军事”为10000个目标文本,“体育”为10000个目标文本,“政治”为10000个目标文本,“娱乐”为10000个目标文本。
[0116]
在计算目标文本的全局权重和局部权重之前,可以对目标文本集进行分词,删除预设词性的分词,例如副词或者介词等。也可以删除预设的停用词,停用词为人工输入、非自动化生成的词语,生成后的停用词可以形成一个停用词表。删除待分类文本中的预设词性的分词和/或预设的停用词,节省了存储空间以及提高了关键词生成效率。
[0117]
计算关键词的全局权重和局部权重作为权重信息,全局权重可以表示关键词在全部类别中的重要程度,可以排除各类高频词汇的干扰;局部权重可以衡量在同一个类别中
关键词的重要程度。可以根据全局权重和局部权重来计算权重信息,可以用公式表达为:
[0118]
recormmeded_score
ik
=weight_g
ik
×
alpha_g weight_l
ik
×
(1-alpha_g)
[0119]
其中,recormmeded_score
ik
为目标文本的第i个关键词在第k类类别的评分,weight_g
ik
为目标文本的第i个关键词在第k类类别的全局权重,alpha_g为全局权重所占比例,weight_l
ik
为目标文本的第i个关键词在第k类类别的局部权重。alpha_g取值为1时,权重信息为全局权重,alpha_g取值为0时,权重信息为局部权重。
[0120]
可以根据权重信息对关键词进行筛选,保留评分大于预设分数的关键词,并将筛选后的关键词与对应的权重信息保存起来,筛选后的关键词用于表示对应的类别。
[0121]
关联保存关键词与对应的权重信息之后,在确定待分类文本的关键词的权重信息时,获取存储的每个关键词关联的权重信息。
[0122]
在本实施例的技术方案中,通过对全局权重和局部权重的计算,得到关键词的权重信息。可以直接根据关键词以及对应的权重信息,对待分类文本进行分类,不需要对待分类文本提取分词,对分词是否为关键词进行判断,也不需要重新计算关键词的权重信息,从而提高文本分类的效率。
[0123]
参照图4,图4为本发明文本分类方法的第三实施例,基于文本分类方法的第二实施例,所述步骤s60包括:
[0124]
步骤s61:根据所述多个目标文本的类别以及所述多个关键词在所述多个目标文本中的出现次数确定所述多个关键词在所述每个类别中的出现次数;
[0125]
步骤s62:根据所述多个目标文本的类别确定所述每个类别中出现同一关键词的文本数量;
[0126]
步骤s63:根据所述多个关键词对应的所述出现次数以及所述文本数量确定所述多个关键词的所述多个全局权重。
[0127]
具体的,根据每个所述关键词对应的所述出现次数以及文本数量确定每个所述关键词的所述全局权重,关键词在一个类别中出现的数目越多且在其他类别中出现的数目越少,该关键词的权值越大,越能表征该类别。同时该关键词在一个类别中出现的文档数目越多,在其他类别中出现的文档数目越少,该关键词的权值越大,越能表征该类别。由关键词的出现次数以及出现数量综合确定该关键词的全局权重。
[0128]
在本实施例的技术方案中,提出了根据关键词在多个类别的出现次数和文本数量,来计算关键词的全局权重的方法,计算了各个关键词的多个全局权重,得到关键词与所有类别的关联程度,排除各类高频词汇的干扰。
[0129]
参照图5,图5为本发明文本分类方法的第四实施例,基于文本分类方法的第二或第三中任一实施例,所述步骤s70包括:
[0130]
步骤s71:确定所述多个关键词之间的共现关系,根据所述共现关系生成所述多个关键词之间的关联度;
[0131]
步骤s72:根据所述关联度确定所述多个关键词的所述多个局部权重。
[0132]
具体的,共现关系是以目标文本为单位,统计两个关键词在不同目标文本的预设段落同时出现的出现次数,并把出现次数转换为二维矩阵。根据该二维矩阵确定关系图的边的权值,示例性的,现有三个段落的分词结果如下:a、b和c,b、a和f,a、d和c,ab共现2次,ac共现2次,则a与b之间边的权值为2,a和c之间边的权值为2。根据该权值和预设的窗口宽
度,迭代各个关键词的权值直至收敛,可以确定多个关键词的多个局部权重。
[0133]
在本实施例的技术方案中,提出了根据关键词之间的共现关系来确定关键词之间的关联度,根据关联度可以确定局部权重,从另一个角度准确计算了关键词与类别的关联程度。
[0134]
参照图6,图6为本发明文本分类方法的第五实施例,基于文本分类方法的第一至第四任一实施例,所述步骤s40之后,还包括:
[0135]
步骤s80:若所述待分类文本为测试文本,则比对所述待分类文本的参考类别以及得到的所述待分类文本的类别;
[0136]
步骤s90:若所述参考类别与所述待分类文本的类别不一致,则将测试文本添加至所述目标文本集,以更新所述目标文本集。
[0137]
具体的,测试文本是已有明确的类别的文档,因此当待分类文本为测试文本时,待分类文本有对应的参考类别,这里的参考类别是测试文本预先标注的测试文本的类别,对待分类文本进行分析和计算得到类别,当得到的待分类文本的类别和参考类别一致时,可以结束对待分类文本的测试。当得到的待分类文本的类别与参考类别不一致时,将测试文本添加至所述目标文本集,更新所述目标文本集,之后执行获取目标文本集中多个目标文本的多个关键词的步骤,重新对多个类别的多个关键词进行提取,以及进行多个关键词的权重信息的计算。
[0138]
在本实施例的技术方案中,通过测试文本对根据预设的关键词和权重信息生成的类别进行判断,若得出类别与参考类别不一致,则根据测试文本和原来的目标文本集对关键词和权重信息进行重新计算,重新计算出的关键词和权重信息使得得出的待分类文本的类别与参考类别一致,使得文本分类的结果更加准确。
[0139]
参照图7,图7为本发明文本分类方法的第六实施例,基于文本分类方法的第五实施例,所述步骤s80之后,还包括:
[0140]
步骤s100:若所述参考类别与所述待分类文本的类别不一致,则将所述测试文本的至少一个关键词添加至关键词库中,其中,根据所述关键词库提取所述分类文本中的至少一个关键词。
[0141]
具体的,在参考类别与待分类文本的类别不一致时,可以直接将测试文本的关键词添加至目标文本集的关键词库中,根据每个关键词在目标文本中的出现次数以及目标文本的类别确定每个关键词的全局权重,之后根据多个关键词之间的关联度确定多个关键词的多个局部权重,从而重新确定关键词对应的权重信息。
[0142]
在本实施例的技术方案中,通过将测试文本的关键词添加至目标文本集对应的关键词库,重新计算了各个关键词的权重信息,使得测试文本的类别与参考类别一致,提高了文本分类的准确性。
[0143]
参照图8,图8为本发明文本分类方法的第七实施例,基于文本分类方法的第一至第六中任一实施例,所述步骤s40包括:
[0144]
步骤s41:将所述待分类文本在所述每个类别的评分进行归一化处理;
[0145]
步骤s42:比对归一化处理后的所述每个类别的评分以及所述每个类别的参考评分;
[0146]
步骤s43:根据所述归一化处理后的所述每个类别的评分大于所述参考评分的类
别确定所述待分类文本的类别。
[0147]
具体的,根据关键词的评分确定待分类文本在每个类别的评分可以由如下公式表示:
[0148][0149]
其中,final_scorek为待分类文本在第k个类别的评分,recormmeded_score
ik
为待分类文本中第i个关键词在第k个类别的评分,ci为待分类文本中第i个关键词的词频。
[0150]
可以将待分类文本在每个类别的评分进行归一化处理,将评分限制在一定范围内,可以由如下公式表示:
[0151][0152]
其中,final_scorek为待分类文本在第k个类别的评分,final_scorek为待分类文本在第k个类别的评分,final_scoren为待分类文本在第n个类别的评分,n=1,...,m。
[0153]
根据归一化处理后的每个类别的评分大于参考评分的类别,确定待分类文本的类别。还可以结合最高的评分所对应的类别,综合确定待分类文本的类别。
[0154]
在本实施例的技术方案中,通过对待分类文本的评分进行归一化处理,便于对评分进行比较,根据归一化处理后的评分对待分类文本进行判别,得出待分类文本对应的类别。
[0155]
参照图9,图9为本发明文本分类方法的第八实施例,基于文本分类方法的第一至第七中任一实施例,所述步骤s40包括:
[0156]
步骤s44:获取所述归一化处理后的所述每个类别的评分大于所述参考评分的类别作为目标类别;
[0157]
步骤s45:比对所述待分类文本的关键词数量与所述目标类别对应的参考数量;
[0158]
步骤s46:在所述关键词数量大于所述参考数量时,将所述目标类别作为所述待分类文本的类别。
[0159]
具体的,将归一化处理后的每个类别的评分大于参考评分,确定参考评分对应的类别作为目标类别,综合比对待分类文本的关键词数量与目标类别对应的参考数量;若关键词数量大于参考数量,则将目标类别作为待分类文本的类别。
[0160]
在本实施例的技术方案中,通过对待分类文本的评分进行归一化处理,根据归一化处理后的评分对待分类文本进行判别,还结合待分类文本中命中关键词的数目,综合得出待分类文本对应的类别,使得分类结果更加准确。
[0161]
参照图10,本发明还提供一种文本分类装置,所述文本分类装置包括:
[0162]
获取模块100,用于获取待分类文本,提取所述待分类文本中的至少一个关键词;
[0163]
确定模块200,用于确定所述至少一个关键词的至少一个权重信息;
[0164]
计算模块300,用于根据所述至少一个权重信息确定所述至少一个关键词的评分,根据所述至少一个关键词的评分确定所述待分类文本在多个类别中的每个类别的评分;
[0165]
分类模块400,用于根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别。
[0166]
本发明还提供一种文本分类设备,所述文本分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如上实施例所述的文本分类方法的各个步骤。
[0167]
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上实施例所述的文本分类方法的各个步骤。
[0168]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0169]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0170]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0171]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献