一种基于KNN的文本分类方法、装置、电子设备和介质与流程

2022-11-16 13:32:13 来源：中国专利 TAG：

一种基于knn的文本分类方法、装置、电子设备和介质
技术领域
1.本技术涉及文本分类的技术领域，尤其是涉及一种基于knn的文本分类方法、装置、电子设备和介质。

背景技术：

2.文本分类是指按照预先定义的主题类别，根据信息内容将不同的信息划分到与其相关的类别中，有助于信息检索和分析，方便用户快速、准确地定位所需要的信息。
3.knn算法是最早应用于自动文本分类的机器学习算法之一，根据待分类文本提取多个待分类数据，当对每个待分类数据分类时，计算每个样本与待分类数据之间的距离，并对距离排序，取距离最近的前k个样本，统计前k个样本的类别，统计得到最多的类别为待分类数据的类别，汇总多个待分类数据的类别，进而得到待分类文本的类别。
4.但是当前k个样本中最多的类别有两个以上时，则难以确定待分类数据的类别，对每个待分类数据分类时的效率降低，进而降低对待分类文本分类的效率。

技术实现要素：

5.为了提高文本分类的效率，本技术提供一种基于knn的文本分类方法、装置、电子设备和介质。
6.第一方面，本技术提供一种基于knn的文本分类方法，采用如下的技术方案：获取待分类文本信息；基于所述待分类文本信息提取至少一个文本特征值，基于每个所述文本特征值确定在散点图中对应的文本点，所述散点图包括与各个类别的预存文本特征值对应的样本点，确定各个样本点与每个所述文本点的距离，确定距离每个所述文本点最近的k个样本点；分别确定所述距离每个所述文本点最近的k个样本点的类别以及各个类别的样本点的个数，基于所述各个类别的样本点的个数确定每个文本特征值的候选类别，所述候选类别包括个数最多的样本点的类别；判断所述每个文本特征值的候选类别是否为一个，若是，则确定文本特征值的类别与所述文本特征值的候选类别一致；否则，基于每个所述文本特征值的候选类别对应的各个样本点与文本点的距离，确定各个所述文本特征值的候选类别对应的各个样本点与所述文本点的距离总均值，确定所述文本特征值的类别与所述距离总均值最小的所述文本特征值的候选类别一致；基于各个所述文本特征值的类别确定所述待分类文本信息的类别。
7.通过采用上述技术方案，电子设备获取待分类文本信息后，提取待分类文本信息的文本特征值，并确定文本特征值在散点图中对应的文本点，进而确定各个样本点距离文本点的距离，获取距离文本点最近的k个样本点，进而根据k各样本点中个数最多的类别确定文本特征值的候选类别，当候选类别只有一个时，电子设备则将个数最多的候选类别确
定为的文本点的类别；当候选类别包括至少两个时，电子设备计算文本特征值的候选类别对应的样本点与文本点的距离总均值，电子设备将距离总均值最小的文本特征值的候选类别确定为文本点的类别，最后将各个文本特征值的类别均确定为待分类文本信息的类别，提高每个待分类数据的分类精度，提高文本分类效率。
8.在另一种可能的实现方式中，所述待分类文本信息包括标题信息和正文信息，所述文本特征值包括标题特征值和正文特征值，则基于所述待分类文本信息提取至少一个文本特征值，基于每个所述文本特征值确定在散点图中对应的文本点，所述散点图包括与各个类别的预存文本特征值对应的样本点，确定各个样本点与每个所述文本点的距离，确定距离每个所述文本点最近的k个样本点，包括：基于所述标题信息提取至少一个标题特征值；基于每个所述标题特征值确定在散点图中对应的至少一个第一文本点，分别确定距离每个所述第一文本点最近的k个样本点；当所述k个样本点与所述第一文本点的距离均大于预设距离值时，则获取所述正文信息中的关键词信息；基于所述关键词信息提取至少一个正文特征值；基于每个所述正文文本特征值确定在散点图中对应的第二文本点，分别确定距离每个所述第二文本点最近的k个样本点。
9.通过采用上述技术方案，电子设备在确定距离文本特征值对应的文本点最近的k个样本点时，首先获取标题特征值，针对标特特征值确定第一文本点，进而获取距离第一文本点最近的k个样本点，若k个样本点与第一文本点的距离均大于预设距离值，电子设备则获取正文特征值，针对正文特征值确定第二文本点，进而获取距离第二文本点最近的k个样本点。电子设备首先根据标题信息进行文本分类，计算量相对较小，提高分类效率，而在确定k个样本点与第一文本点的距离均大于预设距离值时，确定通过标题分类精度可能会降低，进而通过正文信息进行文本分类，提高分类精度。
10.进一步地，所述获取正文信息中的关键词信息，包括：基于词库对所述正文信息进行预处理，确定候选关键词信息，所述预处理包括对所述正文信息依次进行分词处理以及词性过滤处理，经过词性过滤处理后的关键词信息的词性包括动词和名词中至少一项；确定每个所述候选关键词信息的词频以及每个所述候选关键词信息在所述正文信息中的位置信息；基于所述候选关键词信息的词频、所述候选关键词的位置信息以及分词在正文信息的各个位置的权重信息，确定所述候选关键词信息的重要度信息；基于所述候选关键词信息的重要度信息确定降序排列的第一序列信息，所述第一序列信息包括所述候选关键词信息以及所述候选关键词信息对应的重要度信息；基于所述第一序列信息确定关键词信息，包括以下任意一种：若所述候选关键词信息的数量小于预设数量值，则基于所述候选关键词信息的数量以及预设取词比例确定预设取词数量，基于所述第一序列信息获取所述预设取词数量的所述候选关键词信息为关键词信息；若所述候选关键词信息的数量等于或大于预设数量值，则基于所述第一序列获取
预设取词数量的所述候选关键词信息为关键词信息。
11.通过采用上述技术方案，当电子设备获取正文信息中的关键词信息时，首先对正文信息进行预处理，得到候选关键词信息，进而根据候选关键词信息的词频、位置信息以及分词在正文信息的各个位置的权重信息，计算得到每个候选关键词信息的重要度信息。电子设备根据每个候选关键词的重要度信息进一步对各个候选关键词进行排序，获得第一序列信息，并且当候选关键词的数量小于预设数量值时，电子设备根据候选关键词的数量和取词比例，根据第一序列信息中确定预设取词数量的关键词信息；当候选关键词的数量等于或大于预设数量值时，电子设备直接根据第一序列信息确定获取预设取词数量的关键词信息。电子设备通过获取关键词重要度的方式，筛选出最能代表待分类文本信息主题的文本特征值，进而利于提高文本分类精度。
12.在另一种可能的实现方式中，所述距离总均值最小的所述文本特征值的候选类别有至少两种，所述确定所述文本特征值的类别与所述距离总均值最小的所述文本特征值的候选类别一致，包括：确定待定类别，所述待定类别包括距离总均值最小的所述文本特征值的候选类别；基于各个所述样本点与所述文本点的距离按照递增顺序排列，获得第二序列信息；循环执行基于所述第二序列信息获取与每个所述待定类别对应的增补样本点，所述增补样本点是距离上次从所述第二序列信息中获取的样本点或增补样本点最近的，基于每个所述待定类别对应的各个样本点以及增补样本点分别与所述文本点的距离，确定每个所述待定类别对应的距离总均值，基于各个所述待定类别对应的距离总均值确定待定类别，判断所述待定类别的数量是否为一的步骤，直到所述待定类别的数量等于一；确定所述文本特征值的类别与所述待定类别一致。
13.通过采用上述技术方案，当距离总均值最小的文本特征值的候选类别有至少两种时，电子设备需要进一步确定唯一的文本特征值的候选类别，首先将距离总均值最小的文本特征值的候选类别均最为待定类别，在获得第二序列信息后，按照第二序列信息的顺序，获取与每个待定类别对应的增补样本点，并根据每个待定类别对应的样本点和增补样本点分别与文本点的距离计算待定类别对应的距离总均值，若确定出最大的待定类别对应的距离总均值，进而筛选出唯一的待定类别，电子设备即确定文本特征值的类别与待定类别一致，若仍然未确定出最大的待定类别对应的距离总均值，则接着从第二序列信息获取下一个增补样本点，继续计算新的待定类别对应的距离总均值，直至确定文本特征值的类别。提高了文本特征值分类精度。
14.在另一种可能的实现方式中，若所述距离总均值最小的样本点的类别包括至少两种，所述确定所述文本特征值的类别与所述距离总均值最小的所述文本特征值的候选类别一致方法，包括：确定待定类别，所述待定类别包括距离总均值最小的样本点的类别；获取每个所述待定类别包括的各个样本点的坐标；基于各个样本点的坐标确定每个所述待定类别的聚类中心点的坐标，所述聚类中心点的坐标为各个样本点的坐标和均值；
基于每个所述聚类中心点的坐标确定每个所述聚类中心点与所述文本点的距离；确定所述文本特征值的类别与距离所述文本点最近的所述聚类中心点的待定类别一致。
15.通过采用上述技术方案，当距离总均值最小的文本特征值的候选类别有至少两种时，电子设备需要进一步确定唯一的文本特征值的候选类别，首先将距离总均值最小的文本特征值的候选类别均最为待定类别，然后根据每个待定类别包括的样本点的坐标计算得到每个待定类别的聚类中心点的坐标，进而得到每个待定类别对应的距离中心点与文本点的距离，电子设备可以根据待定类别对应的距离中心点与文本点的距离确定距离文本点最接近的待定类别，提高了分类精度。
16.在另一种可能的实现方式中，所述文本特征值的类别包括至少两个，则所述基于各个所述文本特征值的类别确定所述待分类文本信息的类别，包括：分别获取各个类别的文本特征值的个数；基于所述各个类别的文本特征值的个数确定待分类文本信息的主类别和标签类别，所述主类别的文本特征值的个数最多，所述标签类别的文本特征值的个数均小于所述主类别的文本特征值的个数。
17.通过采用上述技术方案，当文本特征值的类别包括多个时，电子设备根据各个文本特征值的个数确定待分类文本信息的主类别和标签类别，更加直观明确的区分出待分类文本信息的类别，可以区分出待分类文本信息的类别与主类别最相似，而与标签类别相似度较低。因此，主类别和标签类别都可以作为待分类文本信息分类的类别，提高文本分类的准确度。
18.进一步地，若所述文本特征值个数最多的类别包括至少两个，所述基于所述各个类别的文本特征值的个数确定待分类文本信息的主类别和标签类别，包括：确定文本特征值个数最多的类别对应的各个分词的重要度信息，所述分词的重要度信息包括所述分词在所述待分类文本信息中的词频、所述分词的在所述待分类文本信息中的位置信息以及每个所述分词在所述位置信息的权重信息的乘积；基于所述各个分词的重要度信息，确定每个所述文本特征值个数最多的类别对应的分词的重要度信息的均值；确定所述重要度信息的均值最大的所述文本特征值个数最多的类别为待分类文本的主类别，确定其他所述文本特征值个数最多的类别为待分类文本的标签类别。
19.通过采用上述技术方案，当电子设备在确定待分类文本信息的主类别和标签类别时，若文本特征值个数最多的类别包括至少两个，电子设备则确定文本特征值个数最多的类别对应的各个分词的重要度信息，并计算文本特征值个数最多的类别对应的分词的重要度信息的均值，比较各个重要度信息的均值，进而确定重要度信息的均值最大的文本特征值个数最多的类别为待分类文本的主类别，进而确定待分类文本信息的主类别和标签类别，提高文本分类精度。
20.第二方面，本技术实施例提供一种基于knn的文本分类装置，包括：获取模块，用于获取待分类文本信息；第一确定模块，用于基于所述待分类文本信息提取至少一个文本特征值，基于每个所述文本特征值确定在散点图中对应的文本点，所述散点图包括与各个类别的预存文本
特征值对应的样本点，确定各个样本点与每个所述文本点的距离，确定距离每个所述文本点最近的k个样本点；第二确定模块，用于分别确定所述距离每个所述文本点最近的k个样本点的类别以及各个类别的样本点的个数，基于所述各个类别的样本点的个数确定每个文本特征值的候选类别，所述候选类别包括个数最多的样本点的类别；判断模块，用于判断所述每个文本特征值的候选类别是否为一个；第三确定模块，用于判断确定所述文本特征值的候选类别为一个时，确定文本特征值的类别与所述文本特征值的候选类别一致；第四确定模块，用于判断确定所述文本特征值的候选类别为至少两个时，基于每个所述文本特征值的候选类别对应的各个样本点与文本点的距离，确定各个所述文本特征值的候选类别对应的各个样本点与所述文本点的距离总均值，确定所述文本特征值的类别与所述距离总均值最小的所述文本特征值的候选类别一致；类别确定模块，用于基于各个文本特征值的类别确定所述待分类文本信息的类别。
21.通过采用上述技术方案，获取模块获取待分类文本信息后，提取待分类文本信息的文本特征值，通过第一确定模块确定文本特征值在散点图中对应的文本点，进而确定各个样本点距离文本点的距离，获取距离文本点最近的k个样本点，第二确定模块根据k各样本点中个数最多的类别确定文本特征值的候选类别，当判断模块判断候选类别只有一个时，第三确定模块则将个数最多的候选类别确定为的文本点的类别；当判断模块判断候选类别包括至少两个时，第三确定模块计算文本特征值的候选类别对应的样本点与文本点的距离总均值，电子设备将距离总均值最小的文本特征值的候选类别确定为文本点的类别，最后将各个文本特征值的类别均确定为待分类文本信息的类别，提高每个待分类数据的分类精度，提高文本分类效率。
22.在另一种可能的实现方式中，所述待分类文本信息包括标题信息和正文信息，所述文本特征值包括标题特征值和正文特征值，则第一确定模块，具体用于：基于所述标题信息提取至少一个标题特征值；基于每个所述标题特征值确定在散点图中对应的至少一个第一文本点，分别确定距离每个所述第一文本点最近的k个样本点；当所述k个样本点与所述第一文本点的距离均大于预设距离值时，则获取所述正文信息中的关键词信息；基于所述关键词信息提取至少一个正文特征值；基于每个所述正文文本特征值确定在散点图中对应的第二文本点，分别确定距离每个所述第二文本点最近的k个样本点。
23.在另一种可能的实现方式中，第二确定模块在获取正文信息中的关键词信息时，具体用于：基于词库对所述正文信息进行预处理，确定候选关键词信息，所述预处理包括对所述正文信息依次进行分词处理以及词性过滤处理，经过词性过滤处理后的关键词信息的词性包括动词和名词中至少一项；确定每个所述候选关键词信息的词频以及每个所述候选关键词信息在所述正文
信息中的位置信息；基于每个所述候选关键词信息的词频、所述位置信息以及每个所述候选关键词信息在所述位置信息的权重信息，确定每个所述候选关键词信息的重要度信息；基于各个所述候选关键词信息的重要度信息确定降序排列的第一序列信息，所述第一序列信息包括各个所述候选关键词信息以及各个所述候选关键词信息对应的重要度信息；基于所述第一序列信息确定关键词信息，包括以下任意一种：若所述候选关键词信息的数量小于预设数量值，则基于所述候选关键词信息的数量以及预设取词比例确定预设取词数量，基于所述第一序列信息获取所述预设取词数量的所述候选关键词信息为关键词信息；若所述候选关键词信息的数量等于或大于预设数量值，则基于所述第一序列获取预设取词数量的所述候选关键词信息为关键词信息。
24.在另一种可能的实现方式中，距离总均值最小的文本特征值的候选类别有至少两种，装置还包括：待定类别初步确定模块：用于确定待定类别，所述待定类别包括距离总均值最小的所述文本特征值的候选类别；排序模块，用于基于各个所述样本点与所述文本点的距离按照递增顺序排列，获得第二序列信息；循环执行模块，用于循环执行基于所述第二序列信息获取与每个所述待定类别对应的增补样本点，所述增补样本点是距离上次从所述第二序列信息中获取的样本点或增补样本点最近的，基于每个所述待定类别对应的各个样本点以及增补样本点分别与所述文本点的距离，确定每个所述待定类别对应的距离总均值，基于各个所述待定类别对应的距离总均值确定待定类别，判断所述待定类别的数量是否为一的步骤，直到所述待定类别的数量等于一；待定类别最终确定模块，用于确定所述待分类文本信息的类别与所述待定类别一致。
25.在另一种可能的实现方式中，距离总均值最小的样本点的类别包括至少两种，该装置还包括：待定类别初步确定模块，用于确定待定类别，所述待定类别包括距离总均值最小的样本点的类别；坐标获取模块，用于获取每个所述待定类别包括的各个样本点的坐标；聚类中心点确定模块，用于基于各个样本点的坐标确定每个所述待定类别的聚类中心点的坐标，所述聚类中心点的坐标为各个样本点的坐标和均值；距离确定模块，用于基于每个所述聚类中心点的坐标确定每个所述聚类中心点与所述文本点的距离；待定类别最终确定模块，用于基于距离所述文本点最近的所述聚类中心点的待定类别确定所述文本点的类别。
26.在另一种可能的实现方式中，文本特征值的类别包括至少两个，则类别确定模块，具体用于：
分别获取各个类别的文本特征值的个数；基于所述各个类别的文本特征值的个数确定待分类文本的主类别和标签类别，所述主类别的文本特征值的个数最多，所述标签类别的文本特征值的个数均小于所述主类别的文本特征值的个数。
27.在另一种可能的实现方式中，文本特征值个数最多的类别包括至少两个，则类别确定模块在基于所述各个类别的文本特征值的个数确定待分类文本的主类别和标签类别时，具体用于：确定文本特征值个数最多的类别对应的各个分词的重要度信息，所述分词的重要度信息包括所述分词在所述待分类文本信息中的词频、所述分词的在所述待分类文本信息中的位置信息以及每个所述分词在所述位置信息的权重信息的乘积；基于所述各个分词的重要度信息，确定每个所述文本特征值个数最多的类别对应的分词的重要度信息的均值；确定所述重要度信息的均值最大的所述文本特征值个数最多的类别为待分类文本的主类别，确定其他所述文本特征值个数最多的类别为待分类文本的标签类别。
28.第三方面，本技术实施例提供一种电子设备，包括存储器和处理器，所述存储器上存储有能被处理器加载并执行如第一方面中任一种方法的计算机程序。
29.通过采用上述技术方案，电子设备获取待分类文本信息后，处理器加载并执行存储器中的计算机程序，提取待分类文本信息的文本特征值，并确定文本特征值在散点图中对应的文本点，进而确定各个样本点距离文本点的距离，获取距离文本点最近的k个样本点，进而根据k各样本点中个数最多的类别确定文本特征值的候选类别，当候选类别只有一个时，处理器则将个数最多的候选类别确定为的文本点的类别；当候选类别包括至少两个时，处理器计算文本特征值的候选类别对应的样本点与文本点的距离总均值，处理器将距离总均值最小的文本特征值的候选类别确定为文本点的类别，最后将各个文本特征值的类别均确定为待分类文本信息的类别，提高每个待分类数据的分类精度，提高文本分类效率。
30.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一项所述的一种基于knn的文本分类方法。
31.通过采用上述技术方案，处理器执行可读存储介质中存储的计算机程序，获取待分类文本信息后，提取待分类文本信息的文本特征值，并确定文本特征值在散点图中对应的文本点，进而确定各个样本点距离文本点的距离，获取距离文本点最近的k个样本点，进而根据k各样本点中个数最多的类别确定文本特征值的候选类别，当候选类别只有一个时，处理器则将个数最多的候选类别确定为的文本点的类别；当候选类别包括至少两个时，处理器计算文本特征值的候选类别对应的样本点与文本点的距离总均值，处理器将距离总均值最小的文本特征值的候选类别确定为文本点的类别，最后将各个文本特征值的类别均确定为待分类文本信息的类别，提高每个待分类数据的分类精度，提高文本分类效率。
32.综上所述，本技术包括以下至少一种有益技术效果：1.电子设备在确定文本特征值的候选类别时，当候选类别只有一个时，电子设备则将个数最多的候选类别确定为的文本点的类别；当候选类别包括至少两个时，电子设备计算文本特征值的候选类别对应的样本点与文本点的距离总均值，电子设备将距离总均值最小的文本特征值的候选类别确定为文本点的类别，最后将各个文本特征值的类别均确定
为待分类文本信息的类别，提高每个待分类数据的分类精度，提高文本分类效率；2.电子设备首先根据标题信息进行文本分类，计算量相对较小，提高分类效率，而在确定k个样本点与第一文本点的距离均大于预设距离值时，确定通过标题分类精度可能会降低，进而通过正文信息进行文本分类，提高分类精度；3.当文本特征值的类别包括多个时，电子设备根据各个文本特征值的个数确定待分类文本信息的主类别和标签类别，更加直观明确的区分出待分类文本信息的类别。
附图说明
33.图1是本技术实施例中基于knn的文本分类方法的流程示意图。
34.图2是本技术实施例中基于knn的文本分类装置的结构示意图。
35.图3是本技术实施例中电子设备的示意图。
具体实施方式
36.本具体实施例仅仅是对本技术的解释，其并不是对本技术的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本技术的权利要求范围内都受到专利法的保护。
37.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
38.另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。
39.下面结合说明书附图对本技术实施例作进一步详细描述。
40.本技术实施例提供一种基于knn的文本分类方法，参照图1，该方法可以由电子设备执行，方法的主要流程描述如下，包括（步骤s101～步骤s107）：步骤s101：获取待分类文本信息。
41.具体地，待分类文本信息可以是用户通过客户端录入到服务器的，电子设备通过服务器获取待分类文本信息。其中，待分类文本信息可以包括标题信息和正文信息。
42.步骤s102：基于待分类文本信息提取至少一个文本特征值，基于每个文本特征值确定在散点图中对应的文本点，散点图包括与各个类别的预存文本特征值对应的样本点，确定各个样本点与每个文本点的距离，确定距离每个文本点最近的k个样本点。
43.具体地，当电子设备获取待分类文本信息后，对待分类文本信息进行分词处理，从而获得至少一个分词，电子设备从分词中抽取能体现分词特点的关键特征，抓取特征到类别的映射，因此获得每一个分词对应的文本特征值，进而获得至少一个文本特征值。
44.进一步地，散点图和横坐标和纵坐标分别代表分词的两种特征，散点图中包括多个样本点，每个样本点均对应一个预存文本特征值，其中，预存文本特征值包括多个类别。
45.电子设备基于每个文本特征值确定在散点图中对应的文本点时，电子设备基于文本特征值提取与各个坐标轴对应的特征值，最后基于各个坐标轴对应的特征值确定文本特
征值在散点图中对应的文本点。
46.在应用中，k值一般取一个比较小的数值，通常采用交叉验证算法来获取最优的k值。其中，交叉验证法为本领域技术人员常用的方法，本技术不再赘述。
47.进一步地，电子设备可以计算确定各个样本点与文本点的欧式距离d1。例如，散点图中有一样本点a(x1，y1)和文本点m(x0，y0)，则 48.进而，电子设备对各个样本点与文本点的距离进行降序排序，前k个样本点即距离文本点较近。
49.步骤s103：分别确定距离每个文本点最近的k个样本点的类别以及各个类别的样本点的个数，基于各个类别的样本点的个数确定每个文本特征值的候选类别，候选类别包括个数最多的样本点的类别。
50.具体地，电子设备确定k个样本点的类别后，确定各个类别的样本点的个数，并根据各个类别的样本点的个数对各个类别排序，文本点的类别与个数最多的样本点的类别相似的可能性更高，因此电子设备确定个数最多的样本点的类别确定为候选类别。
51.步骤s104：判断每个文本特征值的候选类别是否为一个，若是，则执行步骤s105；否则，执行步骤s106。
52.步骤s105：确定文本特征值的类别与文本特征值的候选类别一致；例如，当k为5时，娱乐类样本点个数为3个，音乐类样本点个数为1个，人文类的样本点个数为1个，那么娱乐类为文本特征值的候选类别，因此，电子设备即可以将文本特征值的类别确定为娱乐类。
53.步骤s106：基于每个文本特征值的候选类别对应的各个样本点与文本点的距离，确定各个文本特征值的候选类别对应的各个样本点与文本点的距离总均值，确定文本特征值的类别与距离总均值最小的文本特征值的候选类别一致。
54.例如，当k为5时，娱乐类和音乐类样本点个数均为2个，人文类的样本点个数为1个，那么娱乐类和音乐类这两种类别均为候选类别。分别确定娱乐类的每个样本点与文本点m的距离、，进而确定娱乐类的样本点与文本点m的距离总均值；采用相同的方法，确定音乐类的样本点、与文本点m的距离总均值。
55.若，则文本特征值的类别与娱乐类更相近，电子设备可以将文本特征值的类别确定为娱乐类。
56.步骤s107：基于各个文本特征值的类别确定待分类文本信息的类别。
57.具体地，电子设备可以将各个文本特征值的类别均作为待分类文本信息的类别，提高文本分类的精度。并且电子设备保存待分类文本信息的类别，并且保存文本特征值及其对应的类别，增加散点图中的样本点。
58.本技术实施例提供一种基于knn的文本分类方法，电子设备获取待分类文本信息后，提取待分类文本信息的文本特征值，并确定文本特征值在散点图中对应的文本点，进而确定各个样本点距离文本点的距离，获取距离文本点最近的k个样本点，根据k个样本点中个数最多的类别确定候选类别。当候选类别只有一个时，电子设备则将个数最多的候选类别确定为的文本点的类别；当候选类别包括至少两个时，电子设备计算文本特征值的候选类别对应的样本点与文本点的距离总均值，电子设备将距离总均值最小的文本特征值的候
选类别确定为文本点的类别，最后将各个文本特征值的类别均确定为待分类文本信息的类别，提高每个待分类数据的分类效率。
59.在另一种可能的实现方式中，待分类文本信息包括标题信息和正文信息，文本特征值包括标题特征值和正文特征值，步骤s102包括（步骤s1021～步骤s1025）（图中均未示出）：步骤s1021：基于标题信息提取至少一个标题特征值。
60.具体地，当待分类文本信息包括标题信息和正文信息时，由于标题是撰写人根据待分类文本信息的正文内容概括出的，标题一般最能体现待分类文本信息的中心思想。因此，电子设备首先获取标题信息，通过对标题信息进行处理，提取至少一个标题特征值，根据标题特征值确定待分类文本信息的类别，更加快捷，提高分类效率。
61.步骤s1022：基于每个标题特征值确定在散点图中对应的第一文本点，分别确定距离每个第一文本点最近的k个样本点。
62.具体地，电子设备获取每个标题特征值在散点图中的第一文本点后，依次确定每个样本点与第一文本点的距离，进而分别确定距离每个第一文本点最近的k个样本点。
63.步骤s1023：当k个样本点与第一文本点的距离均大于预设距离值时，则获取正文信息中的关键词信息。
64.具体地，当k个样本点与第一文本点的距离均大于预设距离值时，则与第一文本点的类别相近的样本点较少，可能会导致第一文本点的分类准确度较低。因此电子设备可以获取正文信息中的关键词信息，利对关键词信息对待分类文本信息进行分类，提高分类准确度。
65.进一步地，电子设备在提取正文信息中的关键词时，首先对正文信息作预处理，得到多个分词。电子设备可以采用获取分词在正文信息中的词频的方式确定关键词信息，词频较高则代表分词在正文信息中的重要程度较高，因此将词频高的分词确定为正文信息中的关键词信息。
66.步骤s1024：基于关键词信息提取至少一个正文特征值。
67.具体地，电子设备可以针对每一个关键词信息获取一个对应的正文特征值。
68.步骤s1025：基于每个正文特征值确定在散点图中对应的第二文本点，分别确定距离每个第二文本点最近的k个样本点。
69.具体地，电子设备获取每个正文特征值在散点图中的第二文本点后，确定每个样本点与第二文本点的距离，进而分别确定距离每个第二文本点最近的k个样本点。使电子设备通过距离每个第二文本点最近的k个样本点确定第二文本点的类别，进而通过第二文本点的类别确定待分类文本信息的类别。
70.进一步地，为了快速准确地获取正文特征值，获取正文信息中的关键词信息，包括（步骤sa～步骤sg）（图中均未示出）：步骤a：基于词库对正文信息进行预处理，确定候选关键词信息，预处理包括对正文信息依次进行分词处理以及词性过滤处理，经过词性过滤处理后的关键词信息的词性包括动词和名词中至少一项。
71.具体地，电子设备根据词库对正文信息进行分词处理，获取得到多个分词。例如正文信息中包括某一句话：“欧洲冠军联赛是欧洲足球协会联盟主办的年度足球比赛”，电子
设备经过词库对比，得到多个分词，分别为：“欧洲冠军联赛、是、欧洲足球协会联盟、主办、的、年度、足球比赛”，电子设备对分词进行词性过滤处理，删除代词、连词和介词等对文本分类作用较小的词语，保存动词和名词等对文本分类作用更大的词语，进而得到“欧洲冠军联赛、欧洲足球协会联盟、主办、年度、足球比赛”等多个分词，电子设备均可以将上述分词确定为候选关键词信息。
72.步骤b：确定每个候选关键词信息的词频以及每个候选关键词信息在正文信息中的位置信息。
73.具体地，当电子设备获取正文信息中的所有候选关键词后，获取每个候选关键词出现的次数，候选关键词的词频=候选关键词出现的次数/总词数。候选关键词的词频反映了候选关键词在正文信息中的重要程度，当候选关键词的词频越高，那么候选关键词在正文信息中的重要程度越高。
74.进一步地，一般情况下，正文信息的首段或尾段为对正文信息的总结，最能概括正文信息的主旨，并且每段的第一句话更可以代表段落的主要内容，因此，为了进一步提高提取关键词的精度，电子设备获取分词之前，确定每个候选关键词在正文信息中的位置信息。
75.步骤c：基于每个候选关键词信息的词频、位置信息以及每个候选关键词信息在位置信息的权重信息，确定每个候选关键词信息的重要度信息。
76.具体地，电子设备预设分词在各个位置的权重信息，位于首段和尾端的分词的权重信息高于位于中间段的分词权重信息，并且每段第一句中的分词的权重信息高于每段其他句中的分词的权重信息。
77.例如，电子设备预设位于段首和段尾的分词的权重信息均为3，位于中间段的分词的权重信息为1；进一步地，位于段首和段尾的第一句的分词的权重信息均为4，位于中间段的第一句的分词的权重信息均为2。
78.因此，电子设备可以根据每个候选关键词的位置信息确定每个候选关键词的权重信息，进而根据每个候选关键词的词频和权重信息确定每个候选关键词的重要度信息，其中，重要度信息=词频
×
权重信息。
79.步骤d：基于各个候选关键词信息的重要度信息确定降序排列的第一序列信息，第一序列信息包括各个候选关键词信息以及各个候选关键词信息对应的重要度信息。
80.具体地，电子设备确定第一序列信息后，更加直观快速地获取重要度高的关键词信息。
81.步骤e：基于第一序列信息确定关键词信息，包括步骤f以及步骤g中任一项：步骤f：若候选关键词信息的数量小于预设数量值，则基于候选关键词信息的数量以及预设取词比例确定预设取词数量，基于第一序列信息获取预设取词数量的候选关键词信息为关键词信息。
82.具体地，预设数量值和预设取词比例根据实际需要设置，当候选关键词的数量小于预设数量值后，那么相应的重要度信息高的候选关键词信息的数量也较少，为了加快分类速度，电子设备确定预设取词数量的候选关键词信息为关键词信息即可。
83.例如，预设数量值为100，预设取词比例为5%。若候选关键词信息的数量为84，则电子设备计算得到预设取词数量为4.25个，采用四舍五入法确定预设取词数量为4个。因此基于第一序列信息获取排列在前4的候选关键词信息为关键词信息。
84.步骤g：若候选关键词信息的数量等于或大于预设数量值，则基于第一序列获取预设取词数量的候选关键词信息为关键词信息。
85.具体地，在候选关键词的数量过多时，确定预设取词数量的候选关键词信息为关键词信息，减小关键词信息数量过多影响分类速度的可能性。
86.例如，若候选关键词信息的数量为200个，预设取词数量为5个，电子设备获取排列在第一序列信息前5的候选关键词信息为关键词信息。
87.在另一种可能的实现方式中，若距离总均值最小的文本特征值的候选类别有至少两种，确定文本特征值的类别与距离总均值最小的文本特征值的候选类别一致方法，包括（步骤s11～步骤s14）（图中均未示出）：步骤s11：确定待定类别，待定类别包括距离总均值最小的文本特征值的候选类别。
88.具体地，电子设备将每个距离总均值最小的文本特征值的候选类别对应确定为一个待定类别。
89.步骤s12：基于各个样本点与文本点的距离按照递增顺序排列，获得第二序列信息。
90.步骤s13：循环执行基于第二序列信息获取与每个待定类别对应的增补样本点，增补样本点是距离上次从第二序列信息中获取的样本点或增补样本点最近的，基于每个待定类别对应的各个样本点以及增补样本点分别与文本点的距离，确定每个待定类别对应的距离总均值，基于各个待定类别对应的距离总均值确定待定类别，判断待定类别的数量是否为一的步骤，直到待定类别的数量等于一。
91.具体地，当电子设备根据k个样本点难以确定唯一的待定类别时，则采用增补样本点与k个样本点再次确定待定类别。
92.例如，待定类别包括娱乐类和音乐类，电子设备获得第二序列信息后，从第k 1个样本点开始，获取相同个数的娱乐类以及音乐类的样本点，获取的个数从1个开始。如果第k 1个样本点为娱乐类，电子设备则确定第k 1个样本点确定为娱乐类的增补样本点；若第k 2个样本点为社会类，则获取第k 3个样本点，若第k 3个样本点为音乐类的样本点，电子设备则获取第k 3个样本点为音乐类的增补样本点。
93.进一步地，电子设备分别获得每个待定类别对应的距离总均值，每个待定类别对应的距离总均值=（待定类别的各个样本点分别与文本点的距离待定类别的增补样本点与文本点的距离）/（待定类别的样本点数量待定类别的增补样本点数量）。
94.步骤s14：确定文本特征值的类别与待定类别一致。
95.具体地，当电子设备获得距离总均值最小的文本特征值的候选类别只有一个时，则待定类别只有一个，此时待分类文本信息的类别与待定类别一致。
96.在另一种可能的实现方式中，若距离总均值最小的样本点的类别包括至少两种，确定文本特征值的类别与距离总均值最小的文本特征值的候选类别一致方法，包括（步骤s21～步骤s23）（图中均未示出）：步骤s21：确定待定类别，待定类别包括距离总均值最小的样本点的类别。
97.具体地，电子设备将每个距离总均值最小的文本特征值的候选类别对应确定为一个待定类别。
98.步骤s22：获取每个待定类别包括的各个样本点的坐标。
99.步骤s23：基于各个样本点的坐标确定每个待定类别的聚类中心点的坐标，聚类中心点的坐标为各个样本点的坐标和均值。
100.例如，待定类别a的样本点包括（）、（）和（），那么待定类别a的聚类中心点的坐标为。
101.采用相同的方法获得其他待定类别的聚类中心点的坐标。
102.步骤s24：基于每个聚类中心点的坐标确定每个聚类中心点与文本点的距离。
103.具体地，电子设备可以采用欧式距离算法计算每个聚类中心点与文本点的距离。
104.步骤s25：确定文本特征值的类别与距离文本点最近的聚类中心点的待定类别一致。
105.具体地，聚类中心点代表了每种待定类别的中心，当某一聚类中心点距离文本点更近时，则文本点的类别与某一聚类中心点相应的待定类别相同的可能性更高。因此，当距离总均值最小的样本点的类别包括至少两种时，电子设备可以通过计算聚类中心点再次筛选，得到唯一的待定类别，提高电子设备对文本特征值分类的准确性。
106.在另一种可能的实现方式中，若文本特征值的类别包括至少两个，则基于各个文本特征值的类别确定待分类文本信息的类别，包括：分别获取各个类别的文本特征值的个数；基于各个类别的文本特征值的个数确定待分类文本的主类别和标签类别，主类别的文本特征值的个数最多，标签类别的文本特征值的个数均小于主类别的文本特征值的个数。
107.例如，当k为5时，待分类文本信息的文本特征值的类别分别有娱乐类、音乐类和人文类，其中娱乐类对应的文本特征值的个数为3个，音乐类和人文类的文本特征值的个数分别为1个。
108.其中，娱乐类的文本特征值个数最多，因此，电子设备确定待分类文本的主类别为娱乐类，标签类别包括音乐类和人文类。提高待分类文本信息的全面性和准确性。
109.在另一种可能的实现方式中，若文本特征值个数最多的类别包括至少两个，则基于各个类别的文本特征值的个数确定待分类文本的主类别和标签类别，包括（步骤s31～步骤s33）（图中均未示出）：步骤s31：确定文本特征值个数最多的类别对应的各个分词的重要度信息，分词的重要度信息包括分词在待分类文本信息中的词频、分词的在待分类文本信息中的位置信息以及每个分词在位置信息的权重信息的乘积。
110.具体地，电子设备获取每个分词的重要度信息的方式与上述步骤sb～sc的方法相同，此处不再做赘述。
111.步骤s32：基于各个分词的重要度信息，确定每个文本特征值个数最多的类别对应的分词的重要度信息的均值。
112.具体地，为了便于计算，减小数据量，电子设备计算得到文本特征值个数最多的类别对应的分词的重要度信息的均值，均值越高，则代表对应的文本特征值个数最多的类别在正文信息中的重要度越高。
113.步骤s33：确定重要度信息的均值最大的文本特征值个数最多的类别为待分类文本的主类别，确定其他文本特征值个数最多的类别为待分类文本的标签类别。
114.例如，文本特征值个数最多的类别包括娱乐类和音乐类，其中，娱乐类的重要度信息的均值最大，音乐类的重要度信息的均值较小，因此，电子设备确定待分类文本信息的主类别为娱乐类，标签类别为音乐类。更准确地确定出待分类文本信息的类别。
115.为了更好执行上述方法，本技术实施例提供一种基于knn的文本分类装置，参照图2，该基于knn的文本分类装置200包括：获取模块201，用于获取待分类文本信息。
116.第一确定模块202，用于基于待分类文本信息提取至少一个文本特征值，基于每个文本特征值确定在散点图中对应的文本点，散点图包括与各个类别的预存文本特征值对应的样本点，确定各个样本点与每个文本点的距离，确定距离每个文本点最近的k个样本点。
117.第二确定模块203，用于分别确定距离每个文本点最近的k个样本点的类别以及各个类别的样本点的个数，基于各个类别的样本点的个数确定每个文本特征值的候选类别，候选类别包括个数最多的样本点的类别。
118.判断模块203，用于判断每个文本特征值的候选类别是否为一个。
119.第三确定模块204，用于在判断确定文本特征值的候选类别为一个时，确定文本特征值的类别与文本特征值的候选类别一致。
120.第四确定模块205，用于在判断确定文本特征值的候选类别为至少两个时，基于每个文本特征值的候选类别对应的各个样本点与文本点的距离，确定各个文本特征值的候选类别对应的各个样本点与文本点的距离总均值，确定文本特征值的类别与距离总均值最小的文本特征值的候选类别一致。
121.类别确定模块207，用于基于各个文本特征值的类别确定待分类文本信息的类别。
122.在另一种可能的实现方式中，待分类文本信息包括标题信息和正文信息，文本特征值包括标题特征值和正文特征值，则第一确定模块202，具体用于：基于标题信息提取至少一个标题特征值；基于每个标题特征值确定在散点图中对应的第一文本点，分别确定距离每个第一文本点最近的k个样本点；当k个样本点与第一文本点的距离均大于预设距离值时，则获取正文信息中的关键词信息；基于关键词信息提取至少一个正文特征值；基于每个正文特征值确定在散点图中对应的第二文本点，分别确定距离每个第二文本点最近的k个样本点。
123.在另一种可能的实现方式中，第二确定模块203在获取正文信息中的关键词信息时，具体用于：基于词库对正文信息进行预处理，确定候选关键词信息，预处理包括对正文信息依次进行分词处理以及词性过滤处理，经过词性过滤处理后的关键词信息的词性包括动词和名词中至少一项；确定每个候选关键词信息的词频以及每个候选关键词信息在正文信息中的位置信息；基于每个候选关键词信息的词频、位置信息以及每个候选关键词信息在位置信息的权重信息，确定每个候选关键词信息的重要度信息；
基于各个候选关键词信息的重要度信息确定降序排列的第一序列信息，第一序列信息包括各个候选关键词信息以及各个候选关键词信息对应的重要度信息；基于第一序列信息确定关键词信息，包括以下任一种：若候选关键词信息的数量小于预设数量值，则基于候选关键词信息的数量以及预设取词比例确定预设取词数量，基于第一序列信息获取预设取词数量的候选关键词信息为关键词信息；若候选关键词信息的数量等于或大于预设数量值，则基于第一序列获取预设取词数量的候选关键词信息为关键词信息。
124.在另一种可能的实现方式中，距离总均值最小的文本特征值的候选类别有至少两种，基于knn的文本分类装置200还包括：待定类别初步确定模块：用于确定待定类别，待定类别包括距离总均值最小的文本特征值的候选类别；排序模块，用于基于各个样本点与文本点的距离按照递增顺序排列，获得第二序列信息；循环执行模块，用于循环执行基于第二序列信息获取与每个待定类别对应的增补样本点，增补样本点是距离上次从第二序列信息中获取的样本点或增补样本点最近的，基于每个待定类别对应的各个样本点以及增补样本点分别与文本点的距离，确定每个待定类别对应的距离总均值，基于各个待定类别对应的距离总均值确定待定类别，判断待定类别的数量是否为一的步骤，直到待定类别的数量等于一；待定类别最终确定模块，用于确定待分类文本信息的类别与待定类别一致。
125.在另一种可能的实现方式中，距离总均值最小的样本点的类别包括至少两种，该装置还包括：待定类别初步确定模块，用于确定待定类别，待定类别包括距离总均值最小的样本点的类别；坐标获取模块，用于获取每个待定类别包括的各个样本点的坐标；聚类中心点确定模块，用于基于各个样本点的坐标确定每个待定类别的聚类中心点的坐标，聚类中心点的坐标为各个样本点的坐标和均值；距离确定模块，用于基于每个聚类中心点的坐标确定每个聚类中心点与文本点的距离；待定类别最终确定模块，用于基于距离文本点最近的聚类中心点的待定类别确定文本点的类别。
126.在另一种可能的实现方式中，文本特征值的类别包括至少两个，则类别确定模块207，具体用于：分别获取各个类别的文本特征值的个数；基于各个类别的文本特征值的个数确定待分类文本的主类别和标签类别，主类别的文本特征值的个数最多，标签类别的文本特征值的个数均小于主类别的文本特征值的个数。
127.在另一种可能的实现方式中，文本特征值个数最多的类别包括至少两个，则类别确定模块207在基于各个类别的文本特征值的个数确定待分类文本的主类别和标签类别
时，具体用于：确定文本特征值个数最多的类别对应的各个分词的重要度信息，分词的重要度信息包括分词在待分类文本信息中的词频、分词的在待分类文本信息中的位置信息以及每个分词在位置信息的权重信息的乘积；基于各个分词的重要度信息，确定每个文本特征值个数最多的类别对应的分词的重要度信息的均值；确定重要度信息的均值最大的文本特征值个数最多的类别为待分类文本的主类别，确定其他文本特征值个数最多的类别为待分类文本的标签类别。
128.前述实施例中的方法中的各种变化方式和具体实例同样适用于本实施例的基于knn的文本分类装置，通过前述对基于knn的文本分类方法的详细描述，本领域技术人员可以清楚的知道本实施例中的基于knn的文本分类装置的实施方法，所以为了说明书的简洁，在此不再详述。
129.为了更好地实施以上方法，本技术实施例提供一种电子设备，参照图3，电子设备300可以是手机、pc机、平板电脑等终端，电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过通信总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本技术实施例的限定。
130.处理器301可以是cpu（central processing unit，中央处理器），通用处理器，dsp（digital signal processor，数据信号处理器），asic（application specific integrated circuit，专用集成电路），fpga（field programmable gate array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。
131.总线302可包括一通路，在上述组件之间传送信息。总线302可以是pci（peripheral component interconnect，外设部件互连标准）总线或eisa（extended industry standard architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。
132.存储器303可以是rom（read only memory，只读存储器）或可存储静态信息和指令的其他类别的静态存储设备，ram（random access memory，随机存取存储器）或者可存储信息和指令的其他类别的动态存储设备，也可以是eeprom（electrically erasable programmable read only memory，电可擦可编程只读存储器）、cd-rom（compact disc read only memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。
133.存储器303用于存储执行本技术方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。
134.图3示出的电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
135.本技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的一种基于knn的文本分类方法，电子设备获取待分类文本信息后，提取待分类文本信息的文本特征值，并确定文本特征值在散点图中对应的文本点，进而确定各个样本点距离文本点的距离，获取距离文本点最近的k个样本点，当k个样本点中个数最多的候选类别只有一个时，电子设备则将个数最多的候选类别确定为的文本点的类别；当k个样本点中文本特征值的候选类别包括至少两个时，电子设备计算文本特征值的候选类别对应的样本点与文本点的距离总均值，电子设备将距离总均值最小的文本特征值的候选类别确定为文本点的类别，最后将各个文本特征值的类别均确定为待分类文本信息的类别，提高每个待分类数据的分类精度，提高文本分类效率。
136.本实施例中，计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。具体的，计算机可读存储介质可以是便携式计算机盘、硬盘、u盘、随机存取存储器（ram）、只读存储器（rom）、可擦式可编程只读存储器（eprom或闪存）、讲台随机存取存储器（sram）、便携式压缩盘只读存储器（cd-rom）、数字多功能盘（dvd）、记忆棒、软盘、光盘、磁碟、机械编码设备以及上述任意组合。
137.本实施例中的计算机程序包含用于执行前述所有的方法的程序代码，程序代码可包括对应执行上述实施例提供的方法步骤对应的指令。计算机程序可从计算机可读存储介质下载到各个计算/处理设备，或者通过网络（例如因特网、局域网、广域网和/或无线网）下载到外部计算机或外部存储设备。计算机程序可完全地在用户计算机上执行、作为一个独立的软件包执行。
138.以上均为本技术的较佳实施例，并非依此限制本技术的保护范围，故：凡依本技术的结构、形状、原理所做的等效变化，均应涵盖于本技术的保护范围之内。
139.另外，需要理解的是，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于KNN的文本分类方法、装置、电子设备和介质与流程

相关文献

最热文献