一种长文本自动分类推荐方法及其装置与流程

2022-08-17 11:46:09 来源：中国专利 TAG：

1.本发明涉及文本分类技术领域，尤其是涉及一种长文本自动分类推荐方法及其装置。

背景技术：

2.分类是人们出于某些需要、按照某些标准，将事物分为若干组的活动。从操作的角度看，分类，就是把事物按照一定的规则分门别类，而文本分类，就是把文本按照一定的规则分门别类。传统的文本分类采用人工分类方式，存在阅读时间长、人工分类标准不一致等问题。
3.为此，现有技术研究通过机器学习，以实现文本自动分类的目的，目前，文本分类技术大多采用调包方法，在面对长文本时，由于长文本字数多、信息杂、关键信息分散，采用上述现有技术进行分类时，一方面存在算法臃肿、执行速度慢的问题，另一方面也难以保证准确地找出关键词，此外，现有文本分类技术研究多采用python语言，而企业级应用多采用java架构，移植性能较差。

技术实现要素：

4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种长文本自动分类推荐方法及其装置，能够高效、准确地对长文本进行自动分类。
5.本发明的目的可以通过以下技术方案来实现：一种长文本自动分类推荐方法，包括以下步骤：
6.s1、获取历史长文本数据；
7.s2、根据历史长文本数据，生成训练集；
8.s3、从待分类长文本中提取关键词，并将提取得到的关键词依次与训练集数据进行相似度计算，得到多个相似度计算结果；
9.s4、对相似度计算结果进行筛选、均值计算和排序，以确定出待分类长文本对应的分类结果。
10.进一步地，所述步骤s2具体包括以下步骤：
11.s21、从历史长文本数据中提取对应的关键词；
12.s22、对历史长文本数据分别进行相应标注，结合历史长文本数据对应的关键词，得到多个关键词-标注形式的数据，即生成得到训练集。
13.进一步地，所述步骤s3具体包括以下步骤：
14.s31、从待分类长文本中提取关键词；
15.s32、将提取得到的关键词分别与训练集中多个关键词-标注形式的数据进行相似度计算，得到多个相似度计算结果。
16.进一步地，所述步骤s21和步骤s31均是采用tf-idf(term frequency-inverse document frequency,词频-逆文件频率)算法，以分别从历史长文本数据、待分类长文本中
提取对应的关键词。
17.进一步地，所述步骤s32中相似度计算的过程具体包括以下步骤：
18.s321、将从待分类长文本中提取的关键词依次与训练集数据特征向量化；
19.s322、计算待分类长文本中提取的关键词与训练集数据之间的相似度，得到不同标注分类对应的多个相似度计算结果。
20.进一步地，所述步骤s322具体是通过计算待分类长文本中提取的关键词与训练集数据之间的余弦值，以作为相似度计算结果。
21.进一步地，所述步骤s4具体包括以下步骤：
22.s41、针对单个标注分类，从该标注分类对应的相似度计算结果中筛选出数值大于设定阈值的相似度，并进行均值计算，得到该标注分类对应的均值相似度；
23.s42、将不同标注分类对应的均值相似度按照数值大小进行排列，将排序中前n个均值相似度对应的标注数据输出，即为待分类长文本对应的分类结果。
24.进一步地，所述设定阈值具体为0.2。
25.进一步地，所述步骤s41中，若所有标注分类对应的相似度计算结果均小于或等于设定阈值，则输出“无法分类”的相应提示信息。
26.一种长文本自动分类推荐装置，包括依次连接的关键词提取模块、特征向量化模块、相似度计算模块和处理模块，所述特征向量化模块连接有数据库，所述数据库用于更新存储训练集数据，所述关键词提取模块用于从待分类长文本数据中提取出对应的关键词，所述特征向量化模块用于将关键词与训练集数据特征向量化，所述相似度计算模块用于计算待分类长文本与训练集数据之间的相似度；所述处理模块用于对相似度计算结果进行筛选、均值计算和排序，以确定出待分类长文本对应的分类结果。
27.进一步地，所述处理模块连接有显示器，所述显示器用于展示处理模块输出的分类结果或提示信息。
28.与现有技术相比，本发明构建包含多个关键词-标注形式数据的训练集，通过对长文本数据提取关键词、并将关键词特征向量化，再计算关键词与训练集数据之间的相似度，能够有效降低数据信息量、提高计算速度，此外，通过对不同标注分类对应的相似度计算结果进行筛选、均值计算和排序，能够排除极端数据和脏数据的干扰，有效提高分类准确率。
附图说明
29.图1为本发明的方法流程示意图；
30.图2为实施例的应用过程示意图。
具体实施方式
31.下面结合附图和具体实施例对本发明进行详细说明。
32.实施例
33.如图1所示，一种长文本自动分类推荐方法，包括以下步骤：
34.s1、获取历史长文本数据；
35.s2、根据历史长文本数据，生成训练集，具体的：
36.首先从历史长文本数据中提取对应的关键词；
37.之后对历史长文本数据分别进行相应标注，结合历史长文本数据对应的关键词，得到多个关键词-标注形式的数据，即生成得到训练集；
38.s3、从待分类长文本中提取关键词，并将提取得到的关键词依次与训练集数据进行相似度计算，得到多个相似度计算结果，具体的：
39.首先从待分类长文本中提取关键词；
40.之后将从待分类长文本中提取的关键词依次与训练集数据特征向量化；
41.再计算待分类长文本中提取的关键词与训练集数据之间的相似度(本技术方案通过计算余弦值，以作为相似度)，得到不同标注分类对应的多个相似度计算结果；
42.s4、对相似度计算结果进行筛选、均值计算和排序，以确定出待分类长文本对应的分类结果，具体的：
43.针对单个标注分类，从该标注分类对应的相似度计算结果中筛选出数值大于设定阈值的相似度，并进行均值计算，得到该标注分类对应的均值相似度，本实施例中，设定阈值为0.2；
44.将不同标注分类对应的均值相似度按照数值大小进行排列，将排序中前n个均值相似度对应的标注数据输出，即为待分类长文本对应的分类结果；
45.需要说明的是，若所有标注分类对应的相似度计算结果均小于或等于设定阈值，则输出“无法分类”的相应提示信息。
46.本实施例中，采用tf-idf(term frequency-inverse document frequency,词频-逆文件频率)算法，以分别从历史长文本数据、待分类长文本中提取对应的关键词，tf-idf是信息检索中衡量一个词语重要程度的统计指标，词语重要程度正比于它在文档中出现频次，反比于有多少文档包含它。
47.本实施例还提供一种长文本自动分类推荐装置，包括依次连接的关键词提取模块、特征向量化模块、相似度计算模块和处理模块，特征向量化模块连接有数据库，数据库用于更新存储训练集数据，关键词提取模块用于从待分类长文本数据中提取出对应的关键词，即将长文本转换为短特征；
48.特征向量化模块用于将关键词与训练集数据特征向量化，即实现将文本向量化；
49.相似度计算模块用于计算待分类长文本与训练集数据之间的相似度；处理模块用于对相似度计算结果进行筛选、均值计算和排序，以确定出待分类长文本对应的分类结果。
50.此外，处理模块还连接有显示器，显示器用于展示处理模块输出的分类结果或提示信息。
51.将上述技术方案应用于实际，本实施例通过使用java语言实现，完成长文本自动分类推荐的核心组成部分包括关键词提取、特征向量化、相似度计算。具体过程如图2所示，其中，问题描述对应于长文本数据，标题对应于标注分类。
52.(1)首先，将历史长文本数据提取关键词(长文本中重要程度靠前的词语)，生成关键词-标注形式的训练集。
53.(2)其次，将待分类数据提取关键词，依次与训练集数据特征向量化，计算余弦相似度(通过计算两个向量的夹角余弦值来评估两个向量的相似程度)。
54.(3)最后，根据相似度排序，输出相似度最大的几个标注作为“智能推荐”展示。
55.本技术方案从底层算法写起，直连数据库，因此具有较快的运行速度，将长文本分
类自动化，能够大幅减少因人工分类带来的人力成本，有效解决人工分类带来的标准不一致，有利于提高处理效率和准确性。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据读写方法和混合型存储器与流程

一种长文本自动分类推荐方法及其装置与流程

相关文献

最热文献