文本聚类方法及系统、电子设备和存储介质与流程

2021-12-07 21:27:00 来源：中国专利 TAG：

1.本发明涉及数据分析技术领域，尤其涉及一种文本聚类方法及系统、电子设备和存储介质。

背景技术：

2.随着网络信息飞速的发展，网络新闻通过各大网站媒体以及社交平台的传播，已经呈现爆炸式的增长趋势，收集并分析这些信息变得愈发困难。
3.网络新闻是一种具有多渠道，多方面，范围广和更新快等特点的动态数据流，由于来自各个渠道的新闻信息数量庞大，急需一种能在海量数据中把相关话题内容聚合到一起的技术，将条目众多的新闻数据聚集到有限的话题簇中，每个话题簇中包含相关话题的新闻信息，快速发现当前的热点新闻，让使用者能够实时关注网络新闻动态。
4.但现有的流式数据的增量聚类方法在处理大规模流式数据时存在一定的缺陷，面对突发的新闻事件聚类效果欠佳，并且随着数据量不断增加，当一个聚类当中包含较多的数据时，计算聚类的中心较为复杂，速度变慢。存在算法计算量大，聚类速度缓慢，无法达到实时聚类的要求的问题。
5.因此，如何提供一种文本聚类方法及系统、电子设备和存储介质，提升聚类的速度，提高文本聚类的实时性，成为亟待解决的问题。

技术实现要素：

6.针对现有技术中的缺陷，本发明实施例提供一种文本聚类方法及系统、电子设备和存储介质，至少解决在进行文本聚类时聚类速度缓慢，实时性差的技术问题。
7.提供一种文本聚类方法，包括：
8.基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度；
9.基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别；
10.基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果。
11.根据本发明提供的一种文本聚类方法，所述基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度的步骤之前，还包括：
12.确定文本类别的文本数量，判断文本类别的文本数量是否小于预设第一文本数量阈值；
13.若确定存在第一文本类别的文本数量小于预设文本数量阈值，则将所述第一文本类别对应的第一聚类中心删除。
14.根据本发明提供的一种文本聚类方法，所述基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度的步骤之前，还包括：
15.确定所述第一文本类别的产生时间，判断所述第一文本类别是否满足预设时间条
件；
16.若确定所述第一文本类别满足预设时间条件，则在确定第一文本类别的文本数量小于预设第一文本数量阈值时，将所述第一文本类别对应的第一聚类中心删除；
17.若确定所述第一文本类别不满足预设时间条件，则在确定第一文本类别的文本数量小于第二预设文本数量阈值时，将所述第一文本类别对应的第一聚类中心删除。
18.根据本发明提供的一种文本聚类方法，所述基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度，具体包括：
19.基于所述目标待聚类文本，确定所述目标待聚类文本的关键词；
20.将所述目标待聚类文本的关键词与所有聚类中心的关键词进行比较，确定目标聚类中心集合；其中，所述目标聚类中心集合包括目标聚类中心；所述目标聚类中心的关键词与所述目标待聚类文本的关键词存在重复；
21.计算所述目标待聚类文本和所述目标聚类中心的文本相似度。
22.根据本发明提供的一种文本聚类方法，所述基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别，具体包括：
23.根据中国餐馆过程算法，依次判断每一个聚类中心与所述目标待聚类文本对应的文本相似度是否满足预设相似度条件；
24.若确定存在第二聚类中心与所述目标待聚类文本对应的文本相似度满足预设相似度条件，则将所述第二聚类中心所在的类别作为所述目标类别；
25.若确定所有的聚类中心与所述目标待聚类文本对应的文本相似度均不满足预设相似度条件，则生成一个新的类别作为所述目标类别。
26.根据本发明提供的一种文本聚类方法，在所述基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果的步骤之后，还包括；
27.检测是否存在新的待聚类文本，若确定存在新的待聚类文本，将所述新的待聚类文本作为目标待聚类文本；
28.重复执行所述文本聚类方法的步骤，直至确定不存在新的待聚类文本。
29.根据本发明提供的一种文本聚类方法，所述文本相似度包括：关键词相似度、字符相似度、句向量相似度和字符串相似度中的任意一项或多项；
30.其中，所述关键词相似度是基于所述目标待聚类文本的关键词和所述聚类中心的关键词确定的；所述字符相似度是基于所述目标待聚类文本和所述聚类中心重复字符数量确定的；所述句向量相似度是基于所述目标待聚类文本的词向量和所述聚类中心的词向量，根据相似度计算公式确定的；所述字符串相似度为所述目标待聚类文本和所述聚类中心的辑距离。
31.本发明还提供一种文本聚类系统，包括：相似度计算单元、目标类别确定单元和目标文本聚类单元；
32.所述相似度计算单元，用于基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度；
33.所述目标类别确定单元，用于基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别；
34.所述目标文本聚类单元，用于基于所述目标类别对所述目标待聚类文本进行聚
类，确定目标聚类结果。
35.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本聚类方法的步骤。
36.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本聚类方法的步骤。
37.本发明提供的文本聚类方法及系统、电子设备和存储介质，将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。能够有效简化聚类计算的过程，提升聚类速度，实现大量流式文本的实时聚类。
附图说明
38.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
39.图1为本发明提供的文本聚类方法流程图；
40.图2为本发明提供的文本聚类方法流程示意图；
41.图3为本发明提供的目标类别确定方法流程示意图之一；
42.图4为本发明提供的目标类别确定方法流程示意图之二；
43.图5为本发明提供的文本聚类系统结构示意图；
44.图6为本发明提供的电子设备的实体结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.现有技术中流式数据的增量聚类方法，主要包括基于层次的、基于划分的、基于密度的、基于网络的和基于模型的聚类。其中，应用最为广泛的是基于层次的聚类和基于划分的聚类。但是这些算法在处理大规模流式数据时存在一定的缺陷。
47.传统基于层次的聚类算法对于大数据量的情况并不适合，因为算法计算量较大，聚类速度缓慢，无法达到实时聚类的要求；
48.传统基于划分的聚类算法的代表是k
‑
means算法，选取k个聚类中心，这k个类簇的均值所代表的各类样本总体误差最小，其缺点是面对突发的新闻事件聚类效果欠佳，而且随着数据量不断增加，当一个聚类当中包含较多的数据时，计算聚类的中心较为复杂，速度变慢。
49.因此，上述两类方法均会对大规模流式文本实时聚类工作造成的不利影响。
50.在对本发明做详细说明之前，首先对本发明中所涉及的相关概念进行说明。
51.中国餐馆过程(chinese restaurant process，简称crp)算法是一种数据挖掘算
法(无参数的在线学习算法)，基于狄利克雷过程算法演变而来。中国餐馆过程算法可以描述为：假设一个中国餐厅中有无限个桌子，来吃饭的第一位顾客坐了第一张桌子，对于以后来的每一位顾客，可以选择已经有人的桌子就坐，也可以选择一个没有人的桌子就坐，以此类推(将顾客类比为数据，将每一张桌子类比成类)。
52.图1为本发明提供的文本聚类方法流程图，如图1所示，本发明实施例提供一种文本聚类方法，包括：
53.步骤s1，基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度；
54.步骤s2，基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别；
55.步骤s3，基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果。
56.需要说明的是，上述方法的执行主体可以是计算机设备。
57.具体的，在存在大规模流流式文本时，为了进行数据的挖掘，通过对比文本信息的多种特征，将相同主题的文本信息进行聚类，例如：各大网站媒体新闻、社交平台文本，论文管理平台论文和工程管理平台数据等进行聚类管理。需要说明的是，本发明所应用的具体场景可根据实际情况进行限定，本发明对此不作限定。
58.需要说明的是，在处理流式文本时，由于不同时段数据量不同，待聚类文本的处理进度不一定能够实现实时处理，可能会出现文本的累计，从待聚类文本集合中确定目标待聚类文本的方法可以是优先处理新文本或者优先处理最长的文本等，具体使用的方法可根据实际需求进行调整，本发明对此不做限定。
59.以处理社交平台的新闻和评论为例，对本发明进行说明。本发明通过将标题相同或相似的新闻或社交平台文本聚合(待聚类文本)，从而达到从庞大的新闻数据流中自动发现话题的目的。
60.图2为本发明提供的文本聚类方法流程示意图，如图2所示，进一步的，可以理解的是，由于用户在社交平台上发表的文本可能会出现无法解析的字符和表情符号(例如：颜文字和表情包等)，在收集待聚类文本之后，还可以对待聚类文本进行预处理，根据评估业务要求，可以根据需求收集当前的未聚类的新闻数据或者评论数据，去除其中无法解析的字符和表情符号后，作为待聚类数据集合n，存储于硬盘中。
61.在所有的待聚类数据集合n中选取目标待聚类数据n，在步骤s1中，基于目标待聚类文本n和聚类中心，确定目标待聚类文本和聚类中心的文本相似度。
62.可以理解的是，确定目标待聚类文本和聚类中心的文本相似度的具体方法，可根据实际需求进行调整，本发明对此不做限定。
63.在步骤s2中，基于文本相似度，根据中国餐馆过程算法，在所有的聚类中心中选取一个作为目标待聚类文本对应的类别的聚类中心，即确定目标待聚类文本的目标类别。
64.需要说明的是，根据中国餐馆过程算法，目标待聚类文本处理的时机不同聚类中心的数量也不同，也可能出现没有目标聚类中心的情况(即目标待聚类文本是第一条文本)。目标聚类中心的具体数量可以根据实际情况确定，本发明对此不做限定。
65.进一步，可以理解的是，在根据中国餐馆过程算法确定目标待聚类文本的目标类别时，实际上是根据文本相似度确定与目标待聚类文本匹配的聚类中心，以该聚类中心对
应的类别作为目标类别。
66.例如：在聚类中心集合p中，根据文本数据量从小到大(时间从近至远)的规律依次取出聚类中心p计算与目标待聚类文本的相似度，若确定满足预设条件，则确定该聚类中心p对应的类别为目标类别。或者计算所有聚类中心与目标待聚类文本的相似度，取相似度最大的聚类中心对应的类别为目标类别。
67.需要说明的是，上述进行相似度比较的方法仅作为一个具体的例子对本发明进行说明，除此之外，还可根据实际需求进行调整，本发明对此不做限定。
68.若确定待聚类文本n属于聚类中心p对应的类别，则在步骤s3中，基于目标类别对目标待聚类文本进行聚类，则将待聚类文本n放入聚类中心p所在的聚类中，即待聚类文本n完成聚类，确定目标聚类结果。
69.可以理解的是，待聚类文本n聚类完成后，在进行数据查看时可以导出当前聚类结果，包括聚类中心以及聚类中心中包括的每条文本。进一步，还可以设置导出聚类结果的规则，仅在确定待聚类文本n中所有的待聚类文本均聚类完成后，才能够进行聚类结果的导出。具体规则可根据实际情况进行设置，本发明对此不做限定。
70.本发明提供的文本聚类方法将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。能够有效简化聚类计算的过程，提升聚类速度，实现大量流式文本的实时聚类。
71.可选的，根据本发明提供的一种文本聚类方法，所述基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度的步骤之前，还包括：
72.确定文本类别的文本数量，判断文本类别的文本数量是否小于预设第一文本数量阈值；
73.若确定存在第一文本类别的文本数量小于预设文本数量阈值，则将所述第一文本类别对应的第一聚类中心删除。
74.具体的，由于每天产生的新闻除了重大事件热点新闻外，也包括许多影响范围小，舆论热度低的新闻。如图2所示，在处理了一定数量的数据之后对此类聚类进行过滤，可减少聚类检测中聚类中心的搜索空间。
75.基于目标待聚类文本和聚类中心，确定目标待聚类文本和聚类中心的文本相似度的步骤之前，还包括：
76.确定文本类别的文本数量，判断文本类别的文本数量是否小于预设第一文本数量阈值c。若确定存在第一文本类别的文本数量小于预设文本数量阈值c，则将第一文本类别对应的第一聚类中心删除。即将所有文本类别中文本数量小于预设第一文本数量阈值的聚类中心进行删除，实现所有聚类中心的过滤。
77.可以理解的是，预先设置的最低文本数阈值c(预设文本数量阈值)，可根据需求进行设置，例如：c按照10000：1的比例随着处理文本数增加而增加。过滤的实际也可根据实际情况进行设置，例如：每处理5000条文本进行一次聚类中心过滤，或者，每隔半小时进行一次聚类中心过滤。
78.本发明提供的文本聚类方法将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。通过优化算法逻辑，对聚类中心进行过滤，减少聚类中心搜索空间，使得本发明在处理增量式数据时，能够控制自动聚类中心的数量，从而提升
聚类速度和自动化程度，实现大量流式文本的实时聚类。
79.可选的，根据本发明提供的一种文本聚类方法，所述基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度的步骤之前，还包括：
80.确定所述第一文本类别的产生时间，判断所述第一文本类别是否满足预设时间条件；
81.若确定所述第一文本类别满足预设时间条件，则在确定第一文本类别的文本数量小于预设第一文本数量阈值时，将所述第一文本类别对应的第一聚类中心删除；
82.若确定所述第一文本类别不满足预设时间条件，则在确定第一文本类别的文本数量小于第二预设文本数量阈值时，将所述第一文本类别对应的第一聚类中心删除。
83.具体的，随着处理文本的增加，第一文本数量阈值c的数值设置的过高容易造成新产生的热点新闻无法聚类而被删除的问题，于是在此基础上，设置新热点保护机制。
84.基于目标待聚类文本和聚类中心，确定目标待聚类文本和聚类中心的文本相似度的步骤之前，还包括：
85.确定第一文本类别的产生时间，判断第一文本类别是否满足预设时间条件，即确定该热点是否为新热点。
86.需要说明的是，预设时间条件为可以是确定第一文本类别是否在某一时刻之前，或者是与所有的热点相比该热点是否位于最新的预设百分比的聚类中心中。上述例子仅作为一个具体的实例对本发明进行说明，除此之外，预设时间条件可根据实际情况进行设置，本发明对此不做限定。
87.在本发明中，若确定第一文本类别满足预设时间条件，则说明第一文本类别为不是新热点，进一步判断第一文本类别的文本数量和第一文本数量阈值的大小关系。
88.在确定第一文本类别的文本数量小于预设第一文本数量阈值时，将第一文本类别对应的第一聚类中心删除。若确定第一文本类别的文本数量大于或等于预设第一文本数量阈值，则保留第一文本对应的第一聚类中心。
89.若确定第一文本类别满足预设时间条件，则说明第一文本类别为新热点，进一步判断第一文本类别的文本数量和第二本数量阈值的大小关系。
90.在确定第一文本类别不满足预设时间条件时，将在确定第一文本类别的文本数量小于第二预设文本数量阈值时，将第一文本类别对应的第一聚类中心删除。若确定第一文本类别的文本数量大于或等于预设第二文本数量阈值，则保留第一文本对应的第一聚类中心。
91.需要说明的是，第二预设文本数量阈值可以设置为固定的数值，也可以设置随数据量进行自动调整的数值，具体的设置方法可根据实际需求进行调整，本发明对此不做限定。
92.例如：对于最新的10％的聚类中心中(新热点)，使用最低文本数阈值c
′
(第二预设文本数量阈值)来进行过滤，c
′
的计算方式为
93.c
′
＝(s
‑
s
′
)/10000
94.其中，s代表系统已经处理的文本数量，s
′
代表该聚类中心产生时已经处理的文本数量。
95.需要说明的是，上述预设时间条件和预设文本阈值仅作为一个具体的例子对本发
明的方案进行说明，除此之外，还可根据实际情况设置其他的规则，本发明对此不做限定。
96.本发明提供的文本聚类方法将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。通过优化算法逻辑，对聚类中心进行过滤，减少聚类中心搜索空间，使得本发明在处理增量式数据时，能够根据时间条件和文本数量条件对聚类中心进行过滤，有效控制自动聚类中心的数量，从而提升聚类速度和自动化程度，实现大量流式文本的实时聚类。
97.可选的，根据本发明提供的一种文本聚类方法，所述基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度，具体包括：
98.基于所述目标待聚类文本，确定所述目标待聚类文本的关键词；
99.将所述目标待聚类文本的关键词与所有聚类中心的关键词进行比较，确定目标聚类中心集合；其中，所述目标聚类中心集合包括目标聚类中心；所述目标聚类中心的关键词与所述目标待聚类文本的关键词存在重复；
100.计算所述目标待聚类文本和所述目标聚类中心的文本相似度。
101.具体的，一般情况下，增量式流式文本数据量大，对应的聚类中心数量多，将目标待聚类文本和每一个聚类中心比较，计算量大且所需时间长，为了进一步的简化聚类的过程，如图2所示，在进行相似度比较之前对聚类中心进行筛选，仅选择与目标待聚类文本可能相关的待聚类中心。
102.基于目标待聚类文本和聚类中心，确定目标待聚类文本和聚类中心的文本相似度，具体包括：
103.确定收集到的文本中取出一条目标待聚类文本n进行聚类，提取目标待聚类文本n的关键词。
104.从目标待聚类文本n中提取出文本中的关键词的方法，如利用中文分词系统选择带有词性分析的中文分词系统对待聚类文本进行分词后，除去文本中的停用词，比如：是、的、了、你、他等词，并选择文本内容中相对关键的名词，动词，人名和地名等词性的词语作为关键词。
105.需要说明的是，上述确定关键词的方法仅作为一个具体的例子对本发明进行说明，在本发明实际应用过程中，所采用的分词方法可根据文本的类型和实际需求进行调整，本发明对此不做限定。
106.聚类过程中保留聚类中心的关键词，将目标待聚类文本的关键词与所有聚类中心的关键词进行比较，从大量的聚类中心中选取与待聚类文本存在重复关键词的目标聚类中心，将目标聚类中心组成集合确定目标聚类中心集合p。
107.在后续的对比计算中仅与目标聚类中心集合p中的聚类中心对比，计算目标待聚类文本和目标聚类中心的文本相似度。
108.本发明提供的文本聚类方法将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。在进行相似度比较前，通过关键词是否与目标待聚类文本重复对所有的聚类中心进行筛选，仅保留与目标待聚类文本的关键词有重复的聚类中心，在后续的对比计算中仅与目标聚类中心集合中的聚类中心对比，从而避免了将目标待聚类文本与毫不相关的聚类中心之间的比较，能够有效的简化聚类计算步骤，减少计算所需的资源，提高聚类的速度，实现大规模流式文本实时聚类。
109.可选的，根据本发明提供的一种文本聚类方法，所述基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别，具体包括：
110.根据中国餐馆过程算法，依次判断每一个聚类中心与所述目标待聚类文本对应的文本相似度是否满足预设相似度条件；
111.若确定存在第二聚类中心与所述目标待聚类文本对应的文本相似度满足预设相似度条件，则将所述第二聚类中心所在的类别作为所述目标类别；
112.若确定所有的聚类中心与所述目标待聚类文本对应的文本相似度均不满足预设相似度条件，则生成一个新的类别作为所述目标类别。
113.具体的，图3为本发明提供的目标类别确定方法流程示意图之一，如图2和图3所示，基于文本相似度，根据中国餐馆过程算法，确定目标待聚类文本的目标类别，具体包括：
114.根据中国餐馆过程算法，依次判断每一个聚类中心与目标待聚类文本对应的文本相似度是否满足预设相似度条件。
115.若确定存在第二聚类中心与目标待聚类文本对应的文本相似度满足预设相似度条件，则确定目标待聚类文本属于第二聚类中心，将第二聚类中心所在的类别作为目标类别。
116.进一步，聚类时将目标待聚类文本放入第二聚类中心所在的类别中，完成目标待聚类文本的聚类。
117.若确定与聚类中心比较失败，则在聚类中心集合中选取下一个聚类中心进行对比，若确定所有的聚类中心与目标待聚类文本对应的文本相似度均不满足预设相似度条件，则将目标待聚类文本设定为新的聚类中心，生成一个新的类别作为目标类别。
118.可以理解的是，在本发明中依次与聚类中心进行比较的顺序可以是基于聚类中心生成的时间顺序，或聚类中心所在类别的数据量大小顺序，或者聚类中心与目标待聚类文本关键词重复数量顺序等，可根据实际需求进行设置，本发明对此不做限定。
119.其次，文本相似度比较时文本相似度具体的计算方法以及设置的预设相似度条件，均可根据实际情况进行调整，本发明对此不做限定。
120.本发明提供的文本聚类方法将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。能够以无监督式学习方法处理数量巨大的流式文本，支持高内聚、低耦合的系统集成，只需要收集流式的文本，即可对其进行聚类，而不需要对文本进行额外的加工和处理，外部依赖少。并且不规定待聚类文本与聚类中心的相似度比较方法，符合接口要求的新算法均可以接入，支持插件灵活开发。有效提高聚类方法的紫红花程度和灵活性。
121.可选的，根据本发明提供的一种文本聚类方法，在所述基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果的步骤之后，还包括；
122.检测是否存在新的待聚类文本，若确定存在新的待聚类文本，将所述新的待聚类文本作为目标待聚类文本；
123.重复执行所述文本聚类方法的步骤，直至确定不存在新的待聚类文本。
124.具体的，如图3所示，在基于目标类别对目标待聚类文本进行聚类，确定目标聚类结果的步骤之后，还包括；
125.检测待聚类文本集合中是否存在新的待聚类文本，若确定存在新的待聚类文本，
将新的待聚类文本作为目标待聚类文本，重复执行文本聚类方法的步骤，计算目标待聚类文本和聚类中心的文本相似度，确定目标类别，直至确定不存在新的待聚类文本。
126.可以理解的是，在待聚类文本集合中选择一个文本作为目标待聚类文本的方法可根据实际情况进行设置，本发明对此不做限定。
127.本发明提供的文本聚类方法将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。能够持续处理增量式流式文本，有效简化聚类计算的过程，提升聚类速度，实现大量流式文本的实时聚类。
128.可选的，根据本发明提供的一种文本聚类方法，所述文本相似度包括：关键词相似度、字符相似度、句向量相似度和字符串相似度中的任意一项或多项；
129.其中，所述关键词相似度是基于所述目标待聚类文本的关键词和所述聚类中心的关键词确定的；所述字符相似度是基于所述目标待聚类文本和所述聚类中心重复字符数量确定的；所述句向量相似度是基于所述目标待聚类文本的词向量和所述聚类中心的词向量，根据相似度计算公式确定的；所述字符串相似度为所述目标待聚类文本和所述聚类中心的辑距离。
130.具体的，在计算目标待聚类文本和聚类中心的文本相似度时，文本相似度包括：关键词相似度、字符相似度、句向量相似度和字符串相似度中的任意一项或多项。
131.可以理解的是，在进行相似度的比较是，可以仅采用关键词相似度、字符相似度、句向量相似度和字符串相似度中的任意一项，设置预设阈值作为预设条件，根据是否满足预设条件确定目标类别。
132.此外，还可以使用多项特征相似度作为比较基础，可以使用加权融合的方式，计算多项相似度的融合值作为目标文本相似度，根据预设条件比对确定目标类别，或者，按照预设顺序依次对比多项特征相似度，仅在同时满足多项预设条件时，才确定目标类别。在本发明实际应用中，根据文本相似度进行比对的方法可根据实际情况进行设置，本发明对此不做限定。
133.其中，关键词相似度是基于目标待聚类文本的关键词和聚类中心的关键词确定的。
134.可以理解的是，在确定关键词相似度时，可以从目标待聚类文本中提取出文本中的关键词，与聚类中心提取出的关键词对比，确定关键词重复的数量作为关键词相似度，或者是计算重复数量占目标待聚类文本所有关键词的比例作为关键词相似度。具体的关键词相似度的数学表现形式，可根据实际情况进行设置，本发明对此不做限定。
135.需要说明的是，提取文本中的关键词可以使用jieba分词，hanlp(han language processing)分词和zpar分词等中文分词方法。在本发明实际应用过程中，提取关键词所采用的方法可根据实际情况进行调整，本发明对此不做限定。
136.字符相似度是基于目标待聚类文本和聚类中心重复字符数量确定的，逐字对比待聚类文本与聚类中心，得到两者重复字符的数量c
s
,并与待聚类文本与聚类中心中字符长度较短的文本进行对比，假设两者较短的字符长度为c
l
，字符相似度m1的计算方法为：
[0137][0138]
可以理解的是，在计算字符相似度时，以重复字符的数量和较短文本字符长度计
算字符相似度的方法仅作为一个具体的例子对本发明进行说明，除此之外，还可以以重复字符的数量和较长文本字符长度计算字符相似度，或以重复字符的数量和两文本字符长度的均值计算字符相似度等计算方法，在本发明实际应用过程中字符相似度的计算方法可根据实际情况进行设置，本发明对此不做限定。
[0139]
句向量相似度是基于目标待聚类文本的词向量和聚类中心的词向量，根据相似度计算公式确定的。
[0140]
例如：使用google的自然语言处理预训练模型bert(bidirectional encoder representations from transformers)模型计算待聚类语句每个词在高维空间中的映射得到词向量，将词向量进行整合得到文本的句向量，同理，确定聚类中心的句向量，通过计算待聚类文本与聚类中心句向量之间的相似度判断是否聚为一类。
[0141]
bert模型结构基于多层transformer结构，其特点不同于传统的循环神经网络和卷积神经网络，通过注意力机制将文本中任意位置的两个单词的距离转换成1，有效地解决了自然语言处理中的长期依赖问题，在自然语言处理领域中已经得到了广泛应用。
[0142]
使用自然语言处理预训练模型bert模型，得到文本的句向量表达s1,s2后，通过余弦相似度公式计算待聚类文本与聚类中心的特征向量形成的夹角θ:
[0143][0144]
判断句向量s1,s2的相似度，夹角越大，相似度越高；反之夹角越小，相似度越低。其中，a
i
代表待聚类语句的句向量s1的第i个权重，b
i
代表待聚类语句的句向量s2的第i个权重。
[0145]
可以理解的是，上述计算词向量相似度的方法仅作为一个具体的例子对本发明进行说明，除此之外，确定词向量的方法还可使用skip
‑
gram模型、cbow(continuous bag
‑
of
‑
words)模型和word2vec模型等。其次，相似度计算方法除了计算余弦相似度外，还可使用计算欧式距离和曼哈顿距离等方法。在本发明实际应用过程中，词向量的确定方法和相似度计算方法，均可根据实际情况进行调整，本发明对此不做限定。
[0146]
字符串相似度为目标待聚类文本和聚类中心的辑距离。
[0147]
可以理解的是，编辑距离(minimum edit distance,med)又称levenshtein距离，描述的是一个字符串转化成另一个字串最少的操作次数，其中的操作包括插入、删除和替换。编辑距离越小，两个待聚类文本与聚类中心的相似度越大。编辑距离的计算方法可根据实际情况设置，本发明对此不做限定。
[0148]
本发明提供的文本聚类方法，使用中国餐馆过程(crp)算法，融合文本多特征检测，在线处理批量流式文本，将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。能够有效简化聚类计算的过程，提升聚类速度，实现大量流式文本的实时聚类。并在根据文本相似度比较确定目标类别时，综合考虑文本的多种特征，使得聚类的准确定大幅提高。
[0149]
图4为本发明提供的目标类别确定方法流程示意图之二，如图4所示，以同时使用关键词相似度、字符相似度、词向量相似度和字符串相似度四个方面进行对比，判断是否属于同一个聚类的具体实例对本发明进行举例说明。
[0150]
首先，从待聚类文本集合n中选取目标待聚类数据n，在聚类中心集合p中选取聚类中心p。计算目标待聚类数据n和聚类中心p的文本相似度(关键词相似度、字符相似度、词向量相似度和字符串相似度)。
[0151]
在进行比较时，依次从字符相似度，重复关键词，词向量相似度和编辑距离(字符串相似度)四个方面进行对比，判断是否属于同一个聚类。比较过程可分为以下四个步骤。
[0152]
步骤1：设置字符相似度聚类阈值t
c
为85％，若字符相似度m1大于t
c
，则将待聚类文本归类为当前聚类中心。设置关键词无关阈值f
c
值为15％，若字符相似度m1小于f
c
，则表明当前文本与聚类中心内容无关，跳过测文本与聚类中心的后续对比步骤，直接与下一个聚类中心进行对比。若关键词重复数在t
c
和f
c
之间，则继续下一步骤与聚类中心的对比测试。
[0153]
步骤2：设置关键词重复阈值t
k
，若关键词重复个数大于关键词聚类阈值，则将待聚类文本归类为当前聚类中心。关键词聚类阈值的选择取决于待聚类文本与聚类中心的文本长度，若待聚类文本与聚类中心的文本中长度较短的大于60个字符，则设置关键词重复阈值t
k
为6；否则设置关键词聚类阈值t
k
为3。以此判断待聚类文本与聚类中心是否属于同一个聚类，对关键词重复数量大于等于设定的关键词聚类阈值，判断待聚类文本归于当前聚类。
[0154]
若待聚类文本与聚类中心的文本中长度较短的大于60个字符，设置关键词无关阈值f
k
值为2；否则设置关键词无关阈值f
k
值为1。若待聚类文本与聚类中心的关键词重复数低于f
k
，则表明当前文本与聚类中心内容无关，跳过测文本与聚类中心的后续对比步骤，直接与下一个聚类中心进行对比。若关键词重复数在t
k
和f
k
之间，则继续下一步骤与聚类中心的对比测试。
[0155]
步骤3：设置句向量聚类阈值t
v
的值为0.92，若句向量表达s1,s2之间的相似度大于t
v
，则判断待聚类文本属于当前聚类；设置句向量无关阈值f
v
的值为0.2，若待聚类文本与聚类中心的文本字符重复率低于f
k
，则表明当前文本与聚类中心内容无关，跳过测文本与聚类中心的后续对比步骤，直接与下一个聚类中心进行对比；若句向量相似度在t
v
与f
k
之间，则继续下一步与聚类中心的对比测试。
[0156]
步骤4：设置编辑距离聚类阈值t
l
的值为0.5，若待聚类文本与聚类中心之间的编辑距离小于t
l
，则判断待聚类文本属于当前聚类；否则待聚类文本与当前聚类中心的对比测试结束。
[0157]
本发明能够快速准确地从大量的流式新闻中挖掘出热度高和传播范围广的新闻话题聚类，使用户方便快捷地掌握最新新闻事件，对于热度前20的新闻话题聚类召回率97％，准确率95％。
[0158]
需要说明的是，上述方法仅作为一个具体的实例对本发明进行说明，在本发明实际应用过程中，比较文本相似度时所应用的特征具体类别和数量，以及比对时所采用的具体方法和预设阈值，均可根据实际情况进行设置，本发明对此不做限定。
[0159]
图5为本发明提供的文本聚类系统结构示意图，如图5所示，本发明还提供一种文本聚类系统，包括：相似度计算单元510、目标类别确定单元520和目标文本聚类单元530；
[0160]
所述相似度计算单元510，用于基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度；
[0161]
所述目标类别确定单元520，用于基于所述文本相似度，根据中国餐馆过程算法，
确定所述目标待聚类文本的目标类别；
[0162]
所述目标文本聚类单元530，用于基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果。
[0163]
具体的，在存在大规模流流式文本时，为了进行数据的挖掘，通过对比文本信息的多种特征，将相同主题的文本信息进行聚类，例如：各大网站媒体新闻、社交平台文本，论文管理平台论文和工程管理平台数据等进行聚类管理。需要说明的是，本发明所应用的具体场景可根据实际情况进行限定，本发明对此不作限定。
[0164]
需要说明的是，在处理流式文本时，由于不同时段数据量不同，待聚类文本的处理进度不一定能够实现实时处理，可能会出现文本的累计，从待聚类文本集合中确定目标待聚类文本的方法可以是优先处理新文本或者优先处理最长的文本等，具体使用的方法可根据实际需求进行调整，本发明对此不做限定。
[0165]
以处理社交平台的新闻和评论为例，对本发明进行说明。本发明通过将标题相同或相似的新闻或社交平台文本聚合(待聚类文本)，从而达到从庞大的新闻数据流中自动发现话题的目的。
[0166]
图2为本发明提供的文本聚类方法流程示意图，如图2所示，进一步的，可以理解的是，由于用户在社交平台上发表的文本可能会出现无法解析的字符和表情符号(例如：颜文字和表情包等)，在收集待聚类文本之后，还可以对待聚类文本进行预处理，根据评估业务要求，可以根据需求收集当前的未聚类的新闻数据或者评论数据，去除其中无法解析的字符和表情符号后，作为待聚类数据集合n，存储于硬盘中。
[0167]
在所有的待聚类数据集合n中选取目标待聚类数据n，相似度计算单元510，用于基于目标待聚类文本n和聚类中心，确定目标待聚类文本和聚类中心的文本相似度。
[0168]
可以理解的是，确定目标待聚类文本和聚类中心的文本相似度的具体方法，可根据实际需求进行调整，本发明对此不做限定。
[0169]
目标类别确定单元520，用于基于文本相似度，根据中国餐馆过程算法，在所有的聚类中心中选取一个作为目标待聚类文本对应的类别的聚类中心，即确定目标待聚类文本的目标类别。
[0170]
需要说明的是，根据中国餐馆过程算法，目标待聚类文本处理的时机不同聚类中心的数量也不同，也可能出现没有目标聚类中心的情况(即目标待聚类文本是第一条文本)。目标聚类中心的具体数量可以根据实际情况确定，本发明对此不做限定。
[0171]
进一步，可以理解的是，在根据中国餐馆过程算法确定目标待聚类文本的目标类别时，实际上是根据文本相似度确定与目标待聚类文本匹配的聚类中心，以该聚类中心对应的类别作为目标类别。
[0172]
例如：在聚类中心集合p中，根据文本数据量从小到大(时间从近至远)的规律依次取出聚类中心p计算与目标待聚类文本的相似度，若确定满足预设条件，则确定该聚类中心p对应的类别为目标类别。或者计算所有聚类中心与目标待聚类文本的相似度，取相似度最大的聚类中心对应的类别为目标类别。
[0173]
需要说明的是，上述进行相似度比较的方法仅作为一个具体的例子对本发明进行说明，除此之外，还可根据实际需求进行调整，本发明对此不做限定。
[0174]
若确定待聚类文本n属于聚类中心p对应的类别，目标文本聚类单元530，用于基于
目标类别对目标待聚类文本进行聚类，则将待聚类文本n放入聚类中心p所在的聚类中，即待聚类文本n完成聚类，确定目标聚类结果。
[0175]
可以理解的是，待聚类文本n聚类完成后，在进行数据查看时可以导出当前聚类结果，包括聚类中心以及聚类中心中包括的每条文本。进一步，还可以设置导出聚类结果的规则，仅在确定待聚类文本n中所有的待聚类文本均聚类完成后，才能够进行聚类结果的导出。具体规则可根据实际情况进行设置，本发明对此不做限定。
[0176]
本发明提供的文本聚类系统将目标待聚类文本和聚类中心的相似度作为利用中国餐厅过程算法确定目标类别的标准。能够有效简化聚类计算的过程，提升聚类速度，实现大量流式文本的实时聚类。
[0177]
需要说明的是，本发明提供的文本聚类系统用于执行上述文本聚类方法，其具体的实施方式与方法实施方式一致，在此不再赘述。
[0178]
图6为本发明提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(communicationsinterface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行文本聚类方法，该方法包括：基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度；基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别；基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果。
[0179]
此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0180]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本聚类方法，该方法包括：基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度；基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别；基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果。
[0181]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本聚类方法，该方法包括：基于目标待聚类文本和聚类中心，确定所述目标待聚类文本和所述聚类中心的文本相似度；基于所述文本相似度，根据中国餐馆过程算法，确定所述目标待聚类文本的目标类别；基于所述目标类别对所述目标待聚类文本进行聚类，确定目标聚类结果。
[0182]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单
元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0183]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0184]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于确定目标信息的数据处理系统的制作方法

文本聚类方法及系统、电子设备和存储介质与流程

相关文献

最热文献