一种文本聚类系统、方法、装置、设备及介质与流程

2022-03-13 18:01:56 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，尤其涉及一种文本聚类系统、方法、装置、设备及计算机可读存储介质。

背景技术：

2.随着信息技术的发展，互联网累计了大量的文本数据。文本聚类技术，通过对文本信息进行有效的组织、摘要和导航，将语义相似度较大的文本汇聚为一簇，以此可以从海量文本数据中挖掘出有效信息。
3.在文本聚类过程中，可以采用交互式聚类的方式提高文本聚类的准确率。具体的，聚类算法在给出聚类结果后，用户可以捕捉该聚类结果中所存在的聚类错误，并基于所捕捉到的聚类错误调整聚类算法的模型参数，以便于聚类算法基于调整后的模型重新执行文本聚类过程。如此，基于用户对模型参数的多次调整，最终可以使得聚类算法所输出的聚类结果的准确率能够满足用户的要求。
4.但是，基于用户调整聚类算法的模型参数来优化聚类算法输出的聚类结果，这使得整个文本聚类过程的耗时较高，文本聚类效率较低。

技术实现要素：

5.本技术提供了一种基于协同架构的文本聚类系统，通过对用户未调整的聚类结果进行自动调整，提高文本聚类的效率。本技术还提供了对应的方法、装置、设备、存储介质以及计算机程序产品。
6.第一方面，本技术提供了一种文本聚类系统，其包括聚类装置以及交互装置。其中，聚类装置，用于对多个文本进行聚类，得到初始聚类结果，而交互装置可以呈现从聚类装置获取的初始聚类结果，并响应用户针对初始聚类结果中第一部分的调整操作，得到第一聚类结果，相应的，聚类装置还可以根据针对于该第一部分的调整操作，将初始聚类结果中的第二部分更新为第二聚类结果，以实现对初始聚类结果的优化。由于在修正聚类结果的过程中，用户可以对部分聚类结果进行调整，并由聚类装置根据用户的调整操作，对剩余的聚类结果进行自动调整，这不仅实现了调整后的聚类结果符合用户的预期，而且，用户是直接对聚类结果进行调整，无需根据聚类错误分析如何调整聚类算法的模型参数，以此可以缩短优化聚类结果的耗时，从而可以提高整个文本聚类过程的效率。同时，相比于用户通过调整模型参数的方式来优化聚类结果，用户直接对聚类结果进行调整，不仅可以降低对于用户的技术水平要求，而且，可以聚类结果的优化效果通常更符合用户的预期。
7.结合第一方面，在第一方面的第一种可能的实施方式中，聚类装置，还可以用于对聚类得到初始聚类结果的过程中涉及的中间信息进行记录，并根据该中间信息以及调整操作将初始聚类结果中的第二部分更新为第二聚类结果。如此，聚类装置在自动调整初始聚类结果中的第二部分聚类结果时，无需重新计算所有信息，如文本之间的相似度等，而是可以是复用之前聚类得到初始聚类结果的过程中所计算出的中间信息，从而不仅可以降低重
新进行文本聚类所需的计算量，而且，也可以有效提高文本聚类效率。
8.结合第一方面的第一种实施方式，在第一方面的第二种可能的实施方式中，该中间信息可以包括多个文本中单词之间的相似度、文本之间的相似度、单词的权重值以及单词属性的定义等信息中的任意一种或多种。实际应用中，中间信息还可以包括其它信息，如经过预处理后的文本、单词在文本中的词序等信息，本技术中对记录的中间信息并不进行限定。
9.结合第一方面至第一方面的第二种实施方式，在第一方面的第三种可能的实施方式中，上述调整操作，可以包括对多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作中的任意一种或多种。特别的，当交互装置可以支持用户对初始聚类结果的多种调整操作时，可以增加调整操作的丰富度，提高用户体验。
10.结合第一方面至第一方面的第三种实施方式，在第一方面的第四种可能的实施方式中，聚类装置在对多个文本进行聚类时，具体可以是先计算该多个文本中不同文本之间的相似度，再根据该不同文本之间的相似度，计算多个文本中不同文本与聚类类目之间的相似度，并基于该不同文本与聚类类目之间的相似度，确定初始聚类结果，最后，聚类装置再计算用于表征聚类类目特征的文本与关键词。如此，可以实现将多个文本进行聚类，得到初始聚类结果。
11.结合第一方面至第一方面的第四种实施方式，在第一方面的第五种可能的实施方式中，聚类装置所获取的多个文本中，包括标准文本以及待聚类文本，其中，标准文本已经完成聚类，而待聚类文本尚未完成聚类。这样，聚类装置在对该多个文本进行聚类时，可以是根据该标准文本对聚类文本进行聚类，如聚类装置可以计算每个待聚类文本与标准文本之间的相似度，并根据该待聚类文本与标准文本之间的相似度，确定该待聚类文本是否与标准文本聚集为一类。
12.结合第一方面至第一方面的第四种实施方式，在第一方面的第六种可能的实施方式中，聚类装置在对多个文本进行文本聚类时，可以先对多个文本进行预处理，该预处理包括对多个文本进行分词、错误纠正、去噪、去除停用词、词性检测中的任意一种或多种。然后，聚类装置再对经过预处理的多个文本进行聚类，得到初始聚类结果。通常情况下，基于经过预处理后的多个文本进行聚类，其聚类结果的准确率和/或聚类效率可以得到相应提高。比如，当对文本进行错误纠正后，文本中的错误表达(错误词汇或语句)等可以被纠正，相较于基于包含错误内容的文本所得到的聚类结果，根据经过错误纠正后所得到的文本所得到的聚类结果的准确率可以更高。又比如，当读文本进行去除停用词/去噪后，文本的数据量可以得到有效减少，从而基于较少数据量的文本进行聚类，可以提高文本聚类效率，而文本聚类的准确性通常也不会因为去除停用词和/或去噪处理而被降低。
13.第二方面，本技术提供了一种文本聚类方法，该方法可以应用于聚类装置，具体包括如下步骤：对多个文本进行聚类，得到初始聚类结果；向交互装置发送所述初始聚类结果；
14.根据所述交互装置发送的针对于所述初始聚类结果中第一部分的调整操作，将所述初始聚类结果中的第二部分更新为第二聚类结果。
15.结合第二方面，在第二方面的第一种可能的实施方式中，所述方法还包括：对聚类
得到所述初始聚类结果的过程中涉及的中间信息进行记录；则所述根据所述交互装置发送的针对于所述初始聚类结果中第一部分的调整操作，将所述初始聚类结果中的第二部分更新为第二聚类结果，包括：根据所述中间信息以及所述调整操作将所述初始聚类结果中的第二部分更新为所述第二聚类结果
16.结合第二方面的第一种实施方式，在第二方面的第二种可能的实施方式中，所述中间信息包括所述多个文本中单词之间的相似度、文本之间的相似度、单词的权重值、以及单词属性的定义等信息中的任意一种或多种。
17.结合第二方面至第二方面的第二种实施方式，在第二方面的第三种可能的实施方式中，所述调整操作，包括所述多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作中的任意一种或多种。
18.结合第二方面至第二方面的第三种实施方式，在第二方面的第四种可能的实施方式中，所述对多个文本进行聚类，得到初始聚类结果，包括：计算所述多个文本中不同文本之间的相似度；根据所述不同文本之间的相似度，计算所述多个文本中不同文本与聚类类目之间的相似度，并基于所述不同文本与聚类类目之间的相似度确定所述初始聚类结果；计算用于表征聚类类目特征的文本与关键词。
19.结合第二方面至第二方面的第四种实施方式，在第二方面的第五种可能的实施方式中，所述多个文本中包括标准文本以及待聚类文本，所述标准文本已完成聚类；则，所述对多个文本进行聚类，得到初始聚类结果，包括：根据所述标准文本对所述待聚类文本进行聚类。
20.结合第二方面至第二方面的第五种实施方式，在第二方面的第六种可能的实施方式中，所述对多个文本进行聚类，得到初始聚类结果，包括：对所述多个文本进行预处理，所述预处理包括分词、错误纠正、去噪、去除停用词以及词性检测中的任意一种或多种；对经过预处理的多个文本进行聚类，得到所述初始聚类结果。
21.由于第二方面的文本聚类方法，对应于第一方面中聚类装置所具有的功能，因此，第二方面以及第二方面中各种可能实施方式的具体实现及其所具有的技术效果，可以参见第一方面中相应实施方式的相关描述，在此不做赘述。
22.第三方面，本技术提供了一种聚类装置，该聚类装置包括：聚类模块，用于对多个文本进行聚类，得到初始聚类结果；通信模块，用于向交互装置发送所述初始聚类结果；
23.所述聚类模块，还用于根据所述交互装置发送的针对于所述初始聚类结果中第一部分的调整操作，将所述初始聚类结果中的第二部分更新为第二聚类结果。
24.结合第三方面，在第三方面的第一种可能的实施方式中，所述装置还包括：存储模块，用于对聚类得到所述初始聚类结果的过程中涉及的中间信息进行记录；则，所述聚类模块，具体用于根据所述中间信息以及所述调整操作将所述初始聚类结果中的第二部分更新为所述第二聚类结果。
25.结合第三方面的第一种实施方式，在第三方面的第二种可能的实施方式中，所述中间信息包括所述多个文本中单词之间的相似度、文本之间的相似度、单词的权重值、以及单词属性的定义等信息中的任意一种或多种。
26.结合第三方面至第一方面的第二种实施方式，在第三方面的第三种可能的实施方
式中，所述调整操作，包括所述多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作中的任意一种或多种。
27.结合第三方面至第一方面的第三种实施方式，在第三方面的第四种可能的实施方式中，所述聚类模块，具体用于：计算所述多个文本中不同文本之间的相似度；根据所述不同文本之间的相似度，计算所述多个文本中不同文本与聚类类目之间的相似度，并基于所述不同文本与聚类类目之间的相似度确定所述初始聚类结果；计算用于表征聚类类目特征的文本与关键词。
28.结合第三方面至第一方面的第四种实施方式，在第三方面的第五种可能的实施方式中，所述多个文本中包括标准文本以及待聚类文本，所述标准文本已完成聚类；所述聚类模块，具体用于根据所述标准文本对所述待聚类文本进行聚类。
29.结合第三方面至第一方面的第五种实施方式，在第三方面的第六种可能的实施方式中，所述装置还包括：预处理模块，对所述多个文本进行预处理，所述预处理包括分词、错误纠正、去噪、去除停用词以及词性检测中的任意一种或多种；所述聚类模块，具体用于对经过预处理的多个文本进行聚类，得到所述初始聚类结果。
30.由于第三方面的文本聚类装置，对应于第一方面中聚类装置所具有的功能，因此，第三方面以及第三方面中各种可能实施方式的具体实现及其所具有的技术效果，可以参见第一方面中相应实施方式的相关描述，在此不做赘述。
31.第四方面，本技术提供一种计算机系统，所述计算机系统包括至少一个计算机，所述至少一个计算机包括处理器和存储器；所述至少一个计算机的处理器用于执行所述至少一个计算机的存储器中存储的指令，执行如权利要求8至14任一项所述的方法。
32.第五方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第二方面或第二方面的任一种实现方式所述的方法。
33.第六方面，本技术提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面或第二方面的任一种实现方式所述的方法。
34.本技术在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。
附图说明
35.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。
36.图1为一种文本聚类过程的示意图；
37.图2为本技术实施例提供的一种文本聚类系统的结构图；
38.图3为本技术实施例中一示例性呈现初始聚类结果的交互界面示意图；
39.图4为本技术实施例中一种聚类装置的结构示意图；
40.图5为本技术实施例中一种文本聚类方法的流程示意图；
41.图6为本技术实施例中一种计算机系统的结构示意图；
42.图7为本技术实施例中另一种计算系统的结构示意图。
具体实施方式
43.实际应用中，可以采用如图1所示的聚类过程对多个文本进行聚类。其中，用户可以对聚类装置的模型参数进行初始化，并触发该聚类装置运行。聚类装置中的聚类算法基于初始化的模型参数开始对多个文本进行聚类，得到相应的聚类结果。通常情况下，聚类装置基于初始化的模型参数所得到的聚类结果可能难以达到用户的预期，因此，该聚类结果可以呈现给用户。而用户可以根据对所呈现的聚类结果进行分析，捕捉该聚类结果中存在的聚类错误，如文本与聚类类目不匹配等，并基于所确定的聚类错误对聚类装置的中的模型参数进行调整。这样，聚类装置可以基于用户调整的模型参数对多个文本进行重新聚类，并且重新聚类得到的聚类结果可以再次呈现给用户。如果重新聚类得到的聚类结果仍然不符合用户的预期，则用户可以继续对聚类装置的模型参数进行调整，直至最终得到的聚类结果符合用户的预期，比如，聚类结果的准确率能够达到用户要求等。
44.但是，这种文本聚类方式通常要求用户能够根据聚类错误捕捉到聚类错误，并能够根据聚类错误来进一步将聚类装置的模型参数调整为更合适的值，这对于用户的技术水平要求较高。并且，实际应用中，用户根据聚类错误对模型参数进行调整后，重新聚类所得到的聚类结果也很可能仍然不符合用户预期，因此，用户需要通过反复试错的方式，多次根据聚类错误调整模型参数，而每次调整模型参数均需要耗费较长时间，这使得基于多个文本得到符合用户预期的聚类结果的总耗时较长，文本聚类的效率较低。
45.基于此，本技术实施例提供了一种文本聚类系统，该文本聚类系统至少可以包括聚类装置和交互装置，其中，该聚类装置可以对文本进行聚类，得到初始聚类结果，然后由交互装置将该初始聚类结果进行呈现，并响应针对该初始聚类结果中第一部分的调整操作，得到第一聚类结果，而聚类装置还可以根据该调整操作，将初始聚类结果中的第二部分更新为第二聚类结果，以实现对初始聚类结果的优化。由于在修正聚类结果的过程中，用户可以对部分聚类结果进行调整，并由聚类装置根据用户的调整操作，对剩余的聚类结果进行自动调整，这不仅实现了调整后的聚类结果符合用户的预期，而且，用户是直接对聚类结果进行调整，无需根据聚类错误分析如何调整聚类算法的模型参数，以此可以缩短优化聚类结果的耗时，从而可以提高整个文本聚类过程的效率。同时，相比于用户通过调整模型参数的方式来优化聚类结果，用户直接对聚类结果进行调整，不仅可以降低对于用户的技术水平要求，而且，可以聚类结果的优化效果通常更符合用户的预期。
46.下面结合附图，对本技术的实施例进行描述。
47.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本技术的实施例中对相同属性的对象在描述时所采用的区分方式。
48.首先，参见图2所示的文本聚类系统的结构图，该文本聚类系统包括聚类装置201、交互装置202。其中，部署交互装置202的计算机，可以是台式机、笔记本电脑、智能手机等，部署聚类装置201的计算机，可以台式机、笔记本电脑、智能手机等终端设备，也可以是服务器，如云服务器等，图1中以聚类装置部署于云服务器为例。聚类装置201与交互装置202可
以是部署于同一计算机上，当然，也可以是部署于不同计算机上。
49.在进行文本聚类时，用户可以将多个文本输入至聚类装置201，如通过交互装置202将多个文本输入至聚类装置201等。其中，用户输入的文本，例如可以是图2所示的用户输入的n个客服工单文档，分别为客服工单文档_1至客服工单文档_n(n为大于1的正整数)，也可以是作为客服语料的文档或者其它文本，如针对于人机交互场景中用户所提出的问题文本和/或针对于用户问题的答案文本等。
50.实际应用中，交互装置202所在计算机可以向用户呈现交互界面，并且，在用户将多个文本输入至聚类装置201后，该交互界面上可以包括该多个文本的信息，如图2所示的n个客服工单文档的标识，以便用户查看已输入哪些文本。然后，用户可以在该交互界面上点击“开始聚类”的按钮，而交互装置202根据用户针对该按钮的点击操作，触发聚类装置201进行文本聚类。
51.该聚类装置201中可以配置有聚类算法，并且，该聚类算法中的模型参数可以被初始化。聚类装置201基于该聚类算法以及完成初始化的模型参数，对多个文本进行聚类，得到相应的聚类结果，为便于描述，以下将其称之为初始聚类结果。
52.相应的，交互装置202可以从聚类装置201中获取其生成的初始聚类结果，并将该初始聚类结果呈现在交互界面上呈现给用户。如图3所示，交互界面上可以呈现m个聚类类目以及属于各个聚类类目下的文档标识，如属于类目1的文档包括文档1-1至文档1-x，属于类目2的文档包括文档2-1至文档2-y，
……
，属于类目m的文档包括文档m-1至文档m-z。进一步的，交互界面上还可以呈现用于表征每个聚类类目语义的中心文本、中心句以及关键词中的任意一种或多种。
53.通常情况下，聚类装置201基于初始化的模型参数所得到的文本聚类结果，可能不符合用户的预期，比如，文本与聚类类目不符等。本实施例中，用户可以对交互装置202所呈现的初始聚类结果中聚类结果进行调整，调整所得的聚类结果即能符合用户的预期。实际应用中，由于参与聚类的文本数量较多，因此，用户可以仅对初始聚类结果的中的部分聚类结果进行调整，相应的，交互装置202可以根据用户针对于该部分聚类结果的调整参数将该部分聚类结果调整为第一聚类结果，而聚类装置201可以根据针对部分聚类结果的调整操作，对用户未调整的其它聚类结果进行调整，具体可以是将该初始聚类结果中的第二部分更新为第二聚类结果。比如，假设待聚类的多个文本中存在100个文本包含名词a，并且，初始聚类结果中的类目1下的部分文本包含该名词a，用户可以标记该名词a不参与文本聚类过程，则聚类装置201可以自动对其余的99个文本进行重新聚类，并且，该99个文本在重新聚类时，其包含的名词a同样不参与文本聚类过程，以此实现对聚类结果的调整。
54.由于用户是直接对初始聚类结果进行调整，而并非是对聚类装置201中聚类算法的模型参数进行调整，因此，调整得到的聚类结果通常更能符合用户的预期。同时，用户也无需根据初始聚类结果的聚类错误分析如何对聚类算法模型参数进行修改，不仅可以降低对于用户的技术水平要求，而且，可以缩短优化初始聚类结果所需的耗时，提高文本聚类效率。
55.在一些可能的实施方式中，交互装置202所支持的用户针对于聚类结果的调整操作，具体可以是包括对于多个文本中单词属性的定义操作、单词之间的关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作
中的任意一种或多种。实际应用中，该调整操作，还可以包括其它针对于聚类结果的操作，本实施例对此并不进行限定。
56.其中，单词的属性，例如可以是单词的词性、所属领域以及权重(如可以是该单词在预设语料库中的占比或者根据该占比所确定的值)等。则，针对于单词属性的定义操作，具体可以是针对于该单词属性的添加、删除、设置、修改等操作。
57.单词之间的关联性，例如可以是单词之间的语义相似度(如近义词/反义词)等。针对于单词之间关联性的定义操作，例如可以是对单词之间是否为近义词或者反义词进行标注等。
58.文本之间的关联性，例如可以是文本之间的语义相似度等。针对于文本之间关联性的定义操作，例如可以是标注文本之间的语义是否相同或者不相同，或者标注表征文本之间语义相近程度(如可以用数值表征)。
59.聚类类目的定义操作，例如可以是将多个类目合并为一个类目、将一个类目拆分为多个类目、新建类目等操作。
60.噪音标注操作，例如可以是对用户输入的多个文本中的部分文本进行无效标记的操作，或者是对初始聚类结果中的部分类目进行无效标记的操作。其中，文本被标记无效后，该文本可以不参与文本聚类过程；类目被标记无效后，初始聚类结果所包含的类目中可以不包含被标记为无效的类目。
61.聚类类目特征的标注操作，例如可以是用于表征聚类类目特征的中心句、关键词等信息的标注操作。通常情况下，聚类类目下各个文本的语义，均与该聚类类目的中心文本、中心句以及关键词的语义相同或者存在关联。
62.值得注意的是，上述交互装置202所支持的调整操作的各种示例，仅用于进行解释说明，并不用于对调整操作的具体实现进行限定。实际应用中，交互装置202所支持的调整操作，除了可以包括上述操作以外，还可以包括其它对聚类结果的任意操作。
63.接下来，对上述文本聚类系统涉及的聚类装置进行详细说明。
64.参见图4所示的聚类装置201的结构示意图，该聚类装置201包括通信模块400、预处理模块401、聚类模块402以及存储模块403。
65.通信模块400，用于接收交互装置发送的多个文本，该多个文本可以由用户提供给交互装置202。实际应用中，也可以是由用户直接提供给聚类装置201，而交互装置202转发。
66.预处理模块401可以用于该多个文本进行预处理，例如可以是对多个文本进行分词、错误纠正(如纠正文本中出现错误的词语等)、去噪(如去除无意义的字母、符号等字符)、去除停用词以及检测每个单词的词性中的任意一种或多种。其中，停用词，可以包括内容指示含义较低的功能词等词汇，通常难以指示文本的语义，如“一个”、“这些”、“的”等难以指示文本语义的词汇。
67.实际应用中，预处理模块401对该多个文本进行上述预处理后，可以在一定程度上减少文本的数据量，从而再对经过预处理之后的文本进行聚类时，可以减少计算量，提高聚类效率。比如，假设其中一个文本为“篮球一般是多人竞技运动”，则对该文本进行分词、去除停用词等预处理后，文本中的单词可以包括“篮球”、“多人”、“竞技”、“运动”，该文本中参与聚类的数据量可以减少至8个字符。
68.预处理模块401在完成对多个文本的预处理后，还可以将该文本的相关信息提供
给聚类模块402。示例性的，文本的相关信息，可以包括文本中所包含的各个单词、每个单词的词性、以及文本中的单词在该文本中的词序等信息。
69.聚类模块402可以根据获取到的多个文本的相关信息，对多个文本进行聚类。在一种示例性的具体实现方式中，聚类模块402可以包括有文本相似度计算单元4021、文本聚类单元4022以及聚类类目表征单元4033。
70.其中，文本相似度计算单元4021，可以用于计算任意两个文本之间的相似度。具体实现时，文本相似度计算单元4021可以选取任意两个文本，分别为文本a以及文本b，并将这两个文本划分成多个语句。然后，文本相似度计算单元4021可以将文本a中的每个语句，分别与文本b中的每个语句进行相似度计算。以计算文本a中的语句a与文本b中的语句b为例：
71.当语句a与语句b同时包含动词与名词时，文本相似度计算单元4021可以计算出语句a与语句b中的动词、副词、名词、形容词之间的相似度，确定出语句a与语句b中相似度大于第一阈值的单词，其中，单词之间的相似度可以是通过单词的词向量之间的相似度进行计算，当然，也可以是采用其它方式进行计算。同时，文本相似度计算单元4021可以计算语句a的句向量与语句b的句向量之间的相似度，如果两个语句的句向量的相似度大于第二阈值，并且，两个语句中相似度大于第一阈值的单词，其对应的权重值也大于第三阈值，则可以确定语句a与语句b相似。否则，若语句a与语句b中没有相似度大于第一阈值的单词，或者这两个语句中相似度大于第一阈值的单词所对应的权重值均不大于第三阈值，或者这两个语句的句向量之间的相似度小于第二阈值，则文本相似度计算单元4021均可以确定这两个语句不相似。其中，每个单词的权重值例如可以是该单词在预设语料库中的权重值，文本相似度计算单元4021可以通过查表确定语句a以及语句b中任意一个单词所对应的权重值。
72.当语句a与语句b不同时包含名词和动词时，如同时只包括名词(或动词)，当然，还可以同时包括其它词性的单词，文本相似度计算单元4021可以同时计算出语句a与语句b中的名词、形容词之间的相似度(或者动词、副词之间的相似度)，确定出语句a与语句b中相似度大于第一阈值的单词。同时，文本相似度计算单元4021可以计算语句a的句向量与语句b的句向量之间的相似度，如果两个语句的句向量的相似度大于第二阈值，并且，两个语句中相似度大于第一阈值的单词，其对应的权重值也大于第三阈值，则可以确定语句a与语句b相似；否则，可以确定语句a与语句b不相似。
73.当语句a与语句b均不包含名词和动词时，文本相似度计算单元4021可以计算语句a的句向量与语句b的句向量之间的相似度，并且，如果这两个语句的句向量的相似度大于第二阈值，则文本相似度计算单元4021可以确定语句a与语句b相似，而若这两个语句的句向量的相似度不大于第二阈值时，则文本相似度计算单元4021可以确定语句a与语句b不相似。
74.基于上述过程，可以确定出文本a与文本b中任意两个语句之间是否相似，由此可以得到这两个文本中的相似语句。然后，文本相似度计算单元4021可以分别计算出该相似语句在文本a中的占比，以及该相似语句在文本b中的占比，当相似语句在文本a中的占比以及在文本b中的占比均达到第四阈值时，文本相似度计算单元4021确定文本a与文本b相似，而当存在相似语句在其中一个文本中的占比未达到第四阈值时，文本相似度计算单元4021确定文本a与文本b不相似。
75.当然，上述确定两个文本之间是否相似的具体实现方式仅作为一种示例，实际应
用中，也可以是采用其它方式确定两个文本之间是否相似，并且，在确定文本之间是否相似的过程中，所采用的阈值可以自行设定，本实施例对该过程的具体实现方式并不进行限定。
76.如此，文本相似度计算单元4021通过遍历计算可以确定出多个文本中任意两个文本之间是否相似以及任意两个文本之间的相似度。然后，文本相似度计算单元4021可以将所得到的结果传递给文本聚类单元4022。
77.文本聚类单元4022可以根据多个文本中各个样本之间的相似度进行聚类，具体可以是确定每个待聚类的文本与已聚类文本集合中各个文本的相似度，并进一步确定出已聚类文本集合中与该待聚类文本之间的相似度大于第五阈值的文本，当相似度大于第五阈值的文本在该已聚类文本集合中的占比大于第一比例阈值，则可以确定该待聚类文本属于该已聚类文本集合所属的类目，并将该待聚类文本添加至该已聚类文本集合中。而当相似度大于第五阈值的文本在该已聚类文本集合中的占比小于第一比例阈值，则可以确定该待聚类文本不属于该已聚类文本集合所属的聚类类目，并可以继续确定该待聚类文本与下一已聚类文本集合中相似度大于第五阈值的文本，以便于继续确定该待聚类文本是否属于下一已聚类文本集合所属的聚类类目。文本聚类单元4022若确定该待聚类文本不属于已有的所有聚类类目，则可以基于该待聚类文本创建新的聚类类目，而该待聚类文本则属于该新的聚类类目。
78.文本聚类单元4022在开始进行文本聚类时，若当前没有已聚类文本集合，则可以先以任意一个文本创建已聚类文本集合，并基于上述过程确定待聚类文本是否属于该已聚类文本集合所属聚类类目，若属于，则将待聚类文本添加至该已聚类文本集合中，而若不属于，则可以基于该待聚类文本创建新的已聚类文本集合，该新的已聚类文本集合对应于新的聚类类目。如此，文本聚类单元4022可以将各个文本划分至相应的已聚类文本集合中，而已聚类文本集合的数量即为聚类类目的数量。
79.实际应用的一些实施方式中，聚类装置201中的多个文本，可以同时包括标准文本以及待聚类文本。其中，待聚类文本尚未完成聚类；而标准文本已经完成聚类，并且可以根据聚类类目的不同，划分为多个不同的已聚类文本集合。这样，聚类装置201中的文本聚类单元4022，可以根据标准文本的聚类情况对待聚类文本进行聚类，如可以是将每个待聚类文本划分至相应的标准文本中的不同已聚类文本集合。其中，若待聚类文本不属于已有的所有聚类类目，则可以基于该待聚类文本创建新的聚类类目，而该待聚类文本则属于该新的聚类类目。
80.进一步的，针对于每个聚类类目，还可以由聚类装置201中的聚类类目表征单元4023为该聚类类目确定中心文本、中心句以及关键词中的任意一种或多种，所确定出的中心文本、中心句、关键词的语义可以表征该聚类类目。
81.具体的，在确定每个聚类类目的中心文本时，聚类类目表征单元4023可以根据文本相似度计算单元4021所计算出的不同文本之间的相似度，确定出该聚类类目对应的已聚类文本集合中每个文本与该已聚类文本集合中的其它文本之间的相似度总和(或平均值)，并对每个文本对应的相似度总和(或平均值)进行排序，从中选取相似度总和(或平均值)较大或者最大的文本作为该聚类类目的中心文本。
82.在确定每个聚类类目的中心句时，聚类类目表征单元4021可以根据文本相似度计算单元4021所计算出的不同语句之间的相似度，确定该聚类类目对应的已聚类文本集合中
的每个语句与该已聚类文本集合中的其它语句的相似度总和(或平均值)，并对每个语句对应的相似度总和(或平均值)进行排序，从中选取相似度总和(或平均值)较大或者最大的语句作为该聚类类目的中心句。
83.在确定每个聚类类目的关键词时，针对于一类词性，聚类类目表征单元4021可以确定该聚类类目对应的文本中具有该词性的单词集合，如词性为动词的单词集合、词性为名词的单词集合等，并通过查表等方式确定单词集合中每个单词的权重值。然后，聚类类目表征单元4021可以对该单词集合中不同的单词的权重值进行排序，并从中选取较大或者最大的一个或者多个单词作为该聚类类目的关键词，如此，可以确定出该聚类类目对应的不同词性的关键词。
84.当然，上述聚类模块402对多个文本完成聚类的过程，仅作为一种示例性说明，并不用于限定本实施例的文本聚类实现局限于上述示例，实际应用中，聚类模块402也可以是采用其它可能的文本聚类过程完成对多个文本聚类。
85.进一步的，聚类模块402还可以将文本聚类过程中所涉及的中间信息进行记录，具体可以是将该中间信息发送至聚类模块中的存储模块403进行存储。示例性的，该中间信息，例如可以是上述文本相似度计算单元4021所计算出的不同单词之间的相似度、不同文本之间的相似度、单词的权重值以及单词属性的定义等信息中的任意一种或多种。时间应用中，所记录的中间信息还可以包括更多其它的信息，如不同文本之间的相似语句或者相似语句的标识(如可以是该语句在文本中顺序编号等)。其中，存储模块403可以包括索引单元4031以及存储单元4032，存储模块403可以利用存储单元4032存储该中间信息，并在索引单元4031中建立该信息的查询索引，该索引可以包括中间信息的标识以及该中间信息在存储单元中的存储地址。
86.基于上述过程，聚类装置201可以实现对多个文本的聚类，并得到初始聚类结果，该初始聚类结果包括聚类类目，其可以用上述中心文本、中心句以及关键词中的任意一种或多种进行表征，同时，初始聚类结果还包括属于该聚类类目的文本。进一步的，该初始聚类结果还可以包括聚类过程中的中间信息，如每个聚类类目下的文本所包含单词的属性等、文本之间相似度等信息。然后，聚类装置201可以将所得到的初始聚类结果通过通信模块400传输给交互装置202，以便由交互装置202将该初始聚类结果呈现给用户。
87.并且，交互装置202还可以支持多种与用户之间的交互操作，比如，上述针对于多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作等。当用户对于交互装置202所呈现的初始聚类结果进行调整时，由于初始聚类结果所涉及的文本数量较多，因此，用户可以调整数量较高的一部分聚类结果，而交互装置202根据用户的操作，将用户调整的该部分聚类结果更新为符合用户预期的第一聚类结果。同时，交互装置202还可以将该用户针对于该部分聚类结果的调整操作，传输给聚类装置201，具体可以是给传输给聚类装置201中的通信模块400，再由通信模块400将该调整参数传递给聚类模块402。
88.聚类装置201根据用户执行的调整操作，更新单词的相关信息、文本的相关信息以及聚类类目的相关信息等，并基于所更新的信息对其余文本进行相应的调整，以便于将初始聚类结果中的第二部分更新为第二聚类结果。
89.例如，当用户执行的调整操作为调整单词的属性，如将单词的词性由动词定义为
名词等，则在确定聚类类目的关键词时，从动词集合中删除该单词，并从名词集合中添加该单词，从而基于该更新后的动词集合以及名词集合中的单词重新确定聚类类目的不同词性的关键词，其确定关键词的具体实现方式可以参见前述过程相关描述。
90.又比如，当用户执行的调整操作，为单词之间的关联性定义操作，如直接定义两个单词之间互为近义词(或者互为反义词，或者无关联)等，此时，聚类装置201(具体可以是文本相似度计算单元4021)可以将这两个单词之间的相似度设置为大于第一阈值的任意值(互为反义词时，设置为小于第一阈值的任意值)，并基于更新后的单词之间的相似度来重新进行文本聚类。
91.再比如，当用户执行的调整操作，为文本之间的关联性定义操作，如直接定义两个文本之间具有相同语义，或者将一个聚类类目中的文本p迁移至其它类目中等，则聚类装置201可以基于针对于文本之间关联性的定义操作重新进行文本聚类，如将其它聚类类目中与该文本p具有相同语义的其它文本迁移至该文本p所在聚类类目中。
92.基于用户执行的调整操作，聚类装置201可以存储模块403中所保存的中间信息进行更新，如更新单词的属性、单词之间的相似度、文本之间的相似度等，具体可以是先利用索引单元4031查询出所要更新的信息在存储单元4032中的存储位置，并对该存储位置处的值进行相应的更新。这样，聚类装置201在重新进行聚类时，可以复用存储模块403中所保存的中间信息，而无需重新计算。比如，在重新聚类过程中，聚类装置201可以直接从存储模块403中读取到两个文本之间的相似度，而可以不用再通过上述计算过程计算出文本之间的相似度。如此，不仅可以有效减少重新聚类所需的计算量，而且，也可以提高重新聚类的效率，从而可以提高优化聚类结果的实时性。
93.在聚类装置201经过上述过程对初始聚类结果进行调整后，聚类装置201可以将第二聚类结果传递给交互装置202，交互装置202可以将第一聚类结果(用户调整)以及第二聚类结果(聚类装置201调整)呈现给用户，以便于用户查看经过调整后的聚类结果是否能够满足用户预期。实际应用中，若用户对调整后的聚类结果再次进行了调整，则聚类装置201可以基于上述类似过程，对用户未调整的聚类结果自动进行调整，并将其交由交互装置202再次进行呈现，直至最终得到的聚类结果满足用户的预期。
94.本技术实施例还提供了上述介绍的实施的文本聚类方法，接下来从各装置交互的角度对该文本聚类方法进行介绍。
95.参见图5所示的文本聚类方法的流程图，该方法可以引用于如图2所示的文本聚类系统，该方法具体可以包括：
96.s501：交互装置202接收用户提供的多个文本。
97.本实施例中，用户所提供的文本，例如可以是需要聚类分发到部门的工单文档，或者可以是作为客服语料的客服工单文档，或者可以是人机对话场景中用户所提出的问题文本和/或针对用户问题的答案文本等。
98.并且，交互装置202所接收到的文本中，可以包含标准文本以及待聚类文本。其中，标准文本已经完成聚类，而待聚类文本尚未进行聚类。当然，交互装置202所接收到的文本中，也可以是全部为待聚类文本。
99.值得注意的是，本实施例中是以用户向交互装置202输入多个文本为例进行示例性说明，在其它可能的实施方式中，用户也可以是直接向聚类装置201输入多个文本，本实
施例对此并不进行限定。
100.s502：交互装置202将多个文本传递给聚类装置201中的通信模块400。
101.s503：聚类装置201中的预处理模块401对通信模块400传递的多个文本进行预处理，并将预处理后的文本的相关信息传递给聚类模块402。
102.本实施例中，对多个文本进行预处理，可以是对多个文本进行分词、错误纠正、去噪、去除停用词以及检测每个单词的词性中的任意一种或多种。其具体实现，可参见前述相关之处描述，在此不做赘述。
103.s504：聚类装置201中的聚类模块402根据经过预处理后的文本的相关信息，对多个文本进行聚类，得到初始聚类结果，并将聚类过程中所涉及的中间信息传递给存储模块403中保存。
104.其中，文本的相关信息，可以包括文本中所包含的各个单词、每个单词的词性、以及文本中的单词在该文本中的词序等信息。
105.本实施例中，聚类模块402在对多个文本进行聚类时，具体可以是由文本相似度计算单元4021计算出不同文本之间的相似度，再由文本聚类单元4022根据不同文本之间的相似度对将相似度较高的文本进行聚集为一类，得到多个不同的已聚类文本集合，分别对应于不同的聚类类目。同时，聚类类目表征单元4023为该聚类类目确定中心文本、中心句以及关键词中的任意一种或多种。在聚类过程中所涉及的中间信息，如文本之间的相似度等，可以记录于存储模块403中，具体可以是记录于存储模块403中的存储单元4032，并在索引单元4031中建立索引。
106.其中，聚类模块402对于多个文本的具体聚类过程以及存储模块403存储中间信息的具体实现，可以参见前述相关之处描述，在此不做赘述。
107.s505：聚类装置201通过通信模块400将初始聚类结果传递给交互装置202。
108.s506：交互装置202向用户呈现初始聚类结果。
109.s507：交互装置202响应用户针对于初始聚类结果的调整操作，将用户所调整部分的聚类结果更新为第一聚类结果，并将调整操作传递给聚类装置201中的通信模块400。
110.s508：聚类装置201根据该调整操作，将初始聚类结果中的其它部分聚类结果更新为第二聚类结果，并将第二聚类结果通过通信模块400传递给交互装置202。
111.其中，聚类装置201根据用户对部分聚类结果的调整操作，更新存储模块403中所保存的中间信息，并基于更新后的中间信息对用户未调整的聚类结果进行更新，得到第二聚类结果。其中，聚类装置201基于该调整操作得到第二聚类结果的具体实现，可以参见前述相关之处描述，在此不做赘述。
112.s509：交互装置202呈现更新后的第一聚类结果以及第二聚类结果。
113.根据本技术实施例的交互装置202以及聚类装置201可对应于执行本技术实施例中描述的方法，并且交互装置202以及聚类装置201中的各个模块的上述和其它操作和/或功能分别为了实现图5中的各个方法的相应流程，为了简洁，在此不再赘述。
114.图6提供了一种计算机系统。图6所示的计算机系统600包括一个计算机，该计算机具体可以用于实现上述图4所示实施例中聚类装置201的功能。
115.计算机系统600包括总线601、处理器602、通信接口603和存储器604。处理器602、存储器604和通信接口603之间通过总线601通信。总线601可以是外设部件互连标准
(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口603用于与外部通信，例如接收交互装置201发送的多个文本以及向交互装置201传输初始聚类结果等。
116.其中，处理器602可以为中央处理器(central processing unit，cpu)。存储器604可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，ram)。存储器604还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，rom)，快闪存储器，hdd或ssd。
117.存储器604中存储有可执行代码，处理器602执行该可执行代码以执行前述文本聚类方法。
118.具体地，在实现图4所示实施例的情况下，且图4实施例中所描述的各模块为通过软件实现的情况下，执行图4中的预处理模块401、聚类模块402、存储模块403所需的软件或程序代码存储在存储器604中，通信模块400功能通过通信接口603实现，处理器602用于执行存储器604中的指令，执行应用于聚类装置201的文本聚类方法。在其它实施方式中，存储器600还可以用于存储数据，存储模块403功能可以通过该存储器604实现。
119.值得注意的是，图6所示的计算机系统600是以包括一个计算机为例进行示例性说明，在其它可能的实施例中，计算机系统还可以包括多个计算机，该计算机系统中的多个不同的计算机相互配合，共同执行上述文本聚类方法。此时，上述预处理模块401、聚类模块402以及存储模块403可以位于多个不同的计算机上。为便于理解，下面以预处理模块401、聚类模块402位于同一计算机，而存储模块403位于另一计算机为例进行示例性说明。
120.参见图7，图7提供了另一种计算机系统。图7所示的计算机系统700包括两个计算机，分别为计算机710以及计算机720，这两个计算机之间相互协作，用于实现上述图4所示实施例中聚类装置201的功能。
121.其中，计算机710包括总线711、处理器712、通信接口713和存储器714。处理器712、存储器714和通信接口713之间通过总线711通信。计算机720包括总线721、处理器722、通信接口723和存储器724。处理器722、存储器724和通信接口723之间通过总线721通信。总线711以及总线721可以是pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7各个计算机中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口713用于与外部通信，例如接收交互装置201发送的多个文本以及向交互装置201传输初始聚类结果等，通信接口723用于实现计算机710与计算机720之间进行交互。
122.其中，处理器712以及处理器722可以为cpu。存储器714以及存储器724可以包括易失性存储器，例如ram。存储器714还可以包括非易失性存储器，例如rom、快闪存储器、hdd或ssd。
123.存储器714以及存储器724中存储有可执行代码，处理器712以及处理器722分别执行相应存储器中可执行代码以执行前述文本聚类方法。
124.具体地，在实现图4所示实施例的情况下，且图4实施例中所描述的各模块为通过软件实现的情况下，执行图4中的预处理模块401、聚类模块402所需的软件或程序代码存储
在存储器714中，执行图4中的存储模块403所需的软件或程序代码存储在存储器724中，通信模块400功能通过通信接口713实现，处理器712用于执行存储器714中的指令，处理器722用于执行存储器724中的指令，相互配合执行应用于聚类装置201的文本聚类方法。
125.当然，在其它可能的实施例中，当计算机系统包括多个不同的计算机时，预处理模块401以及聚类模块102也可以是位于不同的计算机等，本技术对此并不进行限定。
126.本技术实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述应用于聚类装置201的文本聚类方法。
127.本技术实施例还提供了一种计算机程序产品，所述计算机程序产品被计算机执行时，所述计算机执行前述文本聚类方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述文本聚类方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。
128.另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本技术提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。
129.通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本技术而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、u盘、移动硬盘、rom、ram、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本技术各个实施例所述的方法。
130.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。
131.所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solid state disk，ssd))等。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：双系统运行状态控制方法、装置和电子设备与流程

一种文本聚类系统、方法、装置、设备及介质与流程

相关文献

最热文献