文本聚类方法及装置、电子设备与流程

2022-12-07 03:22:57 来源：中国专利 TAG：

1.本发明涉及数据处理领域，具体而言，涉及一种文本聚类方法及装置、电子设备。

背景技术：

2.文本聚类是文本挖掘中的常用方法，属于无监督学习方式，目的是把一个数据根据某种规则划分为多个子数据，一个子数据就称为一个聚类。聚类分析在文本分析、商务应用、网页搜索、推荐系统、生物医学、数据处理等多个领域都有着十分广泛的应用。例如在数据防泄漏平台上，经常需要用户对敏感数据进行定义，通常的作法是把敏感数据上传并进行整理、分类，并根据不同的分类制定不同的拦截策略，所以一个高效精准的聚类方案可以有效提高拦截的精准度、帮助用户提高定义过程的效率，同时提高产品的用户体验。
3.现有技术中，文本聚类方式是先对文本进行向量表征，再对表征的向量进行聚类的操作,在这个过程中,对文档的表征尤其重要,表征是对离散文本符号的一种数字化的转换，在聚类过程中，表征的准确与否起到了决定性的作用。常用的表征方法有：基于词频类：统计文档中的词频，并对词频建立主题模型来进行文档的表征；基于文本结构，例如文本的长度，包括句子、段落的长短等；基于训练向量，利用训练的向量对文档进行表征等，由于数据应用场合不同，不同的聚类方式侧重点不同，各有优势和缺陷。
4.现有技术中，对于非特定性文档的聚类存在的最大问题在于：对于不同领域的文本聚类，无法有效确定数据倾向性从而导致表征结果不准确,即对同一批数据，也会由于数据所属不同的行业、领域和用途,导致不同的结果。例如，把多种不同的表征合并到一起，会导致真正需要关注的表征被其他多余的表征稀释掉；或者把多种不同的表征加入用户交互，让用户来配置，则会导致产品的学习成本大幅提高，因为对特征的选择配置较为复杂，而错误的配置会导致结果与预期的严重不符。
5.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本发明实施例提供了一种文本聚类方法及装置、电子设备，以至少解决现有技术中，对于不同领域的文本聚类，无法有效确定数据倾向性从而导致表征结果不准确的技术问题。
7.根据本发明实施例的一个方面，提供了一种文本聚类方法，包括：接收目标文本数据，并提取所述目标文本数据的多维度特征；采用预设成分分析策略对所述多维度特征进行量化处理，得到特征信息集合，其中，所述特征信息集合中至少包括：特征离散度；基于所述特征离散度，对所述特征信息集合中各个特征进行组合选择，生成动态特征表征结果；基于所述动态特征表征结果，对所述目标文本数据进行聚类，得到文本聚类结果。
8.可选地，提取所述目标文本数据的多维度特征的步骤，包括：采用预设文本词频模型提取所述目标文本数据中的词频分布，得到词频提取结果；将所述词频提取结果输入至预设文本主题生成模型，以确定所述目标文本数据的文本主题；将所述文本主题表征为所
述目标文本数据的文本主题维度特征。
9.可选地，提取所述目标文本数据的多维度特征的步骤，包括：提取所述目标文本数据中的多种文本结构，得到结构提取结果，其中，所述文本结构包括下述至少之一：文本句子长度、句子结构成分、段落篇幅；基于所述结构提取结果，确定所述目标文本数据的文本结构维度特征。
10.可选地，提取所述目标文本数据的多维度特征的步骤，包括：采用词向量模型提取所述目标文本数据中的词向量和文本上下文信息；将所述词向量和所述文本上下文信息输入至预设语言表征模型中，以确定所述目标文本数据的文本语义；将所述文本语义表征为所述目标文本数据的文本语义维度特征。
11.可选地，采用预设成分分析策略对所述多维度特征进行量化处理，得到特征信息集合的步骤，包括：将所述多维度特征进行预处理，得到特征矩阵，其中，所述特征矩阵中每个维度特征对应有特征标量；对所述特征矩阵进行标准化处理和逻辑回归处理，以确定每个所述维度特征的分布权重；基于每个所述维度特征以及对应的分布权重，确定所有维度特征的特征离散度；结合每个所述维度特征的分布权重以及所有所述维度特征的特征离散度，确定所述特征信息集合。
12.可选地，基于所述特征离散度，对所述特征信息集合中各个特征进行组合选择，生成动态特征表征结果的步骤，包括：采用单一选择策略，选取分布权重最大的维度特征作为特征表征结果。
13.可选地，基于所述特征离散度，对所述特征信息集合中各个特征进行组合选择，生成动态特征表征结果的步骤，包括：采用混合选择策略，将所述特征矩阵与每个所述维度特征的分布权重进行乘积运算，得到乘积运算结果；选取所述乘积运算结果中数值最大的维度特征作为特征表征结果。
14.可选地，基于所述特征离散度，对所述特征信息集合中各个特征进行组合选择，生成动态特征表征结果的步骤，包括：向用户终端发送所述特征信息集合，并在所述用户终端的终端界面展示所述特征信息集合；接收所述用户终端的特征选取结果；将所述特征选取结果指示的维度特征作为所述特征表征结果。
15.根据本发明实施例的另一方面，还提供了一种文本聚类装置，包括：提取单元，用于接收目标文本数据，并提取所述目标文本数据的多维度特征；量化单元，用于采用预设成分分析策略对所述多维度特征进行量化处理，得到特征信息集合，其中，所述特征信息集合中至少包括：特征离散度；生成单元，用于基于所述特征离散度，对所述特征信息集合中各个特征进行组合选择，生成动态特征表征结果；聚类单元，用于基于所述动态特征表征结果，对所述目标文本数据进行聚类，得到文本聚类结果。
16.可选地，提取单元包括：第一提取模块，用于采用预设文本词频模型提取所述目标文本数据中的词频分布，得到词频提取结果；第一生成模块，用于将所述词频提取结果输入至预设文本主题生成模型，以确定所述目标文本数据的文本主题；第一表征模块，用于将所述文本主题表征为所述目标文本数据的文本主题维度特征。
17.可选地，提取单元包括：第二提取模块，用于提取所述目标文本数据中的多种文本结构，得到结构提取结果，其中，所述文本结构包括下述至少之一：文本句子长度、句子结构成分、段落篇幅；第一确定模块，用于基于所述结构提取结果，确定所述目标文本数据的文
本结构维度特征。
18.可选地，提取单元包括：第三提取模块，用于采用词向量模型提取所述目标文本数据中的词向量和文本上下文信息；第一输入模块，用于将所述词向量和所述文本上下文信息输入至预设语言表征模型中，以确定所述目标文本数据的文本语义；第二表征模块，用于将所述文本语义表征为所述目标文本数据的文本语义维度特征。
19.可选地，量化单元包括：第一处理模块，用于将所述多维度特征进行预处理，得到特征矩阵，其中，所述特征矩阵中每个维度特征对应有特征标量；第二处理模块，用于对所述特征矩阵进行标准化处理和逻辑回归处理，以确定每个所述维度特征的分布权重；第二确定模块，用于基于每个所述维度特征以及对应的分布权重，确定所有维度特征的特征离散度；第一结合模块，用于结合每个所述维度特征的分布权重以及所有所述维度特征的特征离散度，确定所述特征信息集合。
20.可选地，生成单元包括：第一选取模块，用于采用单一选择策略，选取分布权重最大的维度特征作为特征表征结果。
21.可选地，生成单元包括：第一运算模块，用于采用混合选择策略，将所述特征矩阵与每个所述维度特征的分布权重进行乘积运算，得到乘积运算结果；第二选取模块，用于选取所述乘积运算结果中数值最大的维度特征作为特征表征结果。
22.可选地，生成单元包括：第一发送模块，用于向用户终端发送所述特征信息集合，并在所述用户终端的终端界面展示所述特征信息集合；第一接收模块，用于接收所述用户终端的特征选取结果；第一作为模块，用于将所述特征选取结果指示的维度特征作为所述特征表征结果。
23.根据本发明实施例的另一方面，还提供了一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的文本聚类方法。
24.本发明中，先接收目标文本数据，并提取目标文本数据的多维度特征，采用预设成分分析策略对多维度特征进行量化处理，得到特征信息集合，然后基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果，最后基于动态特征表征结果，对目标文本数据进行聚类，得到文本聚类结果。
25.在本发明中，对文本数据多维度特征进行量化处理，并根据文本不同特征的离散度来动态选择表征的方案，不需要用户进行复杂的参数配置和交互，改善了在开放文本范围中，对于不同领域的文本无法确定聚类倾向性的问题，进而解决了现有技术中，对于不同领域的文本聚类，无法有效确定数据倾向性从而导致表征结果不准确的技术问题。
26.本发明可对数据防泄漏平台的敏感数据进行有效文本聚类分析，根据不同的分类制定不同的拦截策略，根据文本不同特征的离散度来动态选择表征的方案,不需要用户进行复杂的参数配置和交互，可以满足大部分的使用场景，有效提高数据防泄漏平台进行违规操作拦截的精准度、帮助用户提高定义过程的效率，同时提高产品的用户体验。
27.本发明可用于改善在开放文本范围中，根据不同领域的文本，无法确定聚类倾向性的问题，通过对不同方向的特征进行动态选择，可以更有效的贴合用户的个性化需求。
28.本发明通过不断增加特征范围来升级表征器的精度。
附图说明
29.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
30.图1是根据本发明实施例的一种可选的文本聚类方法的流程图；
31.图2是根据本发明实施例的一种可选的文本聚类方法的架构图；
32.图3是根据本发明实施例的一种可选的文本聚类实施应用场景示意图；
33.图4是根据本发明实施例的一种可选的文本聚类装置的示意图；
34.图5是根据本发明实施例的一种文本聚类方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
35.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
36.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
37.为便于本领域技术人员理解本发明，下面对本发明各实施例中涉及的部分术语或者名词做出解释：
38.文本聚类，根据文本数据特征，将相似度更高的文本数据聚合到同一个簇，完成对文本数据的分类识别和区分。
39.tfidf，term frequency
–
inverse document frequency的缩写，用于文本信息检索与挖掘的常用加权技术。
40.lda，latent dirichlet allocation的缩写，是一种无监督文档主题生成模型，采用词袋的方法，将每一篇文档视为一个词频向量，从而将文本信息转化为数字信息。
41.word2vec，也称word embeddings，词向量，将自然语言中的字词文本转为计算机可以理解的稠密向量。
42.bert，bidirectional encoder representation from transformers的缩写，一种预训练的语言表征模型。本发明中可以将该bert用于文本数据表征及其他语言文本处理任务。
43.本发明可应用于各种文本聚类系统/装置/产品中，尤其是对于不同行业、不同领域中的相同文本(即本发明可对非特定性文档进行聚类，该非特定性文档是指不限定该文档所指向的唯一领域、行业)，对文本数据多维度特征进行量化处理，并根据文本不同特征
的离散度来动态选择表征的方案，不需要用户进行复杂的参数配置和交互，并且还可以自行设定和增加特征范围，以提升文本表征的精度。
44.需要说明的是，本发明可以应用于文本分析、商务应用、网页搜索、推荐系统、生物医学、数据处理、数据防泄漏等众多领域，本发明下面各实施例以数据防泄漏产品为例进行示意说明，在数据防泄露过程中,通常需要对用户的文本集进行聚类操作,由于使用用户、行业的不确定性,一般在这个过程中,针对复杂度和特异性较高的样本集都无法得到满意的聚类结果。因为在聚类的过程中,文本的特征表征起到决定性的作用,所以通过本发明提供的动态文本特征表征方案，可以帮助提高聚类的精度。
45.下面结合各个实施例对本发明进行详细说明。
46.实施例一
47.根据本发明实施例，提供了一种文本聚类方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
48.图1是根据本发明实施例的一种可选的文本聚类方法流程图，如图1所示，该方法包括如下步骤：
49.步骤s102，接收目标文本数据，并提取目标文本数据的多维度特征；
50.步骤s104，采用预设成分分析策略对多维度特征进行量化处理，得到特征信息集合，其中，特征信息集合中至少包括：特征离散度；
51.步骤s106，基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果；
52.步骤s108，基于动态特征表征结果，对目标文本数据进行聚类，得到文本聚类结果。
53.通过上述步骤，可以接收目标文本数据，并提取目标文本数据的多维度特征；采用预设成分分析策略对多维度特征进行量化处理，得到特征信息集合，其中，特征信息集合中至少包括：特征离散度；基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果；基于动态特征表征结果，对目标文本数据进行聚类，得到文本聚类结果。在该实施例中，对文本数据多维度特征进行量化处理，并根据文本不同特征的离散度来动态选择表征的方法，不需要用户进行复杂的参数配置和交互，能够明显改善在开放文本范围(即无特定领域倾向的文本)中，对于不同领域的文本无法确定聚类倾向性的弊端，进而解决了现有技术中，对于不同领域的文本聚类，无法有效确定数据倾向性从而导致表征结果不准确的技术问题。
54.下面结合上述各实施步骤来详细说明本发明实施例。
55.步骤s102，接收目标文本数据，并提取目标文本数据的多维度特征。
56.需要说明的是，目标文本数据的数据类型包括但不限于：汉字、字符、字母、数字或者前述几种的组合，其可以通过word文档、表格、网页、待展示文档等方式记录、存储、更新。本实施例中，目标文本数据的多维度特征包括但不限于：主题维度特征、结构维度特征、语义维度特征或者其他维度特征。下面分别对这几种维度特征进行举例/示意说明。
57.第一种，对于主题维度特征。
58.本发明实施例中，提取目标文本数据的多维度特征的步骤，包括：采用预设文本词频模型提取目标文本数据中的词频分布，得到词频提取结果；将词频提取结果输入至预设文本主题生成模型，以确定目标文本数据的文本主题；将文本主题表征为目标文本数据的文本主题维度特征。
59.主题表征是通过对文本的词频进行统计,即文本中某一文字或字母出现的概率大小，并根据词频统计结果确认主题的方法,在进行词频统计时，本实施例可使用的模型包括但不限于：tfidf、lda等,主要目的是对文本的词频分布进行建模,区分不同的文本主旨内容。
60.第二种，对于结构维度特征。
61.本发明实施例中，提取目标文本数据的多维度特征的步骤，包括：提取目标文本数据中的多种文本结构，得到结构提取结果，其中，文本结构包括下述至少之一：文本句子长度、句子结构成分、段落篇幅；基于结构提取结果，确定目标文本数据的文本结构维度特征。
62.在文本聚类中，结构表征是通过对文本句子、段落长度篇幅进行分析，并根据分析结果进行文本表征的方法，常用的文本结构特征包括但不限于：句子长度、句子结构成分、段落长度、篇幅，主要目的是对文本的句子结构分布进行建模，区分不同的文本结构内容。
63.第三种，对于语义维度特征。
64.本发明实施例中，提取目标文本数据的多维度特征的步骤，包括：采用词向量模型提取目标文本数据中的词向量和文本上下文信息；将词向量和文本上下文信息输入至预设语言表征模型中，以确定目标文本数据的文本语义；将文本语义表征为目标文本数据的文本语义维度特征。
65.其中，词向量是在对文本各个短句进行词结构拆分或者短词划分后，得到句子中最短的词语集合，词语集合中每个词语与该词语所属的被拆分短句之间的关联关系可以表征为一个词向量。
66.需要说明的是，语义表征是通过对文本数据语义表达进行分析理解，并根据分析结果进行文本表征的方法，本实施例中可使用的模型有word2vec，bert等，主要目的是通过对文本的上下文内容进行语义理解，区分不同的文本数据。
67.步骤s104，采用预设成分分析策略对多维度特征进行量化处理，得到特征信息集合，其中，特征信息集合中至少包括：特征离散度。
68.需要说明的是，预设成分分析策略的目的在于找出不同特征离散程度最高的特征，本发明实施例使用标准差来对特征矩阵进行计算，标准差可以用来表征数据离散程度。
69.本发明实施例中，采用预设成分分析策略对多维度特征进行量化处理，得到特征信息集合的步骤，包括：将多维度特征进行预处理，得到特征矩阵，其中，特征矩阵中每个维度特征对应有特征标量；对特征矩阵进行标准化处理和逻辑回归处理，以确定每个维度特征的分布权重；基于每个维度特征以及对应的分布权重，确定所有维度特征的特征离散度；结合每个维度特征的分布权重以及所有维度特征的特征离散度，确定特征信息集合。
70.需要说明的是，在对特征进行量化处理时，因为各特征的标量不同,所以在计算时需要先对矩阵进行标准化(即上述的标准化处理)，
[0071][0072]
其中，weight表示分布权重，x表示待计算的维度特征，i表示维度特征数，s为大于
等于0的正整数，norm表示标准差，mean表示开根号。
[0073]
对得到的结果进行softmax的计算(即上述的逻辑回归处理)得到各特征的分布权重：
[0074]
weigt(x)
′
＝softmax(weight(x))。
[0075]
softmax计算表示用计算得到的分布权重结果除以所有分布权重结果之和，即某一特征的转化结果占所有特征结果的百分比。
[0076]
从而得到不同特征中离散程度最大的特征。
[0077]
步骤s106，基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果。
[0078]
本发明实施例中，基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果的步骤，包括：采用单一选择策略，选取分布权重最大的维度特征作为特征表征结果。
[0079]
需要说明的是，本实施例在进行特征选择时，提供了多种选择策略，其中，单一选择策略，是指选择权重最大的特征来直接进行表征,此方式会最大程度根据样本的区别进行表征,适用于用户上传数据的离散值比较大的情况(例如文本长度极度不一致的样本等)。
[0080]
本发明实施例中，基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果的步骤，包括：采用混合选择策略，将特征矩阵与每个维度特征的分布权重进行乘积运算，得到乘积运算结果；选取乘积运算结果中数值最大的维度特征作为特征表征结果。
[0081]
需要说明的是，本实施例提供的混合选择策略，是指将特征矩阵与得到的权重相乘,此选择策略会综合多种特征,并突出区别最大的特征、弱化特征差异小的特征,适用于单一特征无法完全表述的情况(例如文本长度虽然差距较大,但相似长度的文本中依然存在多个分组)。
[0082]
本发明实施例中，基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果的步骤，包括：向用户终端发送特征信息集合，并在用户终端的终端界面展示特征信息集合；接收用户终端的特征选取结果；将特征选取结果指示的维度特征作为特征表征结果。
[0083]
需要说明的是，本实施例提供的用户选择策略，可根据用户的选择个性化的选取特征进行表征,可提高特定复杂场景的正确率,适用于用户可强制选择离散程度较低的特征向量。
[0084]
在特征的选择上的多种策略,可以直接选择单一的策略,采用最大权重的特征集合,也可通过前端的交互来灵活配置(比如设置不同的组合按钮来动态配置),这样可以适配广域范围的不同的文本集合。
[0085]
步骤s108，基于动态特征表征结果，对目标文本数据进行聚类，得到文本聚类结果。
[0086]
需要说明的是，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果后，根据文本之间相似度将高于某一阈值相似度的文本数据聚合到同一个簇中，从而得到文本聚类结果，以完成对文本的数据的分类。
[0087]
图2是根据本发明实施例的一种可选的文本聚类方法架构图，如图2所示，本发明实施例通过对文本数据提取不同维度的特征(图2中示意了主题表征的维度、结构表征的维度、语义表征的维度和其他表征方法的维度),并通过成分分析的方法确定特征分布权重(图2中示意了对应于主题表征所指示的文本主题/文本主旨内容进行成分分析后得到的分布权重为0.8，对应于结构表征所指示的文本结构信息进行成分分析后得到的分布权重为0.6，对应于语义表征所指示的文本上下文语义内容进行成分分析后得到的分布权重为0.4，对应于其他表征方法所指示的其他文本信息进行成分分析后得到的分布权重为0.3),再通过选择器对特征信息进行选择(包括但不限于单一选择方式、混合选择方式、用户选择方式)生成动态的特征表征结果(图2中以最终结果进行示意)，最后进行聚类并返回结果(图2中以聚类结果进行示意)。
[0088]
通过上述实施方式，对文本数据多维度特征进行量化处理，并根据文本不同特征的离散度来动态选择表征的方法，不需要用户进行复杂的参数配置和交互，并且还可以自行设定和增加特征范围来提升表征精度，改善了在开放文本范围中，对于不同领域的文本无法确定聚类倾向性的问题。进而解决了现有技术中，对于不同领域的文本聚类，无法有效确定数据倾向性从而导致表征结果不准确的技术问题。
[0089]
图3是根据本发明实施例的一种可选的文本聚类实施应用场景示意图，如图3所示，本发明实施例的文本聚类方法可以应用于数据防泄漏产品(dlp engine)中。在数据防泄漏过程中,对于未知分类的文本数据，通常需要通过聚类器对用户的文本集进行聚类操作,然后根据已知分类文本的分类a和文本聚类的得到的分类b、分类c和其他分类文件集，将其输入数据防泄漏产品中的类别模型和片段识别模型分别进行类别判断和片段识别，最后对得到的结果进行相应的策略设定以实现数据防泄漏。在文本聚类过程中，因为使用用户、行业的不确定性,针对复杂度、特异性较高的样本集无法得到满意的聚类结果，因为在聚类的过程中,文本的特征表征起到决定性的作用,本发明实施例中文本聚类方法对文本数据多维度特征进行量化处理，并根据文本不同特征的离散度来动态选择表征的方法可以帮助提高此部分中聚类的精度。
[0090]
下面结合另一种可选的实施例来说明本发明。
[0091]
实施例二
[0092]
本实施例提供了一种文本聚类装置，该文本聚类装置所包含的各个实施单元对应于实施例一中的各个实施步骤。
[0093]
图4是根据本发明实施例的一种可选的文本聚类装置的示意图，如图4所示，包括：提取单元40、量化单元42、生成单元44、聚类单元46，其中，
[0094]
提取单元40，用于接收目标文本数据，并提取目标文本数据的多维度特征；
[0095]
需要说明的是，目标文本数据包括但不限于：汉字、字符、字母、数字，目标文本数据的多维度特征包括但不限于：主题维度特征，结构维度特征，语义维度特征。
[0096]
量化单元42，用于采用预设成分分析策略对多维度特征进行量化处理，得到特征信息集合，其中，特征信息集合中至少包括：特征离散度；
[0097]
需要说明的是，预设成分分析策略的目的在于找出不同特征离散程度最高的特征，本发明实施例使用标准差来对特征矩阵进行计算，标准差可以用来表征数据离散程度。
[0098]
生成单元44，用于基于特征离散度，对特征信息集合中各个特征进行组合选择，生
成动态特征表征结果；
[0099]
需要说明的是，特征的选择可以有多种策略:
[0100]
单一选择策略，选择权重最大的特征来直接进行表征,此方式会最大程度根据样本的区别进行表征,适用于用户上传数据的离散值比较大的情况(例如文本长度极度不一致的样本等)；
[0101]
混合选择策略，将特征矩阵与得到的权重相乘,此方法会综合多种特征,并突出区别最大的特征、弱化特征差异小的特征,适用于单一特征无法完全表述的情况(例如文本长度虽然差距较大,但相似长度的文本中依然存在多个分组)；
[0102]
用户选择策略，可根据用户的选择个性化的选取特征进行表征,可提高特定复杂场景的正确率,适用于用户可强制选择离散程度较低的特征向量；
[0103]
在特征的选择上的多种策略,可以直接选择单一的策略,采用最大权重的特征集合,也可通过前端的交互来灵活配置(比如设置不同的组合按钮来动态配置),这样可以适配广域范围的不同的文本集合。
[0104]
聚类单元46，用于基于动态特征表征结果，对目标文本数据进行聚类，得到文本聚类结果。
[0105]
上述文本聚类装置，可以通过提取单元40接收目标文本数据，并提取目标文本数据的多维度特征；通过量化单元42采用预设成分分析策略对多维度特征进行量化处理，得到特征信息集合，其中，特征信息集合中至少包括：特征离散度；通过生成单元44基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果；通过聚类单元46基于动态特征表征结果，对目标文本数据进行聚类，得到文本聚类结果。在本实施例中，对文本数据多维度特征进行量化处理，并根据文本不同特征的离散度来动态选择表征的方法，不需要用户进行复杂的参数配置和交互，能够明显改善在开放文本范围中，对不同领域的文本无法确定聚类倾向性的弊端，进而解决了现有技术中，对于不同领域的文本聚类，无法有效确定数据倾向性从而导致表征结果不准确的技术问题。
[0106]
可选的，提取单元40包括：第一提取模块，用于采用预设文本词频模型提取目标文本数据中的词频分布，得到词频提取结果；第一生成模块，用于将词频提取结果输入至预设文本主题生成模型，以确定目标文本数据的文本主题；第一表征模块，用于将文本主题表征为目标文本数据的文本主题维度特征。
[0107]
主题表征是通过对文本的词频进行统计,即文本中某一文字或字母出现的概率大小，并根据词频统计结果确认主题的方法,常用的模型有tfidf、lda等,主要目的是对文本的词频分布进行建模,区分不同的文本主旨内容。
[0108]
可选的，提取单元40包括：第二提取模块，用于提取目标文本数据中的多种文本结构，得到结构提取结果，其中，文本结构包括下述至少之一：文本句子长度、句子结构成分、段落篇幅；第一确定模块，用于基于结构提取结果，确定目标文本数据的文本结构维度特征。
[0109]
在文本聚类中，结构表征是通过对文本句子、段落长度篇幅进行分析，并根据分析结果进行文本表征的方法，常用的文本结构特征包括但不限于句子长度、段落长度、篇幅，主要目的是对文本的句子结构分布进行建模，区分不同的文本结构内容。
[0110]
可选的，提取单元40包括：第三提取模块，用于采用词向量模型提取目标文本数据
中的词向量和文本上下文信息；第一输入模块，用于将词向量和文本上下文信息输入至预设语言表征模型中，以确定目标文本数据的文本语义；第二表征模块，用于将文本语义表征为目标文本数据的文本语义维度特征。
[0111]
需要说明的是，语义表征是通过对文本数据语义表达进行分析理解，并根据分析结果进行文本表征的方法，常用的模型有word2vec，bert等，主要目的是通过对文本的上下文内容进行语义理解，区分不同的文本数据。
[0112]
可选的，量化单元42包括：第一处理模块，用于将多维度特征进行预处理，得到特征矩阵，其中，特征矩阵中每个维度特征对应有特征标量；第二处理模块，用于对特征矩阵进行标准化处理和逻辑回归处理，以确定每个维度特征的分布权重；第二确定模块，用于基于每个维度特征以及对应的分布权重，确定所有维度特征的特征离散度；第一结合模块，用于结合每个维度特征的分布权重以及所有维度特征的特征离散度，确定特征信息集合。
[0113]
需要说明的是，在对特征进行量化处理时，因为各特征的标量不同,所以在计算时需要先对矩阵进行标准化，然后对得到的结果进行逻辑回归计算，得到各特征的分布权重，从而得到不同特征中离散程度最大的特征。
[0114]
可选的，生成单元44包括：第一选取模块，用于采用单一选择策略，选取分布权重最大的维度特征作为特征表征结果。
[0115]
可选的，生成单元44包括：第一运算模块，用于采用混合选择策略，将特征矩阵与每个维度特征的分布权重进行乘积运算，得到乘积运算结果；第二选取模块，用于选取乘积运算结果中数值最大的维度特征作为特征表征结果。
[0116]
可选的，生成单元44包括：第一发送模块，用于向用户终端发送特征信息集合，并在用户终端的终端界面展示特征信息集合；第一接收模块，用于接收用户终端的特征选取结果；第一作为模块，用于将特征选取结果指示的维度特征作为特征表征结果。
[0117]
上述的文本聚类装置还可以包括处理器和存储器，上述获取提取单元40、量化单元42、生成单元44、聚类单元46等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0118]
上述处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对文本数据多维度特征进行量化处理，并根据文本不同特征的离散度来动态选择表征的方法，实现文本聚类。
[0119]
上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
[0120]
根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的文本聚类方法。
[0121]
根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的文本聚类方法。
[0122]
本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：接收目标文本数据，并提取目标文本数据的多维度特征；采用
预设成分分析策略对多维度特征进行量化处理，得到特征信息集合，其中，特征信息集合中至少包括：特征离散度；基于特征离散度，对特征信息集合中各个特征进行组合选择，生成动态特征表征结果；基于动态特征表征结果，对目标文本数据进行聚类，得到文本聚类结果。
[0123]
图5是根据本发明实施例的一种文本聚类方法的电子设备(或移动设备)的硬件结构框图。如图5所示，电子设备可以包括一个或多个(图中采用502a、502b，
……
，502n来示出)处理器502(处理器502可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器504。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。
[0124]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0125]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0126]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0127]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0128]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0129]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0130]
以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：物料编码方法、计算机装置及存储介质与流程

文本聚类方法及装置、电子设备与流程

相关文献

最热文献