一种文本聚类方法、装置、电子设备及存储介质与流程

2022-02-20 15:08:41 来源：中国专利 TAG：

1.本技术涉及文本处理技术领域，具体而言，涉及一种文本聚类方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.目前深度学习的技术已经广泛应用于语言文本处理等多个领域，其中，常常会使用语言模型来对语言文本进行特征提取和聚类，这类方法通常需要对文本进行人工标注，费事费力，并且，常用的聚类算法直接受理的对象是数字，或者是将要聚类的对象转换为数字再加以聚类，例如将语言文字转换为不同维度的向量再对向量进行聚类，需要使用任务相关文本对通用预训练模型进行再次训练，这类方法处理的对象是词，向量的质量很大程度受限于上游的分词操作的结果。且这类方法生成的向量都不包含文本中的语义信息，生成的也都是高维度向量矩阵，聚类效果并不理想。

技术实现要素：

3.本技术实施例的目的在于提供一种文本聚类方法、装置、电子设备及计算机可读存储介质，解决了现有中常用文本特征不包含语义信息且矩阵过大且稀疏的缺点，且不需要人工标注数据，减少人力物力，提升文本聚类效果。
4.第一方面，本技术实施例提供了一种文本聚类方法，所述方法包括：
5.获取目标语料数据；
6.对目标语料数据进行清洗处理，获得待聚类数据；
7.根据预训练模型对所述待聚类数据进行特征提取处理，获得多个特征向量；
8.获得所述多个特征向量中任意两个之间的余弦相似度；
9.根据所述余弦相似度进行聚类分析，获得聚类结果。
10.在上述实现过程中，通过对目标语料数据进行清洗、训练和特征提取处理，最后利用特征向量的余弦相似度进行聚类的方法，规避了常用文本特征不包含语义信息且矩阵过于稀疏的缺点，能够充分利用特征向量，提高文本聚类效果。
11.进一步地，通过以下方式获得所述多个特征向量中任意两个之间的余弦相似度：
[0012][0013]
其中，a、b表示特征向量，cos(a，b)表示余弦相似度，‖a‖表示特征向量a的模，‖b‖表示特征向量b的模。
[0014]
在上述实现过程中，利用任意两个特征向量计算两个向量之间的余弦相似度，并计算所有特征向量中任意两个特征向量的余弦相似度，余弦相似度可以优化聚类过程中距离参数的选取，且更适合计算特征向量中高维度向量之间的差异。
[0015]
进一步地，所述根据所述余弦相似度进行聚类分析，获得聚类结果的步骤，包括：
[0016]
根据所述多个余弦相似度获得所述多个余弦相似度对应的多个余弦距离；
[0017]
对所述多个余弦距离进行聚类分析，获得聚类结果。
[0018]
在上述实现过程中，利用余弦相似度计算出余弦距离，根据余弦距离来表示两个特征向量之间的距离，即特征向量之间的匹配度，从而反映出文本之间的相似度，获得聚类结果。
[0019]
进一步地，通过以下方式根据所述多个余弦相似度获得所述多个余弦相似度对应的多个余弦距离：
[0020]
dist(a，b)＝1-cos(a，b)；
[0021]
其中，dist(a，b)表示余弦距离。
[0022]
进一步地，在所述获取目标语料数据的步骤之前，还包括：
[0023]
获取训练语料数据；
[0024]
对所述训练语料数据进行清洗处理，获得预训练语料数据；
[0025]
对所述预训练语料数据进行预训练，获得所述预训练模型。
[0026]
在上述实现过程中，通过提前对语料数据进行清洗、训练得到预训练模型，目标语料数据在输入到预训练模型后，可以提高文本聚类的准确性。
[0027]
进一步地，所述对所述训练语料数据进行清洗处理，获得预训练语料数据的步骤，包括：
[0028]
将所述训练语料数据进行拆分，获得拆分语料数据；
[0029]
获取特殊词表；
[0030]
根据所述特殊词表对所述拆分语料数据中的特殊词进行替换，获得预训练语料数据。
[0031]
在上述实现过程中，拆分和替换后获得的预训练语料数据的语义信息可以更加明确，进一步提高了后续文本聚类的准确性。
[0032]
进一步地，所述对所述预训练语料数据进行预训练，获得所述预训练模型的步骤，包括：
[0033]
将所述预训练语料数据转换为标记序列；
[0034]
将所述标记序列输入到语言模型中进行训练，获得所述预训练模型。
[0035]
在上述实现过程中，根据预训练语料数据中的特征，转换为相应的标记序列，对标记序列进行训练，生成预训练模型，预训练模型可以理解待聚类数据的语义，并对待聚类数据进行特征提取处理。
[0036]
第二方面，本技术实施例还提供了一种文本聚类装置，所述装置包括：
[0037]
数据获取模块，用于获取目标语料数据；
[0038]
数据清洗模块，用于对目标语料数据进行清洗处理，获得待聚类数据；
[0039]
特征向量获取模块，用于根据预训练模型对所述待聚类数据进行特征提取处理，获得多个特征向量；
[0040]
余弦相似度获取模块，用于获得所述多个特征向量中任意两个之间的余弦相似度；
[0041]
聚类模块，用于根据所述余弦相似度进行聚类分析，获得聚类结果。
[0042]
在上述实现过程中，通过对目标语料数据进行清洗、训练和特征提取处理，最后利用特征向量的余弦相似度进行聚类的方法，规避了常用文本特征不包含语义信息且矩阵过
于稀疏的缺点，能够充分利用特征向量，提高文本聚类效果。
[0043]
第三方面，本技术实施例提供的一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0044]
第四方面，本技术实施例提供的一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如第一方面任一项所述的方法。
[0045]
第五方面，本技术实施例提供的一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一项所述的方法。
[0046]
本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。
[0047]
并可依照说明书的内容予以实施，以下以本技术的较佳实施例并配合附图详细说明如后。
附图说明
[0048]
为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0049]
图1为本技术实施例提供的文本聚类方法的流程示意图；
[0050]
图2为本技术实施例提供的文本聚类装置的结构组成示意图；
[0051]
图3为本技术实施例提供的电子设备的结构组成示意图。
具体实施方式
[0052]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
[0053]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0054]
下面结合附图和实施例，对本技术的具体实施方式作进一步详细描述。以下实施例用于说明本技术，但不用来限制本技术的范围。
[0055]
实施例一
[0056]
图1是本技术实施例提供的文本聚类方法的流程示意图，如图1所示，该方法包括：
[0057]
s1，获取目标语料数据；
[0058]
s2，对目标语料数据进行清洗处理，获得待聚类数据；
[0059]
s3，根据预训练模型对待聚类数据进行特征提取处理，获得多个特征向量；
[0060]
s4，获得多个特征向量中任意两个之间的余弦相似度；
[0061]
s5，根据余弦相似度进行聚类分析，获得聚类结果。
[0062]
在s1中，获取目标语料数据。
[0063]
在本技术实施例中，目标语料数据主要是以中文文本为主的数据，包含语义信息、数字、文字和符号等，可以从维基开源中文网、新闻、公司内部文件等等渠道获取，示例性
地，保险公司可以使用保险条款和相关说明作为目标语料数据。
[0064]
在s2中，对目标语料数据进行清洗处理，获得待聚类数据。
[0065]
数据清洗处理的步骤包括去除目标语料数据中的特殊字符，特殊字符指除26个英文字母、中文汉字、中文句号、中文逗号和中文问号以外的字符，特殊字符可能会造成语义理解的偏差，因此需要去除，再将成段的目标语料数据拆分成句，将句子拆分成字符，获取特殊词表，并根据特殊词表对目标语料数据中的特殊词进行替代。示例性地，目标语料数据中出现产品名：神农i保医疗险，电话号码：95510，则可以相应的替换为[name]、[number]。
[0066]
以本实施例为例，目标语料数据以中文文本为主，并且以字符为单位进行标记(token)转换，示例性地，通常用[cls]作为token转换时每一句话的起始，例如目标语料数据为“你好，你知道神农i保医疗险吗？”，[name]对应1，“，”对应2，“？”对应3，你对应4，好对应5，知对应6，道对应7，吗对应8，[cls]对应9，进行token转换之后则为“9，4，5，2，4，6，7，1，8，3”。字符包括中文文本中可能出现的字、符号或者字母等。在特殊词表中会存在一些计算机语言难以识别的字符，或者是会影响语言模型对语义的理解的字符，称为特殊词，示例性地，文本中出现一连串的数字时，会被拆分成多个字符，这种情况会降低语言模型对语义的理解，因此，需要将连起来的数字用正则式(计算机科学的一个概念，通常被用来检索、替换那些符合某个模式(规则)的文本，这里不再赘述)找出并用特殊词表中对应的字符来替代，以此来提升模型对语义的理解。
[0067]
在s3中，根据预训练模型对待聚类数据进行特征提取处理，获得多个特征向量。
[0068]
将目标语料数据进行token转换之后再转换为编码向量，这些编码向量就是特征向量。
[0069]
在s4中，获得多个特征向量中任意两个之间的余弦相似度。
[0070]
可选地，通过以下方式获得所述多个特征向量中任意两个之间的余弦相似度：
[0071][0072]
以本实施例为例，a表示一个特征向量，b表示另外一个特征向量，利用这两个特征向量来计算余弦相似度，cos(a，b)就表示这两个特征向量的余弦相似度，‖a‖表示特征向量a的模，‖b‖表示特征向量b的模。
[0073]
可选地，利用任意两个特征向量计算两个向量之间的余弦相似度，并计算所有特征向量中任意两个特征向量的余弦相似度。
[0074]
在s5中，根据余弦相似度进行聚类分析，获得聚类结果。
[0075]
在上述实现过程中，利用余弦相似度计算出余弦距离，根据余弦距离来表示两个特征向量之间的距离，即特征向量之间的匹配度，从而反映出文本之间的相似度，获得聚类结果。
[0076]
进一步地，通过以下方式根据多个余弦相似度获得多个余弦相似度对应的多个余弦距离：
[0077]
dist(a，b)＝1-cos(a，b)；
[0078]
其中，dist(a，b)表示余弦距离。在获得所有特征向量之间的余弦距离之后，以固定距离范围内数据点的个数作为聚类的依据。使用余弦距离作为密度聚类算法中的距离，
符合数值与距离远度成正比的特性实际操作。并且余弦距离的取值范围在0与2之间，这一特性不会导致两个特征向量之间的距离随着向量维度的增加而扩大，同时由于取值范围固定，也更容易实现聚类。
[0079]
进一步地，在s1之前，还对训练语料数据进行训练，获得预训练模型。
[0080]
可选地，通过提前对训练语料数据进行清洗，即将训练语料数据进行拆分，并根据特殊词表对拆分语料数据中的特殊词进行替换，示例性地，将一个句子拆分成字，其中包含字母这样难以被计算机模型所读取的信息，此时可以将其用特殊词表中对应的词进行替换，获得预训练语料数据。拆分后和替换后的语料数据的语义信息可以更加明确，此时再将预训练语料数据转换为标记序列，并输入到语言模型中进行训练，示例性地，语言模型可以是中文通用领域的双向编码器表征量(bidirectional encoder representations from transformers，bert)模型，在训练后得到预训练模型。
[0081]
用预训练模型对目标语料数据进行训练，进一步增加了后续文本聚类的准确性。
[0082]
在本发明实施例中，通过对目标语料数据进行清洗、训练和特征提取处理，最后利用特征向量的余弦相似度进行聚类的方法，规避了常用文本特征不包含语义信息且矩阵过于稀疏的缺点，能够充分利用特征向量，提高文本聚类效果。
[0083]
实施例二
[0084]
为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种文本聚类装置，如图2所示，该装置包括：
[0085]
数据获取模块1，用于获取目标语料数据；
[0086]
数据清洗模块2，用于对目标语料数据进行清洗处理，获得待聚类数据；
[0087]
特征向量获取模块3，用于根据预训练模型对待聚类数据进行特征提取处理，获得多个特征向量；
[0088]
余弦相似度获取模块4，用于获得多个特征向量中任意两个之间的余弦相似度；
[0089]
聚类模块5，用于根据余弦相似度进行聚类分析，获得聚类结果。
[0090]
进一步地，余弦相似度获取模块4还用于获得多个特征向量中任意两个之间的余弦相似度；
[0091][0092]
其中，a、b表示特征向量，cos(a，b)表示余弦相似度，‖a‖表示特征向量a的模，‖b‖表示特征向量b的模。
[0093]
进一步地，聚类模块5包括：
[0094]
余弦距离获取单元，用于通过以下方式根据多个余弦相似度获得多个余弦相似度对应的多个余弦距离：
[0095]
dist(a，b)＝1-cos(a，b)；
[0096]
dist(a，b)表示余弦距离。
[0097]
聚类单元，用于对多个余弦距离进行聚类分析，获得聚类结果。
[0098]
预训练模块，用于对预训练语料数据进行预训练，获得预训练模型。
[0099]
进一步地，预训练模块包括：
[0100]
转换单元，用于将预训练语料数据转换为标记序列；
[0101]
预训练单元，用于将标记序列输入到语言模型中进行训练，获得预训练模型。
[0102]
进一步地，数据获取模块1还用于获取训练语料数据；还用于获取特殊词表。
[0103]
进一步地，数据清洗模块2还用于对训练语料数据进行清洗处理，获得预训练语料数据。
[0104]
进一步地，数据清洗模块2包括：
[0105]
拆分单元，用于将训练语料数据进行拆分，获得拆分语料数据；还用于将目标语料数据进行拆分，获得拆分目标语料数据；
[0106]
替换单元，用于根据特殊词表对拆分语料数据中的特殊词进行替换，获得预训练语料数据；还用于根据特殊词表对拆分目标语料数据中的特殊词进行替换，获得待聚类数据。
[0107]
上述的文本聚类装置可实施上述实施例一的方法。上述实施例一中的可选项也适用于本实施例，这里不再详述。
[0108]
本技术实施例的其余内容可参照上述实施例一的内容，在本实施例中，不再进行赘述。
[0109]
实施例三
[0110]
本技术实施例提供一种电子设备，包括存储器及处理器，该存储器用于存储计算机程序，该处理器运行计算机程序以使电子设备执行实施例一的文本聚类方法。
[0111]
可选地，上述电子设备可以是服务器。
[0112]
请参见图3，图3为本技术实施例提供的电子设备的结构组成示意图。该电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中，通信总线34用于实现这些组件直接的连接通信。其中，本技术实施例中设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片，具有信号的处理能力。
[0113]
上述的处理器31可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
[0114]
存储器33可以是，但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)等。存储器33中存储有计算机可读取指令，当计算机可读取指令由所述处理器31执行时，设备可以执行上述图1方法实施例涉及的各个步骤。
[0115]
可选地，电子设备还可以包括存储控制器、输入输出单元。存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线34实现电性连接。处理器31用于执行存储器33中存储的可执行模块，例如设备包括的软件功能模块或计算机程序。
[0116]
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设
执行时间以实现用户与服务器的交互。输入输出单元可以是，但不限于，鼠标和键盘等。
[0117]
可以理解，图3所示的结构仅为示意，电子设备还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
[0118]
另外，本技术实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例一的文本聚类方法。
[0119]
本技术实施例还提供一种计算机程序产品，该计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。
[0120]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0121]
另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0122]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0123]
以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0124]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。
[0125]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：低线束激光雷达与相机融合方法、存储介质及装置与流程

一种文本聚类方法、装置、电子设备及存储介质与流程

相关文献

最热文献