基于聚类模型的语料分类方法、装置、设备及存储介质与流程

2022-04-02 03:18:48 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种基于聚类模型的语料分类方法、装置、设备及存储介质。

背景技术：

2.聚类方法是无监督学习的一种方式，被实际应用于很多方面，如客户群分类，动植物分类。聚类是根据数据特征，将相似的数据归为一个簇，不同的归到相异的簇。聚类算法也是nlp领域中经常使用的对文本分类的处理方法。该方法可以在非监督的情况下，有效的给文本分类。对文本表述的信息类别以及每类的中心含义，有个比较清晰的认知。
3.然而，发明人意识到，当前聚类算法是直接根据语料对应的向量进行聚类运算，难以按照开发端的分类期望（例如：按照用户对某一产品的兴趣对语料进行分类）对语料进行聚类，导致当前的聚类算法难以输出开发端所需的分类结果。

技术实现要素：

4.本发明的目的是提供一种基于聚类模型的语料分类方法、装置、设备及存储介质，用于解决现有技术存在的难以按照开发端的分类期望对语料进行聚类，导致难以得到开发端所需的分类结果的问题。
5.为实现上述目的，本发明提供一种基于聚类模型的语料分类方法，包括：获取至少一个语料信息，其中，所述语料信息具有至少一个命名实体信息；对所述语料信息进行命名实体识别，得到相应所述命名实体信息的一个命名实体字词；对所述语料信息进行文本向量化处理得到一个语料向量；调整所述语料向量中所述命名实体字词对应的一个命名实体向量，或调整所述语料向量中除所述命名实体向量外的其他字词向量，得到所述语料向量的一个句向量；将所述句向量录入预置的聚类模型中，通过所述聚类模型对已录入的句向量进行聚类运算，以对所述已录入的句向量对应的语料信息进行分类。
6.上述方案中，所述获取至少一个语料信息之前，所述方法还包括：接收一个待分类信息，并判断所述待分类信息的信息类型；若所述信息类型为语音信息，则将所述待分类信息转为信息类型为文本信息的一个转换信息，并将所述转换信息作为语料信息保存到预置的语料库中；若所述信息类型为文本信息，则将所述待分类信息作为一个语料信息保存在所述语料库中。
7.上述方案中，所述获取至少一个语料信息，包括：接收用户端发送的一个用户信息；其中，所述用户信息是指所述语料信息发送者的身份信息；从预置的语料库中，获取与所述用户信息对应的至少一个语料信息；其中，所述语
料库用于保存关联有用户信息的语料信息。
8.上述方案中，所述对所述语料信息进行命名实体识别，得到相应所述命名实体信息的一个命名实体字词，包括：获得相应于所述语料信息的语料文本，对所述语料文本进行分词得到至少一个语料字词；将所述语料字词与预置的命名实体字典进行比对，并将属于所述命名实体字典的语料字词设为所述命名实体字词；其中，所述命名实体字典中具有至少一个命名实体。
9.上述方案中，所述调整所述语料向量中所述命名实体字词对应的一个命名实体向量，或调整所述语料向量中除所述命名实体向量外的其他字词向量，得到所述语料向量的一个句向量，包括：对所述语料向量进行词频逆文档计算，得到反映语料字词在所述语料信息中重要程度的词频逆文档值，以所述词频逆文档值作为所述语料字词对应字词向量的权重，调整所述语料向量得到语义向量；通过预置的提升系数修改所述语义向量中所述命名实体对应的字词向量得到实体向量，使所述语义向量转为所述句向量；或将所述命名实体对应的字词向量设为实体向量，并通过预置的降低系数修改所述语义向量中除所述实体向量外的其他字词向量，使所述语义向量转为所述句向量。
10.上述方案中，当所述聚类模型为k-means聚类模型时，所述通过所述聚类模型对已录入的句向量进行聚类运算，以对所述已录入的句向量对应的语料信息进行分类，包括：在所述聚类模型中根据所述句向量构建表征所述语料信息的对象，并在所述的聚类模型中划分至少一个组别；其中，所述组别表征了所述对象的所属类别；运行所述聚类模型对各所述组别中的对象进行k均值聚类运算，得到各所述组别的簇及其聚类中心；其中，所述簇是由至少一个属于所述组别的对象所构建的集合；提取所述聚类中心对应对象的中心语料信息，提取所述中心语料信息的命名实体，将所述命名实体作为所述聚类中心所在簇的所有对象对应语料信息的类别信息，以实现对所述句向量对应语料信息进行分类。
11.上述方案中，当所述聚类模型为密度聚类模型时，所述通过所述聚类模型对已录入的句向量进行聚类运算，以对所述已录入的句向量对应的语料信息进行分类，包括：在所述聚类模型中根据所述句向量构建表征所述语料信息的聚类点，运行所述聚类模型对所述聚类点进行密度聚类运算，得到至少一个簇及其聚类中心；其中，所述簇是由至少一个所述聚类点组成的集合；提取所述聚类中心对应聚类点的中心语料信息，提取所述中心语料信息的命名实体，将所述命名实体作为所述聚类中心所在簇的所有聚类点对应语料信息的类别信息，以实现对所述句向量对应语料信息进行分类。
12.为实现上述目的，本发明还提供一种基于聚类模型的语料分类装置，包括：信息输入模块，用于获取至少一个语料信息，其中，所述语料信息具有至少一个命名实体信息；实体识别模块，用于对所述语料信息进行命名实体识别，得到相应所述命名实体信息的一个命名实体字词；
向量转化调整模块，用于对所述语料信息进行文本向量化处理得到一个语料向量，调整所述语料向量中所述命名实体字词对应的一个命名实体向量，或调整所述语料向量中除所述命名实体向量外的其他字词向量，得到所述语料向量的一个句向量；语料分类模块，用于将所述句向量录入预置的聚类模型中，通过所述聚类模型对已录入的句向量进行聚类运算，以对所述已录入的句向量对应的语料信息进行分类。
13.为实现上述目的，本发明还提供一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述计算机设备的处理器执行所述计算机程序时实现上述基于聚类模型的语料分类方法的步骤。
14.为实现上述目的，本发明还提供一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述可读存储介质存储的所述计算机程序被处理器执行时实现上述基于聚类模型的语料分类方法的步骤。
15.本发明提供的基于聚类模型的语料分类方法、装置、设备及存储介质，通过对语料信息进行实体识别，得到反映所述语料信息描述对象的命名实体字词的方式，以便于后续根据用户关注的对象进行聚类，有助于实现基于开发端目标分类预期进行语料分类的技术效果；通过对所述语料信息进行文本向量化处理得到语料向量，获得能够被聚类模型识别的向量数据，通过调整所述语料向量中所述命名实体字词对应的实体向量得到句向量的方式，用以提升实体向量的权重或降低语料向量中除实体向量外的其他字词向量的权重，得到突出命名实体字词的句向量，以便于后续聚类模型能够根据所述句向量准确的根据命名实体字词对语料信息进行分类，避免聚类模型语料信息中其他与所述分类期望无关的信息，干扰对所述分类期望的分类结果的情况发生；通过聚类模型对突出命名实体字词对应实体向量的句向量进行分类，由于所述命名实体字词体现了开发端的目标分类期望，因此，实现了按照开发端目标分类期望对语料信息进行分类的技术效果。
附图说明
16.图1为本发明基于聚类模型的语料分类方法实施例一的流程图；图2为本发明基于聚类模型的语料分类方法实施例二中基于聚类模型的语料分类方法的环境应用示意图；图3是本发明基于聚类模型的语料分类方法实施例二中基于聚类模型的语料分类方法的具体方法流程图；图4为本发明基于聚类模型的语料分类装置实施例三的程序模块示意图；图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。
具体实施方式
17.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
18.本发明提供的基于聚类模型的语料分类方法、装置、设备及存储介质，适用于人工智能的技术领域，为提供一种基于信息输入模块、实体识别模块、向量转化调整模块、语料
分类模块的基于聚类模型的语料分类方法。本发明通过获取语料信息；对语料信息进行实体识别，得到反映所述语料信息描述对象的命名实体字词；对所述语料信息进行文本向量化处理得到语料向量，调整所述语料向量中所述命名实体字词对应的实体向量得到句向量；将所述句向量录入预置的聚类模型中，通过所述聚类模型对其接收到的句向量进行聚类运算，用以对所述句向量对应语料信息进行分类。
19.需要说明的是，命名实体(named entity)是以人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。
20.实施例一：请参阅图1，本实施例的一种基于聚类模型的语料分类方法，包括：s102：获取至少一个语料信息，其中，所述语料信息具有至少一个命名实体信息；s103：对所述语料信息进行命名实体识别，得到相应所述命名实体信息的一个命名实体字词；s104：对所述语料信息进行文本向量化处理得到一个语料向量；调整所述语料向量中所述命名实体字词对应的一个命名实体向量，或调整所述语料向量中除所述命名实体向量外的其他字词向量，得到所述语料向量的一个句向量；s105：将所述句向量录入预置的聚类模型中，通过所述聚类模型对已录入的句向量进行聚类运算，以对所述已录入的句向量对应的语料信息进行分类。
21.在示例性的实施例中，接收开发端发送用户信息，从所述语料库中获取与所述用户信息对应的语料信息；进而实现有针对性的获取语料信息的技术效果，以便于后续根据对所述语料信息的分类及聚类运算，构建所述用户信息的用户画像。
22.通过对语料信息进行实体识别，得到反映所述语料信息描述对象的命名实体字词的方式，以便于后续根据用户关注的对象进行聚类，有助于实现基于开发端目标分类预期进行语料分类的技术效果；其中，通过所述实体识别所得到的命名实体字词，可根据开发端的需要自行设定。
23.通过对所述语料信息进行文本向量化处理得到语料向量，获得能够被聚类模型识别的向量数据，通过调整所述语料向量中所述命名实体字词对应的实体向量得到句向量的方式，用以提升实体向量的权重或降低语料向量中除实体向量外的其他字词向量的权重，得到突出命名实体字词的句向量，以便于后续聚类模型能够根据所述句向量准确的根据命名实体字词对语料信息进行分类，避免聚类模型语料信息中其他与所述分类期望无关的信息，干扰对所述分类期望的分类结果的情况发生。
24.通过聚类模型对突出命名实体字词对应实体向量的句向量进行分类，由于所述命名实体字词体现了开发端的目标分类期望，因此，实现了按照开发端目标分类期望对语料信息进行分类的技术效果。
25.实施例二：本实施例为上述实施例一的一种具体应用场景，通过本实施例，能够更加清楚、具体地阐述本发明所提供的方法。
26.下面，以在运行有基于聚类模型的语料分类方法的服务器中，以对语料信息进行文本向量化处理得到语料向量，并调整所述语料向量中命名实体字词对应的实体向量得到句向量，再根据所述句向量对语料信息进行分类为例，来对本实施例提供的方法进行具体
说明。需要说明的是，本实施例只是示例性的，并不限制本发明实施例所保护的范围。
27.图2示意性示出了根据本技术实施例二的基于聚类模型的语料分类方法的环境应用示意图。
28.在示例性的实施例中，基于聚类模型的语料分类方法所在的服务器2通过网络分别连接开发端3和客户端4；所述服务器2可以通过一个或多个网络提供服务，网络可以包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或等等。网络可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，它们的组合和/或类似物。网络可以包括无线链路，例如蜂窝链路，卫星链路，wi-fi链路和/或类似物；所述开发端3和客户端4可分别为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。
29.图3是本发明一个实施例提供的一种基于聚类模型的语料分类方法的具体方法流程图，该方法具体包括步骤s201至s205。
30.s201：接收待分类信息，并判断所述待分类信息的信息类型；若所述信息类型为语音信息，则将所述待分类信息转为信息类型为文本信息的一个转换信息，并将所述转换信息作为语料信息保存到预置的语料库中；若所述信息类型为文本信息，则将所述待分类信息作为一个语料信息，并保存在所述语料库中。
31.通常的，用户端在发送待分类信息时，可能是采用文字输入的方式所生成的信息类型为文本信息的待分类信息，也可能是采用语音输入的方式所生成的信息类型为语音信息的待分类信息，因此，为扩大本技术的适用范围，本技术通过将信息类型为语音信息的待分类信息转为信息类型为文本信息的转换信息，并将其保存到所述语料库，以及将信息类型为文本信息待分类信息，直接保存到所述语料库中的方式，实现了对语音信息和文本信息两种语料的分类，扩大了本技术的适用范围。
32.进一步地，获取所述待分类信息对应的用户信息，其中，所述用户信息是指所述待分类信息发送者的身份信息；将所述用户信息录入所述语料库中，并将所述用户信息与所述待分类信息对应的语料信息关联。
33.于本实施例中，所述用户信息包括所述发送者使用的终端的编码和/或所述终端的电话号，以及所述发送者的注册账号信息、和/或id信息、和/或身份证号码。
34.将所述用户信息作为所述待分类信息的标签，或构建反映所述用户信息和所述语料信息之间映射关系的映射表的方式，使所述用户信息与所述语料信息之间相互关联。
35.采用key-value（键值对）方法将所述用户信息和所述语料信息保存在所述语料库中，具体地，汇总用户信息一致的语料信息作为语料集；以所述用户信息为主键，并以所述语料集为键值在所述语料库中构建键值对，用以保存所述用户信息及其语料信息，以便于后续进行语料分类时，能够根据所述发送者快速获取其发送的语料信息，提高了信息获取效率。
36.于所述图3中，所述s201采用以下标注展示：s201-1：接收一个待分类信息，并判断所述待分类信息的信息类型；s201-2：若所述信息类型为语音信息，则将所述待分类信息转为信息类型为文本
信息的一个转换信息，并将所述转换信息作为语料信息保存到预置的语料库中；s201-3：若所述信息类型为文本信息，则将所述待分类信息作为一个语料信息保存在所述语料库中。
37.s202：获取至少一个语料信息，其中，所述语料信息具有至少一个命名实体信息。
38.本步骤中，接收开发端发送用户信息，从所述语料库中获取与所述用户信息对应的语料信息；进而实现有针对性的获取语料信息的技术效果，以便于后续根据对所述语料信息的分类及聚类运算，构建所述用户信息的用户画像。
39.在一个优选的实施例中，所述获取语料信息，包括：s21：接收用户端发送的一个用户信息；其中，所述用户信息是指所述语料信息发送者的身份信息；本步骤中，所述用户信息包括所述发送者使用的终端的编码和/或所述终端的电话号，以及所述发送者的注册账号信息、和/或id信息、和/或身份证号码。
40.以实现同时确定发送者的身份，以及所述发送者常用终端的身份，进而保证了用户信息的唯一性，避免后续因发送者使用其他终端发送所述语料信息，或其他人使用所述发送者的终端发送语料信息的情况，造成最终得到的用户画像不准确的问题发生。
41.s22：从预置的语料库中，获取与所述用户信息对应的至少一个语料信息；其中，所述语料库用于保存关联有用户信息的语料信息。
42.本步骤中，通过将所述用户信息作为所述待分类信息的标签，或构建反映所述用户信息和所述语料信息之间映射关系的映射表的方式，使所述用户信息与所述语料信息之间相互关联。
43.采用key-value（键值对）方法将所述用户信息和所述语料信息保存在所述语料库中，具体地，汇总用户信息一致的语料信息作为语料集；以所述用户信息为主键，并以所述语料集为键值在所述语料库中构建键值对，用以保存所述用户信息及其语料信息，以便于后续进行语料分类时，能够根据所述发送者快速获取其发送的语料信息，提高了信息获取效率。
44.s203：对所述语料信息进行命名实体识别，得到相应所述命名实体信息的一个命名实体字词。
45.为识别出语料信息中用户关注的对象，本步骤通过对语料信息进行实体识别，得到反映所述语料信息描述对象的命名实体字词的方式，以便于后续根据用户关注的对象进行聚类，有助于实现基于开发端目标分类预期进行语料分类的技术效果；其中，通过所述实体识别所得到的命名实体字词，可根据开发端的需要自行设定。
46.在一个优选的实施例中，对语料信息进行实体识别，得到反映所述语料信息的语义的命名实体字词，包括：s31：获得相应于所述语料信息的语料文本，对所述语料文本进行分词得到至少一个语料字词。
47.本步骤中，所述语料信息是以报文或机器语言/汇编语言保存在语料库中的计算机数据，获取与所述语料信息对应的语料文本，得到能够被分词工具识别并进行分词的语料文本；通过分词jieba、和/或thulac、和/或snownlp、和/或pynlpir、和/或corenlp、和/或pyltp作为分词工具，对所述语料信息进行分词并得到所述语料字词。
48.其中，jieba是指结巴分词，其为一款非常流行中文开源分词包，具有高性能、准确率、可扩展性等特点，目前主要支持python。
49.thulac（thu lexical analyzer for chinese）是一套中文词法分析工具包，具有中文分词和词性标注功能。其具有能力强、准确率高、速度较快的特点。
50.snownlp是一个python写的类库，可用于处理中文文本内容。
51.pynlpir是由中科院开发的汉语分词系统包，用于对中文进行分词。
52.corenlp是一个自然语言处理工具包。它集成了很多非常实用的功能，包括分词，词性标注，句法分析等等。
53.pyltp是ltp的 python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。
54.s32：将所述语料字词与预置的命名实体字典进行比对，并将属于所述命名实体字典的语料字词设为所述命名实体字词；其中，所述命名实体字典中具有至少一个命名实体字词。
55.命名实体字词本步骤中，所述实体词典包括：通用词典和自定义词典，所述实体词典安装在运行有基于聚类模型的语料分类方法的服务器中；其中，所述通用词典是用于记载所述服务器的应用场景所使用到的命名实体，例如：公司组织名（某某银行、某某保险公司），金融产品名（金利天天发3号产品）等。
56.所述自定义词典是用于记载所述通用词典中命名实体的简化名和/或别名；例如：命名实体：金利天天发3号产品，简化名：金利3号；命名实体：中国银行，简化名：中行等。
57.于本实施例中，所述命名实体字典可根据开发端的目标分类期望设置；如果开发端需要按照用户的兴趣产品对应命名实体字词进行分类，则构建具有所述产品对应命名实体字词的实体词典；如果开发端需要按照用户的兴趣企业对应命名实体字词进行分类，则构建具有所述企业对应命名实体字词的实体词典。
58.s204：对所述语料信息进行文本向量化处理得到一个语料向量；调整所述语料向量中所述命名实体字词对应的一个命名实体向量，或调整所述语料向量中除所述命名实体向量外的其他字词向量，得到所述语料向量的一个句向量。
59.为实现聚类模型能够根据开发端目标分类期望进行分类，避免聚类模型语料信息中其他与所述分类期望无关的信息，干扰对所述分类期望的分类结果的情况发生，本步骤通过对所述语料信息进行文本向量化处理得到语料向量，获得能够被聚类模型识别的向量数据，通过调整所述语料向量中所述命名实体字词对应的实体向量得到句向量的方式，用以提升实体向量的权重或降低语料向量中除实体向量外的其他字词向量的权重，得到突出命名实体字词的句向量，以便于后续聚类模型能够根据所述句向量准确的根据命名实体字词对语料信息进行分类。
60.于本实施例中，对所述语料信息进行文本向量化处理得到语料向量，其中，所述语料向量包含所述语料信息中各语料字词对应的字词向量，所述文本向量化处理是将文本表示成一系列能够表达文本语义的向量，以作为聚类模型的输入信息的过程。
61.进一步地，采用具有word2vec、和/或nnlm、和/或c&w的向量化工具，对所述语料信息进行文本向量化处理得到语料向量。
62.其中，word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经
网络，用来训练以重新建构语言学之词文本。word2vec是基于词袋(bag of word)模型，以词语为基础处理单元的文本项量化方法。
63.nnlm是神经网络语言模型（neural network language model，nnlm）与传统方法估算的不同在于直接通过一个神经网络结构对n元条件概率进行估计。由于nnlm模型使用低维紧凑的词向量对上下文进行表示，解决了词袋模型带来的数据稀疏、语义鸿沟等问题。
64.c&w（context&word，上下文和目标词）是用于根据词向量去完成 nlp 里面的任务，比如词性标注、命名实体识别、短语识别、语义角色标注等等。
65.在一个优选的实施例中，所述对所述语料信息进行文本向量化处理得到语料向量，修改所述语料向量中所述命名实体字词对应的实体向量得到句向量，包括：s41：对所述语料向量进行词频逆文档计算，得到反映语料字词在所述语料信息中重要程度的词频逆文档值，以所述词频逆文档值作为所述语料字词对应字词向量的权重，调整所述语料向量得到语义向量。
66.本步骤中，采用tf-idf算法进行所述词频逆文档计算，tf-idf算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
67.通过所述词频逆文档值用以调整所述语料向量中各语料字词对应的字词向量，以提升重要的语料字词在语料向量中的向量值，并降低不重要的语料字词在语料向量中的向量值，得到能够突出语料信息语义的语义向量。
68.s42：通过预置的提升系数修改所述语义向量中所述命名实体字词对应的字词向量得到实体向量，使所述语义向量转为所述句向量。
69.s43：将所述命名实体字词对应的字词向量设为实体向量，并通过预置的降低系数修改所述语义向量中除所述实体向量外的其他字词向量，使所述语义向量转为所述句向量。
70.本步骤中，所述提升系数是预置的用于提升字词向量的元素值的参数，可通过将提升系数与所述实体向量之间相乘的方式，提升所述实体向量的元素值；所述降低系数是用于降低字词向量中元素值的参数，可通过将降低系数与所述其他字词向量之间相乘的方式，降低所述其他字词向量的元素值。
71.示例性地，用户m的语料集中，包括以下语料信息：语料信息1：a产品多少钱，通过对其分词得到的语料字词为：a产品/多少钱；语料信息2：a产品保本吗，通过对其分词得到的语料字词为：a产品/保本吗；语料信息3：a产品利息多少，通过对其分词得到的语料字词为：a产品/利息多少；语料信息4：b产品多少钱，通过对其分词得到的语料字词为：b产品/多少钱。通过上述方法将提取到的命名实体字词“a产品”和“b产品”。
72.通过tf-idf算法，计算a产品在语料信息1中的tf值，为tf1-1=0.5，及a产品在语料信息1中的idf值为，idf1-1=ln（4/3）=0.29；因此，a产品在语料信息1中的tf-idf1-1=0.5
×
0.29=0.145；而“多少钱”在语料信息1中的tf值为，tf1-2=0.5，及“多少钱”在语料信息1中的idf值为，idf1-2=ln（4/2）=0.693，因此，b产品在语料信息1中的tf-idf1-2=0.3465。
73.假设语料信息1的字词向量的值分别为（0,1）（1,0），其语料向量为（0,1,1,0），将tf-idf值与对应的字词向量相乘，并整合所述字词向量得到语料信息1的语义向量1为（0,
0.145,0.345,0）。
74.假设语料信息2的字词向量分别为（0,1）（2,0），语料信息3的字词向量分别为（0,1）（3,0），语料信息4的字词向量分别为（0,3）（1,0）按照上述原理整合语料信息2-4的语义向量分别为：语料信息2的语义向量2为（0,0.145,1.386,0），语料信息3的语义向量3为（0,0.145,2.079,0），语料信息4的语义向量4为（0,2.079,0.345,0）。
75.假设提升系数为10，那么，得到的句向量1为（0, 1.45,0.345,0）、句向量2为（0,1.45,1.386,0）、句向量3为（0,1.45,2.079,0）、句向量4为（0,20.79,0.345,0）；假设降低系数为0.1，那么，得到的句向量1为（0,0.145,0.0345,0）、句向量2为（0,0.145,0.1386,0）、句向量3为（0,0.145,0.2079,0），句向量4为（0,2.079,0.0345,0）。
76.s205：将所述句向量录入预置的聚类模型中，通过所述聚类模型对其接收到的句向量进行聚类运算，用以对所述句向量对应语料信息进行分类。
77.本步骤中，所述聚类模型可为k-means聚类模型，也可为密度聚类模型；其中，k-means聚类模型中运行有k均值聚类算法（k-means clustering algorithm），其为一种迭代求解的聚类分析算法；所述密度聚类模型中运行有dbscan(density-based spatial clustering of applications with noise)算法，其为一种比较有代表性的基于密度的聚类算法。
78.本步骤通过聚类模型对突出命名实体字词对应实体向量的句向量进行分类，由于所述命名实体字词体现了开发端的目标分类期望，因此，实现了按照开发端目标分类期望对语料信息进行分类的技术效果。
79.在一个优选的实施例中，当所述聚类模型为k-means聚类模型时，所述通过所述聚类模型对其接收到的句向量进行聚类运算，用以对所述句向量对应语料信息进行分类，包括：s51：在所述聚类模型中根据所述句向量构建表征所述语料信息的对象，并在所述的聚类模型中划分至少一个组别；其中，所述组别表征了所述对象的所属类别；s52：运行所述聚类模型对各所述组别中的对象进行k均值聚类运算，得到各所述组别的簇及其聚类中心；其中，所述簇是由至少一个属于所述组别的对象所构建的集合；s53：提取所述聚类中心对应对象的中心语料信息，提取所述中心语料信息的命名实体字词，将所述命名实体字词作为所述聚类中心所在簇的所有对象对应语料信息的类别信息，以实现对所述句向量对应语料信息进行分类。
80.具体地，所述k均值聚类运算包括：通过所述聚类模型预将数据分为k个组别，则随机选取k个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。
81.其中，所述组别可根据需要设置，例如，如果企业共开发了10个产品，那么可以构建10个组别，并对企业接收到的语料信息进行聚类，由于本技术中句向的命名实体字词对应字词向量已被调整，因此，企业能够直接获得哪些语料的语义是针对哪一产品的技术效果，进而有助于企业及时获知各用户对各产品的市场反馈。
82.在一个优选的实施例中，当所述聚类模型为密度聚类模型时，所述通过所述聚类模型对其接收到的句向量进行聚类运算，用以对所述句向量对应语料信息进行分类，包括：s54：在所述聚类模型中根据所述句向量构建表征所述语料信息的聚类点，运行所述聚类模型对所述聚类点进行密度聚类运算，得到至少一个簇及其聚类中心；其中，所述簇是由至少一个所述聚类点组成的集合；s55：提取所述聚类中心对应聚类点的中心语料信息，提取所述中心语料信息的命名实体字词，将所述命名实体字词作为所述聚类中心所在簇的所有聚类点对应语料信息的类别信息，以实现对所述句向量对应语料信息进行分类。
83.具体地，所述密度聚类运算是将簇定义为密度相连的聚类点的最大集合，能够把具有足够高密度的区域划分为簇，其目的是找到密度相连对象的最大集合。
84.示例性地，假设半径ε=3，minpts=3，聚类点p的e邻域中有聚类点{m,p,p1,p2,o}, 聚类点m的e邻域中有聚类点{m,q,p,m1,m2},聚类点q的e邻域中有聚类点{q,m},聚类点o的e邻域中有聚类点{o,p,s},聚类点s的e邻域中有聚类点{o,s,s1}.那么核心对象有p,m,o,s(q不是核心对象，因为它对应的e邻域中聚类点数量等于2，小于minpts=3)；聚类点m从聚类点p直接密度可达，因为m在p的e邻域内，并且p为核心对象；聚类点q从聚类点p密度可达，因为聚类点q从聚类点m直接密度可达，并且聚类点m从聚类点p直接密度可达；聚类点q到聚类点s密度相连，因为聚类点q从聚类点p密度可达，并且s从聚类点p密度可达。
85.需要说明的是，ε邻域：给定对象半径为ε内的区域称为该对象的ε邻域；核心对象：如果给定对象ε邻域内的样本聚类点数大于等于minpts，则称该对象为核心对象；直接密度可达：对于样本集合d，如果样本聚类点q在p的ε邻域内，并且p为核心对象，那么对象q从对象p直接密度可达。
86.密度可达：对于样本集合d，给定一串样本聚类点p1,p2
…
pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，那么对象q从对象p密度可达。
87.密度相连：存在样本集合d中的一聚类点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相联。
88.因此，通过密度聚类算法能够根据语料信息识别用户对各产品的关注度，并获得该用户最为关注的产品。
89.实施例三：请参阅图4，本实施例的一种基于聚类模型的语料分类装置1，包括：信息输入模块12，用于获取至少一个语料信息，其中，所述语料信息具有至少一个命名实体信息；实体识别模块13，用于对所述语料信息进行命名实体识别，得到相应所述命名实体信息的一个命名实体字词；向量转化调整模块14，用于对所述语料信息进行文本向量化处理得到一个语料向量，调整所述语料向量中所述命名实体字词对应的一个命名实体向量，或调整所述语料向量中除所述命名实体向量外的其他字词向量，得到所述语料向量的一个句向量；语料分类模块15，用于将所述句向量录入预置的聚类模型中，通过所述聚类模型
对已录入的句向量进行聚类运算，以对所述已录入的句向量对应的语料信息进行分类。
90.可选的，所述基于聚类模型的语料分类装置1还包括：分类处理模块11，用于接收待分类信息，并判断所述待分类信息的信息类型；若所述信息类型为语音信息，则将所述待分类信息转为信息类型为文本信息的一个转换信息，并将所述转换信息作为语料信息保存到预置的语料库中；若所述信息类型为文本信息，则将所述待分类信息作为一个语料信息，并保存在所述语料库中。
91.可选的，所述信息输入模块12，包括：信息接收单元121，用于接收用户端发送的一个用户信息；其中，所述用户信息是指所述语料信息发送者的身份信息；语料获取单元122，用于从预置的语料库中，获取与所述用户信息对应的至少一个语料信息；其中，所述语料库用于保存关联有用户信息的语料信息。
92.可选的，所述实体识别模块13，包括：语料分词单元131，获得相应于所述语料信息的语料文本，对所述语料文本进行分词得到至少一个语料字词。
93.实体识别单元132，将所述语料字词与预置的命名实体字典进行比对，并将属于所述命名实体字典的语料字词设为所述命名实体字词；其中，所述命名实体字典中具有至少一个命名实体字词。
94.可选的，所述向量转化调整模块14还包括：权重调整单元141，用于对所述语料向量进行词频逆文档计算，得到反映语料字词在所述语料信息中重要程度的词频逆文档值，以所述词频逆文档值作为所述语料字词对应字词向量的权重，调整所述语料向量得到语义向量；实体提升单元142，用于通过预置的提升系数修改所述语义向量中所述命名实体字词对应的字词向量得到实体向量，使所述语义向量转为所述句向量；实体降低单元143，用于将所述命名实体字词对应的字词向量设为实体向量，并通过预置的降低系数修改所述语义向量中除所述实体向量外的其他字词向量，使所述语义向量转为所述句向量。
95.可选的，所述语料分类模块15还包括：对象组别单元151，用于在所述聚类模型中根据所述句向量构建表征所述语料信息的对象，并在所述的聚类模型中划分至少一个组别；其中，所述组别表征了所述对象的所属类别；簇构建单元152，用于运行所述聚类模型对各所述组别中的对象进行k均值聚类运算，得到各所述组别的簇及其聚类中心；其中，所述簇是由至少一个属于所述组别的对象所构建的集合；均值分类单元153，用于提取所述聚类中心对应对象的中心语料信息，提取所述中心语料信息的命名实体字词，将所述命名实体字词作为所述聚类中心所在簇的所有对象对应语料信息的类别信息，以实现对所述句向量对应语料信息进行分类。
96.可选的，所述语料分类模块15还包括：聚类运算单元154，用于在所述聚类模型中根据所述句向量构建表征所述语料信息的聚类点，运行所述聚类模型对所述聚类点进行密度聚类运算，得到至少一个簇及其聚
类中心；其中，所述簇是由至少一个所述聚类点组成的集合；密度分类单元155，用于提取所述聚类中心对应聚类点的中心语料信息，提取所述中心语料信息的命名实体字词，将所述命名实体字词作为所述聚类中心所在簇的所有聚类点对应语料信息的类别信息，以实现对所述句向量对应语料信息进行分类。
97.本技术方案应用于人工智能的智能决策领域，获取语料信息，对语料信息进行实体识别，得到反映所述语料信息描述对象的命名实体字词，对所述语料信息进行文本向量化处理得到语料向量，调整所述语料向量中所述命名实体字词对应的实体向量得到句向量，将所述句向量录入预置的聚类模型中，通过所述聚类模型对其接收到的句向量进行聚类运算，用以对所述句向量对应语料信息进行分类，以实现作为语料信息的分类模型的技术效果。
98.实施例四：为实现上述目的，本发明还提供一种计算机设备5，实施例三的基于聚类模型的语料分类装置的组成部分可分散于不同的计算机设备中，计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器（包括独立的服务器，或者多个应用服务器所组成的服务器集群）等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器51、处理器52，如图5所示。需要指出的是，图5仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。
99.本实施例中，存储器51（即可读存储介质）包括闪存、硬盘、多媒体卡、卡型存储器（例如，sd或dx存储器等）、随机访问存储器（ram）、静态随机访问存储器（sram）、只读存储器（rom）、电可擦除可编程只读存储器（eeprom）、可编程只读存储器（prom）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card, smc），安全数字（secure digital, sd）卡，闪存卡（flash card）等。当然，存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例三的基于聚类模型的语料分类装置的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
100.处理器52在一些实施例中可以是中央处理器（central processing unit，cpu）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中，处理器52用于运行存储器51中存储的程序代码或者处理数据，例如运行基于聚类模型的语料分类装置，以实现实施例一和实施例二的基于聚类模型的语料分类方法。
101.实施例五：为实现上述目的，本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，sd或dx存储器等）、随机访问存储器（ram）、静态随机访问存储器（sram）、只读存储器（rom）、电可擦除可编程只读存储器（eeprom）、可编程只读存储器（prom）、磁性存储器、磁盘、光盘、服务器、app应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述基于
聚类模型的语料分类方法的计算机程序，被处理器52执行时实现实施例一和实施例二的基于聚类模型的语料分类方法。
102.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
103.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。
104.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：防御控制流攻击的装置、方法、处理器、设备及存储介质与流程

基于聚类模型的语料分类方法、装置、设备及存储介质与流程

相关文献

最热文献