一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于聚类模型的话题检测方法、装置和计算机设备与流程

2021-10-20 01:03:00 来源:中国专利 TAG:自然语言 检测方法 装置 模型 特别


1.本发明涉及自然语言处理技术领域,特别涉及基于聚类模型的话题检测方法、装置和计算机设备。


背景技术:

2.现有的话题检测方法,是从文本中提取出表述的事件,并将类似的事件进行聚类,从而能够从海量信息中筛选出话题信息,发现热点话题,并对热点话题进行后续跟踪。
3.目前主要的话题检测方法,先将文本表示成向量空间模型,再用层次聚类法对文本向量进行聚类,形成话题簇。由于上述传统的向量空间模型使用词来表达文本,未考虑文本中的语义信息;或者,虽然用主题向量表达文本语义信息,但是其语义粒度过大,这样,均会将不同话题的子话题聚成一类。
4.现有传统的话题检测方法,对于构建好的文本特征,使用聚类的算法,将同一主题的文本进行聚类。在话题检测中使用分层聚类的方法,依次合并话题集中最相似的两个话题,直至话题集中任意两个话题之间的相似度均小于阈值。上述话题检测方法所采用的算法的缺点是具有明显的贪心特征,若一个数据点分配出现错误,则会出现连带性错误。
5.此外,若采用k

means的聚类算法进行话题检测,则直接使用表示文本的特征向量t来进行k

means聚类。由于该算法中的k值是自定义的,对初始聚类中心的选取很敏感,因此,采用该算法的检测方法,易陷入局部最优。
6.现有的基于向量空间模型的话题检测方法存在不能表达语义,主体向量表达的语义粒度过大、且无法精准地检测出热点话题的问题。


技术实现要素:

7.基于此,有必要针对现有无法精准地检测出热点话题的问题,提供一种基于聚类模型的话题检测方法、装置、计算机设备和存储介质。
8.第一方面,本技术实施例提供了一种基于聚类模型的话题检测方法,所述方法包括:
9.获取待检测的话题文本数据;
10.基于预设的特征生成模型,对每一所述待检测的话题文本数据进行特征生成,生成并输出组合文本特征,所述预设的特征生成模型包括第一特征生成模型和第二特征生成模型,所述第一特征生成模型为能够生成语义特征向量的模型,所述第二特征生成模型是能够生成命名实体词向量的模型;
11.基于预设的聚类模型,对所述组合文本特征进行文本聚类,得到文本聚类结果;
12.将所述文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题,并输出所述热点话题。
13.在一种实施方式中,所述基于预设的特征生成模型,对每一所述待检测的话题文本数据进行特征生成,生成并输出组合文本特征包括:
14.基于所述第一特征生成模型,对每一所述待检测的话题文本数据进行特征生成,生成对应的第一文本特征;以及
15.基于所述第二特征生成模型,对每一所述待检测的话题文本数据进行特征生成,生成对应的第二文本特征;
16.将每一所述待检测的话题文本数据对应的第一文本特征和第二文本特征作为对应文本的组合特征;
17.遍历每一所述待检测的话题文本数据进行组合文本特征生成,生成并输出组合文本特征。
18.在一种实施方式中,所述第一特征生成模型为bert模型,所述方法还包括:
19.从每一所述待检测的话题文本数据中选取任意一段文本作为当前待编码文本;
20.基于第一预设方式对当前待编码文本中的词语进行分词,得到多个具有完整语义的词语;
21.获取每个具有完整语义的词语的词向量;
22.将每个具有完整语义的词语的词向量输入中所述bert模型中,输出任意一个具有完整语义的词语对应的bert编码,任意一个具有完整语义的词语对应的bert编码包括该词语的词语信息以及该词语对应的上下文信息。
23.在一种实施方式中,所述方法还包括:
24.从每一所述待检测的话题文本数据中随机选取任意一段文本;
25.基于第二预设方式对该文本中的每一个字或单词进行分词,得到多个字或单词;
26.基于所述bert模型,对该段文本选取多个预设位置的字或单词进行被掩处理;
27.基于第三预设方式,依次对多个预设位置中的任意一个预设位置的字或单词进行被掩处理,并利用所述bert模型的多层transformer机制预测任意一个被掩字或单词处的字或单词信息,所述第三预设方式包括:从所述多个预设位置中选取任意一个预设位置作为当前预设位置,赋予当前预设位置的字或单词替换为预设掩码符号的概率为第一概率、赋予当前预设位置的字或单词替换为随机字或单词的概率为第二概率,以及赋予当前预设位置的字或单词保持原字或原单词的概率为第三概率,且所述第一概率、所述第二概率和所述第三概率之和为1。
28.在一种实施方式中,所述第二特征生成模型为命名实体识别模型,所述方法还包括:
29.从每一所述待检测的话题文本数据中选取任意一段文本作为当前文本;
30.基于所述命名实体识别模型,对当前文本中的任意一个命名实体进行识别,所述命名实体包括人名、地名、机构名称以及其它类别的命名实体;
31.对当前文本通过预设格式的标签进行标注,得到并输出对应的标注结果,所述标注结果包括从当前文本中所选取的当前字或当前单词是命名实体的一部分、从当前文本中所选取的当前字,或当前单词是人名/地名/机构/其它类别命名实体的开始词、从当前文本所选取的当前字,或当前单词是人名/地名/机构/其它类别命名实体的继续词、从当前文本中所选取的当前字或当前单词不是命名实体的一部分。
32.在一种实施方式中,所述基于预设的聚类模型,对所述组合文本特征进行文本聚类包括:
33.根据预设的话题相似度阈值,将所述组合文本特征中具有相似主题的文本划分为一类;
34.获取用于对各个文本进行初始文本聚类的初始k1值;
35.根据所述初始k1值进行初始文本聚类;
36.根据预设聚类方式进行第二次文本聚类,所述预设聚类方式包括:对多个待聚类的多个文本进行两两聚类,计算任意两两聚类的中心点,提取该中心点的组合文本特征;依次遍历多个待聚类的多个文本进行两两聚类并提取对应中心点的组合文本特征,并根据各个中心点的组合文本特征进行文本聚类;
37.将用于评估初始文本聚类结果的第一评估标准值和用于评估第二次文本聚类结果的第二评估标准值进行比较,若所述第一评估标准值小于所述第二评估标准值,则停止进行文本聚类,反之,则根据所述预设聚类方式进行两两聚类并提取对应中心点的组合文本特征,直至符合预置的停止文本聚类的停止条件为止。
38.在一种实施方式中,在将第一评估标准值和第二评估标准值进行比较之前,所述方法还包括:
39.获取用于计算所述第一评估标准值和所述第二评估标准值的评估标准值计算公式;
40.根据所述初始k1值和所述评估标准值计算公式计算所述第一评估标准值;
41.获取用于对各个文本进行所述第二次文本聚类的k2值;
42.根据所述k2值和所述评估标准值计算公式计算所述第二评估标准值;
43.计算所述评估标准值的计算公式为:
[0044][0045]
其中,
[0046][0047]
k是聚类数、n是样本数、s
e
是组内误差、s
e
对应的数值为每个样本与对应类的中心点之间的相似度之和、s
a
是组与组之间的误差、s
a
对应的数值为每个类的中心点与整体中心点之间的相似度之和、xi用于表示各个类的中心点、ni用于表示每一类中的样本数。
[0048]
第二方面,本技术实施例提供了一种基于聚类模型的话题检测装置,所述装置包括:
[0049]
获取模块,用于获取待检测的话题文本数据;
[0050]
特征生成模块,用于基于预设的特征生成模型,对每一所述获取模块获取的所述待检测的话题文本数据进行特征生成,生成并输出组合文本特征,所述预设的特征生成模型包括第一特征生成模型和第二特征生成模型,所述第一特征生成模型为能够生成语义特征向量的模型,所述第二特征生成模型是能够生成命名实体词向量的模型;
[0051]
文本聚类模块,用于基于预设的聚类模型,对所述特征生成模块生成的所述组合文本特征进行文本聚类,得到文本聚类结果;
[0052]
确定模块,用于将所述文本聚类模块得到的所述文本聚类结果中文本数量大于预
设文本数量阈值的话题确定为热点话题;
[0053]
输出模块,用于输出所述确定模块确定的所述热点话题。
[0054]
第三方面,本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述的方法步骤。
[0055]
第四方面,本技术实施例提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述的方法步骤。
[0056]
本技术实施例提供的技术方案可以包括以下有益效果:
[0057]
在本技术实施例中,基于预设的特征生成模型,对每一待检测的话题文本数据进行特征生成,生成并输出组合文本特征;基于预设的聚类模型,对组合文本特征进行文本聚类,得到文本聚类结果;将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题,并输出热点话题。因此,采用本技术实施例,由于预设的特征生成模型包括第一特征生成模型和第二特征生成模型,这样,使得生成并输出的文本特征为组合文本特征,该组合文本特征更加精准;此外,由于引入了预设的聚类模型,该预设的聚类模型能够对组合文本特征至少进行两次文本聚类,使得得到的文本聚类结果更加精准;将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题;这样,最终确定出的热点话题也更加精准。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
[0058]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0059]
图1为一个实施例中提供的一种基于聚类模型的话题检测方法的实施环境图;
[0060]
图2为一个实施例中计算机设备的内部结构框图;
[0061]
图3是本公开实施例提供的一种基于聚类模型的话题检测方法的流程示意图;
[0062]
图4是本公开实施例提供的具体实例中所采用的聚类方法进行文本聚类的示意图;
[0063]
图5是本公开实施例提供的一种具体应用场景下的基于聚类模型的话题检测方法的流程示意图;
[0064]
图6是本公开实施例提供的一种基于聚类模型的话题检测装置的结构示意图。
具体实施方式
[0065]
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
[0066]
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0067]
下面结合附图详细说明本公开的可选实施例。
[0068]
图1为一个实施例中提供的一种基于聚类模型的话题检测方法的实施环境图,如
图1所示,在该实施环境中,包括计算机设备110以及终端120。
[0069]
需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、usb(universal serial bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
[0070]
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种基于聚类模型的话题检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种基于聚类模型的话题检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0071]
如图3所示,本公开实施例提供一种基于聚类模型的话题检测方法,该话题检测方法具体包括以下方法步骤:
[0072]
s302:获取待检测的话题文本数据;
[0073]
在本技术实施例中,获取的待检测的话题文本数据可以为多条,对话题文本数据的文本数量并不做具体限制,在此不再赘述。
[0074]
s304:基于预设的特征生成模型,对每一待检测的话题文本数据进行特征生成,生成并输出组合文本特征。
[0075]
在本技术实施例中,预设的特征生成模型包括第一特征生成模型和第二特征生成模型。相对于现有的单一的特征生成模型而言,本公开实施例提供的话题检测方法,进行组合文本特征生成的预设的特征生成模型包括第一特征生成模型和第二特征生成模型,第一特征生成模型为能够生成语义特征向量的模型,第二特征生成模型是能够生成命名实体词向量的模型;这样,使得生成并输出的文本特征为组合文本特征,该组合文本特征相比于单一个文本特征而言,更加精准。
[0076]
在一种可能的实现方式中,第一特征生成模型可以为bert模型。针对本技术所采用的bert模型做简要的说明,具体如下所述:
[0077]
现有的bert模型是预训练模型,通过该模型能够在不相关的任务上进行训练。而本技术实施例所采用的bert模型是基于原有的bert模型参数,用已有的话题文本数据来训练实体识别任务,并对该任务进行打标签,得到一个个序列标注;即:针对句子中每一个字均进行打标签,并判断该字对应的实体是什么,以及处于该实体的位置(处于该实体的开头,或者,处于该实体的中间,或者处于该实体的结尾),或者该字不属于任何一种类型的实体。
[0078]
正是通过上述bert模型的处理之后,将每个字均映射到一个高维的向量空间,在该向量空间对应有可以理解的语言特征,例如,动物名称的向量比较接近;又例如,你我他
之类的名词比较接近等特性;这样,就为后续通过第二特征生成模型(例如,命名实体识别模型),对每一待检测的话题文本数据进行专有名词特征生成,生成对应的命名实体词向量,即:完成命名实体识别任务奠定了基础。
[0079]
本技术实施例所采用的bert模型,能够表示用户留言分类粒度的语义,即:能够高效地区分出任意一个用户留言属于事故处理类,或者是环境保护类,或者是城市建设类。在此仅仅是示例。
[0080]
这样,通过第一特征生成模型对每一待检测的话题文本数据进行特征生成,就可以生成对应的语义特征向量,且该bert模型能够标识出每一待检测的话题文本数据的分类粒度的语义。
[0081]
在一种可能的实现方式中,第一特征生成模型为bert模型,本公开实施例提供的话题检测方法还包括以下步骤:
[0082]
从每一待检测的话题文本数据中选取任意一段文本作为当前待编码文本;
[0083]
基于第一预设方式对当前待编码文本中的词语进行分词,得到多个具有完整语义的词语;
[0084]
获取每个具有完整语义的词语的词向量;
[0085]
将每个具有完整语义的词语的词向量输入中bert模型中,输出任意一个具有完整语义的词语对应的bert编码,任意一个具有完整语义的词语对应的bert编码包括该词语的词语信息以及该词语对应的上下文信息;这样,输出的任意一个词语的bert编码均具有一个完整语义。
[0086]
在一种可能的实现方式中,第一特征生成模型为bert模型,本公开实施例提供的话题检测方法还包括以下步骤:
[0087]
从每一待检测的话题文本数据中随机选取任意一段文本;
[0088]
基于第二预设方式对该文本中的每一个字或单词进行分词,得到多个字或单词;
[0089]
基于bert模型,对该段文本选取多个预设位置的字或单词进行被掩处理;
[0090]
基于第三预设方式,依次对多个预设位置中的任意一个预设位置的字或单词进行被掩处理,并利用bert模型的多层transformer机制预测任意一个被掩字或单词处的字或单词信息,第三预设方式包括:从多个预设位置中选取任意一个预设位置作为当前预设位置,赋予当前预设位置的字或单词替换为预设掩码符号的概率为第一概率、赋予当前预设位置的字或单词替换为随机字或单词的概率为第二概率,以及赋予当前预设位置的字或单词保持原字或原单词的概率为第三概率,且第一概率、第二概率和第三概率之和为1。
[0091]
例如,在某一具体应用场景中,采用的第三预设方式(即:预设掩码方式)为:赋予当前预设位置的字或单词替换为预设掩码符号对应的第一概率为80%,、赋予当前预设位置的字或单词替换为随机字或单词对应的第二概率为10%,以及赋予当前预设位置的字或单词保持原字或原单词对应的第三概率为10%;这样,通过上述配置的第三预设方式(即:预设掩码方式)可以做到:与微调过程有一致性,加入了噪声,增加了不确定性,从而增加了难度,做到了不倾向于复制。第二特征生成模型可以为命名实体识别模型。通过命名实体识别模型,对每一待检测的话题文本数据进行专有名词特征生成,生成了命名实体词向量;这样,通过引入了命名实体识别模型,可以将每一待检测的话题文本数据中人名、地名等专有名词进行精准识别,从而高效地反映出每一待检测的话题文本数据所讨论的讨论范畴。在
一种可能的实现方式中,基于预设的特征生成模型,对每一待检测的话题文本数据进行特征生成,生成并输出组合文本特征包括以下步骤:
[0092]
基于第一特征生成模型,对每一待检测的话题文本数据进行特征生成,生成对应的第一文本特征;以及
[0093]
基于第二特征生成模型,对每一待检测的话题文本数据进行特征生成,生成对应的第二文本特征;
[0094]
将每一待检测的话题文本数据对应的第一文本特征和第二文本特征作为对应文本的组合特征;
[0095]
遍历每一待检测的话题文本数据进行组合文本特征的生成,生成并输出组合文本特征。
[0096]
针对第一特征生成模型和第二特征生成模型的详细描述,参见前述相同或相似部分的描述,在此不再赘述。
[0097]
在本技术实施例中,通过将每一待检测的话题文本数据对应的第一文本特征和第二文本特征作为对应文本的组合特征;这样,不仅能够增加单个文本上下文内容精选粒度的表示,还能够体现出词和主题之间的关联关系。
[0098]
在一种可能的实现方式中,第二特征生成模型为命名实体识别模型,本公开实施例提供的话题检测方法还包括以下步骤:
[0099]
从每一待检测的话题文本数据中选取任意一段文本作为当前文本;
[0100]
基于命名实体识别模型,对当前文本中的任意一个命名实体进行识别,命名实体包括人名、地名、机构名称以及其它类别的命名实体;
[0101]
对当前文本通过预设格式的标签进行标注,得到并输出对应的标注结果,标注结果包括从当前文本中所选取的当前字或当前单词是命名实体的一部分、从当前文本中所选取的当前字或当前单词是人名/地名/机构/其它类别命名实体的开始词、从当前文本所选取的当前字或当前单词是人名/地名/机构/其它类别命名实体的继续词、从当前文本中所选取的当前字或当前单词不是命名实体的一部分。
[0102]
s306:基于预设的聚类模型,对文本特征进行文本聚类,得到文本聚类结果。
[0103]
在本技术实施例中,预设的聚类模型是能够进行至少两次文本聚类的聚类模型。基于该预设的聚类模型进行至少两次文本聚类的聚类方式具体为:对多个待聚类的多个文本进行两两聚类,计算任意两两聚类的中心点,提取该中心点的组合文本特征;依次遍历多个待聚类的多个文本进行两两聚类并提取对应中心点的组合文本特征,并根据各个中心点的组合文本特征进行文本聚类。
[0104]
在本技术实施例中,由于引入了上述预设的聚类模型,并采用了上述预设的聚类模型能够对文本特征至少进行两次文本聚类,使得最终得到的文本聚类结果更加精准。
[0105]
在一种可能的实现方式中,基于预设的聚类模型,对文本特征进行文本聚类包括以下步骤:
[0106]
根据预设的话题相似度阈值,将组合文本特征中具有相似主题的文本划分为一类;
[0107]
获取用于对各个文本进行初始文本聚类的初始k1值;
[0108]
根据初始k1值进行初始文本聚类;
[0109]
根据预设聚类方式进行第二次文本聚类,预设聚类方式包括:对多个待聚类的多个文本进行两两聚类,计算任意两两聚类的中心点,提取该中心点的组合文本特征;依次遍历多个待聚类的多个文本进行两两聚类并提取对应中心点的组合文本特征,并根据各个中心点的组合文本特征进行文本聚类;
[0110]
将用于评估初始文本聚类结果的第一评估标准值和用于评估第二次文本聚类结果的第二评估标准值进行比较,若第一评估标准值小于第二评估标准值,则停止进行文本聚类,反之,则根据预设聚类方式进行两两聚类并提取对应中心点的组合文本特征,直至符合预置的停止文本聚类的停止条件为止。
[0111]
在本技术实施例中,预置的停止文本聚类的停止条件为:用于评估前一次文本聚类结果的评估标准值小于当前评估标准值时,则停止进行文本聚类。
[0112]
在一种可能的实现方式中,在将第一评估标准值和第二评估标准值进行比较之前,本公开实施例提供的话题检测方法还包括以下步骤:
[0113]
获取用于计算第一评估标准值和第二评估标准值的评估标准值计算公式;
[0114]
根据初始k1值和评估标准值计算公式计算第一评估标准值;
[0115]
获取用于对各个文本进行第二次文本聚类的k2值;
[0116]
根据k2值和评估标准值计算公式计算第二评估标准值;
[0117]
计算评估标准值的计算公式为:
[0118][0119]
其中,
[0120][0121]
k是聚类数、n是样本数、s
e
是组内误差、s
e
对应的数值为每个样本与对应类的中心点之间的相似度之和、s
a
是组与组之间的误差、s
a
对应的数值为每个类的中心点与整体中心点之间的相似度之和、xi用于表示各个类的中心点、ni用于表示每一类中的样本数。
[0122]
如图4所示,是本公开实施例提供的具体实例中所采用的聚类方法进行文本聚类的示意图。
[0123]
如图4所示,示出了多层层次聚类的树状图。在图4中,有abcdefg7条文本,采用本公开实施例提供的聚类方法进行文本聚类,对上述7条文本进行聚类,用于将上述7条文本分成几类的k值的确定过程具体如下所述:
[0124]
步骤a:根据相似度计算出af是一类、bc是一类、ed是一类、g是一类,此时,k=4,根据上述计算评估标准值的计算公式来计算vrc
k=4
的值;
[0125]
步骤b:在上述第一次聚类的基础上,继续进行文本聚类,计算图4中af的中心点,并将得到的af的中心点当作新类的文本特征,假设a=[2,1.3],f=[2.2,1.5],那么af类的特征为[2.1,1.4];同理可得bc、de的聚类中心。这样,经由第二次聚类后得到了两个类,此时,k=2,根据上述计算评估标准值的计算公式来计算vrc
k=2
的值;在
得到vrc
k=2
之后,将上述vrc
k=4
和vrc
k=2
进行比较,若vrc
k=4
<vrc
k=2
,则停止文本聚类,k=4时效果最好;否则,则继续进行步骤c。
[0126]
步骤c:重复上述步骤b的再次聚类过程,结果聚类成为一类,此时,k=1,根据上述计算评估标准值的计算公式来计算vrc
k=1
的值;在得到vrc
k=1
之后,将上述vrc
k=1
和vrc
k=2
进行比较,若vrc
k=2
<vrc
k=1
,则停止文本聚类,k=2时效果最好。
[0127]
步骤d:若根据上述步骤确定出k=4时聚类效果最好,则根据该确定出的k=4使用k

means进行聚类,得到对应的聚类结果。基于k

means是常规的聚类方法,在此不再赘述。若根据上述步骤确定出k=2时聚类效果最好,则根据该确定出的k=2,使用k

means进行聚类,得到对应的聚类结果。
[0128]
s308:将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题,并输出热点话题。
[0129]
例如,在某一具体应用场景中,将预设文本数量阈值设置为占总文本数量的80%,则,若假设总文本数量为一万条,则与某一话题关联的话题文本数据的数量为超过八千条,则确定该话题文本数据为热点话题,并输出该热点话题。上述仅仅是示例。
[0130]
在本技术实施例中,对预设文本数量阈值并不做具体限制,可以针对不同应用场景的需求,对预设文本数量阈值进行调整,在此不再赘述。
[0131]
由于得到的文本聚类结果更加精准,因此,根据该文本聚类结果确定出的热点话题也更加准确。
[0132]
如图5所示,是本公开实施例提供的一种具体应用场景下的基于聚类模型的话题检测方法的流程示意图;该话题检测方法具体包括以下方法步骤:
[0133]
s502:获取与话题相关的话题文本数据;
[0134]
s504:基于bert模型对每一文本数据进行特征生成,生成并输出对应的语义特征向量;
[0135]
s506:基于命名实体识别模型对每一文本数据进行特征生成,生成并输出对应的命名实体词向量;
[0136]
s508:由语义特征向量和命名实体词向量生成与话题相关的文本数据对应的组合文本特征,并输出组合文本特征;
[0137]
s510:基于预设的聚类模型,对组合文本特征进行文本聚类,得到文本聚类结果;
[0138]
s512:将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题,并输出热点话题。
[0139]
针对图5中的各个步骤的详细描述,参见前述图3至图4中相同或相似部分的描述,在此不再赘述。
[0140]
在本公开实施例中,基于预设的特征生成模型,对每一待检测的话题文本数据进行特征生成,生成并输出组合文本特征;基于预设的聚类模型,对组合文本特征进行文本聚类,得到文本聚类结果;将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题,并输出热点话题。因此,采用本技术实施例,由于预设的特征生成模型包括第一特征生成模型和第二特征生成模型,这样,使得生成并输出的文本特征为组合文本特征,该组合文本特征更加精准;此外,由于引入了预设的聚类模型,该预设的聚类模型能够对组合
文本特征至少进行两次文本聚类,使得得到的文本聚类结果更加精准;将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题;这样,最终确定出的热点话题也更加精准。下述为本发明基于聚类模型的话题检测装置实施例,可以用于执行本发明基于聚类模型的话题检测方法实施例。对于本发明基于聚类模型的话题检测装置实施例中未披露的细节,请参照本发明基于聚类模型的话题检测方法实施例。
[0141]
请参见图6,其示出了本发明一个示例性实施例提供的基于聚类模型的话题检测装置的结构示意图。该基于聚类模型的话题检测装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该基于聚类模型的话题检测装置包括获取模块602、特征生成模块604、文本聚类模块606、确定模块608和输出模块610。
[0142]
具体而言,获取模块602,用于获取待检测的话题文本数据;
[0143]
特征生成模块604,用于基于预设的特征生成模型,对每一获取模块602获取的待检测的话题文本数据进行特征生成,生成并输出组合文本特征,预设的特征生成模型包括第一特征生成模型和第二特征生成模型,第一特征生成模型为能够生成语义特征向量的模型,第二特征生成模型是能够生成命名实体词向量的模型;
[0144]
文本聚类模块606,用于基于预设的聚类模型,对特征生成模块604生成的组合文本特征进行文本聚类,得到文本聚类结果;
[0145]
确定模块608,用于将文本聚类模块606得到的文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题;
[0146]
输出模块610,用于输出确定模块608确定的热点话题。
[0147]
可选的,特征生成模块604用于:
[0148]
基于第一特征生成模型,对每一待检测的话题文本数据进行特征生成,生成对应的第一文本特征;以及
[0149]
基于第二特征生成模型,对每一待检测的话题文本数据进行特征生成,生成对应的第二文本特征;
[0150]
将每一待检测的话题文本数据对应的第一文本特征和第二文本特征作为对应文本的组合特征;
[0151]
遍历每一待检测的话题文本数据进行组合文本特征的生成,生成并输出组合文本特征。
[0152]
可选的,第一特征生成模型为bert模型,所述装置还包括:
[0153]
词语bert编码生成模块(在图6中未示出),具体用于:
[0154]
从每一待检测的话题文本数据中选取任意一段文本作为当前待编码文本;
[0155]
基于第一预设方式对当前待编码文本中的词语进行分词,得到多个具有完整语义的词语;
[0156]
获取每个具有完整语义的词语的词向量;
[0157]
将每个具有完整语义的词语的词向量输入中bert模型中,输出任意一个具有完整语义的词语对应的bert编码,任意一个具有完整语义的词语对应的bert编码包括该词语的词语信息以及该词语对应的上下文信息。
[0158]
可选的,所述装置还包括:被掩信息预测模块(在图6中未示出),具体用于:
[0159]
从每一待检测的话题文本数据中随机选取任意一段文本;
[0160]
基于第二预设方式对该文本中的每一个字或单词进行分词,得到多个字或单词;
[0161]
基于bert模型,对该段文本选取多个预设位置的字或单词进行被掩处理;
[0162]
基于第三预设方式,依次对多个预设位置中的任意一个预设位置的字或单词进行被掩处理,并利用bert模型的多层transformer机制预测任意一个被掩字或单词处的字或单词信息,第三预设方式包括:从多个预设位置中选取任意一个预设位置作为当前预设位置,赋予当前预设位置的字或单词替换为预设掩码符号的概率为第一概率、赋予当前预设位置的字或单词替换为随机字或单词的概率为第二概率,以及赋予当前预设位置的字或单词保持原字或原单词的概率为第三概率,且第一概率、第二概率和第三概率之和为1。
[0163]
可选的,第二特征生成模型为命名实体识别模型,所述装置还包括:
[0164]
标注模块(在图6中未示出),具体用于:
[0165]
从每一待检测的话题文本数据中选取任意一段文本作为当前文本;
[0166]
基于命名实体识别模型,对当前文本中的任意一个命名实体进行识别,命名实体包括人名、地名、机构名称以及其它类别的命名实体;
[0167]
对当前文本通过预设格式的标签进行标注,得到并输出对应的标注结果,标注结果包括从当前文本中所选取的当前字或当前单词是命名实体的一部分、从当前文本中所选取的当前字或当前单词是人名/地名/机构/其它类别命名实体的开始词、从当前文本所选取的当前字或当前单词是人名/地名/机构/其它类别命名实体的继续词、从当前文本中所选取的当前字或当前单词不是命名实体的一部分。
[0168]
可选的,文本聚类模块606具体用于:
[0169]
根据预设的话题相似度阈值,将组合文本特征中具有相似主题的文本划分为一类;
[0170]
获取用于对各个文本进行初始文本聚类的初始k1值;
[0171]
根据初始k1值进行初始文本聚类;
[0172]
根据预设聚类方式进行第二次文本聚类,预设聚类方式包括:对多个待聚类的多个文本进行两两聚类,计算任意两两聚类的中心点,提取该中心点的组合文本特征;依次遍历多个待聚类的多个文本进行两两聚类并提取对应中心点的组合文本特征,并根据各个中心点的组合文本特征进行文本聚类;
[0173]
将用于评估初始文本聚类结果的第一评估标准值和用于评估第二次文本聚类结果的第二评估标准值进行比较,若第一评估标准值小于第二评估标准值,则停止进行文本聚类,反之,则根据预设聚类方式进行两两聚类并提取对应中心点的组合文本特征,直至符合预置的停止文本聚类的停止条件为止。
[0174]
可选的,在文本聚类模块606将第一评估标准值和第二评估标准值进行比较之前,获取模块602还用于:
[0175]
获取用于计算第一评估标准值和第二评估标准值的评估标准值计算公式;以及获取用于对各个文本进行第二次文本聚类的k2值;
[0176]
所述装置还包括:
[0177]
计算模块(在图6中未示出),用于根据初始k1值和获取模块602获取的评估标准值计算公式计算第一评估标准值;以及
[0178]
根据获取模块602获取的k2值和评估标准值计算公式计算第二评估标准值;
[0179]
计算模块用于计算评估标准值的计算公式为:
[0180][0181]
其中,
[0182][0183]
k是聚类数、n是样本数、s
e
是组内误差、s
e
对应的数值为每个样本与对应类的中心点之间的相似度之和、s
a
是组与组之间的误差、s
a
对应的数值为每个类的中心点与整体中心点之间的相似度之和、xi用于表示各个类的中心点、ni用于表示每一类中的样本数。
[0184]
需要说明的是,上述实施例提供的基于聚类模型的话题检测装置在执行基于聚类模型的话题检测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于聚类模型的话题检测装置与基于聚类模型的话题检测方法实施例属于同一构思,其体现实现过程详见基于聚类模型的话题检测方法实施例,这里不再赘述。
[0185]
在本公开实施例中,特征生成模块用于基于预设的特征生成模型,对每一获取模块获取的待检测的话题文本数据进行特征生成,生成并输出组合文本特征,预设的特征生成模型包括第一特征生成模型和第二特征生成模型;文本聚类模块用于基于预设的聚类模型,对特征生成模块生成的组合文本特征进行文本聚类,得到文本聚类结果;确定模块用于将文本聚类模块得到的文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题;以及输出模块用于输出确定模块确定的热点话题。因此,采用本技术实施例,由于预设的特征生成模型包括第一特征生成模型和第二特征生成模型,这样,使得生成并输出的文本特征为组合文本特征,该组合文本特征更加精准;此外,由于引入了预设的聚类模型,该预设的聚类模型能够对组合文本特征至少进行两次文本聚类,使得得到的文本聚类结果更加精准;将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题;这样,最终确定出的热点话题也更加精准。
[0186]
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待检测的话题文本数据;基于预设的特征生成模型,对每一待检测的话题文本数据进行特征生成,生成并输出组合文本特征,预设的特征生成模型包括第一特征生成模型和第二特征生成模型,第一特征生成模型为能够生成语义特征向量的模型,第二特征生成模型是能够生成命名实体词向量的模型;基于预设的聚类模型,对组合文本特征进行文本聚类,得到文本聚类结果;将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题,并输出热点话题。
[0187]
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取待检测的话题文本数据;基于预设的特征生成模型,对每一待检测的话题文本数据进行特征生成,生成并输出组合文本特征,预设的特征生成模型包括第一特征生成模型和第二特征生成模型,
第一特征生成模型为能够生成语义特征向量的模型,第二特征生成模型是能够生成命名实体词向量的模型;基于预设的聚类模型,对组合文本特征进行文本聚类,得到文本聚类结果;将文本聚类结果中文本数量大于预设文本数量阈值的话题确定为热点话题,并输出热点话题。
[0188]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0189]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0190]
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜