标签信息确定方法、装置、可读存储介质及电子设备与流程

2022-12-20 01:18:22 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，且更具体地，涉及标签信息确定方法、装置、可读存储介质及电子设备。

背景技术：

2.随着互联网技术的发展，文本数据的数据量越来越多，确定文本数据对应的标签信息变得至关重要，标签信息可以表示出文本数据的核心内容。目前，在确定标签信息时，多对文本数据进行聚类分析，而现有的聚类算法进行标签信息确定时，聚类后的词簇可能无法准确地表达文本内容，致使得到的标签信息准确度较低。

技术实现要素：

3.本发明提供了一种标签信息确定方法、装置、计算机可读存储介质及电子设备，以解决现有技术中确定出的标签信息准确度较低的技术问题。
4.根据本发明的第一方面，提供了一种标签信息确定方法，包括：
5.确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词项；
6.针对每一词项，确定所述词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息；
7.在各个词项中，确定出所述词频信息和所述第一数量信息符合预设高频词条件的高频词项，以及符合预设次高频词条件的次高频词项；
8.针对每一次高频词项，确定所述次高频词项对应的项集，以出现所述项集的基本篇章单元的第二数量信息作为支持度计数，进行频繁项集挖掘，确定出目标频繁项集；
9.基于所述高频词项、所述高频词项对应的共现词信息以及所述目标频繁项集，确定出所述待分析文本的标签信息。
10.可选地，所述针对每一次高频词项，确定所述次高频词项对应的项集，以出现所述项集的基本篇章单元的第二数量信息作为支持度计数，进行频繁项集挖掘，确定出目标频繁项集，包括：
11.针对每一次高频词项，基于所述次高频词项和所述次高频词项对应的共现词信息，确定所述次高频词项对应的项集，将出现所述项集的基本篇章单元的第二数量信息作为支持度计数；
12.在所述次高频词项的项集中，确定出所述支持度计数大于支持度阈值的频繁项集；
13.基于预设数值，在所述频繁项集中确定出目标频繁项集。
14.可选地，所述基于预设数值，在所述频繁项集中确定出目标频繁项集，包括：
15.在所述频繁项集中确定出闭频繁项集，所述闭频繁项集包含的词项数量大于等于2小于等于预设数值减一；
16.将包含的词项数量等于所述预设数值的频繁项集以及所述闭频繁项集作为目标
频繁项集。
17.可选地，在所述确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词项的步骤前，所述方法还包括：
18.对获取到的原始评论文本进行清洗处理和聚类处理，得到数据聚类集合；
19.在所述数据聚类集合中，选取出待分析文本。
20.可选地，所述确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词项，包括：
21.获取与所述待分析文本相适应的停用词表；
22.基于预设分割规则和所述停用词表对所述待分析文本进行处理，得到待分析文本对应的基本篇章单元和所述基本篇章单元中的词项。
23.可选地，所述针对每一词项，确定所述词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息，包括：
24.基于所述基本篇章单元的标识信息，确定第一维度；
25.基于所述基本篇章单元中的词项，确定第二维度；
26.基于所述第一维度、所述第二维度，构建二维列联表；
27.针对每一词项对应的目标第一维度和目标第二维度，对所述二维列联表进行填充，确定填充后的二维列联表；
28.基于填充后的二维列联表，确定每一词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息。
29.可选地，所述预设高频词条件包括词频排名在前预设位，所述第一数量信息与所述基本篇章单元数量的比值在第一预设范围；
30.所述次高频条件包括词频大于2、且小于排名在前预设位的词频，所述第一数量信息在第二预设范围。
31.根据本发明的第二方面，提供了一种标签信息确定装置，包括：
32.第一确定模块，用于确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词项；
33.第二确定模块，用于针对每一词项，确定所述词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息；
34.第三确定模块，用于在各个词项中，确定出所述词频信息和所述第一数量信息符合预设高频词条件的高频词项，以及符合预设次高频词条件的次高频词项；
35.第四确定模块，用于针对每一次高频词项，确定所述次高频词项对应的项集，以出现所述项集的基本篇章单元的第二数量信息作为支持度计数，进行频繁项集挖掘，确定出目标频繁项集；
36.第五确定模块，用于基于所述高频词项、所述高频词项对应的共现词信息以及所述目标频繁项集，确定出所述待分析文本的标签信息。
37.根据本发明的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述标签信息确定方法。
38.根据本发明的第四方面，提供了一种电子设备，所述电子设备包括：
39.处理器；
40.用于存储所述处理器可执行指令的存储器；
41.所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的标签信息确定方法。
42.与现有技术相比，本发明提供的标签信息确定方法、装置、计算机可读存储介质及电子设备，至少包括以下有益效果：
43.本发明的技术方案先确定待分析文本对应的基本篇章单元和基本篇章单元中的词项，然后对基本篇章单元中的词项相关信息进行统计，确定出每一词项的词频信息，每一词项在基本篇章单元中的共现词信息，出现每一词项的基本篇章单元的第一数量信息。预先设置与词频信息和第一数量信息相关的高频词条件和次高频词条件，从而在统计词项的相关信息后，可以在各个词项中，选取出词频信息和第一数量信息符合预设高频词条件的高频词项以及符合预设次高频词条件的次高频词项。对于确定出的每一次高频词项，确定次高频词项对应的项集，以出现项集的基本篇章单元的第二数量信息作为支持度计数进行频繁项集挖掘，确定出目标频繁项集。在对次高频词项进行频繁项集挖掘后，进一步根据确定出的高频词项、高频词项对应的共现词信息和挖掘出的目标频繁项集，确定出待分析文本的标签信息。在本发明提供的技术方案中，以基本篇章单元为分析单位，实现分析单位的细化，利用高频词项、高频词项对应的共现词信息和由次高频词项组成的目标频繁项集准确地体现待分析文本的显明特征，进而使得确定出的标签信息的准确度较高，满足细粒度分析的要求。并且通过仅对次高频词项进行频繁项集挖掘，有效减少用于进行频繁项集挖掘的词项数量，降低计算开销，提高标签信息确定效率。
附图说明
44.为了更清楚地说明本的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1是本发明一示例性实施例提供的标签信息确定方法的流程示意图一；
46.图2是本发明一示例性实施例提供的标签信息确定方法的流程示意图二；
47.图3是本发明一示例性实施例提供的标签信息确定装置的结构示意图；
48.图4是本发明一示例性实施例提供的电子设备的结构图。
具体实施方式
49.下面将结合本中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例，都属于本实施例保护的范围。
50.示例性方法
51.图1是本发明一示例性实施例提供的标签信息确定方法的流程示意图，至少包括如下步骤：
52.步骤11，确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词项。
53.其中，待分析文本为需要进行分析的文本数据。具体地，待分析文本为通过正规途
径获取到的用户评论文本，为非结构数据，用户评论文本包括但不限于社交软件上的公开评论、邮件或电话中的投诉等，邮件或电话中的投诉为使用本实施例提供的方法的用户的内部数据。当然，待分析文本也可以为用户评论文本以外的数据，如与目标领域相关的文本数据，例如商品文本数据、推荐文本数据等。
54.基本篇章单元(elementary discourse unit，edu)为篇章语言学中将篇章分析为若干单元，作为基本分析单元。在本步骤中，对待分析文本进行分割，将待分析文本分割为不同的基本篇章单元，实现分析单元的细化，有利于后续获取到较为准确的标签信息。
55.词项是指对待分析文本进行分词后，得到的一个一个单独的词，分词是指将待分析文本中的汉字序列划分为一个一个单独的词。分词方法包括但不限于字符串匹配的分词方法、语义分词法和统计分词法，字符串匹配的分词方法又包括正向最大匹配法、反向最大匹配法和最短路径分词法。
56.具体地，对待分析文本进行分词，确定待分析文本对应的词项，然后再利用预先选取的edu分割规则对待分析文本进行edu分割，得到待分析文本对应的基本篇章单元和基本篇章单元中的词项。当然也可以先利用预先选取的edu分割规则对待分析文本进行edu分割，获取基本篇章单元，再进一步对基本篇章单元进行分词，得到每一个基本篇章单元中的词项。
57.举例来说，得到的待分析文本为：xx物业管理的园区卫生差。雨雪天气后，路面湿滑，不除湿。清扫不彻底。预先确定edu分割规则，不同的edu分割规则对应不同的分割粒度以及不同的分割结果。若以句号为选取的分割规则，则得到的基本篇章单元和基本篇章单元中词项可能为[xx物业管理的园区卫生差。]为edu1，[雨雪天气后，路面湿滑，不除湿。]为edu2，[清扫不彻底。]为edu3。若以逗号、句号为分割规则，则[xx物业管理的园区卫生差。]为edu1，[雨雪天气后，]为edu2，[路面湿滑，]为edu3，[不除湿。]为edu4，[清扫不彻底]为edu5。当然还可以以段落标记，如/n/r，为分割规则，即一个段落为一个edu。需要说明的是，在实际应用场景中，用户可以根据实际需要预先进行分割规则的选取，对于具体分割规则的内容，本实施例中不作具体限定。
[0058]
在一些实施例中，在所述步骤11前，所述方法还包括：
[0059]
步骤10，对获取到的原始评论文本进行清洗处理和聚类处理，得到数据聚类集合；在所述数据聚类集合中，选取出待分析文本。
[0060]
其中，原始评论文本为获取后未经处理的用户评论数据。若用户通过语音方式进行评论，则对获取到用户语音数据进行语音识别，确定评论文本，对各种方式获取到的评论文本进行汇总，得到原始评论文本。
[0061]
具体地，如图2所示，将得到的原始评论文本作为待分析语料，调用预先设置的语料清洗模块清洗语料，然后调用主题聚类模型对清洗后的原始评论文本进行初分类，得到数据聚类集合。每一个数据聚类集合对应一个主题，存在部分主题无需进行后续步骤，因此在得到的数据聚类集合中进行选取，选取出需要细粒度分析的类别即待分析文本。也就是说待分析文本为数据聚类集合中的一部分，因此通过初分类后的选取，有效减少进行后续步骤的数据数量，提高计算效率。
[0062]
在一种可能的实现方式中，预先设置聚类集合的筛选标准，根据该筛选标准对得到的数据聚类集合中选取出待分析文本。在另一种可能的实现方式中，在得到数据聚类集
合后，响应于用户的选取指令，在数据聚类集合中，选取出待分析文本，即用户会对数据的选取进行干预，选取出进行后续步骤的待分析文本。
[0063]
在一些实施例中，所述步骤11，包括：
[0064]
步骤111，获取与所述待分析文本相适应的停用词表。
[0065]
其中，停用词表用于记载自动过滤的字或词。具体地，待分析文本可能对应不同的特性，因此需要获取的是与待分析文本相适应的停用词表，即根据待分析文本的特性，对通用停用词表进行调整。具体地，在通用停用词表中，会去除虚词，留下实词，但在待分析文本为用户评论文本即进行用户反馈分析时，一些虚词，如否定副词对理解用户意图具有重要作用，而一些实词，如在每个edu中都会出现的实词，可能不重要，因此对通用停用词表进行调整，得到与待分析文本相适应的停用词表。
[0066]
步骤112，基于预设分割规则和所述停用词表对所述待分析文本进行处理，得到待分析文本对应的基本篇章单元和所述基本篇章单元中的词项。
[0067]
具体地，预先选取edu分割规则即预设分割规则，对待分析文本进行分割，获取到待分析文本对应的基本篇章单元，并对待分析文本对应的基本篇章单元进行分词去停用表处理，从而得到待分析文本对应的基本篇章单元和基本篇章单元中的词项。
[0068]
在一种可能的实现方式中，预先设置聚类分析模块和分词模块，聚类分析模型用于根据文本情况，调用基于聚类主题模型(latent dirichlet allocation，lda)的分类方式、k-均值(k-means)聚类算法进行聚类处理得到数据聚类集合，在数据聚类集合中获取到的分类数据粒度较粗，通常难以满足细粒度的分析要求，因此在数据聚类集合中选取出需要进行细粒度分析的待分析文本，对待分析文本基于预设分割规则进行edu分割，并对分割结果进行重新分词去停用词处理，即当检测到分词处理后的任意一个词项与停用词表中的字词相同时，删除该相同的字词，进而得到待分析文本对应的基本篇章单元和基本篇章单元中的词项。
[0069]
步骤12，针对每一词项，确定所述词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息。
[0070]
其中，词频信息用于表示词项的出现频率，根据词汇齐普夫分布可知，在自然语言的语料库里，一个单词出现的频率与它在频率表里的排名成反比，高频单词出现的频率往往是低频单词的数倍，低频单词出现频率低，但数量却远远高于高频单词。
[0071]
共现词是在文本数据中经常搭配、共同出现的词汇，在本步骤中，对于任意一个词项，该词项的共现词是指与该词项出现在同一个edu中词簇。共现词信息包括词项共现词及其共现次数。
[0072]
对于任意一个词项，出现了该词项的基本篇章单元可以为目标基本篇章单元，目标基本篇章单元的第一数量信息是指对出现了该词项的基本篇章单元数量的统计数值。
[0073]
具体地，在获取到基本篇章单元和基本篇章单元中的词项后，对基本篇章单元中的词项相关信息进行统计，统计出词项的词频信息、共现词信息和出现了该词项的基本篇章单元的第一数量信息。
[0074]
在一些实施例中，所述步骤12，包括：
[0075]
步骤121，基于所述基本篇章单元的标识信息，确定第一维度。
[0076]
其中，基本篇章单元的标识信息(基本篇章单元的id)具有唯一性，用于区分基本
篇章单元，例如edu1、edu2、edu3等。将基本篇章单元的标识信息作为第一维度。
[0077]
步骤122，基于所述基本篇章单元中的词项，确定第二维度。
[0078]
其中，第二维度为词项维度，具体地，对所有词项中的重复词项进行合并处理后，作为第二维度。例如[雨雪天气后，路面湿滑，不除湿。][清扫不彻底。]中均含有词项“不”，因此对该重复词项进行合并得到唯一的一个词项“不”，得到的第二维度可以为[雨,雪,天气,后,路面,湿滑,不,除湿,清扫,彻底]。
[0079]
步骤123，基于所述第一维度、所述第二维度，构建二维列联表。
[0080]
具体地，以第一维度为行标记，以第二维度为列标记，构建二维列联表，该二维列联表中的内容为预设初始值，如为0。或者以第二维度为行标记，以第一维度为列标记，构建二维列联表，该二维列联表中的内容为预设初始值，如为0。
[0081]
步骤124，针对每一词项对应的目标第一维度和目标第二维度，对所述二维列联表进行填充，确定填充后的二维列联表。
[0082]
具体地，基本篇章单元中的每一词项，均存在对应的目标第一维度和目标第二维度，目标第一维度和目标第二维度在二维列联表中存在对应的目标位置，因此对该词项在二维列联表中目标位置的数值进行加一，以对二维列联表进行填充，确定出填充后的二维列联表。
[0083]
举例来说，第一维度为edu1、edu2、edu3等，第二维度为[xx,物业,管理]等，将二维列联表的初始值设置为0，对于词项xx，其对应的目标第一维度为edu1，目标第二维度为xx，若xx在edu1中出现一次，则将二维列联表第一维度为edu1，第二维度为xx的目标位置处的0改写为1；若xx在edu1中出现了两次，则将二维列联表第一维度为edu1，第二维度为xx目标位置处的0改写为2。也就是构建一个i*j的二维列联表，一个词项j在i行出现n次，即在第i行第j列加n。
[0084]
步骤125，基于填充后的二维列联表，确定每一词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息。
[0085]
具体地，在填充后的二维列联表中，可以对于词项所属的基本篇章单元和同一基本篇章单元中其他词项进行了解，确定出每一词项的词频信息、共现词信息和出现词项的基本篇章单元的第一数量信息。举例来说，存在词项“xx”和“雨”等，则对于词项“xx”，在edu1至edu4中确定出“xx”的词频信息，“xx”的共现词信息，出现“xx”的基本篇章单元的第一数量信息；对于词项“雨”，在edu1至edu4中确定出“雨”的词频信息，“雨”的共现词信息，出现“雨”的基本篇章单元的第一数量信息。
[0086]
步骤13，在各个词项中，确定出所述词频信息和所述第一数量信息符合预设高频词条件的高频词项，以及符合预设次高频词条件的次高频词项。
[0087]
在本步骤中，预先设置与词频信息和第一数量信息相关的高频词条件和次高频词条件，符合预设高频词条件表明该词项为高频词项，符合预设次高频词条件表明该词项为次高频词项。
[0088]
具体地，根据预设高频词条件判断词项是否为高频词，若是，则输出该高频词，若不是，则根据预设次高频词条件判断该词项是否为次高频词项，若是则执行步骤14，若不是，则不对该词项进行处理。
[0089]
在一些实施例中，所述预设高频词条件包括词频排名在前预设位，所述第一数量
信息与所述基本篇章单元数量的比值在第一预设范围。所述次高频词条件包括词频大于2、且小于排名在前预设位的词频，所述第一数量信息在第二预设范围。
[0090]
具体地，词频信息为具体的数值，对所有词项的词频信息进行由大到小的排序，因此词频排名越靠前，词项出现的次数越多，词项越重要。进而根据每个词项的词频排名和第一数量信息对高频词条件和次高频词条件进行定义。例如，以词频排名前预设位x，第一数量信息与基本篇章单元数量的比值在第一预设范围的确定为高频词项，其中第一数量信息与基本篇章数量的比值为词项出现在edu中概率，第一预设范围可以为50％-100％。根据齐普夫定律可知，词频大于2的词，往往是长尾的分界限，而在2-4个以上的edu中出现的词往往指示类型化事件，因此，次高频词条件定义为词频大于2，但小于高频词词频即小于词频排名在前预设位置的词频，且最少出现在y个edu中，y即为第二预设范围，y可以为大于等于2小于等于4。
[0091]
如图2所示，判断词项的词频信息和第一数量信息是否符合高频词条件，若是，输出高频词词频、高频词共现词和共现次数。若不是，进一步判断该词项是否符合次高频条件，若不是，则不进行处理，若是，则执行步骤14。
[0092]
步骤14，针对每一次高频词项，确定所述次高频词项对应的项集，以出现所述项集的基本篇章单元的第二数量信息作为支持度计数，进行频繁项集挖掘，确定出目标频繁项集。
[0093]
其中，项集是指若干项的集合，包含有k个词项的项集称为k项集。支持度计数是指某个集合在所有事务中出现的频率，在本步骤中，将第二数量信息作为支持度计数，也就是说在本步骤中关注的是该次高频词项对应的项集在基本篇章单元中是否出现，不关注该项集在一个基本篇章单元中出现的次数，以第二数量信息作为支持度计数，可以更为客观地体现次高频词项在edu中的分布情况。频繁项集是指支持度计数大于等于支持度阈值(最小支持度)的集合，频繁项集可以示明在基本篇章单元中经常一起出现的变量，有助于构建语境效果，对最终确定出的标签信息具有重要作用，因此对次高频词项进行频繁项集挖掘，以确定出目标频繁项集。
[0094]
可选地，目标频繁项集为对次高频词项进行挖掘后，挖掘出的所有频繁项集。
[0095]
可选地，目标频繁项集为对次高频词项进行挖掘后，挖掘出的所有频繁项集的闭频繁项集。闭频繁项集是指一个频繁项集的直接超集都不具有与其相同的支持度计数。
[0096]
举例来说，存在edu1“修剪掉的树枝都没有打扫，大车一过弄得小区乱七八糟一点都不干净，保洁卫生需要加强呀”、edu2“绿化修剪要及时清理打扫，交那么多物业费，希望至少要把卫生做好，不干净影响房价”、edu3“楼梯和过道很不干净，你们现在安排人过来处理一下”、edu4“残枝败叶到处都是，物业修剪了花花草草，也不及时打扫，连卫生都搞不干净，还说什么五星级的家”。在对edu1-edu4进行分词停用词后得到的示例性的二维列联表如下所示：
[0097]
[0098][0099]
其中，在edu1、edu2、edu4中均出现了次高频词项“打扫”，则统计与次高频词项“打扫”在edu1、edu2、edu4中同时共现的词项及其共现频率(一次也没共现的不计算，比如edu3)，以计算次高频词项“打扫”的项集。
[0100]
具体地，得到[干净,打扫,卫生,修剪,及时]5个词项：
[0101]
5选2，排除无“打扫”的，有4个2项集：[干净,打扫][卫生,打扫][修剪,打扫][及时,打扫]；
[0102]
5选3，排除无“打扫”的，有6个3项集：[干净,卫生,打扫][干净,打扫,修剪][干净,打扫,及时][打扫,卫生，修剪][打扫,卫生，及时][打扫,修剪，及时]；
[0103]
5选4，排除无“打扫”的，有4个4项集：[干净,打扫,卫生,修剪][打扫,卫生,修剪,及时][干净,打扫,卫生,及时][干净,打扫,修剪,及时]；
[0104]
5选5，排除无“打扫”的，有1个5项集：[干净,打扫,卫生,修剪,及时]
[0105]
其中，支持度计数为3/4的项集有：
[0106]
[干净,打扫][卫生,打扫][修剪,打扫][干净,卫生,打扫][修剪,干净,打扫][修剪,卫生,打扫][修剪,卫生,干净,打扫]；
[0107]
支持度计数为2/4的项集有：
[0108]
[及时,打扫][及时,干净,打扫][及时,卫生,打扫][及时,修剪,打扫][修剪,卫生,及时,打扫][干净,卫生,及时,打扫][干净,打扫,修剪,及时][卫生,干净,打扫,修剪,及时]；
[0109]
现将支持度阈值设为3/4，即找到至少与“打扫”同时出现在3个edu中的词项的组合所构成的项集，根据定义，该项集集合由2项集、3项集、4项集所构成：{[修剪,打扫][卫生,打扫][干净,打扫][修剪,卫生,打扫][修剪,干净,打扫][干净,卫生,打扫][修剪,卫生,干净,打扫]}，其中闭频繁项集为“[卫生,干净,打扫,修剪]”；如果将支持度阈值设为2/4，则项集集合为：{[修剪,打扫][卫生,打扫][干净,打扫][及时,打扫][修剪,卫生,打扫][修剪,干净,打扫][干净,卫生,打扫][及时,卫生,打扫][及时,干净,打扫][及时,修剪,打扫][修剪,卫生,干净,打扫][修剪,卫生,及时,打扫][干净,卫生,及时,打扫][卫生,干净,打扫,修剪,及时]}，其中闭频繁项集为“[卫生,干净,打扫,修剪]”与“[卫生,干净,打扫,修
剪,及时]”。
[0110]
可选地，预先设置项集选取规则，在对次高频词项进行挖掘后，利用项集选取规则，在挖掘出的所有频繁项集中进行选取，选取出目标频繁项集，用户可以根据实际应用场景进行项集选取规则的设置。
[0111]
在一些实施例中，所述步骤14包括：
[0112]
步骤141，针对每一次高频词项，基于所述次高频词项和所述次高频词项对应的共现词信息，确定所述次高频词项对应的项集，将出现所述项集的基本篇章单元的第二数量信息作为支持度计数。
[0113]
具体地，对于任意一个次高频词项，确定该次高频词项对应的共现词信息，即该次高频词项的共现词项和共现频率，以该次高频词项和共现词的各种组合作为次高频词项对应的项集集合，项集集合由各种项集组成，示例性的，上述{[修剪,打扫][卫生,打扫][干净,打扫][修剪,卫生,打扫][修剪,干净,打扫][干净,卫生,打扫][修剪,卫生,干净,打扫]}为项集集合，其中[修剪,打扫]等为项集，因此常常确定出多个次高频词项对应的项集，针对每一项集，确定出现该项集的基本篇章单元的第二数量信息，将该第二数量信息作为支持度计数，也就是说与次高频词项共现的所有项集，不考虑项集内部顺序，出现在多少个edu中，就是支持度计数的依据。例如，确定出现[修剪,打扫]的基本篇章单元的第二数量信息，出现[卫生,打扫]的基本篇章单元的第二数量信息等，若[修剪,打扫]这个2项集出现在了4个edu中的3个，那么[修剪,打扫]的支持度就是3/4。
[0114]
步骤142，在所述次高频词项的项集中，确定出所述支持度计数大于支持度阈值的频繁项集。
[0115]
步骤143，基于预设数值，在所述频繁项集中确定出目标频繁项集。
[0116]
具体地，以第二数量信息作为支持度计数，在次高频词项的项集中，确定出支持度计数大于支持度计数阈值的频繁项集，预先设置预设数值，该预设数值用于对项集中的词项数量做截断，例如次高频词项的项集包括有20项集，利用预设数值8对20做截断，以使得在确定出目标频繁项集时，无需对包含词项数量为预设数值以上的频繁项集或闭频繁项集进行考虑。从而通过预设数值，有效减少运算数据量，提高运算速度。
[0117]
可选地，在频繁项集中选取出含有词项数量小于等于预设数值的频繁项集为目标频繁项集。
[0118]
可选地，在频繁项集中选取出含有词项数量小于等于预设数值的闭频繁项集为目标频繁项集。例如，在上述举例中确定出的闭频繁项集为“[卫生,干净,打扫,修剪]”与“[卫生,干净,打扫,修剪,及时]”，若存在预设数值为4，即利用4对闭频繁项集的项数进行截断，即无需确定出闭频繁项集“[卫生,干净,打扫,修剪,及时]”，进而确定出目标频繁项集为“[卫生,干净,打扫,修剪]”。
[0119]
在一些实施例中，所述步骤143包括：
[0120]
在所述频繁项集中确定出闭频繁项集，所述闭频繁项集包含的词项数量大于等于2小于等于预设数值减一；
[0121]
将包含的词项数量等于所述预设数值的频繁项集以及所述闭频繁项集作为目标频繁项集。
[0122]
在本实施例中，在次高频词项的频繁项集中确定出闭频繁项集，但因为找出所有
的闭频繁项集时间开销比较大，因此通过预设数值进行截断，即找出大于等于2小于等于预设数值减一的闭频繁项集，例如，预设数值为m，则确定出2～m-1闭频繁项集，并确定出m频繁项集，进而将2～m-1闭频繁项集和m频繁项集，确定为目标频繁项集。
[0123]
具体地，基本篇章单元是以反映事件/现象的文本特征进行分割后得到的结果，刻画一个标签信息所需要的关键词项在1～8个之间，因此预设数值可以为大于等于1小于等于8，进一步地，预设数值可以为大于等于3小于等于8。另一方面，当次高频词项所在的词表维数庞大，可能会影响该算法挖掘效率，因此我们可以依据语言学特征将需要挖掘的k限制在8项集，从而通过预设数值，有效减少运算数据量，提高运算速度。
[0124]
步骤15，基于所述高频词项、所述高频词项对应的共现词信息以及所述目标频繁项集，确定出所述待分析文本的标签信息。
[0125]
在一实施例中，确定出的高频词项和高频词项对应的共现词信息可以构建一个强语境效果，因此在确定出词项为高频词项后，可以在步骤15中直接利用该高频词项，无需对高频词项进行进一步的频繁项集的挖掘工作，有效减少进行频繁项集挖掘的数据数量，节约计算开销，提高数据计算速度。同时对次高频词项进行频繁项集的挖掘，确定出目标频繁项集，确定出的目标频繁项集也可以体现文本特征，因此对可以体现文本特征的高频词项、高频词项的共现词信息以及目标频繁项集进行综合考虑，使得确定出待分析文本的标签信息的准确性较高。
[0126]
具体地，显示高频词项、高频词项对应的共现词信息以及目标频繁项集，响应于用户的输入指令，确定出待分析文本的标签信息。也就是说提供高频词项、共现词信息和目标频繁项集供业务专家进行归纳总结，业务专家归纳后输入待分析文本的标签信息。
[0127]
在一种可能的应用场景中，待分析文本为用户评论文本，标签信息为客户反馈(voice of customer，voc)标签，voc标签可以快速了解用户需求，了解用户对产品或服务的感知情况。特别地，voc标签对分析粒度的要求较高，通常为细粒度分析，因此通过简单的聚类分析，难以获取到的细粒度的voc标签。而在如图2所示的实施例中，通过聚类分析对待分析文本进行初步分析，并以基本篇章单元为分析单元，从而引入edu特征，进一步利用词汇齐普夫分布特征定义高频词条件和次高频次条件，引入齐普夫分布特征，将词汇齐普夫分布特征和edu特征作为约束策略，引入到频繁项集挖掘算法流程中，合理缩小分析与计算范围，快速挖掘出显明特征，构建出准确性较高、粒度较细的标签信息。
[0128]
在上述实施例中，先确定待分析文本对应的基本篇章单元和基本篇章单元中的词项，然后对基本篇章单元中的词项相关信息进行统计，确定出每一词项的词频信息，每一词项在基本篇章单元中的共现词信息，出现每一词项的基本篇章单元的第一数量信息。预先设置与词频信息和第一数量信息相关的高频词条件和次高频词条件，从而在统计词项的相关信息后，可以在各个词项中，选取出词频信息和第一数量信息符合预设高频词条件的高频词项以及符合预设次高频词条件的次高频词项。对于确定出的每一次高频词项，确定次高频词项对应的项集，以出现项集的基本篇章单元的第二数量信息作为支持度计数进行频繁项集挖掘，确定出目标频繁项集。在对次高频词项进行频繁项集挖掘后，进一步根据确定出的高频词项、高频词项对应的共现词信息和挖掘出的目标频繁项集，确定出待分析文本的标签信息。在本实施例提供的技术方案中，以基本篇章单元为分析单位，实现分析单位的细化，利用高频词项、高频词项对应的共现词信息和由次高频词项组成的目标频繁项集准
确地体现待分析文本的显明特征，进而使得确定出的标签信息的准确度较高，满足细粒度分析的要求。并且通过仅对次高频词项进行频繁项集挖掘，有效减少用于进行频繁项集挖掘的词项数量，降低计算开销，提高标签信息确定效率。
[0129]
示例性装置
[0130]
基于与本发明方法实施例相同的构思，本发明实施例还提供了一种标签信息确定装置。
[0131]
图3示出了本发明一示例性实施例提供的标签信息确定装置的结构示意图，包括：
[0132]
第一确定模块31，用于确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词项；
[0133]
第二确定模块32，用于针对每一词项，确定所述词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息；
[0134]
第三确定模块33，用于在各个词项中，确定出所述词频信息和所述第一数量信息符合预设高频词条件的高频词项，以及符合预设次高频词条件的次高频词项；
[0135]
第四确定模块34，用于针对每一次高频词项，确定所述次高频词项对应的项集，以出现所述项集的基本篇章单元的第二数量信息作为支持度计数，进行频繁项集挖掘，确定出目标频繁项集；
[0136]
第五确定模块35，用于基于所述高频词项、所述高频词项对应的共现词信息以及所述目标频繁项集，确定出所述待分析文本的标签信息。
[0137]
在一些实施例中，所述第四确定模块，包括：
[0138]
数据确定单元，用于针对每一次高频词项，基于所述次高频词项和所述次高频词项对应的共现词信息，确定所述次高频词项的项集，将出现所述项集的基本篇章单元的第二数量信息作为支持度计数；
[0139]
数据挖掘单元，用于在所述次高频词项的项集中，确定出所述支持度计数大于支持度阈值的频繁项集；
[0140]
目标确定单元，用于基于预设数值，在所述频繁项集中确定出目标频繁项集。
[0141]
在一些实施例中，所述目标确定单元，具体用于在所述频繁项集中确定出闭频繁项集，所述闭频繁项集包含的词项数量大于等于2小于等于预设数值减一；将包含的词项数量等于所述预设数值的频繁项集以及所述闭频繁项集作为目标频繁项集。
[0142]
在一些实施例中，所述装置还包括：
[0143]
文本获取模块，用于对获取到的原始评论文本进行清洗处理和聚类处理，得到数据聚类集合；在所述数据聚类集合中，选取出待分析文本。
[0144]
在一些实施例中，所述第一确定模块，包括：
[0145]
词表获取单元，用于获取与所述待分析文本相适应的停用词表；
[0146]
文本处理单元，用于基于预设分割规则和所述停用词表对所述待分析文本进行处理，得到待分析文本对应的基本篇章单元和所述基本篇章单元中的词项。
[0147]
在一些实施例中，所述第二确定模块，包括：
[0148]
第一确定单元，用于基于所述基本篇章单元的标识信息，确定第一维度；
[0149]
第二确定单元，用于基于所述基本篇章单元中的词项，确定第二维度；
[0150]
联表构建单元，用于基于所述第一维度、所述第二维度，构建二维列联表；
[0151]
联表填充单元，用于针对每一词项对应的目标第一维度和目标第二维度，对所述二维列联表进行填充，确定填充后的二维列联表；
[0152]
第三确定单元，用于基于填充后的二维列联表，确定每一词项的词频信息、在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量信息。
[0153]
在一些实施例中，所述预设高频词条件包括词频排名在前预设位，所述第一数量信息与所述基本篇章单元数量的比值在第一预设范围；
[0154]
所述次高频条件包括词频大于2、且小于排名在前预设位的词频，所述第一数量信息在第二预设范围。
[0155]
示例性电子设备
[0156]
图4图示了根据本发明实施例的电子设备的框图。
[0157]
如图4所示，电子设备40包括一个或多个处理器41和存储器42。
[0158]
处理器41可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备40中的其他组件以执行期望的功能。
[0159]
存储器42可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器41可以运行所述程序指令，以实现上文所述的本发明的各个实施例的标签信息确定方法以及/或者其他期望的功能。
[0160]
在一个示例中，电子设备40还可以包括：输入装置43和输出装置44，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0161]
当然，为了简化，图4中仅示出了该电子设备40中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备40还可以包括任何其他适当的组件。
[0162]
示例性计算机程序产品和计算机可读存储介质
[0163]
除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的标签信息确定方法中的步骤。
[0164]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0165]
此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的标签信息确定方法中的步骤。
[0166]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电
磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0167]
以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述发明的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。
[0168]
本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
[0169]
还需要指出的是，在本发明的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
[0170]
提供所发明的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。
[0171]
为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此发明的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于Bi-LSTM神经网络的双模型缺陷检测方法、训练方法、装置

标签信息确定方法、装置、可读存储介质及电子设备与流程

相关文献

最热文献