评论数据的质量分析方法、装置、电子设备及存储介质与流程

2022-03-02 01:43:53 来源：中国专利 TAG：

1.本技术涉及数据处理领域，尤其涉及一种评论数据的质量分析方法、装置、电子设备及存储介质。

背景技术：

2.随着互联网的高速发展，网络上用户评论数据大量增加，分析评论质量对于用户倾向、舆情控制、精准营销等方面有着越来越重要的意义。近年来，图神经网络(graph neural network，gnn)开始发展起来。gnn的出现，实现了图数据的端对端学习方式，使得学习过程直接架构于图数据之上。它能较好的捕获网络的整体结构特征，与传统的深度学习框架相比有更好的表示和推理能力。
3.在近几年对于文本分类的研究中，例如分析评论数据的质量，通常把词组节点和文档节点分别表示为图结构中两种类型的节点。通过不同的方法构建节点表示节点之间的连接关系构建异构图，再输入到简单的两层gcn模型，通过神经网络的反向传播训练完成分类。基于此，发明人发现单词节点和文档节点分别表示为图中两种类型的节点，并不能实现对评论数据的完全覆盖，最终导致评论质量的分析结果不准确。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本技术提供了一种评论数据的质量分析方法、装置、电子设备及存储介质。
5.根据本技术实施例的一个方面，提供了一种评论数据的质量分析方法，包括：
6.获取待进行质量分析的目标评论数据，其中，所述目标评论数据中携带评论内容以及评论词组；
7.分析所述评论内容以及所述评论词组，得到所述目标评论数据对应的评论主题，以及得到所述评论主题、所述评论内容与所述评论词组之间的关联关系集合；
8.基于所述评论内容、所述评论词组、所述评论主题以及所述关联关系集合生成初始图结构，并将所述初始图结构中的所述评论内容、所述评论主题以及所述评论词组分别转换为相应的初始嵌入矩阵，得到目标图结构；
9.将所述目标图结构输入预先训练的图注意力模型，以使所述图注意力模型基于所述关联关系集合对所述初始嵌入矩阵进行信息交互，得到所述目标评论数据的质量分析结果。
10.进一步地，所述分析所述评论内容以及所述评论词组，得到所述目标评论数据对应的评论主题，以及得到所述评论主题、所述评论内容与所述评论词组之间的关联关系集合，包括：
11.将所述评论内容以及所述评论词组输入文档主题生成模型，得到所述评论主题，并得到所述评论内容在所述评论主题上的第一概率分布，以及所述评论主题在所述评论词组上的第二概率分布；
12.基于所述第一概率分布生成第一概率矩阵，并将所述第一概率矩阵确定为评论内容与所述评论主题之间的第一关联关系；
13.基于所述第二概率分布生成第二概率矩阵，并将所述第二概率矩阵确定为评论主题与所述评论词组之间的第二关联关系；
14.根据所述第一关联关系和所述第二关联关系生成所述关联关系集合。
15.进一步地，所述根据所述第一关联关系和所述第二关联关系生成所述关联关系集合，还包括：
16.基于词频-逆文档频率模型，计算所述评论内容与所述评论词组之间的权重，并将所述权重确定为所述评论内容与所述评论词组之间的第三关联关系；
17.获取各个所述评论词组之间的第四关联关系；
18.根据所述第一关联关系、所述第二关联关系、所述第三关联关系以及所述第四关联关系生成所述关联关系集合。
19.进一步地，所述获取各个所述评论词组之间的第四关联关系，包括：
20.按照滑动窗口从所述评论内容中提取多个预设滑动步长的内容文本，其中，所述预设滑动步长为所述滑动窗口的长度；
21.将所述内容文本与预设语料库进行匹配，确定所述滑动窗口内的评论词组；
22.确定所述评论词组在所述滑动窗口内的词频，将所述词频大于预设词频的评论词组确定为目标评论词组；
23.计算所述目标评论词组之间的相关度，并将所述相关度确定所述第四关联关系。
24.进一步地，所述将所述初始图结构中的所述评论内容、所述评论主题以及所述评论词组分别转换为相应的初始嵌入矩阵，得到目标图结构，包括：
25.将所述初始图结构输入目标模型，以使所述目标模型对所述初始图结构中的所述评论内容、所述评论主题以及所述评论词组对应的嵌入向量进行初始化，得到所述评论内容、所述评论主题以及所述评论词组分别对应的初始嵌入矩阵；
26.基于所述初始嵌入矩阵生成所述目标图结构。
27.进一步地，所述将所述目标图结构输入预先训练的图注意力模型，以使所述图注意力模型基于所述关联关系集合对所述初始嵌入矩阵进行信息交互，得到所述目标评论数据的质量分析结果，包括：
28.将所述目标图结构输入预先训练的图注意力模型，以使所述图注意力模型基于关联关系对所述初始嵌入矩阵进行交互，得到整体嵌入矩阵以及评论质量矩阵，其中，所述关联关系为所述关联关系集合中的关联关系；
29.对所述整体嵌入矩阵进行线性变化得到线性变换矩阵，并基于所述线性变换矩阵计算目标概率分布；
30.在所述目标概率分布满足预设分布条件时，将所述评论质量矩阵确定为所述质量分析结果。
31.进一步地，在所述目标概率分布不满足预设分布条件时，所述方法还包括：
32.根据所述目标概率分布对所述评论质量矩阵进行更新，得到更新后的评论质量矩阵；
33.将所述更新后的平均质量矩阵确定为所述质量分析结果。
34.根据本技术实施例的另一个方面，还提供了一种评论数据的质量分析装置，包括：
35.获取模块，用于获取待进行质量分析的目标评论数据，其中，所述目标评论数据中携带评论内容以及评论词组；
36.分析模块，用于分析所述评论内容以及所述评论词组，得到所述目标评论数据对应的评论主题，以及得到所述评论主题、所述评论内容与所述评论词组之间的关联关系集合；
37.生成模块，用于基于所述评论内容、所述评论词组、所述评论主题以及所述关联关系集合生成初始图结构，并将所述初始图结构中的所述评论内容、所述评论主题以及所述评论词组分别转换为相应的初始嵌入矩阵，得到目标图结构；
38.处理模块，用于将所述目标图结构输入预先训练的图注意力模型，以使所述图注意力模型基于所述关联关系集合对所述初始嵌入矩阵进行信息交互，得到所述目标评论数据的质量分析结果。
39.根据本技术实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的步骤。
40.根据本技术实施例的另一方面，还提供了一种电子装置，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：存储器，用于存放计算机程序；处理器，用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
41.本技术实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法中的步骤。
42.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：本技术通过建立主题、内容和词组之间的关系生成图结构，实现了对评论的完全覆盖，解决了现有技术中仅仅通过内容和词组无法实现对评论的完全覆盖的问题。同时本技术还基于图注意力模型对图结构进行特征分析以及特征拼接，能够提高评论质量分析结果的准确性。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
44.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的一种评论数据的质量分析方法的流程图；
46.图2为本技术另一实施例提供的一种评论数据的质量分析方法的流程图；
47.图3为本技术另一实施例提供的一种评论数据的质量分析方法的流程图；
48.图4为本技术另一实施例提供的一种评论数据的质量分析方法的流程图；
49.图5为本技术实施例提供的一种评论数据的质量分析装置的框图；
50.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
51.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
52.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
53.本技术实施例提供了一种评论数据的质量分析方法、装置、电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备，例如，可以为服务器、终端等电子设备，在此不做具体限定，为描述方便，后续简称为电子设备。
54.根据本技术实施例的一方面，提供了一种评论数据的质量分析方法的方法实施例。图1为本技术实施例提供的一种评论数据的质量分析方法的流程图，如图1所示，该方法包括：
55.步骤s11，获取待进行质量分析的目标评论数据，其中，目标评论数据中携带评论内容以及评论词组。
56.在本技术实施例中，待进行质量分析的目标评论数据可以是从新闻报道中获取的评论，也可以是从电影、综艺节目中获取的评论，也可以是从电子商务平台中获取的评论。
57.在得到原始的评论后，获取每个评论对应的互动数据，例如评论的点赞量、转发量等等，根据互动数据从原始的评论中确定有效评论，例如：将点赞量大于或等于预设点赞量，和/或，转发量大于或等于预设转发量的评论确定为有效评论。
58.在本技术实施例中，通过对原始的评论的互动数据进行过滤，能够初步筛选出有效评论，在保证不影响质量分析结果的同时，降低了后续质量分析的工作量。
59.在本技术实施例中，首先提取有效评论的评论内容，然后对评论内容进行预处理，例如分词、去除停用词等处理，移除标签链接，提及用户名称和表情符号，删除只转载无评论的数据，移除url链接，非ascii、无意义的中文字符以及中文停用词，最终得到评论词组，然后将评论内容和评论词组确定为目标评论数据。
60.步骤s12，分析评论内容以及评论词组，得到目标评论数据对应的评论主题，以及得到评论主题、评论内容与评论词组之间的关联关系集合。
61.在本技术实施例中，步骤s12，分析评论内容以及评论词组，得到目标评论数据对应的评论主题，以及得到评论主题、评论内容与评论词组之间的关联关系集合，如图2所示，包括以下步骤a1-a4：
62.步骤a1，将评论内容以及评论词组输入文档主题生成模型，得到评论主题，并得到评论内容在评论主题上的第一概率分布，以及评论主题在评论词组上的第二概率分布。
63.在本技术实施例中，文档主题生成模型可以是lda模型，首先获取评论内容—评论主题的狄利克雷分布参数(先验概率)，基于该参数计算评论内容在评论主题上的第一概率分布。获取评论主题—评论词组的狄利克雷分布参数(先验概率)，基于该参数计算评论主题在评论词组上的第二概率分布。对于某条评论内容中的第i个词，先从该评论内容中包含的每个评论主题的多项式分布中抽取一个评论主题，再在这个主题对应的词的多项式分布中抽取一个词组，直至抽取完成，得到所有评论内容中包含的评论主题。
64.需要说明的是，lda(latent dirichlet allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，每一篇评论的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。lda是一种非监督机器学习技术，可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。
65.步骤a2，基于第一概率分布生成第一概率矩阵，并将第一概率矩阵确定为评论内容与评论主题之间的第一关联关系。
66.步骤a3，基于第二概率分布生成第二概率矩阵，并将第二概率矩阵确定为评论主题与评论词组之间的第二关联关系。
67.在本技术实施例中，通过gibbs采样算法求解，得到第一概率矩阵和第二概率矩阵。第一概率矩阵为评论内容—评论词组矩阵，用于表示评论内容与评论主题之间的第一关联关系，第二概率矩阵为评论主题—评论词组矩阵，用于表示评论主题与评论词组之间的第二关联关系。
68.步骤a4，根据第一关联关系和第二关联关系生成关联关系集合。
69.在本技术实施例中，步骤a4，根据第一关联关系和第二关联关系生成关联关系集合，还包括以下步骤a401-a403：
70.步骤a401，基于词频-逆文档频率模型，计算评论内容与评论词组之间的权重，并将权重确定为评论内容与评论词组之间的第三关联关系。
71.在本技术实施例中，计算评论内容与评论词组之间权重的公式如下：
[0072][0073]
上述式中，μ为评论内容与评论词组之间的权重，f为评论词组在评论中出现的次数，m为评论中的词组总数，n为评论总数，i为包含评论词组的评论数。
[0074]
步骤a402，获取各个评论词组之间的第四关联关系。
[0075]
在本技术实施例中，第四关联关系主要通过以下方式得到，按照滑动窗口从评论内容中提取多个预设滑动步长的内容文本，其中，预设滑动步长为滑动窗口的长度；将内容文本与预设语料库进行匹配，确定滑动窗口内的评论词组；确定评论词组在滑动窗口内的词频，将词频大于预设词频的评论词组确定为目标评论词组；计算目标评论词组之间的相
关度，并将相关度确定第四关联关系。
[0076]
在本技术实施例中，计算目标评论词组之间的相关度的计算公式如下：
[0077][0078]
式中，pmi(x；y)为第一目标评论词组x与第二目标评论词组y之间的相关度，p(x)是第一目标评论词组x的条件概率，p(y)是第二目标评论词组的条件概率，p(x，y)是第一目标评论词组x与第二目标评论词组y的联合分布概率。p(x|y)是在已知第二目标评论词组y的条件下，第一目标评论词组x发生的概率。
[0079]
步骤a403，根据第一关联关系、第二关联关系、第三关联关系以及第四关联关系生成关联关系集合。
[0080]
在本技术实施例中，在确定评论内容与评论主题之间的第一关联关系，以及评论主题与评论词组之间的第二关联关系之后，还通过获取评论内容与评论词组之间的第三关联关系，以及各个评论词组之间的第四关联关系，能够提高后续生成的图结构的准确性。
[0081]
步骤s13，基于评论内容、评论词组、评论主题以及关联关系集合生成初始图结构，并将初始图结构中的评论内容、评论主题以及评论词组分别转换为相应的初始嵌入矩阵，得到目标图结构。
[0082]
在本技术实施例中，初始图结构中评论内容、评论词组、评论主题分别作为不同类型的节点，第一关联关系作为评论内容节点与评论主题节点之间的连线，第二关联关系作为评论主题节点与评论词组节点之间的连线，第三关联关系作为评论内容节点与评论词组节点之间的连线，第四关联关系作为评论词组节点之间的连线。
[0083]
在本技术实施例中，步骤s13，将初始图结构中的评论内容、评论主题以及评论词组分别转换为相应的初始嵌入矩阵，得到目标图结构，如图3所示，包括以下步骤b1-b2：
[0084]
步骤b1，将初始图结构输入目标模型，以使目标模型对初始图结构中的评论内容、评论主题以及评论词组对应的嵌入向量进行初始化，得到评论内容、评论主题以及评论词组分别对应的初始嵌入矩阵。
[0085]
步骤b2，基于初始嵌入矩阵生成目标图结构。
[0086]
在本技术实施例中，使用预训练的模型对初始图结构中各个节点进行嵌入向量表示，分别得到评论内容节点、评论词组节点、评论主题节点的初始嵌入矩阵。然后基于各个节点的初始嵌入矩阵得到目标图结构。
[0087]
步骤s14，将目标图结构输入预先训练的图注意力模型，以使图注意力模型基于关联关系集合对初始嵌入矩阵进行信息交互，得到目标评论数据的质量分析结果。
[0088]
在本技术实施例中，将目标图结构输入预先训练的图注意力模型，以使图注意力模型基于关联关系集合对初始嵌入矩阵进行信息交互，得到目标评论数据的质量分析结果，如图4所示，包括以下步骤c1-c3：
[0089]
步骤c1，将目标图结构输入预先训练的图注意力模型，以使图注意力模型基于关联关系对初始嵌入矩阵进行交互，得到整体嵌入矩阵以及评论质量矩阵，其中，关联关系为关联关系集合中的关联关系。
[0090]
在本技术实施例中，将评论内容节点的初始嵌入矩阵记为评论词组节点的初
始嵌入矩阵记为以及评论主题节点的初始嵌入矩阵记为将目标图结构输入预先训练的图注意力模型，通过图注意力模型中的多头自注意力机制不断更新目标图结构中各节点的嵌入矩阵，使得各节点间不断进行信息交互，从而得到t 1步时，各节点的嵌入矩阵，评论内容节点在t 1步时的嵌入矩阵记为评论词组节点在t 1步时的嵌入矩阵记为以及评论主题节点在t 1步时的嵌入矩阵记为
[0091]
在得到嵌入矩阵嵌入矩阵以及嵌入矩阵后，利用多头自注意力机制学习各个节点的特征，并对学习到的各个节点的特征进行拼接，最终得到整体嵌入矩阵以及评论质量矩阵
[0092]
作为一个示例，本技术实施例采用图注意力模型的计算过程如下：
[0093][0094]
上述式中，为对图结构中的一个节点进行向量化得到的嵌入矩阵，ni与相连的邻居节点，为图注意力模型采用多头注意力机制获得给定节点新的嵌入矩阵，为节点i和节点j在第n个注意力头的注意力分数，σ为激活函数，wn为可学习参数，||表示向量的拼接操作,表示将多个注意力头学习到的特征进行拼接。
[0095]
步骤c2，对整体嵌入矩阵进行线性变化得到线性变换矩阵，并基于线性变换矩阵计算目标概率分布。
[0096]
在本技术实施例中，将整体嵌入矩阵进行线性变换，得到线性变换矩阵，然后基于softmax分类算法对线性变换矩阵进行计算，得到目标概率分布。
[0097]
步骤c3，在目标概率分布满足预设分布条件时，将评论质量矩阵确定为质量分析结果。
[0098]
在本技术实施例中，在目标概率分布不满足预设分布条件时，方法还包括：根据目标概率分布对评论质量矩阵进行更新，得到更新后的评论质量矩阵；将更新后的评论质量矩阵确定为质量分析结果。
[0099]
步骤s15，根据质量分析结果对目标评论数据，以及目标评论数据对应的评论对象进行处理。
[0100]
在本技术实施例中，由于质量分析结果中携带评论质量矩阵，因此直接根据评论质量矩阵中大于第一预设值的概率值的第一数量，以及小于第二预设值的概率值的第二数量，确定目标评论数据的目标等级。根据目标等级确定目标评论数据的展示参数，其中，展示参数包括：展示时长以及展示位置。
[0101]
作为一个示例，第一数量与第二数量的比值大于或等于第一预设比值的情况下，目标等级最高为一级；第一数量与第二数量的比值小于第一预设比值，且大于或等于第二预设比值的情况下，目标等级为二级；第一数量与第二数量的比值小于第二预设比值的情况下，目标等级最低为三级。
[0102]
另外，本技术实施例还可以根据目标等级对目标评论数据对应的评论对象进行分析，快速定位确定评论对象的舆论发展方向，评论对象可以是新闻、视频、商品等等。在得到
评论对象的舆论发展方向之后，本技术实施例根据舆论发展方向确定评论对象的推广力度。
[0103]
作为一个示例，在目标等级为一级的情况下，评论对象的舆论发展方向为良好，此时根据评论对象的对象类型确定相应的推广力度，推广力度可以是：线上、线下同时推广等等。在目标等级为二级的情况下，将比值发送至预设终端，接收预设终端根据比值反馈的舆论发展方向，如果舆论发展方向为良好或者一般的情况下，根据评论对象的对象类型确定相应的推广力度。
[0104]
本技术通过建立主题、内容和词组之间的关系生成图结构，实现了对评论的完全覆盖，解决了现有技术中仅仅通过内容和词组无法实现对评论的完全覆盖的问题。同时本技术还基于图注意力模型对图结构进行特征分析以及特征拼接，能够提高评论质量分析结果的准确性。
[0105]
本技术实施例中的图注意力模型的组成包括：输入层、注意力图卷积层、池化层和输出层。图注意力模型的训练过程包括：获取训练样本，训练样本可以是样本图结构，样本图结构的特征包括：多个样本节点以及各个样本节点之间的关联关系。将样本图结构输入到图注意力模型中的输入层，输入层将样本图结构传输至注意力卷积层，注意力卷积层对样本图结构进行特征提取，然后对提取的特征进行卷积计算，得到图卷积数据。注意力卷积层将图卷积数据传输至池化层，通过池化层对图卷积数据进行融合，将融合后的数据穿书之输出层进行输出。
[0106]
注意力机制源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类往往根据需求忽略部分可见信息，只关注信息特定的一部分。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它，从而筛选出有价值的信息，视觉注意力机制极大的提高了人类处理视觉信息的效率。深度学习中的注意力机制借鉴了人类视觉注意力机制的思维方式，以期从大量数据中快速筛选出高价值的信息。
[0107]
本技术实施例中的注意力卷积层是在不同阶段的卷积层都引入注意力机制。其中，引入注意力机制是指利用一系列的注意力分数a1，a2，
…
，ak来调整不同阶段图卷积的权重；引入新的自连接是指将任一阶数的图的正则化相邻矩阵都加上同维数的单位矩阵作为新的图的正则化相邻矩阵输入模型。自连接例如：评论词组节点内部之间关联关系，需要注意的是，考虑到自身节点不存在自连接的相邻矩阵的对角线位置的元素值为0，将该相邻矩阵输入模型训练时可能会因忽略掉自身节点信息而影响模型的分类效果的情况，本技术实施例中原有的图的正则化相邻矩阵就是含自连接的，而本技术是在原有的自连接正则化相邻矩阵基础上再次引入自连接，以提升模型的学习能力和分类精度。
[0108]
图5为本技术实施例提供的一种评论数据的质量分析装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示，该装置包括：
[0109]
获取模块51，用于获取待进行质量分析的目标评论数据，其中，目标评论数据中携带评论内容以及评论词组；
[0110]
分析模块52，用于分析评论内容以及评论词组，得到目标评论数据对应的评论主题，以及得到评论主题、评论内容与评论词组之间的关联关系集合；
[0111]
生成模块53，用于基于评论内容、评论词组、评论主题以及关联关系集合生成初始图结构，并将初始图结构中的评论内容、评论主题以及评论词组分别转换为相应的初始嵌
入矩阵，得到目标图结构；
[0112]
处理模块54，用于将目标图结构输入预先训练的图注意力模型，以使图注意力模型基于所述关联关系集合对所述初始嵌入矩阵进行信息交互，得到目标评论数据的质量分析结果。
[0113]
执行模块55，用于根据所述质量分析结果对所述目标评论数据，以及所述目标评论数据对应的评论对象进行处理
[0114]
在本技术实施例中，分析模块52，包括：
[0115]
输入子模块，用于将评论内容以及评论词组输入文档主题生成模型，得到评论主题，并得到评论内容在评论主题上的第一概率分布，以及评论主题在评论词组上的第二概率分布。
[0116]
第一生成子模块，用于基于第一概率分布生成第一概率矩阵，并将第一概率矩阵确定为评论内容与评论主题之间的第一关联关系。
[0117]
第二生成子模块，用于基于第二概率分布生成第二概率矩阵，并将第二概率矩阵确定为评论主题与评论词组之间的第二关联关系。
[0118]
第三生成子模块，用于根据第一关联关系和第二关联关系生成关联关系集合。
[0119]
在本技术实施例中，第三生成子模块，用于基于词频-逆文档频率模型，计算评论内容与评论词组之间的权重，并将权重确定为评论内容与评论词组之间的第三关联关系；获取各个评论词组之间的第四关联关系；根据第一关联关系、第二关联关系、第三关联关系以及第四关联关系生成关联关系集合。
[0120]
在本技术实施例中，第三生成子模块，用于按照滑动窗口从评论内容中提取多个预设滑动步长的内容文本，其中，预设滑动步长为滑动窗口的长度；将内容文本与预设语料库进行匹配，确定滑动窗口内的评论词组；确定评论词组在滑动窗口内的词频，将词频大于预设词频的评论词组确定为目标评论词组；计算目标评论词组之间的相关度，并将相关度确定第四关联关系。
[0121]
在本技术实施例中，生成模块53，用于将初始图结构输入目标模型，以使目标模型对初始图结构中的评论内容、评论主题以及评论词组对应的嵌入向量进行初始化，得到评论内容、评论主题以及评论词组分别对应的初始嵌入矩阵；基于初始嵌入矩阵生成目标图结构。
[0122]
在本技术实施例中，处理模块54，用于将目标图结构输入预先训练的图注意力模型，以使图注意力模型基于关联关系对初始嵌入矩阵进行交互，得到整体嵌入矩阵以及评论质量矩阵；对整体嵌入矩阵进行线性变化得到线性变换矩阵，并基于线性变换矩阵计算目标概率分布；在目标概率分布满足预设分布条件时，将评论质量矩阵确定为质量分析结果。
[0123]
在本技术实施例中，处理模块54，用于根据目标概率分布对评论质量矩阵进行更新，得到更新后的评论质量矩阵；将更新后的平均质量矩阵确定为质量分析结果。
[0124]
本技术实施例还提供一种电子设备，如图6所示，电子设备可以包括：处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信。
[0125]
存储器1503，用于存放计算机程序；
[0126]
处理器1501，用于执行存储器1503上所存放的计算机程序时，实现上述实施例的步骤。
[0127]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0128]
通信接口用于上述终端与其他设备之间的通信。
[0129]
存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0130]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0131]
在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一的评论数据的质量分析方法，该方法具体包括：
[0132]
获取待进行质量分析的目标评论数据，其中，目标评论数据中携带评论内容以及评论词组；
[0133]
分析评论内容以及评论词组，得到目标评论数据对应的评论主题，以及得到评论主题、评论内容与评论词组之间的关联关系集合；
[0134]
基于评论内容、评论词组、评论主题以及关联关系集合生成初始图结构，并将初始图结构中的评论内容、评论主题以及评论词组分别转换为相应的初始嵌入矩阵，得到目标图结构；
[0135]
将目标图结构输入预先训练的图注意力模型，以使图注意力模型基于关联关系集合对初始嵌入矩阵进行信息交互，得到目标评论数据的质量分析结果。
[0136]
进一步地，分析评论内容以及评论词组，得到目标评论数据对应的评论主题，以及得到评论主题、评论内容与评论词组之间的关联关系集合，包括：
[0137]
将评论内容以及评论词组输入文档主题生成模型，得到评论主题，并得到评论内容在评论主题上的第一概率分布，以及评论主题在评论词组上的第二概率分布；
[0138]
基于第一概率分布生成第一概率矩阵，并将第一概率矩阵确定为评论内容与评论主题之间的第一关联关系；
[0139]
基于第二概率分布生成第二概率矩阵，并将第二概率矩阵确定为评论主题与评论词组之间的第二关联关系；
[0140]
根据第一关联关系和第二关联关系生成关联关系集合。
[0141]
进一步地，根据第一关联关系和第二关联关系生成关联关系集合，还包括：
[0142]
基于词频-逆文档频率模型，计算评论内容与评论词组之间的权重，并将权重确定为评论内容与评论词组之间的第三关联关系；
state disk)等。
[0162]
以上所述仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本技术的保护范围内。
[0163]
以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种改进的属性基加密方案系统及其加密算法的制作方法

评论数据的质量分析方法、装置、电子设备及存储介质与流程

相关文献

最热文献