一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图神经网络的舆情流行度预测方法及系统

2022-05-06 11:21:29 来源:中国专利 TAG:


1.本发明属于网络信息安全技术领域,涉及一种基于图神经网络的舆情流行度预测方法及系统。


背景技术:

2.随着互联网的快速发展,以网络社交平台为代表的新型媒体,已成为网络舆情传播和发酵的重要平台,并且信息的数量也以前所未有的速度在快速膨胀,这使得社会事件在网络上的传播更加快速和广泛。为了更好的管理社交网络中的时间,提高对网络时间的治理水平,对事件的传播分析是至关重要的。流行度预测是事件传播分析中的研究重点,有效预测在线内容的流行度对于网络事件的治理和管控是十分重要的。
3.传统的流行度预测方法主要包括基于特征的方法和生成方法。基于特征的方法包括内容特征、结构特征、时间特征等,并使用机器学习算法进行预测。但是基于特征的方法需要大量的特征工程,性能在很大程度上取决于提取特征的有效性。生成方法致力于通过概率统计生成方法对扩散过程进行建模,例如流行模型和点过程,但性能通常受到其对潜在扩散机制的强假设的限制。
4.随着深度学习的快速发展以及在许多领域的成功应用,许多研究人员将其应用于社交网络。deepcas是一种端到端的深度学习方法,它利用随机游走方法在全局图结构的上下文中从级联图中采样路径,它还使用注意力机制将级联路径嵌入集成到级联图嵌入中,用于级联尺寸预测任务。deephawkes在将级联路径嵌入集成到级联嵌入中时,通过考虑时间衰减效应来提高流行度预测的性能。近年来,研究人员侧重于使用图神经网络学习级联图特征,然而这些基于图神经网络的方法中的级联图表示通常由简单的图池化策略生成,无法区分用户的重要性并导致级联图表示效率低下。并且目前的研究中很少有方法将情感因素加入其中,导致预测的准确率不理想。


技术实现要素:

5.本发明的目的在于解决现有技术中的问题,提供一种基于图神经网络的舆情流行度预测方法及系统。
6.为达到上述目的,本发明采用以下技术方案予以实现:
7.一种基于图神经网络的舆情流行度预测方法,包括以下步骤:
8.s1:建立信息级联图与流行度之间的关系模型;
9.s2:基于关系模型,通过图神经网络graphsage获取级联图特征;
10.s3:通过lstm神经网络,获取时间序列特征;
11.s4:基于时间序列特征,得到每个时间间隔的情感值,生成情感序列特征;
12.s5:将级联图特征、时间序列特征和情感序列特征连接,计算得到未来流行度。
13.本发明的进一步改进在于:
14.所述s1包括以下步骤:
15.将一条推文ci在时间t0的级联图表示为:
[0016][0017]
其中:表示参与级联的用户集,表示用户之间的交互关系;
[0018]
建立用户参与级联时的时间关系:
[0019][0020]
其中,表示在时间t0时参与级联的用户数量;
[0021]
建立用户参与级联的情感关系:
[0022][0023]
基于公式(1)、(2)和(3)预测在固定时间间隔δt后的增量流行度pi:
[0024][0025]
所述s2包括以下步骤:
[0026]
s2.1:基于公式(1),利用图神经网络graphsage作为图卷积层来学习每个节点的标识,所述公式(1)中每个节点v最初表示为一个one-hot向量其中n是是数据集中用户总数,进一步基于嵌入矩阵e∈rd×n:将所有节点转化为低维矩阵:
[0027][0028]
其中,d的维度可以调节;
[0029]
s2.2:对graphsage的节点嵌入进行学习,采用最大池化聚合策略:
[0030][0031]
其中,n(v)表示节点v的邻域集,表示节点μ在第k-1个图卷积步骤的嵌入;和表示神经网络的能够学习参数;σ表示sigmoid函数;
[0032]
获取完整的邻域集后,更新节点嵌入
[0033][0034]
其中,concat表示嵌入串联;wk表示用于更新第k个卷积层中的节点嵌入的重矩阵;
[0035]
s2.3:引入能够学习向量计算跨节点集的重要性系数:
[0036][0037]
基于公式(8)从级联图汇总选择排名靠前的节点,通过预定义的下采样率γ丢弃
系数低的节点,定义诱导子图为将重要性系数作为用户权重,并对诱导子图做全局最大池化以生成级联图特征
[0038][0039]
所述s3包括以下步骤:
[0040]
基于lstm神经网络获取时间序列特征,在公式(2)中,提取每条推文相互感染的持续时间其中xi=t
i-t
i-1
,将该时间输入lstm中,在每次循环计算后获取一系列输出
[0041][0042]
其中,表示标量值,表示前一时间步的隐藏状态,max表示所有级联的最大时间步,并且d表示隐藏状态的维度;
[0043]
进一步使用由{n*10m,n∈{1,2,...10},m=0,1,2}生成的索引序列对输出序列进行采样,并使用加权和从lstm的输出中获得时间序列特征:
[0044][0045]
其中,n表示样本大小,表示训练期间自动学习的注意力向量。
[0046]
所述s4包括以下步骤:
[0047]
计算文本的情感概率分布yd,基于yd得到文本的情感倾向eo:
[0048][0049]
所述s5包括以下步骤:
[0050]
将s2、s3和s4得到的级联图特征、时间序列特征和情感序列特征输入到mlp中,得到未来流行度:
[0051][0052]
使用均方对数变换误差msle作为损失函数:
[0053][0054]
其中,n表示级联总数;表示预测的增量流行度;pi表示级联ci的实际增量流行度。
[0055]
一种基于图神经网络的舆情流行度预测系统,包括流行度模块、级联图特征模块、
时间序列特征模块、情感序列特征模块和未来流行度模块;
[0056]
流行度模块,建立信息级联图与流行度之间的关系模型;;
[0057]
级联图特征模块,用于基于关系模型,通过图神经网络graphsage获取级联图特征;
[0058]
时间序列特征模块,用于通过lstm神经网络,获取时间序列特征;
[0059]
情感序列特征模块,用于基于时间序列特征,得到每个时间间隔的情感值,生成情感序列特征;
[0060]
未来流行度模块,用于将级联图特征、时间序列特征和情感序列特征连接,计算得到未来流行度。
[0061]
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述方法的步骤。
[0062]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述方法的步骤。
[0063]
与现有技术相比,本发明具有以下有益效果:
[0064]
本发明公开了一种基于图神经网络的舆情流行度预测方法及系统,定义流行度,建立信息级联图与流行度之间的关系模型,并依次获取级联图特征、时间序列特征和情感序列特征,将情感进行量化,并将情感序列特征和时间序列特征和级联图特征加入预测模型当中,能够有效提高模型预测的准确率,对于尚未发生或已经发生的社会事件,可以及时得到治理和管控,防止舆情事件传播所引起的消极的影响,有助于社会事件的管理,减少经济损失。
附图说明
[0065]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0066]
图1为本发明的预测方法示意图;
具体实施方式
[0067]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0068]
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一
个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0070]
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0071]
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
[0072]
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0073]
下面结合附图对本发明做进一步详细描述:
[0074]
参见图1,本发明实施例公开了一种基于图神经网络的舆情流行度预测方法:
[0075]
首先使用图神经网络对信息级联图与未来流行度之间的复杂关系进行建模,定义流行度为参与在线内容传播的用户数量,即信息级联的大小,使用graphsage获取集成的级联图特征,并在图池化过程中采用样本机制,以学习用户的重要性系数,排除无关用户的干扰,然后使用lstm神经网络获取时间特征,使用skep-bisru-at获取情感值特征,最后将这三种特征进行连接,通过mlp对该流行度进行预测。
[0076]
具体包括以下步骤:
[0077]
步骤1:流行度定义,对级联图与流行度之间的复杂关系进行建模,过程如下:
[0078]
1.1:首先将级联预测任务定义为回归问题,旨在预测参与在线内容传播的用户数量,即信息级联的大小;
[0079]
1.2:对于一条推文ci,将其在时间t0的级联图表示为其中表示参与级联的用户集,表示用户之间的交互关系,使用表示用户参与级联时的时间关系,其中表示在时间t0时参与级联的用户数量,使用表示用户参与级联的情感关系。
[0080]
1.3:对于给定的级联图信息和级联ci在时间t0的时间信息以及情感信息预测在固定时间间隔δt后的增量流行度pi,计算公式如下:
[0081][0082]
步骤2:根据步骤1中的定义,通过图神经网络获取级联图特征,过程如下:
[0083]
2.1:对于一个给定的信息项ci及其级联图利用图神经网络graphsage作为图卷积层来学习每个节点的标识,级联图中的每个节点v最初表示为一个one-hot向量其中n是是数据集中用户总数,然后通过随机初始化的嵌入矩阵e∈rd×n将所有节点转化为低维矩阵,公式如下:
[0084][0085]
其中d的维度可以调节,节点嵌入是在模型训练过程中进行监督学习的;
[0086]
2.2:然后对graphsage的节点嵌入进行学习,首先每个节点聚合其直接邻域的表示,采用最大池化聚合策略,公式如下:
[0087][0088]
其中n(v)是节点v的邻域集,是指节点μ在第k-1个图卷积步骤的嵌入,是神经网络的可学习参数,σ指的是sigmoid函数,并且利用gnn框架pytorch-geometric来获取完整的邻域集,之后,更新节点嵌入公式如下:
[0089][0090]
其中,concat表示嵌入串联,wk是用于更新第k个卷积层中的节点嵌入的权重矩阵;
[0091]
2.3:级联图特征是通过图池化过程从节点生成的,采用top-k池化的下采用方法来获取级联图特征,为了丢弃无关节点,引入一个可学习向量计算出跨节点集的重要性系数,公式如下:
[0092][0093]
根据重要性系数sv从级联图汇总选择排名靠前的节点,并通过预定义的下采样率γ丢弃系数低的节点,定义诱导子图为使用学习到的重要性系数sv来作为用户权重,并对诱导子图做全局最大池化以生成级联图特征公式如下:
[0094][0095]
步骤3,使用lstm神经网络获取时间序列特征,对于每条推文,从时间序列信息信息中提取相互感染的持续时间其中xi=t
i-t
i-1
,然后将该时间输入lstm中,在每次循环计算后获取一系列输出计算公式如下:
[0096]
[0097]
其中为标量值,是前一时间步的隐藏状态,max是所有级联的最大时间步,并且d是指隐藏状态的维度,然后使用由{n*10m,n∈{1,2,...10},m=0,1,2}生成的索引序列对输出序列进行采样,并使用加权和从lstm的输出中获得事件特征,公式如下:
[0098][0099]
其中n是样本大小,是训练期间自动学习的注意力向量;
[0100]
步骤4:使用skep-bisru模型计算出文本的情感概率分布yd,基于yd得到文本的情感倾向eo(emotional orientation),公式如下:
[0101]
eod=(1,-1)
·
yd[0102]
假定时间t0时刻一共有mi条评论,每条评论的情感极性用eoj表示,其中j=1,2,

,mi,eoj∈[-1,1],可以计算出在t0时刻的情感值,根据步骤3中的时间序列,得到每个时间间隔的情感值,从而生成情感序列指标,计算公式如下:
[0103][0104]
步骤5:将步骤2,步骤3,步骤4中得到的级联图特征,时间特征以及情感特征进行连接,并输入到mlp中,得到未来流行度,公式如下:
[0105][0106]
使用均方对数变换误差msle作为损失函数,公式如下:
[0107][0108]
其中n是级联总数,是预测的增量流行度,pi是级联ci的实际增量流行度,模型参数通过最小化损失函数进行训练,并使用adam算法进行优化。
[0109]
本发明实施例还公开了一种基于图神经网络的舆情流行度预测系统,包括:
[0110]
流行度模块,建立信息级联图与流行度之间的关系模型;;
[0111]
级联图特征模块,用于基于关系模型,通过图神经网络graphsage获取级联图特征;
[0112]
时间序列特征模块,用于通过lstm神经网络,获取时间序列特征;
[0113]
情感序列特征模块,用于基于时间序列特征,得到每个时间间隔的情感值,生成情感序列特征;
[0114]
未来流行度模块,用于将级联图特征、时间序列特征和情感序列特征连接,计算得到未来流行度。
[0115]
在舆情事件传播过程中,网民所发表的言论都包含一定的情感,并且该情感随着
事件的发酵也会产生变化,发明实施例通过将这些情感进行量化,并将量化后的情感值和时间加入预测模型当中,能够有效提高模型预测的准确率,对于尚未发生或已经发生的社会事件,可以及时得到治理和管控,防止舆情事件传播所引起的消极的影响。
[0116]
本发明一实施例提供的终端设备的示意图。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
[0117]
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
[0118]
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
[0119]
所述处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0120]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
[0121]
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0122]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献