一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向传播不确定性的谣言检测方法及装置与流程

2021-11-10 02:10:00 来源:中国专利 TAG:


1.本发明涉及数据挖掘技术领域,具体涉及一种面向传播不确定性的谣言检测方法及装置。


背景技术:

2.在新媒体时代,社交媒体网站为用户获取信息、表达意见和相互交流提供了巨大的便利。越来越多的用户热衷于参与社交媒体中热点话题的讨论,并且由于平台的便利性等,使得用户生成内容可以迅速达到广泛受众。然而,社交媒体中也滋生了大量谣言信息的产生与传播,给社会带来危害,严重影响着人们的日常生活和社会的健康发展。因此,如何及时准确地检测出谣言是社交网络分析领域中一个迫切需要的研究课题,有重要的研究意义和现实应用意义。
3.随着时间的推移,源博文通过一系列的转发或回复传播关系形成了其特定的传播结构。现有研究发现,与真实信息相比,谣言的传播更快、更广、更深。这些结构特征为研究者利用传播数据检测谣言提供了可能。随着深度学习(deep learning)和数据挖掘(datamining)技术的发展,许多方法将源博文的传播数据建模为树结构或图结构,利用深度学习工具学习源博文的特征表示,构建分类器进行检测。
4.但是,在日益复杂的现代社会,以用户为主要参与者的信息传播具有一定程度的随机性。新用户建立信息传播渠道的随机性、已有用户在从众心理、群体压力等因素作用下产生的无意识传播行为与非理性传播行为等,以及一些不法分子的恶意、虚假等传播行为,在这种环境下,表面上的信息传播路径包含许多噪声,这些使得构建的显式图结构(关系)不一定反映真实的依赖传播关系。这种可观测、可引导的随机扰动增加了信息传播分析中的不确定性建模的难度。现有的方法忽略了噪声引起的传播不确定性问题,容易导致模型学习过程中严重的错误积累,无法捕获更多有用的结构特征,从而限制了现有谣言检测方法的性能。


技术实现要素:

5.本发明针对主要的技术问题是如何缓解实际传播噪声引起的传播不确定性问题。本发明提供一种面向传播不确定性的谣言检测方法及装置,以提高谣言检测任务的性能。
6.为实现上述目的,本发明的技术方案如下:
7.一种面向传播不确定性的谣言检测方法,其步骤包括:
8.1)获取社交网络中源博文与转发博文的文本数据及若干传播数据,并基于文本数据提取的文本特征,利用传播数据分别构建传播方向的初始传播图g

td
及扩散方向的初始传播图g

bu

9.2)对于初始传播图g

td
与初始传播图g

bu
,分别利用图卷积网络对边的可靠性进行评估,生成传播图g
td
与传播图g
bu

10.3)基于传播图g
td
与传播图g
bu
中的节点表示h
td
与h
bu
,生成源博文的最终特征表示,
以获取谣言检测结果。
11.进一步地,传播数据包括源博文与转发博文之间及转发博文之间的传播关系集合。
12.进一步地,文本特征包括:tf

idf文本特征。
13.进一步地,通过以下步骤生成传播图g
td

14.1)利用图卷积网络聚合初始传播图g

td
中节点的邻域特征,获取节点的特征表示;
15.2)基于特征表示及贝叶斯概率公式,计算边的可靠性分数;
16.3)根据可靠性分数,调整初始传播图g

td
中边的权重,生成调整后传播图g

td

17.4)利用图卷积网络聚合调整后传播图g

td
中节点的邻域特征,将具有潜在关系驱动的邻域特征的归一化和,通过生成的节点表示h
td
,构造传播图g
td

18.进一步地,通过以下步骤生成源博文的最终特征表示:
19.1)基于节点表示h
td
与h
bu
,通过平均池化层分别得到传播图g
td
与传播图g
bu
的特征表示;
20.2)拼接传播图g
td
与传播图g
bu
的特征表示,得到源博文的最终特征表示。
21.进一步地,获取谣言检测结果的方法包括:将源博文的最终特征表示输入至一分类器。
22.进一步地,所述分类器包括:1个线性层和1个softmax函数。
23.进一步地,谣言检测结果的包括:真谣言、假谣言、未经证实的谣言或非谣言。
24.进一步地,利用一谣言检测模型完成步骤2)与步骤3),以获取谣言检测结果,其中通过以下步骤训练所述谣言检测模型:
25.1)获取标注的数据集;
26.2)基于所述数据集及传播一致性的无监督学习损失,并根据传播行为的后验分布,计算得到计算所述训练集的无监督一致性损失;
27.3)根据所述数据集中各样本的预测结果及真实标签,计算得到所述训练集的有监督分类交叉熵损失;
28.4)对无监督一致性损失及有监督分类交叉熵损失进行加权求和,得到损失函数;
29.5)通过最小化损失函数,获取谣言检测模型的模型参数。
30.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上所述方法。
31.一种电子装置,包括存储器和处理器,其中存储器存储执行以上所述方法的程序。
32.综上所述,本发明提供的面向传播不确定性的谣言检测方法和系统,可应用于社交媒体平台谣言检测问题中,具有以下优点:
33.1)利用贝叶斯概率模型评估复杂传播行为的一致性,筛选出可靠的传播行为,并进一步理解准确的信息传播路径;
34.2)能够缓解主观传播随机扰动引起的信息传播分析中的不确定性影响、缓解信息传播过程中噪音干扰,有效提高谣言检测的准确率。
附图说明
35.图1为本发明提供的面向传播不确定性的谣言检测方法的实现流程图。
36.图2为本发明提供的基于边增强的贝叶斯图神经网络方法的实现流程图。
37.图3为本发明提供的基于传播一致性的谣言检测方法训练框架。
38.图4为本发明提供的面向传播不确定性的谣言检测系统结构图。
具体实施方式
39.以下结合附图和实施例对本发明进行详细说明,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
40.图1是本发明提供一种面向传播不确定性的谣言检测方法的实现流程图,具体包括以下步骤:
41.步骤a:获取twitter社交网络中源博文的文本和部分传播数据。具体地,定义样本i的传播数据为其中,代表传播过程中的博文信息集合,r
i
为源博文,为后续转发博文;代表传播关系集合。
42.步骤b:基于文本数据提取文本特征,利用传播数据分别构建传播方向和扩散方向的传播图结构。具体地,
43.步骤b1:对于每条样本,提取源博文r和转发博文x1,...,x
n
‑1的tf

idf文本特征,定义为其中,为源博文r的tf

idf文本特征,为转发博文x1,...,x
n
‑1的tf

idf文本特征。
44.步骤b2:基于传播数据构建自顶向下的传播方向传播图结构和自底向上的扩散方向传播图,分别记作g
td
和g
bu
。图结构对应的邻接矩阵分别定义为a
td
=a,a
bu
=a
t
,其中,初始值定义为:
[0045][0046]
图中所有博文节点的初始化特征表示基于文本特征构建,记作x
td
=x
bu
=x。
[0047]
步骤c:根据步骤b构建的传播图结构g
td
和g
bu
,设计基于边增强的贝叶斯图卷积网络得到节点表示,以充分考虑传播过程中不可靠传播关系引起的不确定性问题,如图2所示,具体地,
[0048]
步骤c1:对于每个传播图结构,采用图卷积网络,通过聚合节点的邻域特征,学习节点的特征表示,建模信息传播之间的依赖关系。第l层的节点特征表示的具体更新方式为:
[0049][0050]
其中,为第l

1层更新后的邻接矩阵a
(l

1)
的正则化形式;h
(0)
=x;w
(l)
为第l层的参数矩阵;b
(l)
为第l层的偏置项;σ(
·
)表示sigmoid激活函数。
[0051]
步骤c2:为识别信息传播过程中更多有效的传播行为,基于节点特征重新对边的可靠性进行评估。具体地,在第l层中,首先,对于传播行为隐式类型t,基于节点在上一层中的特征表示计算一种变换形式,记为再基于该变换更新边的可靠性,更新邻接矩
阵a
(l)
。计算方式如下:
[0052][0053][0054]
其中,和分别表示节点i和节点j的在第l

1层的节点特征表示;f
e
(
·
;θ
t
)可定义为带有激活函数的卷积层;t表示传播行为的隐式类型;σ(
·
)表示sigmoid激活函数;为可训练的参数。
[0055]
步骤c3:经过叠加两层的上述变换,该模型可以有效地积累由潜在关系驱动的邻居特征的归一化和,最终两个方向传播图中的节点表示可记为h
td
和h
bu

[0056]
步骤d:根据步骤c3得到的节点表示,将谣言检测任务转化为图分类任务。具体地:
[0057]
步骤d1:基于上述的节点特征h
td
和h
bu
,通过平均池化层得到传播图表示,计算方式如下:
[0058]
c
td
=meanpooling(h
td
)
[0059]
c
bu
=meanpooling(h
bu
)
[0060]
其中,meanpooling(
·
)为平均池化函数。
[0061]
步骤d2:拼接所述不同方向的传播图表示,得到源博文的最终特征表示作为样本的最终特征表示,即:
[0062]
c=[c
td
;c
bu
]
[0063]
步骤e:基于步骤d得到的源博文最终特征表示,利用分类器完成谣言检测。基于样本的最终特征表示,计算该样本的谣言类别标签概率,即:
[0064][0065]
其中,w
c
,b
c
为可训练的参数。
[0066]
如图3所示,本发明提供一种基于传播一致性的谣言检测方法训练框架,具体包括以下步骤:
[0067]
步骤a:获取标注数据集,标注每个样本的谣言类别标签,并划分训练集和测试集。谣言类别标签包括真谣言(true rumor,tr),假谣言(false rumor,fr),未经证实的谣言(unverified rumors,ur)以及非谣言(non

rumors,nr)。
[0068]
步骤b:计算所述训练集的无监督一致性损失,具体地:
[0069]
基于传播一致性的无监督学习损失根据传播行为的后验分布计算,具体计算公式如下:
[0070][0071][0072]
其中,表示期望;d
kl
(p||q)表示计算从分布q到分布p的kl散度,是一种用来衡量相似度的量;表示给定图结构g和第l

1层的节点表示h
(l

1)
条件预测传播行为的概率分布;表示计算过程中需要优化的参数;表示求解的最优参数;
为一种参数化的高斯分布,具体计算方式如下:
[0073]
对于传播关系t∈[1,t],定义为一种参数化的高斯分布,均值为μ
t
,方差为即:
[0074][0075][0076]
其中,θ是模型参数,f
μ
(
·
;θ
μ
)和f
δ
(
·
;θ
δ
)分别是指计算均值和方差的参数化函数,分别被参数θ
μ
和参数θ
δ
参数化。
[0077]
在参数化原型向量的后验分布时,考虑了传播关系的似然概率,具体自适应计算公式如下:
[0078][0079][0080]
步骤c:计算所述训练集的有监督分类交叉熵损失,具体地,基于交叉熵损失的监督性学习损失可定义为:
[0081][0082]
其中,y
i
表示样本i真实标签的向量表示分布。
[0083]
步骤d:通过最小化步骤b和步骤c所述的损失函数,调节模型参数,训练出最优分类模型,定义如下:
[0084][0085]
其中,γ是预定义的平衡系数。
[0086]
步骤e:利用所述最优分类模型对测试集中的源博文进行分类,获得分类结果。
[0087]
如图4所示,本发明还提供一种面向传播不确定性的谣言检测系统,所述系统包括:数据采集模块、文本特征和传播图结构构建模块、基于边增强的贝叶斯图卷积网络模块、谣言检测分类模块。其中,
[0088]
数据采集模块,用于社交媒体平台的用户发布数据采集,获取源博文的文本数据及后续传播数据,包括转发或回复关系及转发或回复文本;
[0089]
文本特征和传播图结构构建模块,用于读取数据采集模块获得的源数据,根据源数据中的文本信息,利用语言模型提取文本特征。根据传播数据,以源博文和传播博文为节点,构建传播方向和扩散方向的传播图结构;
[0090]
基于边增强的贝叶斯图卷积网络模块,用于根据上述构建的图结构,自适应地计算边的可信度,迭代地聚合节点邻域特征,学习节点的特征表示;
[0091]
谣言检测分类模块,用于根据上述学习的节点特征表示,通过平均池化层得到传播图表示,拼接传播和扩散方向的图表示,获得最终特征表示输入至分类器,预测该样本的
类别标签。
[0092]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,本领域的技术人员应可理解,凡在本发明的精神和原则之内所作的任何修改,等同替换或改进等,均应包含在本发明的保护范围之内,保护范围以权利要求书所界定者为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献