一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于生成传播结构特征的早期谣言检测方法及装置

2022-04-16 15:31:56 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种基于生成传播结构特征的早期谣言检测方法及装置。


背景技术:

2.随着互联网时代的兴起与发达,信息流动和传播速度也越来越快,人们在社交媒体上可以自由发布信息,这也导致谣言传播迅速。谣言是指违背事情真相或凭空捏造的事情,具有一定的欺骗性,是扰乱社会秩序甚至给社会带来严重恐慌和经济损失的言论。因此如何从社交媒体上海量的信息中辨别谣言是一项严峻的挑战。
3.谣言检测技术是通过相关的计算机知识和技能对谣言鉴定进行建模并识别的过程。现有的谣言检测技术存在如下问题:(1)现有的谣言检测研究局限于针对经过一定时间传播后的谣言进行检测,即谣言只有经过大量曝光后才可能被识别,对早期谣言检测欠缺,缺乏一定的时效性;(2)现有的研究在早期谣言检测中大多根据文本信息进行谣言检测,但由于信息结构的多样化,仅根据文本信息难以获取准确的谣言检测结果。


技术实现要素:

4.本发明提供一种基于生成传播结构特征的早期谣言检测方法及装置,用以解决现有技术中谣言检测方法时效性差和准确度低的缺陷,实现在获取到谣言的源文本时,即可及时准确地检测出谣言。
5.本发明提供一种基于生成传播结构特征的早期谣言检测方法,包括:
6.获取待检测事件的第一源文本;
7.将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征;其中,所述条件变分自编码器根据样本事件的第二源文本和第二传播结构特征进行训练获取;所述第二传播结构特征基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得;所述传播结构图根据所述样本事件的第二源文本和所述第二源文本对应的响应推文构建获取;
8.将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果;所述分类模型根据所述第二源文本信息和第二传播结构特征,以及所述样本事件的谣言检测标签进行训练获取。
9.根据本发明提供的一种基于生成传播结构特征的早期谣言检测方法,所述将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果,包括:
10.将所述第一源文本输入所述分类模型的特征提取层,得到所述第一源文本的文本特征;
11.将所述文本特征与所述第一传播结构特征进行拼接后,输入所述分类模型的分类层,得到所述待检测事件的谣言检测结果。
12.根据本发明提供的一种基于生成传播结构特征的早期谣言检测方法,所述分类模型的特征提取层基于循环神经网络模型构建生成;
13.所述分类模型的分类层基于softmax函数构建生成。
14.根据本发明提供的一种基于生成传播结构特征的早期谣言检测方法,所述传播结构图基于如下步骤构建:
15.以所述样本事件中的第二源文本和各响应推文为节点,根据任意两个节点之间的响应关系构建所述样本事件的传播结构图。
16.根据本发明提供的一种基于生成传播结构特征的早期谣言检测方法,所述响应关系包括转发关系、时间维度关系和评论关系。
17.根据本发明提供的一种基于生成传播结构特征的早期谣言检测方法,所述第二传播结构特征基于如下步骤获取:
18.将所述样本事件的传播结构图输入所述图卷积神经网络模型中,得到所述图卷积神经网络模型的特征提取层输出的所述样本事件的第二传播结构特征;
19.其中,所述图卷积神经网络模型根据所述样本事件的传播结构图和所述样本事件的谣言检测标签进行训练获取。
20.根据本发明提供的一种基于生成传播结构特征的早期谣言检测方法,所述将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征,包括:
21.对所述第一源文本进行预处理;
22.其中,所述预处理包括去除乱码数据和文本向量化处理;
23.将预处理后的第一源文本输入所述条件变分自编码器中,得到所述待检测事件的第一传播结构特征。
24.本发明还提供一种基于生成传播结构特征的早期谣言检测装置,包括:
25.文本获取模块,用于获取待检测事件的第一源文本;
26.传播结构特征生成模块,用于将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征;其中,所述条件变分自编码器根据样本事件的第二源文本和第二传播结构特征进行训练获取;所述第二传播结构特征基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得;所述传播结构图根据所述样本事件的第二源文本和所述第二源文本对应的响应推文构建获取;
27.谣言检测模块,用于将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果;所述分类模型根据所述第二源文本信息和第二传播结构特征,以及所述样本事件的谣言检测标签进行训练获取。
28.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于生成传播结构特征的早期谣言检测方法的步骤。
29.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于生成传播结构特征的早期谣言检测方法的步骤。
30.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器
执行时实现如上述任一种所述基于生成传播结构特征的早期谣言检测方法的步骤。
31.本发明提供的基于生成传播结构特征的早期谣言检测方法及装置,通过根据样本事件的第二源文本和响应推文构建传播结构图,并基于图卷积神经网络模型对传播结构图进行特征提取获得样本事件的第二传播结构特征,根据样本事件的第二源文本、第二传播结构特征进行迭代,即可得到可根据事件的源文本,模拟生成传播结构特征的条件变分自编码器;在获取到待检测事件的第一源文本时,即可基于条件变分自编码器自动模拟生成待检测事件的第一传播结构特征;然后,联合待检测事件的第一传播结构特征和第一源文本,即可对待检测事件进行谣言检测;一方面,整个谣言检测过程中,只需要获取到待检测事件的第一源文本,即可快速生成相应的传播结构特征,减少收集大量响应推文后才能获取传播结构特征带来的延时,且在谣言的发布的源头上即可检测出谣言,有效提高谣言检测的时效性;另一方面,将事件的源文本信息和传播结构特征进行结合,丰富了与谣言检测相关的特征,使得谣言检测结果更加准确。
附图说明
32.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
33.图1是本发明提供的基于生成传播结构特征的早期谣言检测方法的流程示意图之一;
34.图2是本发明提供的基于生成传播结构特征的早期谣言检测方法中条件变分自编码器、图卷积神经网络模型和分类模型的结构示意图;
35.图3是本发明提供的基于生成传播结构特征的早期谣言检测方法的流程示意图之二;
36.图4是本发明提供的基于生成传播结构特征的早期谣言检测方法的流程示意图之三;
37.图5是本发明提供的基于生成传播结构特征的早期谣言检测装置的结构示意图;
38.图6是本发明提供的电子设备的结构示意图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.在本实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于区分不同的描述,而不能理解为指示或暗示相对重要性或层级顺序。
41.现有的谣言检测方法,无法在谣言发布的源头上,及时准确地检测出谣言事件,实时性差;另外,早期检测的数据量较少,只能根据事件的文本信息对谣言进行检测,仅考虑文本信息这一单一粒度,无法准确获取谣言检测结果。
42.针对上述文本,本实施例提出了一种基于生成传播结构特征的早期谣言检测方法。根据历史事件的大量谣言传播数据构建一个条件变分自编码器用于学习谣言传播的结构特征,从而在早期只有待检测事件的源文本时,可以利用训练好的条件变分自编码器预测待检测时间的传播结构特征,并将其与源文本结合进行谣言检测,以在获取到待检测时间的源文本时,即可快速准确地获取谣言检测结果,以确定该待检测事件是否为谣言事件。
43.需要说明的是,上述方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,非移动电子设备可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、智能电视机(television,tv)、柜员机或者自助机等,本发明不作具体限定。
44.下面结合图1描述本发明的基于生成传播结构特征的早期谣言检测方法,该方法包括:
45.步骤101,获取待检测事件的第一源文本;
46.可选地,待检测事件即为需要进行谣言检测的事件。待检测事件可以采用爬虫工具从互联网上实时爬取的,也可以是通过互联网传输或者下载得到,本实施例对此不作具体地限定。
47.样本事件和待检测事件可以是各种社交网站上发布的事件,如微博上发送的帖子或微信上发布的动态等,本实施例对此不作具体地限定。
48.以下样本事件和待检测事件为微博上发送的帖子为例对本实施例中的谣言检测方法展开描述。
49.待检测事件的第一源文本为针对待检测事件发布的源帖中包含的文本信息。
50.步骤102,将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征;其中,所述条件变分自编码器根据样本事件的第二源文本和第二传播结构特征进行训练获取;所述第二传播结构特征基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得;所述传播结构图根据所述样本事件的第二源文本和所述第二源文本对应的响应推文构建获取;
51.可选地,条件变分自编码器是根据样本事件的第二源文本和第二传播结构特征进行训练获取;训练后的条件变分自编码器根据源文本,即可生成相应的传播结构特征,在后续的谣言检测中联合生成的传播结构特征和源文本,即可快速准确地进行早期谣言检测。
52.其中,响应推文为对源文本进行评论和转发的文本,即响应推文为对源帖进行评论的评论帖的文本信息,以及对源帖进行转发的转发帖的文本信息。本实施例将评论帖和转发帖统称为转帖。
53.条件变分自编码器(conditional autoencoder,cvae)是一种深度隐空间生成模型,由一个编码器和一个解码器组成;其中,编码器和解码器由神经网络模型构成,模型的类型和结构可以根据实际需求进行设置,如卷积神经网络和循环神经网络等,本实施例对此不作具体地限定。
54.可选地,在执行步骤102之前,需要根据样本事件的第二源文本和第二传播结构特
征,训练完成后得到一个能够生成传播结构特征的条件变分自编码器,具体训练步骤可以包括:
55.首先,收集样本,整理数据集;
56.可选地,采集大量样本帖,以事件为单位,对同一事件的源帖和转帖进行聚合,形成样本事件数据集c={c1,c2,
…ci
,

,cn};其中,ci代表第i个样本事件,n代表样本事件数据集中包含的样本事件的数量,具体数量可以根据实际需求进行设置,本实施例对此不作具体地限定。
57.样本事件样本事件代表第i个样本事件的源文本,代表第i个样本事件的第j个相关评论帖或转发帖,即响应推文,mi代表第i个事件中包含的响应推文的总数;到为第i个样本事件的所有响应推文。
58.然后,可以对样本事件的各文本进行预处理,得到样本事件中各文本的文本向量其中,ci代表第i个样本事件的源文本向量,到为第i个样本事件的所有响应推文的文本向量。
59.然后,根据样本事件的第二源文本和第二源文本对应的响应推文构建获取传播结构图;并基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得样本事件的第二传播结构特征;
60.然后,将样本事件数据集中的源文本向量c={c1,c2…
,ci,

,cn},作为条件变分自编码器中的条件信息。其中代表第i个样本事件的源文本向量,ni代表源文本向量ci中包含的单词数。将所有样本事件的传播结构特征h={h0,h1,

,hi,

,hn},作为条件变分自编码器中的真实样本数据;其中,hi为第i个样本事件的传播结构特征。
61.可选地,将每一样本事件的源文本向量和传播结构特征作为一组样本,根据多组样本,计算获取条件变分自编码器的损失函数,基于损失函数对条件变分自编码器进行迭代训练。
62.其中,条件变分自编码器的学习原理为,将原始数据编码到符合特定分布的隐变量z中,此处设定隐变量z符合标准正态分布即p(z)=n(1,0),然后将隐变量z解码生成新的数据。
63.对于编码器e(
·
),将ci作为条件信息与真实样本数据hi一起输入到编码器e(
·
)中,编码器e(
·
)计算出p(z|hi,ci)的均值μi和方差δ
i2

64.对于解码器d(
·
),利用重参数技巧采样得到隐变量z,解码器通过隐变量z对样本数据hi进行重构。
65.其中,利用重参数技巧采样得到隐变量z的计算公式为:
66.z=μi ε

δi;
67.其中,ε服从标准正态分布n(0,1),

是点乘运算符,μi和δ
i2
为正态分布的均值和方差;
68.cvae模型的损失函数的计算公式为:
69.70.其中,为重构损失函数,e(
·
)为数学期望;为编码器的分布与先验分布p
θ
(z)之间的kl散度;为关于z的后验概率,p
θ
(hi|z,ci)为关于hi的条件概率;与θ分别为编码器与解码器的网络参数。
71.基于上式cvae模型的损失函数,对cvae模型的网络参数进行迭代更新,最终使得cvae模型的解码器能够重构生成近似真实样本数据的模拟传播结构特征。
72.在cvae模型训练完成后,将待检测事件的第一源文本输入训练后的cvae模型中,即可生成第一源文本对应的第一传播结构特征。
73.通过从大量历史事件的转发信息、评论信息和源文本中学习传播结构特征,从而在早期只有源文本时,也能够模拟生成源文本对应的传播结构特征,不需要等待源文本被大量扩散,有效提高检测的时效性;并且,综合源文本和源文本对应的传播结构特征,可在早期发布源文本时,即可及时准确地检测出谣言,避免谣言事件扩散带来的不良影响。
74.步骤103,将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果;所述分类模型根据所述第二源文本信息和第二传播结构特征,以及所述样本事件的谣言检测标签进行训练获取。
75.其中,分类模型的网络结构可以根据实际需求进行设置,如网络的层数和各层的节点数等。分类模型可以由各种具有分类功能的人工智能模型构建生成,包括但不限于卷积神经网络、循环神经网络、计算机视觉组网络和残差网络系列等,本实施例对此不作具体地限定。
76.谣言检测标签为样本事件的真实谣言检测类别,包括谣言和非谣言。
77.可选地,在执行步骤103之前,可以预先训练得到训练后的分类模型,具体训练方式为迭代训练,具体训练步骤可以包括:首先,获取样本事件的第二源文本信息和第二传播结构特征;将样本事件的第二源文本信息和第二传播结构特征作为输入信息,将样本事件的谣言检测标签,作为真实标签,对分类模型进行迭代训练,以获取准确区分谣言事件和非谣言事件的分类模型。
78.在分类模型训练完成后,将待检测事件的第一源文本和第一传播结构特征进行拼接后,输入训练后的分类模型中,即可确定待检测事件是否为谣言事件或非谣言事件。
79.本实例通过根据样本事件的第二源文本和响应推文构建传播结构图,并基于图卷积神经网络模型对传播结构图进行特征提取获得样本事件的第二传播结构特征,根据样本事件的第二源文本、第二传播结构特征进行迭代,即可得到可根据事件的源文本,模拟生成传播结构特征的条件变分自编码器;在获取到待检测事件的第一源文本时,即可基于条件变分自编码器自动模拟生成待检测事件的第一传播结构特征;然后,联合待检测事件的第一传播结构特征和第一源文本,即可对待检测事件进行谣言检测;一方面,整个谣言检测过程中,只需要获取到待检测事件的第一源文本,即可快速生成相应的传播结构特征,减少收集大量响应推文后才能获取传播结构特征带来的延时,且在谣言的发布的源头上即可检测出谣言,有效提高谣言检测的时效性;另一方面,将事件的源文本信息和传播结构特征进行结合,丰富了与谣言检测相关的特征,使得谣言检测结果更加准确。
80.在上述实施例的基础上,本实施例中所述将所述第一源文本和第一传播结构特征
输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果,包括:将所述第一源文本输入所述分类模型的特征提取层,得到所述第一源文本的文本特征;将所述文本特征与所述第一传播结构特征进行拼接后,输入所述分类模型的分类层,得到所述待检测事件的谣言检测结果。
81.可选地,本实施例中的分类模型包括特征提取层和分类层;
82.其中,特征提取层可基于各种神经网络模型构建生成,如循环神经网络和卷积神经网络等,本实施例对此不作具体地限定。
83.可选地,根据第一源文本和第一传播结构特征,对待检测事件进行谣言检测的步骤包括,首先将第一源文本输入分类模型的特征提取层,得到第一源文本的文本特征;
84.然后,再将第一源文本的文本特征和第一传播结构特征进行拼接,得到融合特征;再将融合特征输入分类层,得到待检测事件的属于谣言的概率p(rumor),根据待检测事件的属于谣言的概率,确定待检测事件是否属于谣言。
85.具体确定方式可以为,将待检测事件的属于谣言的概率与预设值进行比较,若大于预设值则确定待检测事件属于谣言事件,否则属于谣言事件。
86.本实施例通过分类模型的特征提取层对第一源文本进行特征提取,可以提取出影响谣言检测的深层特征,使得谣言检测结果更加准确;并根据包含文本特征与第一传播结构特征的融合特征,对待检测事件进行谣言检测,可进一步提高谣言检测的准确性。
87.在上述实施例的基础上,本实施例中所述分类模型的特征提取层基于循环神经网络模型构建生成;所述分类模型的分类层基于softmax函数构建生成。
88.可选地,分类模型基于循环神经网络和分类层构建生成;
89.其中,其中,循环神经网络可以是标准循环神经网络(recurrent neural network,rnn),也是其衍生算法中的一种,如lstm(long short-term memory,长短期记忆)网络,本实施例对此不作具体地限定。
90.如图2所示,分类模型由lstm网络和softmax函数构建生成。
91.以下以由lstm网络和softmax函数构建的分类模型为例,对本实施例中的谣言检测方法展开描述。
92.在基于分类模型对待检测事件进行谣言检测之前,可以预先训练得到训练后的分类模型,具体训练步骤可以包括:
93.首先,对样本事件的第二源文本进行向量化,得到样本事件i的第二源文本向量ni是源文本向量ci中包含的单词数量,x
t
代表源文本向量ci中的第t个词的词向量。
94.然后,将ci输入到一个lstm网络中,提取源文本向量的高阶特征表示
95.其中,lstm网络含有三个门,分别为遗忘门、输入门和输出门。每个门单元的输入有三个,分别为当前时刻lstm网络的输入值x
t
,上一时刻lstm网络的输出值a
t-1
,以及上一时刻的单元状态值c
t-1

96.lstm网络中遗忘门的计算公式为:
97.ff=σ(wf[a
t-1
,x
t
] bf);
[0098]ff
是遗忘门的输出,遗忘门用于读取当前网络的输入信息x
t
与上一时刻lstm单元输出值a
t-1
;σ(
·
)是激活函数,控制输出在0到1之间;wf是权重系数,bf偏置项,a
t-1
是上一时刻lstm网络的输出值。ff决定上一时刻lstm网络的状态值的信息量有多少会被遗弃,取值在0到1之间;当ff取值为0,代表遗忘上一时刻单元状态值c
t-1
的全部信息,取值为1则保留所有c
t-1
中的信息。
[0099]
lstm中输入门用于控制输入数据x
t
有多少信息被输入到单元中,计算公式为:
[0100]fi
=σ(wi[a
t-1
,x
t
] bi);
[0101][0102][0103]fi
是输入门的输出,用于控制多少输入信息能够输入到网络单元中是lstm网络状态值的中间过渡量,c
t
是当前单元更新后的状态值;wi和wc是权重系数,bi与bc是偏置项。
[0104]
lstm的输出门控制当前单元状态值c
t-1
有多少信息被输出,计算公式为:
[0105]fo
=σ(wo[a
t-1
,x
t
] bo);
[0106]at
=fo*c
t

[0107]fo
是输出控制门,控制当前单元状态值c
t
的信息输出比例。wo与bo是权重系数与偏置项。a
t
为lstm网络最终输出的源文本的高阶特征向量。
[0108]
然后,提取条件变分自编码器生成样本事件的第二传播结构特征,将第二传播结构特征与对应的源文本特征向量ai拼接,再通过一个全连接层并使用softmax函数进行分类检测,得到属于谣言标签的概率,计算公式为:
[0109][0110]
其中,是分类模型输出的第i个样本事件ci的谣言检测结果,ai是样本事件ci的源文本的高阶特征表示;hi为样本事件ci的传播结构特征。
[0111]
由于对hi的积分是不可求的,因此使用蒙特卡洛对条件变分自编码器生成的传播结构特征进行m次采样并求其均值作为期望最终预测的标签概率表达式可转换为下式:
[0112][0113]
是预测的谣言检测标签;ai是源文本的高阶特征,z是隐变量。可使用负对数似然函数作为分类模型的损失函数,具体计算公式:
[0114][0115]
n是样本事件的数量,ai是样本事件ci的源文本的高阶特征表示;是第i个样本事件的预测谣言检测标签。
[0116]
最后,根据分类模型的损失函数对分类模型进行迭代训练,直到满足分类模型的训练终止条件,以获取可准确区分谣言事件和非谣言事件的分类模型。
[0117]
本实施例通过采用基于循环神经网络使得条件生成对抗网络中可更好地的捕获用于表征谣言事件与非谣言事件在时间序列上的文本,进而使得检测结果更加准确;另外,
使用蒙特卡洛对条件变分自编码器生成的传播结构特征进行多次采样后求其均值的方式,对谣言检测概率函数进行转换,进而可快速有效地获取最优化的分类模型。
[0118]
在上述各实施例的基础上,本实施例中所述传播结构图基于如下步骤构建:以所述样本事件中的第二源文本和各响应推文为节点,根据任意两个节点之间的响应关系构建所述样本事件的传播结构图。
[0119]
其中,传播结构图为表征事件中各帖子之间的互动过程和信息的传播结构,即各帖子之间的响应关系。
[0120]
可选地,以事件为单位,为每个样本事件构建传播结构图;对于第i个事件,其传播结构图为gi=(vi,ei);其中,vi为传播图的节点集,每个节点代表一个贴子,ei为第i个事件传播结构图的边集,每条边代表任意两个帖子节点之间的响应关系,ai代表第i个事件传播结构图的邻接矩阵。
[0121]
其中,邻接矩阵可根据任意两个帖子节点之间的响应关系构建生成。
[0122]
响应关系为任意两个帖子之间的响应关系,具体可以根据实际需求进行设置。
[0123]
本实施例通过构建传播结构图,可挖掘事件中各帖子之间的传播结构信息,捕捉更加丰富的上下文关系,更有利用谣言检测。
[0124]
在上述实施例的基础上,本实施例中所述响应关系包括转发关系、时间维度关系和评论关系。
[0125]
可选地,转发关系用于表征两个帖子之间的转发层次关系,任意两个帖子之间可能存在转发关系,可能不存在转发关系;如源帖与转发帖之间存在转发关系;从源帖转发文本的两个转发帖之间不存在转发关系。
[0126]
评论关系用于表征两个帖子之间的评论层次关系,任意两个帖子之间可能存在评论关系,可能不存在评论关系;如源帖与评论帖之间存在转发关系;对源帖进行评论的两个评论帖之间不存在评论关系。
[0127]
时间维度关系为,对同一帖子进行转发或评论的任意两个帖子之间存在的时间维度;或不同帖子发布的时间存在的时间维度。
[0128]
本实施例综合响应关系包括转发关系、时间维度关系和评论关系构建传播结构图,使得传播结构图中包含各帖子之间丰富的关系特征,进而使得谣言检测结果更加准确。
[0129]
在上述各实施例的基础上,本实施例中所述第二传播结构特征基于如下步骤获取:将所述样本事件的传播结构图输入所述图卷积神经网络模型中,得到所述图卷积神经网络模型的特征提取层输出的所述样本事件的第二传播结构特征;其中,所述图卷积神经网络模型根据所述样本事件的传播结构图和所述样本事件的谣言检测标签进行训练获取。
[0130]
需要说明的是,在条件变分自编码器进行训练之前,需要预先获取样本事件的第二传播结构特征;第二传播结构特征的获取步骤包括,首先,获取样本事件的传播结构图;然后,将传播结构图中的各节点和邻接矩阵作为图卷积神经网络模型的输入,对传播结构图中的各节点进行更新,以得到相应的传播结构特征。其中,每个节点信息的更新是通过与之相连的邻居节点及其自身信息进行聚合形成。
[0131]
可选地,利用图卷积网络模型(graph convolution network,gcn)构建事件传播结构特征。每层gcn与下一层gcn之间的节点更新公式为:
[0132][0133]
其中,为第i个事件传播结构图的经过l层卷积更新后所有节点的特征矩阵;其中h
ij(l)
为事件的第j个节点经过gcn更新后的特征向量;为归一化对称邻接矩阵,di为邻接矩阵ai的度矩阵;w
(l)
为权重矩阵;b
(l)
为偏置项;σ(
·
)为激活函数。当l=0时,h
i(0)
=xi;xi为第i个事件的文本向量;将xi输入到l层gcn中,经过l层卷积更新后得到传播图特征矩阵h
i(l)
,则所有事件传播图特征矩阵h
(l)
={h
1(l)
,h
2(l)


,h
i(l)


,h
n(l)
}。
[0134]
将获得的传播图特征h
i(l)
进行池化操作后得到hi,并用softmax分类器预测事件的谣言标签,公式为:
[0135][0136]
其中,是第i个事件的标签,w是权重参数,b是偏置项。
[0137]
然后,根据预测谣言标签和真实谣言标签得到损失函数;基于损失函数对图卷积神经网络模型进行训练。其中,损失函数使用交叉熵函数进行模型优化的公式为:
[0138][0139]
和y
ic
分别为事件的预测谣言标签和真实谣言标签;n为样本事件的数量;c是标签类别数量,本实施例中标签类别数量为2,即谣言事件与非谣言事件。
[0140]
需要说明的是,此处的谣言检测为辅助训练,训练完成后得到样本事件的传播结构特征hi,作为条件变分自编码器的训练数据。
[0141]
本实施例通过图卷积神经网络模型可快速准确地获取样本事件的第二传播结构特征,并将其作为训练数据,以训练获取根据源文本模拟生成传播结构特征的条件变分自编码器。
[0142]
在上述各实施例的基础上,本实施例中所述将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征,包括:对所述第一源文本进行预处理;其中,所述预处理包括去除乱码数据和文本向量化处理;将预处理后的第一源文本输入所述条件变分自编码器中,得到所述待检测事件的第一传播结构特征。
[0143]
可选地,在执行步骤102之前,可先对第一源文本进行数据处理;预处理的步骤包括:首先,去除第一源文本信息中的乱码数据和/或空行数据,以得到不包含乱码数据和/或空行数据的有效的第一源文本信息;然后,使用doc2vec模型将第一源文本编码成文本向量,得到第一源文本信息的文本向量
[0144]
本实施例通过将第一源文本转换为文本向量,可以将文本中的每个词表示为低维的实数域取值的向量,可以将每个词的语义特征也编码进文本向量中。
[0145]
在对第一源文本信息进行预处理后,可获取到第一源文本信息的文本向量;可将第一源文本信息文本向量输入条件变分自编码器中,得到待检测事件的第一传播结构特
征。
[0146]
需要说明的是,在训练过程,也可按照上述方式对样本事件的第二源文本和响应推文进行预处理,并将预处理后的第二源文本和响应推文训练样本,以对条件变分自编码器、图卷积神经网络模型和分类模型进行训练。
[0147]
本实施例通过对第一源文本预处理,可生成包含每一词的语义特征的词向量,同时为后续谣言检测奠定了基础。
[0148]
如图3和图4,为本实施例提出的一种基于生成传播结构特征的早期谣言检测方法,主要包括以下几个步骤:收集样本;数据提取,并使文本向量化;构造样本事件的传播结构图,使用图卷积网络构造传播结构特征;根据样本事件的源帖和传播结构特征训练图变分自编码器,训练完成后得到一个能够准确生成传播结构特征的生成器;根据样本事件的源帖和传播结构特征,以及真实谣言标签,对分类模型进行训练,得到一个可对事件进行准确分类的分类模型;将待检测事件的源帖作为条件,生成器生成与条件相对应的模拟传播结构特征;将待检测事件的源帖与其对应的模拟传播结构特征结合,再通过一个softmax函数进行谣言检测。
[0149]
以下对上述步骤进行详述,具体包括:
[0150]
具体逻辑流程如下:
[0151]
步骤1,收集样本数据;
[0152]
步骤2,文本向量化;该步骤具体包括:
[0153]
步骤2.1,处理样本数据集,以事件为单位,将同一事件的源帖及其转帖信息进行聚合;
[0154]
步骤2.2,使用doc2vec将样本事件的所有帖子进行文本向量化,得到每个帖子的文本向量表示;
[0155]
步骤3,训练图卷积网络gcn模型,构造事件的传播结构特征;该步骤具体包括:
[0156]
步骤3.1,构造样本事件传播结构图g=(v,e),并得到邻接矩阵a。v是节点集,e是边集,每个节点代表一个帖子,每条边代表两个帖子节点之间的转发关系、时间维度关系和评论关系;
[0157]
步骤3.2,利用图卷积网络模型gcn构造每个样本事件的传播结构特征。
[0158]
步骤3.3,将获得的传播结构特征输入到softmax函数,得到样本事件的谣言预测标签,根据谣言预测标签和谣言真实标签得到的损失函数,对图卷积网络模型进行训练,直到满足模型的训练终止条件;
[0159]
将样本事件的传播结构图输入训练后的图卷积网络模型中,获得样本事件的传播结构特征hi,作为后续条件生成对抗网络模型cgan的训练数据集;
[0160]
步骤4,根据样本事件的源帖和传播结构特征训练cgan模型;该步骤具体包括:
[0161]
步骤4.1,提取样本事件的源帖的文本向量,作为条件变分自编码器cvae模型中的输入条件;
[0162]
步骤4.2,提取步骤3中图卷积网络模型输出的传播结构特征hi,作为条件变分自编码器cvae模型中的真实样本数据。
[0163]
步骤4.3,训练cvae模型;其中,cvae由编码器e(
·
)和解码器器d(
·
)组成;e(
·
)的输入是源帖ci(作为条件)以及真实样本数据hi,输出是隐变量z的均值μ和方差δ2;d(
·
)
的输入是源帖ci以及采样后的隐变量z,输出是对真实样本数据hi重构的数据;
[0164]
步骤5,根据样本事件的源帖和传播结构特征,以及真实谣言标签,对分类模型进行训练;该步骤包括:
[0165]
步骤5.1,获取样本事件的源帖的文本向量和传播结构特征;
[0166]
步骤5.2,将样本事件的源帖的文本向量和传播结构特征作为输入信息,将样本事件的谣言检测标签作为真实标签,对分类模型进行训练;
[0167]
步骤6,根据待检测事件的源帖生成对应的模拟传播结构特征;该步骤包括:
[0168]
步骤6.1,提取待检测事件的源帖的文本向量;
[0169]
步骤6.2,将源帖的文本向量输入到条件变分自编码器中,经过条件变分自编码器cvae生成对应的模拟传播结构特征;
[0170]
步骤7,根据待检测事件的源帖与生成的模拟传播结构特征进行早期谣言检测;该步骤包括:
[0171]
步骤7.1,提取待检测事件的源帖的文本信息、模拟传播结构特征;
[0172]
步骤7.2,将源文本经过word2vec向量化后输入到长短期lstm中,得到源文本的高阶文本特征表示ai;
[0173]
步骤7.3,将文本特征ai与模拟传播结构特征结合后输入到softmax函数中进行谣言检测。
[0174]
综上,本实施例中的谣言检测方法,首先,根据样本事件的源帖与转帖构建事件传播结构图,之后利用图卷积神经网络对样本事件的传播结构图进行传播结构特征提取;然后将样本事件的源帖与提取的传播结构特征输入到条件变分自编码器中,对条件变分自编码器进行训练,最终获得一个能够生成与真实传播结构特征相似的模拟传播结构特征的生成器;之后将待检测事件的源帖输入到训练好的生成器中,生成与源帖对应的模拟传播结构特征;最终将源帖和生成的模拟传播结构特征结合进行早期谣言检测,可实现在发布源帖时,即可快速准确地检测出谣言事件。
[0175]
综上,本实施例使用图卷积网络构建传播结构特征,能更好的捕捉源帖与转帖之间的紧密联系,能够更好地学习传播结构中隐藏的信息特征;基于条件变分自编码器,能够训练出一个性能良好的生成器,该生成器能够在只给定源帖文本信息的情况下自动生成传播结构特征,即能够在谣言早期仅有源帖信息的情况下预测谣言的传播结构,实现早期谣言检测。此外生成传播结构特征模型在早期缺乏传播信息的情况下扩充了早期谣言检测的数据。
[0176]
下面对本发明提供的基于生成传播结构特征的早期谣言检测装置进行描述,下文描述的基于生成传播结构特征的早期谣言检测装置与上文描述的基于生成传播结构特征的早期谣言检测方法可相互对应参照。
[0177]
如图5所示,本实施例提供一种基于生成传播结构特征的早期谣言检测装置,该装置包括:文本获取模块501、传播结构特征生成模块502和谣言检测模块503,其中:
[0178]
文本获取模块501用于获取待检测事件的第一源文本;
[0179]
传播结构特征生成模块502用于将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征;其中,所述条件变分自编码器根据样本事件的第二源文本和第二传播结构特征进行训练获取;所述第二传播
结构特征基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得;所述传播结构图根据所述样本事件的第二源文本和所述第二源文本对应的响应推文构建获取;
[0180]
谣言检测模块503用于将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果;所述分类模型根据所述第二源文本信息和第二传播结构特征,以及所述样本事件的谣言检测标签进行训练获取。
[0181]
本实施例通过根据样本事件的第二源文本和响应推文构建传播结构图,并基于图卷积神经网络模型对传播结构图进行特征提取获得样本事件的第二传播结构特征,根据样本事件的第二源文本、第二传播结构特征进行迭代,即可得到可根据事件的源文本,模拟生成传播结构特征的条件变分自编码器;在获取到待检测事件的第一源文本时,即可基于条件变分自编码器自动模拟生成待检测事件的第一传播结构特征;然后,联合待检测事件的第一传播结构特征和第一源文本,即可对待检测事件进行谣言检测;一方面,整个谣言检测过程中,只需要获取到待检测事件的第一源文本,即可快速生成相应的传播结构特征,减少收集大量响应推文后才能获取传播结构特征带来的延时,且在谣言的发布的源头上即可检测出谣言,有效提高谣言检测的时效性;另一方面,将事件的源文本信息和传播结构特征进行结合,丰富了与谣言检测相关的特征,使得谣言检测结果更加准确。
[0182]
在上述实施例的基础上,本实施例中谣言检测模块,具体用于:将所述第一源文本输入所述分类模型的特征提取层,得到所述第一源文本的文本特征;将所述文本特征与所述第一传播结构特征进行拼接后,输入所述分类模型的分类层,得到所述待检测事件的谣言检测结果。
[0183]
在上述实施例的基础上,本实施例中所述分类模型的特征提取层基于循环神经网络模型构建生成;所述分类模型的分类层基于softmax函数构建生成。
[0184]
在上述各实施例的基础上,本实施例中所述传播结构图基于如下步骤构建:以所述样本事件中的第二源文本和各响应推文为节点,根据任意两个节点之间的响应关系构建所述样本事件的传播结构图。
[0185]
在上述实施例的基础上,本实施例中所述响应关系包括转发关系、时间维度关系和评论关系。
[0186]
在上述各实施例的基础上,本实施例中所述第二传播结构特征基于如下步骤获取:将所述样本事件的传播结构图输入所述图卷积神经网络模型中,得到所述图卷积神经网络模型的特征提取层输出的所述样本事件的第二传播结构特征;其中,所述图卷积神经网络模型根据所述样本事件的传播结构图和所述样本事件的谣言检测标签进行训练获取。
[0187]
在上述各实施例的基础上,本实施例中传播结构特征生成模块,具体用于:对所述第一源文本进行预处理;其中,所述预处理包括去除乱码数据和文本向量化处理;将预处理后的第一源文本输入所述条件变分自编码器中,得到所述待检测事件的第一传播结构特征。
[0188]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(communications interface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行基于生成传播结构特征的早期谣言检测方法,该方法包括:获取待检测事件的第一源文本;将所述第一源文本输入条件变分
自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征;其中,所述条件变分自编码器根据样本事件的第二源文本和第二传播结构特征进行训练获取;所述第二传播结构特征基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得;所述传播结构图根据所述样本事件的第二源文本和所述第二源文本对应的响应推文构建获取;将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果;所述分类模型根据所述第二源文本信息和第二传播结构特征,以及所述样本事件的谣言检测标签进行训练获取。
[0189]
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0190]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于生成传播结构特征的早期谣言检测方法,该方法包括:获取待检测事件的第一源文本;将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征;其中,所述条件变分自编码器根据样本事件的第二源文本和第二传播结构特征进行训练获取;所述第二传播结构特征基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得;所述传播结构图根据所述样本事件的第二源文本和所述第二源文本对应的响应推文构建获取;将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果;所述分类模型根据所述第二源文本信息和第二传播结构特征,以及所述样本事件的谣言检测标签进行训练获取。
[0191]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于生成传播结构特征的早期谣言检测方法,该方法包括:获取待检测事件的第一源文本;将所述第一源文本输入条件变分自编码器中,得到所述条件变分自编码器生成的所述待检测事件的第一传播结构特征;其中,所述条件变分自编码器根据样本事件的第二源文本和第二传播结构特征进行训练获取;所述第二传播结构特征基于图卷积神经网络模型对样本事件的传播结构图进行特征提取获得;所述传播结构图根据所述样本事件的第二源文本和所述第二源文本对应的响应推文构建获取;将所述第一源文本和第一传播结构特征输入分类模型中,得到所述分类模型输出的所述待检测事件的谣言检测结果;所述分类模型根据所述第二源文本信息和第二传播结构特征,以及所述样本事件的谣言检测标签进行训练获取。
[0192]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0193]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0194]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献