一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于门控机制的多模态融合谣言早期检测方法及系统

2022-08-23 18:43:42 来源:中国专利 TAG:


1.本发明属于人工智能识别技术领域,具体涉及一种基于门控机制的多模态融合谣言早期检测方法及系统。


背景技术:

2.在这个信息爆炸的时代,社交媒体推文的激增使得依靠人工追踪揭穿假消息的事实核查网站在效率和覆盖面等方面都显现出了不足,因此开发自动化谣言检测模型成为社会的迫切需要。自动化谣言检测指从谣言事件中提取文本、传播、用户配置资料等相关特征,构建模型使其应用所提取的相关特征对谣言进行分类的任务,随着带注释的谣言检测数据集,如weibo、 twitter15、twitter16的出现,应用机器学习和深度学习技术训练有监督的分类器进行谣言检测成为主流。近几年多模态融合技术被广泛的应用于深度学习的多项研究中,结果表明相较于提取单一模态特征,提取要解决问题中的多种模态的特征,通过适合下游问题的融合技术刻画多模态特征之间的关系,并应用多模态联合表示特征解决目标问题更有效。受到多模态融合的启发,在谣言检测领域研究者们针对不同的数据集,提取新闻事件样本中的多种模态特征共同用于谣言检测。
3.目前谣言检测模型主要分为两类,其中基于单模态特征的模型虽然设计了先进的网络结构提取相关特征,但单模态特征往往不能提供完备的谣言检测信息。例如对于文本特征,谣言往往会使用含糊不定或干扰公众判断的词语,使得模型无法准确对其鉴别;对于传播结构特征,仅通过谣言的传播结构相关信息进行谣言检测在准确率上也无法保证。
4.对于某些特殊情况,例如谣言传播的早期阶段,谣言的回复信息十分有限,此时谣言的传播结构中可能只有极少的回复信息,则基于图卷积网络的传播结构特征编码器能提取的传播结构信息较少,在这种情况下其他多模态融合方法可能会编码大量无意义的交互信息,这可能对模型的性能产生影响。


技术实现要素:

5.为了解决现有技术中存在的问题,本发明提供一种基于门控机制的多模态融合谣言早期检测方法,基于门控机制的模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征。
6.为了实现上述目的,本发明采用的技术方案是:基于门控机制的多模态融合谣言早期检测方法,包括以下步骤:
7.待检测数据集中包含谣言事件的原始新闻文本和传播信息,去除所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵a的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵a包含传播的结构信息,特征矩阵x包含传播的内容信息;
8.采用预训练的bert base模型提取所述原始新闻文本的语义特征,采用基于textcnn的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征x
topic
,并将并将主题特征x
topic
作为语义特征x
se
的指导;将主题特征x
topic
与语义特征x
se
通过交叉注意机制得到主题信息加权后的语义特征,基于gru中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征x
t

9.基于图卷积神经网络提取传播结构模态特征编码:使用pagerank算法计算传播结构图的 pagerank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵a提取谣言传播结构自上而下和自下而上两个方向的特征;
10.基于门控机制的模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征xf;
11.将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
12.采用预训练的bert base模型提取谣言原始文本的语义特征,预训练的bert base模型包含12个堆叠的transformer encoder层,将谣言原始文本发明本r输入经过预训练的bert模型,选取最后一层输出为谣言原始文本的词嵌入向量,并对输出进行padding,将长度小于预设值的每一列补0,得到包含句意的词嵌入特征x
bert

13.x
bert
=padding[bert(r)]
[0014]
将所述词嵌入特征按文本顺序输入双向lstm网络并将两个方向的输出级联,作为谣言的语义特征x
se
:
[0015][0016]
在整个模型的训练过程中,将预训练的bert部分的参数冻结,仅更新bi-lstm的参数;
[0017]
预训练一个基于textcnn的短文本主题分类器;训练中应用dropout和梯度裁剪,将原始新闻文本的word2vec词嵌入输入经过预训练的textcnn模型中,输出softmax前一层的向量作为原始新闻文本的主题特征向量x
topic

[0018]
x
topic
=textcnn(r)。
[0019]
基于主题语义融合网络,将主题特征x
topic
与语义特征x
se
通过交叉注意机制得到主题信息加权后的语义特征,具体为:x

se
=k
t
x
se
,其中权重
[0020]
基于gru中更新门的思想,将所述加权后的语义特征与主题特征通过一个带有sigmoid 激活函数的全连接层生成更新向量v,加权后的语义特征通过以tanh为激活函数的全连接层产生一个新的候选向量o,对两部分进行线性插值,得到主题指导的高阶文本特征x
t

[0021]
v=σ([x

se
,x
topic
]wv bv)
[0022]
o=tanh(x

se
wo bo)
[0023]
x
t
=v*x
topic
(1-v)*o
[0024]
式中:wv,wo,bv,bo为可训练的参数矩阵及偏差项。
[0025]
基于图卷积神经网络提取传播结构模态特征编码时:计算出传播图的pagerank值
v:
[0026][0027]at
为邻接矩阵的转置矩阵,d为阻尼因子,n为传播图中节点的个数;
[0028]
使用上式计算谣言传播结构图中各节点的pagerank,v={v1,v2,...vn}并用于特征加权,得到谣言回复的加权文本特征
[0029]
自上而下和自下而上两个方向提取谣言传播结构特征采用:
[0030][0031]
式中:a=a i。
[0032]
图卷积神经网络训练过程中应用dropedge方法在每个epoch中从输入图中以固定比率随机丢弃一部分边,设定随机丢弃的比率为p
drop
,经过dropedge后输入传播结构特征编码器的邻接矩阵变为:a

a-a
drop

[0033]
基于门控机制的模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征xf具体为:
[0034]
首先将自上而下和自下而上两个方向的传播结构特征和分别通过两个门控单元,生成的用于交叉筛选的权重向量g1,g2:
[0035][0036]
式中:w1,w2,b1,b2分别为可训练的参数矩阵和偏差;通过g1,g2分别筛选出和中对谣言检测有意义的部分,并将两部分级联得到
[0037][0038]
将主题指导的高阶文本特征x
t
经过另一个门控单元生成用于加权融合多模态特征的权重向量g3:
[0039]
g3=σ(x
t
w3 b3)
[0040]
式中:w3,b3分别为可训练的参数矩阵和偏差,通过g3对经过筛选并级联组合的传播结构特征r和主题指导的高阶文本特征x
t
进行线性插值,根据主题指导的文本特征筛选出传播结构特征和文本特征中对谣言检测任务有意义的部分;主题指导的高阶文本特征x
t
加入线性插值后的向量,最终输出多模态联合表示特征xf:
[0041][0042]
将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率时,通过最小化预测值分布与真实结果分布之间的交叉熵损失函数来训练模型中的参数,损失函数为:
[0043][0044]
式中:θ=[θ
t

p
,θf,θd]为谣言检测模型中所有可训练的参数,为一个batch的样本数量,为样本分类类别,为样本i的ground truth标签,若样本i属于第j类则向量中第j维的数值为1,否则为0,y
i,j
为模型的预测结果,为模型中所有可训练参数θ的l2正则化,用于防止训练的模型过拟合,其中λ表示相应的权衡系数。
[0045]
另一方面,本发明还提供一种基于门控机制的多模态融合早期谣言检测系统,包括数据预处理模块、高阶文本特征获取模块、谣言传播结构提取模块、特征融合模块以及谣言监测模块;
[0046]
数据预处理模块用于去除待检测数据集中所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵a的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵a包含传播的结构信息,特征矩阵x 包含传播的内容信息;
[0047]
高阶文本特征获取模块用于采用预训练的bert base模型提取所述原始新闻文本的语义特征,采用基于textcnn的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征 x
topic
,并将并将主题特征x
topic
作为语义特征x
se
的指导;将主题特征x
topic
与语义特征x
se
通过交叉注意机制得到主题信息加权后的语义特征,基于gru中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征x
t

[0048]
谣言传播结构提取模块用于根据图卷积神经网络提取传播结构模态特征编码,计算传播结构图的pagerank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵a提取谣言传播结构自上而下和自下而上两个方向的特征;提取谣言传播结构的图卷积神经网络包括两个图卷积层以及激活函数;再将所述两个方向的特征进行平均池化和级联得到高阶传播结构特征x
p

[0049]
特征融合模块用于基于门控机制的模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征xf;
[0050]
谣言监测模块用于将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
[0051]
本发明也提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现本发明所述基于门控机制的多模态融合谣言早期检测方法。
[0052]
同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于门控机制的多模态融合谣言早期检测方法。
[0053]
与现有技术相比,本发明至少具有以下有益效果:
[0054]
本发明在获取高阶文本特征编码部分,不同于其他模型只关注于谣言的语义信息,本发明考虑不同主题谣言的文本特征存在差异,本发明除了通过预训练的bert模型提
取谣言文本的语义特征外,还预训练了一个双通道的textcnn主题特征分类模型用于提取谣言的主题特征,将主题特征和语义特征通过一个主题语义融合网络,该网络根据谣言的主题分类信息对语义特征进行重要性加权,并最终将加权的语义特征和主题特征进行融合生成主题指导的高阶文本特征;在传播结构特征编码部分,基于pagerank影响力加权的双向gcn网络不同于注意力机制,双向gcn网络可以有效利用节点的相对位置信息并识别谣言传播过程中的重要节点,在 gcn编码前对节点进行影响力加权以提取更精确的传播结构特征,基于门控机制的模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征;经过训练的多模态门控融合模型可以筛选出传播结构特征中有用的信息,并动态划分传播结构特征和文本特征的权重,以在传播信息不足的情况下达到良好的谣言检测性能。
附图说明
[0055]
图1为基于多模态融合的谣言检测网络框架示意图。
[0056]
图2(a)谣言的原始文本示例,图2(b)谣言的转发/回复关系示例。
[0057]
图3体现回复对于谣言检测任务的意义。
[0058]
图4为谣言回复的关系信息以及文本信息。
[0059]
图5为textcnn主题分类模型,其中包括静态和动态两个通道。
[0060]
图6为主题语义融合网络示意图。
[0061]
图7为基于门控机制的多模态融合模型示意图。
[0062]
图8比较不同模型对weibo数据集上早期谣言检测结果示意图。
[0063]
图9比较不同模型对twitter15数据集上早期谣言检测结果示意图。
[0064]
图10比较不同模型对twitter16数据集上早期谣言检测结果示意图。
具体实施方式
[0065]
下面结合附图对本发明进行详细阐述。
[0066]
本发明首先给出目标问题的数学表示,之后阐述本发明提出的多模态谣言检测模型的总体框架,最后介绍了目标数据集的预处理以及多模态特征编码的方案。
[0067]
谣言检测的数学表示:将目标谣言检测数据集记为为谣言事件样本数,每个si={ri,gi,ui}∈表示一个谣言事件,ri和gi分别表示谣言事件的文本和传播关系信息,表示样本的相关回复,其中表示原始谣言,为了叙述清晰,本发明省略样本的下标,则每个谣言事件记为s={r,g,u}。
[0068]
对于weibo数据集,样本标签为二分类[tr,fr],分别表示真消息(true rumor)和假消息 (false rumor),样本标签由新浪社区管理中心的认定,该中心报告了各种虚假信息;而对于twitter15、twitter16数据集,样本标签则为相对复杂的四分类[tr,fr,ur,nr],分别表示真消息(true rumor)、假消息(false rumor)、尚未核实的消息(unverified rumor)以及非谣言消息(non
‑ꢀ
rumor),样本的分类则是根据消息所属的新闻在辟谣网站(如snopes,emergent.info)上的标签和消息的立场决定,其中nr表示原始推文不能被定义
为谣言(没有事实根据的消息)的范畴。
[0069]
为了模拟早期谣言传播的过程,本发明设置一系列时间节点{t1,t2,...,t6},分别对应 {0h,2h,4h,6h,12h,24h},针对每个时间节点,只将节点之前的回复u
t≤ti
作为谣言的传播结构信息输入模型进行谣言检测:
[0070][0071]
式中:θ
t

p
,θf,θd分别为文本特征编码器、传播结构特征编码器、多模态特征融合模块和谣言检测层中的参数,p
tr
,p
fr
,p
ur
,p
nr
分别为谣言事件所属类别的概率(对weibo数据集则为二分类),最终每个样本输出的概率得分最高的类别则为模型预测的谣言类别。
[0072]
多模态谣言检测框架:基于单模态特征的模型虽然设计了先进的网络结构提取相关特征,但单模态特征往往不能提供完备的谣言检测信息。例如对于文本特征,谣言往往会使用含糊不定或干扰公众判断的词语,使得模型无法准确对其鉴别;对于传播结构特征,仅通过谣言的传播结构相关信息进行谣言检测在准确率上也无法保证。因此本发明提出了基于多模态融合的谣言检测框架。模型流程示意参考图1,包括三部分:特征编码模块、特征融合模块和谣言检测层。
[0073]
特征编码模块包括文本特征编码器e
t
和传播结构特征编码器e
p
,在文本特征编码部分,本发明通过预训练的bert模型提取考虑上下文信息的文本语义特征,谣言检测层将融合后的多模态联合表示特征输入全连接层和softmax函数对谣言进行分类。
[0074]
数据集中的谣言为短文本,大多具有唯一主题,且谣言的主题信息与真伪性存在一定的联系,本发明预训练一个基于textcnn的主题特征分类模型以提取谣言的主题特征用于谣言检测,之后本发明设计一个主题语义融合网络,所述主题语义融合网络根据主题特征定位文本的重要部分并生成主题指导的高阶文本特征,对于检测主题明确的谣言所述高阶文本特征相较于单一的语义特征具有明显优势。在传播结构特征编码部分,本发明将反映传播关系的邻接矩阵和反映传播结构中回复内容的特征矩阵共同输入本发明设计的基于pagerank影响力加权的双向gcn网络,以提取更精确的传播结构特征。
[0075]
特征融合模块ef具体一种基于门控机制的多模态融合模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征最后的谣言检测层d将融合后的多模态联合表示特征输入全连接层和softmax函数对谣言进行分类。
[0076]
下面首先介绍本发明数据集的预处理工作以及本发明提出的多模态融合谣言检测框架中多模态特征编码部分的模型。
[0077]
图1为一种基于多模态融合的谣言检测网络框架,首先分别通过pagerank影响力加权的 gcn网络和主题语义融合网络编码谣言事件中传播结构模态和文本模态的特征;之后将多模态特征通过特征融合模型,最终将特征融合模块输出的多模态联合表示特征输入谣言检测层进行谣言分类。
[0078]
多模态特征编码器
[0079]
数据集预处理:本发明将目标数据集预处理为相同的格式,下面以原始数据集的一个样本为例,如图2所示,一个样本包含的信息分为两部分,一部分为谣言的原始文本,如图2(a)所示,图中给出了两个样本的示例,除此之外每个文本还包含一个其对应的唯一文
本id和它的真实性标签,另一部分为谣言样本的传播信息,如图2(b)所示,每一行是一条传播信息,每个’[]’中包含一个三元组,其中的信息依次为回复/转发者的用户id、用户发布文本的id、回复/转发时间(以分钟为单位),
’‑
》’左边为被转发/回复文本,右边为相应的转发/回复,如果
’‑
》’前后id 相同则表示转发,id不同则表示回复。
[0080]
本发明分别对样本的两部分信息进行预处理:针对文本部分,由图2(a)所示,由于数据集文本为爬虫获取,文本末尾出现’url’标识,且由于数据的获取来源为社交媒体,因此部分文本中存在表情或话题标志’#话题’,这些部分对于文本语义特征提取模型没有帮助甚至会产生存在误导的信息,因此对其进行数据清洗删除这些部分。
[0081]
对于谣言的传播信息部分,假消息制造者可以通过伪造大v账号等方式增加谣言的可信度,且随着时间的推移,用户的配置文件存在较大变化,这些都会对谣言检测产生极大的干扰,因此本发明的方法不考虑谣言发布者的用户信息。其次,由于社交媒体中可能出现买水军转发谣言或不明真相的群众转发的情况,由此谣言的转发信息可能对谣言检测产生干扰,同时从转发中获取不到任何对于谣言的态度信息,而针对谣言的回复则更有参考价值,例如官方权威账号或了解真相的网友会在谣言下进行回复辟谣,对可信度较高的消息,网友会对其进行肯定的回复,而对于虚假或尚不明确的消息,网友也会对其发布质疑的评论,如图3所示,回复可以为模型提供更有价值的信息用于谣言检测:该谣言中用户的质疑使得模型将其识别为假消息的概率更高。
[0082]
因此,本发明只考虑传播结构中的回复,其相关信息进行预处理可分为两部分:回复的传播关系和回复的文本内容,两者共同用于后续模型的传播结构特征编码。首先从图2(b)中所示的传播信息中提取回复信息:根据
’‑
》’指示的回复关系构造谣言的传播结构,如图4所示,每一行为一条回复的信息,第一列为该谣言回复结构中原始谣言的id,第一列相同则表示节点在同一个回复树中,第2列和第3列分别为回复在该树中父节点的索引以及自身节点的索引,将谣言的回复树用邻接矩阵a=(a
ij
)n×n来刻画,其中:
[0083][0084]
除了回复的传播关系外,本发明还提取了回复的文本信息,将数据集中涉及的所有单词作为整个语料库,将每条回复作为一个文档,由于信息检索与数据挖掘中的tf-idf值对语料库中的单词进行加权简单而高效,因此选择tf-idf值来挖掘文档中的关键词。一个词的tf-idf 值为词频tf与逆文档频率idf的乘积,词频其中n
i,j
表示词条ti在文档dj中出现的次数,为逆文档频率,其中|d|表示所有文档的数量,|j:ti∈dj|表示包含词条ti的文档数量,分母加1避免包含词条的数量为0所导致的运算出错,一般而言某个词在文档中的tf-idf越大,这个词的重要性会越高。本发明选取tf-idf值最高的前5000个单词,根据tf-idf值确定每个样本传播结构中每一条回复的特征向量。
[0085]
最终一条谣言样本的传播结构表示为基于回复关系的图结构,其中每个节点为一
条回复,它们的特征根据基于tf-idf值获得的特征向量嵌入,将回复特征按邻接矩阵a的顺序排列,得到每条谣言事件中所有回复信息的特征x=[x1,x2,

,xn]。其中邻接矩阵a包含传播的结构信息,特征矩阵x包含传播的内容信息。
[0086]
本发明谣言事件的文本模态特征和传播结构模态特征进行编码。
[0087]
1)文本模态特征编码
[0088]
对于谣言事件中谣言文本的语义特征提取,经过masked lm和nsp训练的bert模型在提取单词级特征时,还考虑到单词所属句子的上下文信息,使得每个单词的特征都考虑到整个句子的句意信息,有助于更好的挖掘谣言文本中每个词所蕴含的信息。本发明选用预训练的 bert base模型提取谣言文本的语义特征,bert base模型包含12个堆叠的transformer encoder 层,每层self-attention head=12,每个符号(token)对应的输出维数hidden units=768,本发明所研究的目标数据集的语料为日常通用词汇。本发明所述谣言文本为包含谣言的原始新闻文本,将文本r输入经过预训练的bert模型,选取最后一层输出为谣言文本的词嵌入向量,并对输出进行padding,将长度小于预设值的每一列补0,作为示例,预设值为50,得到包含句意的词嵌入特征x
bert

[0089]
x
bert
=padding[bert(r)]
ꢀꢀ
(3)
[0090]
在此之后,将词嵌入特征按文本顺序输入双向lstm网络并将两个方向的输出级联,作为谣言的语义特征x
se
:
[0091][0092]
在整个模型的训练过程中,将预训练的bert部分的参数冻结,仅更新bi-lstm的参数作为面向谣言检测任务的微调。
[0093]
由于目标数据集中的谣言为短文本,且大都具有明确的主题,不同主题的谣言对谣言检测有意义的特征不同,因此主题特征可能为谣言检测提供重要线索。本发明考虑提取谣言的主题特征,并将其作为文本语义特征的指导。本发明预训练一个基于textcnn的短文本主题分类器,如图5所示,模型的输入为谣言文本word2vec词嵌入,对输入词嵌入做卷积处理,选择尺寸为[2,3,4]的三种卷积核,分别对应着n-gram模型,使得特征信息包含临近词信息,接下来对卷积输出的向量做全局的max-pooling,并将不同卷积的结果拼接起来,最终通过全连接层和softmax函数预测分类结果。需要说明的是预训练的textcnn有两个通道,一个为静态通道,另一个为动态通道,在训练过程中静态通道的词嵌入向量保持不变,而动态通道可以通过反向传播来微调词嵌入向量,使其更加适用于当前的训练中,训练该模型所使用的数据集数量充足,使得多通道的模型不会出现过拟合的情况。
[0094]
训练过程中,模型每个尺寸的卷积核有100个,激活函数选择relu,为了防止过拟合在训练中应用dropout和梯度裁剪。对于英文文本,本发明在dbpedia中选择56w条短文本用于训练和测试,按照话题分为14类(经济、体育、教育、自然、电影、艺术等);对于中文文本,数据集是从thucnews中抽取的20w条新闻标题,文本长度在20到30之间。一共为10个类别(股票、教育、科技、社会、时政等),每类2w条。将新闻文本的word2vec词嵌入输入经过预训练的textcnn模型中,输出softmax前一层的向量作为新闻文本的主题特征向量x
topic

[0095]
x
topic
=textcnn(r)
ꢀꢀ
(5)
[0096]
其中,新闻文本为所述数据集中的每个样本的原始新闻。
[0097]
为了使模型关注文本中与主题相关且对谣言检测更具意义的部分,并将主题信息和文本信息融合,本发明设计了一个主题语义融合网络。如图6所示,首先将主题特征x
topic
与语义特征 x
se
通过交叉注意(cross attention)机制得到主题信息加权后的语义特征:x

se
=k
t
x
se
,其中权重借鉴gru中更新门的思想,将加权后的语义特征与主题特征通过一个带有sigmoid激活函数的全连接层生成更新向量v,此外加权后的语义特征通过以tanh为激活函数的全连接层产生一个新的候选向量o,最后对两部分进行线性插值,得到主题指导的高阶文本特征x
t
,即:
[0098]
v=σ([x

se
,x
topic
]wv bv),
[0099]
o=tanh(x

se
wo bo),
ꢀꢀ
(6)
[0100]
x
t
=v*x
topic
(1-v)*o
[0101]
式中:wv,wo,bv,bo为可训练的参数矩阵及偏差项。
[0102]
2)传播结构模态特征编码
[0103]
谣言的传播结构看作是一个图结构的社交网络,图卷积神经网络gcn适合提取此类结构性特征。在一个谣言传播事件中原始谣言在整个结构中的重要程度远远大于其回复,而直接应用gcn提取结构性特征时将传播图中的所有节点等同看待,使得模型在特征提取的过程中缺少对重要节点的关注,这与谣言检测问题的实际需求不符。针对此问题,本发明使用pagerank 算法对katz中心性值用每个节点的出度进行稀释,pagerank算法最初被提出用于计算互联网网页重要度排名,主要针对有向图进行,希望被引用次数多的网页具有更高的pagerank值(pr 值),一个节点的pr值的计算公式为:
[0104][0105]
由于谣言由根节点向下传播,因此将邻接矩阵的转置矩阵a
t
作为转移矩阵。从数学角度,给定n个节点的有向图,pagerank考虑一个随机游走模型,即一阶马尔科夫链,节点间的转移概率相等,另考虑一个完全随机游走,即一个节点到任一节点转移概率都为1/n,两部分的线性组合构成新的马尔可夫链,得到有向图的pagerank值,具体为:
[0106][0107]
式中:d为阻尼因子,易证该马尔可夫链具有平稳分布,已知转移矩阵,pagerank值可由公式(8)得出:
[0108][0109]
本发明使用公式(9)计算谣言传播结构中各节点的pagerank,v={v1,v2,...vn},并用于特征加权,得到谣言回复(即原始新闻回复)的加权文本特征
[0110]
为了获取更丰富的传播结构信息,本发明提取谣言传播结构自上而下和自下而上两个方向的特征,提取谣言传播结构包括两个图卷积层以及激活函数,两个方向的传播结构特征提取通过公式(10)完成:
[0111][0112]
式中:a=a i。为了防止过拟合,在训练过程中用dropedge 方法在每个epoch中从输入图中以固定比率随机丢弃一部分边,使得输入数据的随机性和多样性等到提升,设定随机丢弃的比率为p
drop
,则经过dropedge后输入传播结构特征编码器的邻接矩阵变为:a

a-a
drop

[0113]
本发明用一种基于门控机制的多模态融合模型,基于门控机制的模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征,该模型的结构参考图7。
[0114]
具体而言,首先将(通过pagerank加权的双向gcn网络提取的)自上而下和自下而上两个方向的传播结构特征和分别通过两个门控单元,生成的用于交叉筛选的权重向量 g1,g2:
[0115][0116]
式中:w1,w2,b1,b2分别为可训练的参数矩阵和偏差;通过g1,g2分别筛选出和中对谣言检测有意义的部分,并将两部分级联得到
[0117][0118]
另外,将主题指导的高阶文本特征x
t
经过另一个门控单元生成用于加权融合多模态特征的权重向量g3:
[0119]
g3=σ(x
t
w3 b3)
ꢀꢀ
(13)
[0120]
式中:w3,b3分别为可训练的参数矩阵和偏差。通过g3对经过筛选并级联组合的传播结构特征r和主题指导的高阶文本特征x
t
进行线性插值,即根据主题指导的文本特征筛选出传播结构特征和文本特征中对谣言检测任务有意义的部分;在谣言传播早期,传播结构信息可能出现匮乏的情况,而文本信息在初期可以保持完整,本发明将主题指导的高阶文本特征x
t
加入线性插值后的向量,最终输出多模态联合表示特征xf:
[0121][0122]
经过训练的多模态门控融合模型可以筛选出传播结构特征中有用的信息,并动态划分传播结构特征和文本特征的权重,以在传播信息不足的情况下达到良好的谣言检测性能。
[0123]
多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率:
[0124]
y=softmax(fc(xf))
ꢀꢀ
(15)
[0125]
模型通过最小化预测值分布与真实结果分布之间的交叉熵损失函数来训练模型
中的参数,损失函数为:
[0126][0127]
式中:θ=[θ
t

p
,θf,θd]为谣言检测模型中所有可训练的参数,为一个batch的样本数量,为样本分类类别,为样本i的ground truth标签,若样本i属于第j类则向量中第j维的数值为1,否则为0,y
i,j
为模型的预测结果。为模型中所有可训练参数θ的l2正则化,该项为了防止训练的模型过拟合,其中λ表示相应的权衡系数。
[0128]
模型训练过程如算法1所示:
[0129][0130][0131]
本发明所有实验均在nvidia rtx 2080ti gpu的服务器上进行,使用python3.7在pytorch 框架下实现;本发明的实验在三个被广泛应用的谣言检测数据集上进行,它们分别来源于中国和海外最流行的社交媒体:新浪微博和推特。来源于新浪微博的数据集weibo包含了2313条假消息和2351条真消息。另外两个数据集twitter15、twitter16来源于国外社交媒体推特,其中包括数目相近的四类样本:真消息、假消息、尚未核实的消息以及非谣
言信息。除此之外三个数据集还包含丰富的用户信息和传播结构信息,数据集具体的统计信息如表1所示。在预处理部分已经说明在谣言检测中回复所蕴含的信息相较于转发更具意义,因此本发明所提出的谣言检测模型所用到的数据集中的信息(对于每条样本)包括:原始新闻的文本,新闻事件的回复关系,回复的内容信息,以及每个样本的分类标签。
[0132]
表1三个谣言检测数据集的统计信息
[0133][0134]
在文本高阶特征编码器e
t
中,对文本特征x
bert
进行padding,其中padding=50,对文本特征进行编码的双向lstm网络隐藏层维数为64。在特征融合模块ef中,对于基于门控机制的融合模型,前两个门控单元的隐藏层维数为64,第三个门控单元隐藏层维数为128。最后谣言检测层d中的全连接层根据数据集标签类别数对应2(weibo)或4(twitter),模型中dropout 部分的dropout rate为0.2。在训练过程中,采用mini-batch的方式训练神经网络中各项参数θ
t

p
,θf,θd,mini-batch size设置为128,每次迭代中计算的损失为此batch中所有损失的平均值。参数优化器选用adam优化,学习率为0.0002。在每个数据集对应模型的训练过程中,最大迭代epoch=100,并且部署early stopping,耐心值为10,即当验证集损失在之后连续10 个epoch都没有下降时提前停止,选用验证集损失最低的模型。
[0135]
对于本发明提出的基于门控机制的融合模型mm-gate,其相较于单一模态的模型rvnn、 bi-gcn具有明显的优势,为了模拟早期谣言传播的过程,本发明在实验中设置了一系列时间节点,测试时只将节点之前的回复作为谣言的传播结构信息输入模型,对比准确率来衡量模型的早期谣言检测水平。将本发明提出的谣言检测模型与几种包含传播结构特征编码的模型对比, weibo数据集上的实验结果如图8所示,只考虑单一模态(传播结构模态)信息的谣言检测模型 rvnn、bi-gcn在谣言传播早期检测性能较差,相比之下多模态融合的模型在早期展现出较高的准确率,这是由于在谣言传播早期,多模态融合方法获取其他模态特征,这在一定程度上弥补了传播信息缺失的影响。除此之外还对情况更复杂的twitter数据集进行了实验,如图9 和图10所示,实验表明本发明提出的mm-gate模型在三个数据集的早期谣言检测实验均有较高的准确率,这说明了多模态融合门控机制对多模态特征动态加权的有效性。
[0136]
另一方面,本发明还能提供一种基于门控机制的多模态融合早期谣言检测系统,包括数据预处理模块、高阶文本特征获取模块、谣言传播结构提取模块、特征融合模块以及谣言监测模块;数据预处理模块用于去除待检测数据集中所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵a的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵a包含传播的
结构信息,特征矩阵x 包含传播的内容信息;
[0137]
高阶文本特征获取模块用于采用预训练的bert base模型提取所述原始新闻文本的语义特征,采用基于textcnn的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征 x
topic
,并将并将主题特征x
topic
作为语义特征x
se
的指导;将主题特征x
topic
与语义特征x
se
通过交叉注意机制得到主题信息加权后的语义特征,基于gru中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征x
t

[0138]
谣言传播结构提取模块用于根据图卷积神经网络提取传播结构模态特征编码,计算传播结构图的pagerank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵a提取谣言传播结构自上而下和自下而上两个方向的特征;提取谣言传播结构的图卷积神经网络包括两个图卷积层以及激活函数;再将所述两个方向的特征进行平均池化和级联得到高阶传播结构特征x
p

[0139]
特征融合模块用于基于门控机制的模型通过门控单元筛选传播结构特征中对谣言检测有意义的部分,并且自适应地对主题指导的文本特征和筛选后的传播结构特征进行加权融合,最后生成多模态联合表示特征xf;
[0140]
谣言监测模块用于将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
[0141]
综上所述本发明对于谣言文本模态特征编码,应用预训练的句bert模型提取了谣言的语义特征,同时分别针对中英文数据集训练了两个基于textcnn的谣言分类模型用于提取谣言的主题特征,在这之后设计了一个主题语义融合网络共同编码语义和主题特征,该网络针对谣言的主题特征定位对谣言检测更重要的token,并生成相比传统语义特征更高效的主题指导的高阶文本特征。对于传播结构模态特征编码,设计了一个基于pagerank影响力加权的双向gcn 网络,它通过获取传播结构中节点的相对位置信息来计算节点的影响力,最终生成相比传统 gcn网络更有效的传播结构特征。基于门控机制的融合模型,在谣言传播结构稀疏的情况下,它通过门控机制对两个方向的传播结构特征进行交叉筛选,并根据谣言的文本特征对经过筛选后的传播结构特征和主题指导的高阶文本特征进行加权融合,以降低传播结构特征缺失对模型的影响,该模型在早期谣言检测实验中展现出优秀的性能。
[0142]
另外,本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述基于时空概率道路树的轨迹生成与优化方法。
[0143]
另一方面,本发明提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于时空概率道路树的轨迹生成与优化方法。
[0144]
所述计算机设备可以采用桌面型计算机或工作站。
[0145]
处理器可以是中央处理器(cpu)、图形处理器(gpu)、数字信号处理器(dsp)、专用集成电路(asic)或现成可编程门阵列(fpga)。
[0146]
对于本发明所述存储器,可以是桌面型计算机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
[0147]
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(rom, read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solidstate drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体 (reram,resistance random access memory)和动态随机存取存储器(dram,dynamic randomaccess memory)。
[0148]
最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献