基于渐进式多模态融合网络的虚假新闻检测方法及系统

2022-05-27 01:21:38 来源：中国专利 TAG：

1.本发明属于机器学习技术领域，尤其涉及一种基于渐进式多模态融合网络的虚假新闻检测方法及系统。

背景技术：

2.随着移动互联网技术快速发展，社交媒体如：推特、微博等社交应用已成为人们获取海量信息的重要渠道，人们可以轻易地在社交媒体上发布和传播虚假新闻。并且，带有图片的文章在社交媒体上越来越流行，与纯文字文章相比，图片拥有更丰富的信息，更能吸引读者的关注。虚假新闻通常带有误导性或被篡改过的图片与文本相结合。所以，视觉内容已成为虚假新闻检测中不可忽视的重要组成部分，因此，有必要设置一种自动检测虚假新闻的方法对带有图片的文章的真伪性进行检测，以缓解虚假新闻带来的严重负面影响。
3.近年来，虚假信息检测的方法层出不穷，一种方法是人工事实核查，包括专家的事实核查和众包的事实核查两种方法。专家的事实核查准确性高，但费时耗力；众包的事实核查可扩展性强，但核查准确性不高。由于人工事实核查方法的局限性，有些研究人员利用专家知识从新闻文本内容中手工提取特征，然后利用传统的机器学习算法训练虚假新闻分类器，但这种方法缺乏全面性和灵活性。现有的深度学习模型由于具有较强的特征提取能力，能够自动的从新闻内容中提取新闻特征，取得了比较好的性能。
4.随着虚假新闻更加多样化，带有图片的文章的真伪性对虚假信息检测技术提出了更高的要求和挑战，一些基于深度学习的方法已经成功的应用于多模态虚假新闻检测。首先，一些模型如khattar等人利用多模态变分编码器简单的将文本和图片的特征进行提取和融合，但它们特征提取和特征融合方面不够细致。第二，jin等人创建了一个端到端的网络，使用rnn设计的虚假新闻检测模型，该模型利用了局部注意力机制结合文本图像和社会背景特征，wang等人建立了事件对抗神经网络(eann)，利用事件鉴别器学习文章中的文本和图片的特征表示，但增加额外的辅助特征会加大检测的成本。并且，这些方法只考虑了图片的空间域，没有考虑图片的频域，没有对图片信息进行充分的捕捉。第三，wu等人提出了multimodal co-attentionnetworks(mcan)进行虚假信息检测，mcan可以学习多模态特征之间的相互依赖关系，在虚假信息检测上取得了较好的效果，但mcan只关注深层次特征的融合。

技术实现要素：

5.为克服上述现有技术的不足，本发明提供了一种基于渐进式多模态融合网络的虚假新闻检测方法及系统。通过渐进式的融合方法，实现了细粒度的多模态信息融合，提高了检测精度。
6.为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：
7.一种基于渐进式多模态融合网络的虚假新闻检测方法，包括以下步骤：
8.获取待检测新闻数据，所述新闻数据包括图像信息和文本信息；
9.基于预训练的虚假新闻检测模型，对所述待检测新闻数据进行检测；其中，所述虚假新闻检测模型包括文本特征编码器、视觉特征编码器、特征融合器和分类器；
10.其中，所述视觉特征编码器包括依次相连的n级视觉特征提取块，所述特征融合器包括依次相连的n级特征融合块，所述文本特征编码器的输出端连接至第1级特征融合块；第i级视觉特征块的输出端均连接至第i级特征融合块，i《n；第n级视觉特征提取块和第n-1级特征融合块的输出端，均连接至第n级特征融合块。
11.进一步地，所述视觉特征编码器包括空间域特征编码器和频域特征编码器。
12.进一步地，获取待检测新闻数据后，对于其中的图像信息，进行图像分割，得到多个非重叠的k
×
k大小的补丁；将每个补丁展开，并提取r、g、b三分量，得到k
×k×
3大小的特征向量，通过线性嵌入层输入空间域特征编码器；
13.所述空间域特征编码器中，每个下一级视觉特征提取块均对上一级视觉特征提取块得到的特征图进行下采样，及通道扩展。
14.进一步地，获取待检测新闻数据后，对于其中的图像信息，进行离散傅里叶变换，得到频域信息；将频域信息虚部和实部分离并连接，作为频域特征编码器的输入。
15.进一步地，所述文本特征编码器采用双向transformer预训练模型进行特征提取。
16.进一步地，所述第1级特征融合块对于得到的空间域视觉特征、频域视觉特征和文本特征，使用多层感知机进行特征融合；然后将融合得到的特征和特征t相结合作为下一级特征融合块的输入。
17.进一步地，所述分类器包括全连接层，所述全连接层的输出通过softmax函数产生分类标签的分布情况。
18.一个或多个实施例提供了一种基于渐进式多模态融合网络的虚假新闻检测系统，包括：
19.数据获取模块，用于获取待检测新闻数据，所述新闻数据包括图像信息和文本信息；
20.虚假检测模块，用于基于预训练的虚假新闻检测模型，对所述待检测新闻数据进行检测；其中，所述虚假新闻检测模型包括文本特征编码器、视觉特征编码器、特征融合器和分类器；
21.其中，所述视觉特征编码器包括依次相连的n级视觉特征提取块，所述特征融合器包括依次相连的n级特征融合块，所述文本特征编码器的输出端连接至第1级特征融合块；第i级视觉特征块的输出端均连接至第i级特征融合块，i《n；第n级视觉特征提取块和第n-1级特征融合块的输出端，均连接至第n级特征融合块。
22.一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述基于渐进式多模态融合网络的虚假新闻检测方法。
23.一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述基于渐进式多模态融合网络的虚假新闻检测方法。
24.以上一个或多个技术方案具有以下有益效果：
25.本发明在特征提取阶段，采用渐进式融合策略捕捉图像和文本两种模态不同层次表征信息，能够更细粒度的融合各模态特征，从而充分挖掘图像和文本所包含的信息，提高
了模型检测精度。
26.对于图像特征，考虑到虚假新闻包含的虚假信息被篡改问题，本发明从空间域和频域两个层面，对图像特征进行提取，提高了模型对于虚假新闻的检测敏感度。
附图说明
27.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。
28.图1为本发明一个或多个实施例中基于渐进式多模态融合网络的虚假新闻检测方法流程图；
29.图2为本发明一个或多个实施例中渐进式多模态特征提取和融合的框架图。
具体实施方式
30.应该指出，以下详细说明都是示例性的，旨在对本技术提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
31.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本技术的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
32.在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
33.实施例一
34.本实施例公开了一种基于渐进式多模态融合网络的虚假新闻检测方法，如图1所示，包括以下步骤：
35.步骤1：获取待检测新闻数据，所述新闻数据包括图像信息和文本信息；
36.步骤2：对所述图像信息进行离散傅里叶变换，得到频域信息；
37.步骤3：基于预训练的虚假新闻检测模型，对所述待检测新闻数据进行检测；其中，所述虚假新闻检测模型包括文本特征编码器、视觉特征编码器、特征融合器和分类器。
38.所述视觉特征编码器包括空间域特征编码器和频域特征编码器；所述空间域特征编码器和频域特征编码器均包括n级视觉特征提取块，n为大于2的自然数；
39.所述特征融合器包括n级特征融合块，其中，第i级特征融合块输出端连接至第i 1级特征融合块输入端，i《n；
40.所述文本特征编码器包括文本特征提取块，其输出端连接至第1级特征融合块；
41.所述空间域特征编码器的第i级视觉特征提取块的输出端分为两路，一路连接至第i 1级视觉特征提取块，另一路连接至第i特征融合块；
42.所述频域特征编码器的第i级视觉特征提取块的输出端分为两路，一路连接至第i 1级视觉特征提取块，另一路连接至第i特征融合块；
43.所述文本特征编码器的输出端连接至第1级特征融合块，所述特征融合块将两路视觉特征和一路文本特征进行融合；
44.所述空间域特征编码器和频域特征编码器的第n级视觉特征提取块的输出端，以
及第n-1级特征融合块的输出端，均连接至第n级特征融合块。
45.本实施例中，以n＝4为例，对特征提取和融合的过程进行具体说明。
46.(一)文本特征编码器
47.多模态虚假新闻检测中，主要包含了文本和图像两种模态的信息。其中，文本是新闻事件的主要表达的方式，为判断新闻的可信程度提供了重要的线索。现有的方法中大多数使用循环神经网络对输入的文本上下文信息进行建模，捕捉文本的表层特征，但是这类方法提取的事实知识是非常有限的，难以捕捉虚假新闻的语义特征。为了更好的提取文本信息的上下文信息和语义信息，我们采用了预训练的bert模型进行文本特征提取。bert在大规模的数据集上训练，具有强大的建模能力，其内部已经学习到了大量的常识知识和语义知识。此外，bert由堆叠的自注意力层组成，能够更好的捕捉上下文之间的联系。
48.具体而言，文本特征编码器的输入为本文中句子序列的单词列表，将句子嵌入到向量中。我们将第f个句子第i个单词的k维向量记为将包含12层编码器双向transformer预训练模型记为bret，然后将t输入到bret中，得到一个关于该句的特征向量，具体如下：
[0049][0050]
其中，vf表示第f个句子经过bert预训练模型编码之后的特征向量，为第f个句子中第n个位置单词所表示的k维的特征向量。对于每一个句子的特征向量，使用均值池化操作从所有的单词中获得整个文本的特征f
t
，得到了文本自身包含的上下文信息和语义信息。
[0051]
(二)视觉特征编码器
[0052]
新闻中包含的图像对判断该文章的真假性同样具有重要的意义，包含图文不符以及恶意篡改的图像的文章往往是不真实的。我们从两方面入手，对图像空间域和频域信息分别进行特征提取，空间域信息注重图像的语义提取，频域信息注重检测图像是否进行修改，被修改的图像在频域空间更容易被检测。
[0053]
图像的空间域方面：在近期工作中，transformer被广泛的应用于许多图像理解的任务中，并且取得了成功。在这里，我们采用了在imagenet数据集将进行预训练的swint提取视觉的空间语义特征。我们采用了四个swin transformer block对视觉特征进行不同程度的特征提取。
[0054]
具体来说，首先通过补丁分割模块将图像分割为非重叠的补丁。每个补丁视为一个标记，在这里我们设置补丁的大小为4x4，然后将每个rgb补丁展开，我们得到一个4x4x3大小的特征向量，使用线性嵌入层将该向量映射到dim＝96的特征空间中。接下来经过分层表示，通过4个stage，其中经过每个stage后，每个特征图下采样到之前的2倍，通道数扩展到之前的2倍，并且输入到下一个stage中。这里表示为：
[0055]
stagei＝swinb(σ(w
×
stage
i-1
))
[0056]
其中，stagei和stage
i-1
分别为第i层的输出和输入，swinb为swintransformer block，由堆叠的self attention组成，4层的stage包含的self attention的layer和heads分别采用了[2,2,6,2]和[3,6,12,24]，w为下采样的学习参数。经过第4层输出的特征向量通过线性层映射为线性向量。
[0057]
图像的频域方面：一些研究工作表明，篡改之后的图像在频域空间中更容易被检测。考虑虚假新闻包含的虚假信息被篡改问题，我们将图像频域信息进行特征提取指导虚假新闻检测。首先我们使用离散傅里叶变换(dct)将图像从空间域转换到频域，为了得到一个更深层次的特征我们采用vgg19作为特征提取器，将频域信息虚部和实部分离并连接后输入到vgg19中，得到一个深层的语义向量。
[0058]ff
＝vgg19(concat(if
img
,if
real
))
[0059]
其中，if
img
表示图像频域信息的虚部，if
real
表示图像频域信息的实部。经过离散傅里叶变换之后特征相对于之前工作中使用的离散余弦变换包含了更多的信息。
[0060]
(三)特征融合器
[0061]
新闻中的图像信息和文字信息是相互补充的，我们在阅读新闻时经常将图像和文字对照，所以在虚假新闻检测中，文字和图像信息之间的融合是至关重要的一部分。我们设计了一种渐进式融合方式，将图像的浅层信息和文字信息阶段式处理，充分的利用了图像和浅层信息。我们采用mlp mixer block作为图像的融合模块，更细粒度的融合不同模态之间的特征信息。
[0062]
在图像方面，空间域特征提取器在不同的阶段，得到不同深度的特征。按照提取器的顺序我们将这4个包含不同深度的特征分别记为stage1,2,3,4。在频域空间方面，我们将vgg19的第2,4,8,16卷积层的特征图分别记为v1,2,3,4。文字特征提取器提取的本文特征记为t。以浅层特征stage1为例的融合为例，第1级特征融合块被配置为执行以下操作：
[0063]
(1)通过一层卷积核为3的卷积层将stage1和v1通道数c扩展至512；对扩展之后的特征图进行平均池化，得到b*512*1*1大小的特征图；对特征图进行扁平化处理，并进行线性映射，得到1000维的特征向量；
[0064]
(2)将stage1、v1和t三个向量分别在dim1上扩展为(b，3,1000)维度向量平衡不同模态的分布，然后将这3个特征向量在维度1上拼接为一个形状为(b,9,1000)的特征f；
[0065]
(3)将f使用两层mlp在维度2上进行特征融合，然后将融合后的特征进行转置操作，使用mlp进行特征融合，实现了原特征在维度1上的融合操作，最后进行逆变换进行特征压缩，恢复成和特征t相同大小的特征向量；
[0066]
(4)将融合之后得到的特征作为残差模块和特征t相结合，减少模型风险，提升特征提取能力。
[0067]
fi＝mlp mixer(cat(stagei,vi,t)) t
[0068]
其中，mlp mixer表示基于线性层的特征融合器。我们使用relu和layernorm提高融合能力。图像和文本的特征由浅到深进行渐进式的融合，提高不同模态特征之间的关联度。
[0069]
对于第2级特征融合块，则是以上一级特征融合块的输出特征、stage2和v2为基础进行融合，具体实现过程参见第1级，区别是将文本特征t替换为上一级特征融合块的输出特征；第3级特征融合块，则是以上一级特征融合块的输出特征、stage3和v3为基础进行融合。
[0070]
第4级特征融合块为最终融合，将第3级特征融合块和stage4、v4融合得到最终的特征融合结果。
[0071]
(四)新闻分类器
[0072]
我们将多模态表示融合之后的特征信息输入到全连接层，并将全连接层的输出通过softmax函数产生分类标签的分布情况：
[0073]
p＝softmax(wcx bc)
[0074]
其中，wc和bc是全连接层的参数，在这里我们采用了交叉熵损失函数：
[0075]
l＝-∑[yflog pf (1-yf)log(1-pf)]
[0076]
其中，yf是样本的真实标签，0表示预测该样本是假新闻，1表示预测该样本是真新闻，pf表示该样本所预测的概率。
[0077]
在微博和推特两个数据集上对上述方法进行了评估，检测精度优于现有模型。
[0078]
实施例二
[0079]
本实施例的目的是提供一种基于渐进式多模态融合网络的虚假新闻检测系统。包括：
[0080]
数据获取模块，用于获取待检测新闻数据，所述新闻数据包括图像信息和文本信息；
[0081]
虚假检测模块，用于基于预训练的虚假新闻检测模型，对所述待检测新闻数据进行检测；其中，所述虚假新闻检测模型包括文本特征编码器、视觉特征编码器、特征融合器和分类器；
[0082]
其中，所述视觉特征编码器包括依次相连的n级视觉特征提取块，所述特征融合器包括依次相连的n级特征融合块，所述文本特征编码器的输出端连接至第1级特征融合块；第i级视觉特征块的输出端均连接至第i级特征融合块，i《n；第n级视觉特征提取块和第n-1级特征融合块的输出端，均连接至第n级特征融合块。
[0083]
实施例三
[0084]
本实施例的目的是提供一种电子设备。
[0085]
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一中所述基于渐进式多模态融合网络的虚假新闻检测方法。
[0086]
实施例四
[0087]
本实施例的目的是提供一种计算机可读存储介质。
[0088]
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一中所述基于渐进式多模态融合网络的虚假新闻检测方法。
[0089]
以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0090]
本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0091]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范
围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种学者研究兴趣标签挖掘与演变分析方法、系统及介质

基于渐进式多模态融合网络的虚假新闻检测方法及系统

相关文献

最热文献