一种多模态谣言检测方法及系统

2022-12-31 15:48:59 来源：中国专利 TAG：

1.本发明涉及大数据处理技术领域，尤其涉及一种多模态谣言检测方法及系统。

背景技术：

2.随着通信技术和智能终端的快速发展，网络谣言信息的传播速度也在成倍增长，从开始的单一文本形式发展成图像和文本相结合的多模态体现形式，具有更强的隐蔽性和危害性。尤其是在卫生医疗、食品安全和公共安全等领域的谣言会给社会带来极大的危害，能够及时准确对图像和文本结合的多模态谣言进行准确识别将具有十分重要的意义。
3.目前，基于单一模态内容的谣言检测方法大多单独地使用文本或者图像特征，然而使用单一模态的谣言检测方法并没有充分利用推文的所有内容信息。因此，研究人员开始关注基于多模态内容的谣言检测方法，通常采用整合文本和图像特征的方法来识别假新闻，以提高模型的有效性。由于文本和图像信息的不同性质，多模态谣言检测方法大多采取文本图像特征分别提取后，直接将向量进行拼接的方式来融合多模态信息，向量直接拼接的方法具有操作简单的优点，但同时也具有方法单一的局限性。可以看出，单模态谣言检测算法存在未充分利用文本或图像信息的问题，而一般多模态模型在模态融合利用方法具有一定的局限性，导致模型泛化能力差。

技术实现要素：

4.本发明提供一种多模态谣言检测方法及系统，用以解决现有技术中针对谣言检测采用单模态检测存在未充分利用文本或图像，一般的多模态检测在模态融合方面又存在局限性的缺陷，实现基于预训练transformer模型和交叉注意力机制的多模态谣言检测。
5.第一方面，本发明提供一种多模态谣言检测方法，包括：
6.获取事件检测源数据；
7.采用预训练transformer模型提取所述事件检测源数据的文本特征和视觉特征；
8.基于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；
9.对所述多模态融合特征进行谣言检测，得到谣言事件检测结果。
10.根据本发明提供的一种多模态谣言检测方法，所述获取事件检测源数据之后，还包括：
11.对所述事件检测源数据中的文本数据进行文本预处理，得到预处理文本数据，所述文本预处理包括过滤特殊符号和分词；
12.对所述事件检测源数据中的图像数据进行图像预处理，得到预处理图像数据，所述图像预处理包括图像格式转换、过滤无效数据和统一图像尺寸。
13.根据本发明提供的一种多模态谣言检测方法，采用预训练transformer模型提取所述事件检测源数据的文本特征，包括：
14.将所述预处理文本数据转化为词向量，所述词向量包括任一文本单词和词向量维
度；
15.基于所述任一文本单词和所述词向量维度，得到文本输入矩阵；
16.将所述文本输入矩阵输入至文本分类卷积神经网络模型text-cnn，得到文本语义特征；
17.将所述文本输入矩阵输入至经过预训练的双向编码表征转换器bert，得到文本词特征。
18.根据本发明提供的一种多模态谣言检测方法，采用预训练transformer模型提取所述事件检测源数据的视觉特征，包括：
19.将所述预处理图像数据输入至经过预训练的vit，得到视觉特征。
20.根据本发明提供的一种多模态谣言检测方法，所述基于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征，包括：
21.基于所述文本特征确定文本查询向量和文本键向量，由所述文本查询向量与所述文本键向量进行矩阵相乘，得到文本词注意力矩阵；
22.基于所述视觉特征确定视觉查询向量和视觉键向量，由所述视觉查询向量和所述视觉键向量进行矩阵相乘，得到视觉注意力矩阵；
23.确定文本模态权重、视觉模态权重和偏置值，由所述文本词注意力矩阵、所述文本模态权重、所述视觉注意力矩阵、所述视觉模态权重和所述偏置值进行加权求和，并由softmax逻辑回归函数处理，得到多模态注意力矩阵；
24.将所述多模态注意力矩阵与文本词特征进行矩阵相乘，并与文本语义特征进行矩阵拼接，得到所述多模态融合特征。
25.根据本发明提供的一种多模态谣言检测方法，所述对所述多模态融合特征进行谣言检测，得到谣言事件检测结果，包括：
26.将所述多模态融合特征输入全连接层的权重矩阵，与偏置值求和之后，由softmax逻辑回归函数处理，以获得谣言预测概率；
27.基于所述谣言预测概率，确定所述谣言事件检测结果。
28.第二方面，本发明还提供一种多模态谣言检测系统，包括：
29.获取模块，用于获取事件检测源数据；
30.提取模块，采用预训练transformer模型提取所述事件检测源数据的文本特征和视觉特征；
31.融合模块，用于基于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；
32.检测模块，用于对所述多模态融合特征进行谣言检测，得到谣言事件检测结果。
33.第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多模态谣言检测方法。
34.第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多模态谣言检测方法。
35.第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述多模态谣言检测方法。
36.本发明提供的多模态谣言检测方法及系统，通过引入预训练transformer模型分别提取文本特征和视觉特征，并进行多模态融合后进行检测分类，相比现有方法，更好地利用社交媒体上多模态帖子的信息，检测效果更好，鲁棒性更强。
附图说明
37.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
38.图1是本发明提供的多模态谣言检测方法的流程示意图；
39.图2是本发明提供的多模态谣言检测方法的特征提取结构图；
40.图3是本发明提供的多模态谣言检测方法的特征融合结构图；
41.图4是本发明提供的多模态谣言检测方法的谣言检测结构图；
42.图5是本发明提供的多模态谣言检测系统的结构示意图；
43.图6是本发明提供的电子设备的结构示意图。
具体实施方式
44.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.下面结合图1-图6描述本发明的多模态谣言检测方法及系统。
46.图1是本发明提供的多模态谣言检测方法的流程示意图，如图1所示，包括：
47.步骤100：获取事件检测源数据；
48.步骤200：采用预训练transformer模型提取所述事件检测源数据的文本特征和视觉特征；
49.步骤300：基于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；
50.步骤400：对所述多模态融合特征进行谣言检测，得到谣言事件检测结果。
51.需要说明的是，上述方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本发明不作具体限定。
52.具体地，对谣言的事件检测源数据进行预处理，可以是微博，也可以是推特等社交媒体中的内容，一般是对其中的文本数据进行符号过滤和分词处理，对其中的图像数据进行格式转换，去除无效数据，同时转化为统一尺寸。
53.然后进行特征提取，使用文本分类卷积神经网络模型(text-convolutional neural networks，text-cnn)从文本信息中提取文本语义特征，使用预训练的双向编码表征转换器(bidirectional encoder representations from transformers，bert)从文本信息进行提取文本词特征，使用预训练的视觉转换器(vision in transformers，vit)从图像中提取视觉特征。
54.进一步地，将提取得到的文本特征和视觉特征输入多模态特征融合模块，使用交叉注意力机制将文本特征和视觉特征进行特征融合，得到多模态融合特征。
55.最后将多模态融合特征输入至谣言检测模块，进行多模态谣言检测，得到谣言事件检测结果。
56.本发明提出的基于预训练transformer模型和交叉注意力机制的多模态谣言检测模型旨在提高模型对谣言多模态特征的学习能力，相较于单模态的纯文本和纯图像方法，基于预训练transformer模型和交叉注意力机制的多模态谣言检测方法在多种评价指标均有较好的表现。这是因为单模态的方法仅能单独利用数据集中的文本或者图像信息，不能发掘文本和图像潜在的联系特征。
57.本发明通过引入预训练transformer模型分别提取文本特征和视觉特征，并进行多模态融合后进行检测分类，相比现有方法，更好地利用社交媒体上多模态帖子的信息，检测效果更好，鲁棒性更强。
58.基于上述实施例，步骤100之后还包括：
59.对所述事件检测源数据中的文本数据进行文本预处理，得到预处理文本数据，所述文本预处理包括过滤特殊符号和分词；
60.对所述事件检测源数据中的图像数据进行图像预处理，得到预处理图像数据，所述图像预处理包括图像格式转换、过滤无效数据和统一图像尺寸。
61.具体地，为了使输入的事件检测源数据更好地进行特征提取，需要针对文本数据和图像数据分别进行预处理。
62.对文本数据进行数据预处理，将数据集中的谣言短文本序列，通过数据特殊符号清洗和分词处理，得到预处理文本数据。
63.对图像数据进行数据预处理，主要是缩放和标准化操作，进行格式转换后去除无效数据，同时转化为统一尺寸。
64.本发明通过对事件检测源数据进行数据预处理，使文本数据和图像数据具有统一的处理格式，使后续的特征提取和特征融合更精确。
65.基于上述实施例，步骤200中的采用预训练transformer模型提取所述事件检测源数据的文本特征，包括：
66.将所述预处理文本数据转化为词向量，所述词向量包括任一文本单词和词向量维度；
67.基于所述任一文本单词和所述词向量维度，得到文本输入矩阵；
68.将所述文本输入矩阵输入至文本分类卷积神经网络模型text-cnn，得到文本语义特征；
69.将所述文本输入矩阵输入至经过预训练的双向编码表征转换器bert，得到文本词特征。
70.具体地，如图2所示，使用text-cnn从文本信息中提取文本语义特征的步骤如下：
71.首先将输入文本转换为输入向量，其中，文本的第i个词表示为ei∈rk，k为词向量的维度。因此，n个单词的文本输入矩阵表示如下：
72.e
i:n
＝[e0,e1,e2,...,en]
[0073]
其中，n表示句子中的单词数，e0是添加在每个输入示例前面的特殊符号[cls]，将text-cnn模型记为f
text-cnn
，将e
i:n
输入f
text-cnn
后，得到给定句子的语义特征向量，计算如下：
[0074]
tc＝f
text-cnn
(e
i:n
)
[0075]
使用bert提取文本词特征的步骤如下：首先将输入文本转换为输入向量。其中，文本的第i个词表示为ei∈rk，k为词向量的维度。因此，n个单词的文本输入矩阵表示如下：
[0076]ei:n
＝[e0,e1,e2,...,en]
[0077]
其中，n表示句子中的单词数,e0是添加在每个输入示例前面的特殊符号[cls]，将预训练bert-base模型记为f
bert
，e
i:n
将输入f
bert
后，得到给定句子的词特征向量矩阵，计算如下：
[0078]
to＝f
bert
(e
i:n
)
[0079]
基于上述实施例，步骤200中的采用预训练transformer模型提取所述事件检测源数据的视觉特征，包括：
[0080]
将所述预处理图像数据输入至经过预训练的vit，得到视觉特征。
[0081]
具体地，首先将视觉特征表示为v∈rq，将预训练的vit-base模型记为f
vit
，则图像特征提取器中最后一层的操作可以表示为：
[0082]
vo＝f
vit
(v)
[0083]
本发明基于预训练transformer模型和交叉注意力机制的多模态谣言检测方法除了使用text-cnn从文本信息中提取文本的语义特征，还采用将预训练的bert和vit transformer模型分别从文本和图像中提取特征。预训练模型是已经在海量数据进行了训练，更好地学到了数据中的普遍特征，相较于从新开始训练模型，使用预训练模型有更好的泛化效果。
[0084]
基于上述实施例，步骤300包括：
[0085]
基于所述文本特征确定文本查询向量和文本键向量，由所述文本查询向量与所述文本键向量进行矩阵相乘，得到文本词注意力矩阵；
[0086]
基于所述视觉特征确定视觉查询向量和视觉键向量，由所述视觉查询向量和所述视觉键向量进行矩阵相乘，得到视觉注意力矩阵；
[0087]
确定文本模态权重、视觉模态权重和偏置值，由所述文本词注意力矩阵、所述文本模态权重、所述视觉注意力矩阵、所述视觉模态权重和所述偏置值进行加权求和，并由softmax逻辑回归函数处理，得到多模态注意力矩阵；
[0088]
将所述多模态注意力矩阵与文本词特征进行矩阵相乘，并与文本语义特征进行矩阵拼接，得到所述多模态融合特征。
[0089]
具体地，如图3所示，本发明采用多模态特征融合模块负责融合文本和图像特征以进行谣言检测，使用一种基于交叉注意力机制的方法来融合文本和图像特征，而不是简单地连接文本和图像的特征。
[0090]
在得到文本词特征to和视觉特征vo后，为了使文本和视觉信息进行完全交互，本发明将它们输入到多模态注意力融合模块中，通过结合不同模态中单词的表现来调整单词的权重。在得到多模态注意力融合模块的输出x
att
后，本发明在to和vo上使用残差连接来保持数据的原始结构。然后将x
att
输入一个全连接层和一个归一化层。最后，本发明可以得到多模态特征的表示x
att
，本发明使用它作为聚合表示并输入到全连接层中以产生最终的预测结果，多模态注意力融合作为模型的核心，旨在利用视觉模态的信息来帮助文本模态调整单词的权重，从而综合利用多模态信息。
[0091]
首先，本发明评估了不同模式下每个单词的权重。文本模态的查询向量q
t
和键向量k
t
被定义为
[0092]qt
＝k
t
＝to[0093]
其中to是经过缩放的文本特征。
[0094]
视觉模态的查询向量qv和键向量kv被定义为
[0095]qv
＝kv＝vo，
[0096]
其中vo是经过缩放的文本特征。然后将文本注意力矩阵α和视觉注意力矩阵β定义为：
[0097][0098][0099]
为了通过文本与视觉模态的交互来调整每个单词的权重，本发明将文本注意力矩阵α和视觉注意力矩阵β求和加权，加权融合注意力矩阵γ计算为：
[0100]
γ＝w
t
*α wv*β b
[0101]
其中，w
t
和wv分别表示文本和视觉模态的权重，b为偏置值。
[0102]
然后定义多模态注意力矩阵γm为：
[0103]
γm＝σ(γ)
[0104]
σ为softmax函数。
[0105]
在得到多模态注意矩阵γm后，本发明将to与多模态注意力矩阵γm的值相乘，得到多模态注意的输出：
[0106]
x
att
＝γmto[0107]
其中，to是文本特征提取器的输出。
[0108]
本发明通过使用交叉注意力机制将文本特征和视觉特征进行特征融合，通过结合文本和图像模态的信息来动态调整单词的权重，相较于其他多模态方法将文本和图像特征向量直接拼接的方法，交叉注意力机制的多模态融合方法更能保留多模态融合信息的潜在联系。
[0109]
基于上述实施例，步骤400包括：
[0110]
将所述多模态融合特征输入全连接层的权重矩阵，与偏置值求和之后，由softmax逻辑回归函数处理，以获得谣言预测概率；
[0111]
基于所述谣言预测概率，确定所述谣言事件检测结果。
[0112]
具体地，如图4所示，将多模态融合特征依次输入至谣言分类模块的全连接层和softmax逻辑回归函数，得到谣言预测类别，即是否为谣言。
[0113]
谣言分类模块使用多模态融合特征作为输入，通过一个全连接层和softmax来将事件检测源数据分类为谣言或非谣言。
[0114][0115]
其中，w为全连接层的权重矩阵，b为偏置值，s为谣言分类模块中使用的softmax函数，为预测概率。
[0116]
根据预测概率，结合设定的概率经验值，判断事件检测源数据是否为谣言。
[0117]
本发明提出的训练和交叉注意力机制的多模态谣言检测方法的泛化能力强，相比传统模型，该方法在中文数据集和英文数据集都取得了较好的效果。
[0118]
下面对本发明提供的多模态谣言检测系统进行描述，下文描述的多模态谣言检测系统与上文描述的多模态谣言检测方法可相互对应参照。
[0119]
图5是本发明提供的多模态谣言检测系统的结构示意图，如图5所示，包括：获取模块51、提取模块52、融合模块53和检测模块54，其中：
[0120]
获取模块51用于获取事件检测源数据；提取模块52用于采用预训练transformer模型提取所述事件检测源数据的文本特征和视觉特征；融合模块53用于基于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；检测模块54用于对所述多模态融合特征进行谣言检测，得到谣言事件检测结果。
[0121]
本发明通过引入预训练transformer模型分别提取文本特征和视觉特征，并进行多模态融合后进行检测分类，相比现有方法，更好地利用社交媒体上多模态帖子的信息，检测效果更好，鲁棒性更强。
[0122]
图6例了一种电子设备的实体结构示意图，如图6示，该电子设备可以包括：处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行多模态谣言检测方法，该方法包括：获取事件检测源数据；采用预训练transformer模型提取所述事件检测源数据的文本特征和视觉特征；基于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；对所述多模态融合特征进行谣言检测，得到谣言事件检测结果。
[0123]
此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0124]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的多模态谣言检测方法，该方法包括：获取事件检测源数据；采用预训练transformer模型提取所述事件检测源数据的文本特征和视觉特征；基
于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；对所述多模态融合特征进行谣言检测，得到谣言事件检测结果。
[0125]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的多模态谣言检测方法，该方法包括：获取事件检测源数据；采用预训练transformer模型提取所述事件检测源数据的文本特征和视觉特征；基于交叉注意力机制，将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；对所述多模态融合特征进行谣言检测，得到谣言事件检测结果。
[0126]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0127]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0128]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种应用于金融场景的隐私XGBoost方法与流程

一种多模态谣言检测方法及系统

相关文献

最热文献