一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

社交网络虚假新闻检测方法及装置

2022-07-16 06:04:39 来源:中国专利 TAG:

闻文字元素和新闻图像元素;
18.文本特征预处理模块,用于对所述新闻文字元素进行预处理,其中预处理包括: 特殊符号剔除处理、分词处理、停用词剔除处理、词嵌入编码处理;
19.文本特征提取模块,用于对预处理后的新闻文字元素,采用bi-lstm神经网络 模型进行文本特征提取,得到分词文本向量;
20.视觉特征提取模块,用于对所述新闻图像元素,采用vgg-19神经网络模型进行 视觉特征提取,得到分层视觉向量;
21.视觉特征后处理模块,用于对所述分层视觉向量进行后处理,其中后处理包括: 降维处理和对齐处理;
22.视觉融合文本模块,用于以分词文本向量为目标,以分层视觉向量与分词文本向 量之间的相关性为权重系数,利用点积型注意力机制得到修正文本特征;
23.文本融合视觉模块,用于以分层视觉向量为目标,以分词文本向量与分层视觉向 量之间的相关性为权重系数,利用点积型注意力机制得到修正视觉特征;
24.文本自融合模块,用于对不同时刻的修正文本特征进行时间层面自注意力融合, 得到终极文本特征;
25.视觉自融合模块,用于对不同位置的修正视觉特征进行空间层面自注意力融合, 得到终极视觉特征;
26.虚假新闻检测模块,用于将终极文本特征和终极视觉特征进行拼接后,输入带有 softmax全连接层的神经网络模型,进行社交网络虚假新闻检测。
27.本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并 可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述社交网 络虚假新闻检测方法。
28.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有 计算机程序,所述计算机程序被处理器执行时实现上述社交网络虚假新闻检测方法。
29.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程 序,所述计算机程序被处理器执行时实现上述社交网络虚假新闻检测方法。
30.本发明实施例通过获得社交网络新闻数据,所述社交网络新闻数据包含新闻文字 元素和新闻图像元素;对所述新闻文字元素进行预处理,其中预处理包括:特殊符号 剔除处理、分词处理、停用词剔除处理、词嵌入编码处理;对预处理后的新闻文字元 素,采用bi-lstm神经网络模型进行文本特征提取,得到分词文本向量;对所述新 闻图像元素,采用vgg-19神经网络模型进行视觉特征提取,得到分层视觉向量;对 所述分层视觉向量进行后处理,其中后处理包括:降维处理和对齐处理;以分词文本 向量为目标,以分层视觉向量与分词文本向量之间的相关性为权重系数,利用点积型 注意力机制得到修正文本特征;以分层视觉向量为目标,以分词文本向量与分层视觉 向量之间的相关性为权重系数,利用点积型注意力机制得到修正视觉特征;对不同时 刻的修正文本特征进行时间层面自注意力融合,得到终极文本特征;对不同位置的修 正视觉特征进行空间层面自注意力融合,得到终极视觉特征;将终极文本特征和终极 视觉特征进行拼接后,输入带有softmax全连接层的神经网络模型,进行社交网络虚 假新闻检测。
31.本发明实施例利用bi-lstm神经网络模型进行文本特征提取、利用vgg-19神 经网
络模型进行视觉特征提取,利用点积型注意力机制分别对文本特征和视觉特征进 行修改正,更容易保留边缘痕迹,对鉴别真伪性起到辅助作用,并且采用点积型注意 力机制以文本融合图像、以图像融合文本的思想可充分体现跨模态的交互作用。此外 还考虑了模态内融合,对不同时刻的修正文本特征进行时间层面自注意力融合得到终 极文本特征,以及对不同位置的修正视觉特征进行空间层面自注意力融合得到终极视 觉特征,并将终极文本特征和终极视觉特征进行拼接后,输入带有softmax的全连接 层神经网络模型,有效结合时空效应实现深度融合,从而实现及时检测虚假新闻,有 利于帮助阻止这类新闻的重大扩散。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅 是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提 下,还可以根据这些附图获得其他的附图。在附图中:
33.图1为本发明实施例中社交网络虚假新闻检测方法示意图;
34.图2为本发明具体实施例中社交网络虚假新闻检测流程图;
35.图3为本发明实施例中社交网络虚假新闻检测装置结构图;
36.图4是本发明实施例的计算机设备结构示意图。
具体实施方式
37.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发 明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明, 但并不作为对本发明的限定。
38.如前所述,迫切需要一类能尽早检测虚假新闻并帮助阻止这类新闻重大扩散的自 动虚假新闻检测算法。人工智能的发展为虚假新闻检测提供了有效技术手段,目前主 要分为如下两类:基于手工特征的方法和基于神经网络的方法。基于手工特征的方法 大多面向新闻的文本内容提取关键特征,如词汇特征、语义特征等。基于神经网络的 方法解决了上述手工提取特征的弊端,采用循环神经网络(rnn)或卷积神经网络 (cnn)对新闻的真假属性进行端到端的学习和判别。但是这些方法均提取的是单模 态的特征,在当今社交媒体多源异构的场景中,上述方法的泛化性将大大减弱。
39.为了进行社交网络虚假新闻检测,及时检测虚假新闻,有利于帮助阻止这类新闻 的重大扩散,本发明实施例提供一种社交网络虚假新闻检测方法,如图1所示,该方 法可以包括:
40.步骤101、获得社交网络新闻数据,所述社交网络新闻数据包含新闻文字元素和 新闻图像元素;
41.步骤102、对所述新闻文字元素进行预处理,其中预处理包括:特殊符号剔除处 理、分词处理、停用词剔除处理、词嵌入编码处理;
42.步骤103、对预处理后的新闻文字元素,采用bi-lstm神经网络模型进行文本 特征提取,得到分词文本向量;
43.步骤104、对所述新闻图像元素,采用vgg-19神经网络模型进行视觉特征提取, 得到分层视觉向量;
44.步骤105、对所述分层视觉向量进行后处理,其中后处理包括:降维处理和对齐 处理;
45.步骤106、以分词文本向量为目标,以分层视觉向量与分词文本向量之间的相关 性为权重系数,利用点积型注意力机制得到修正文本特征;
46.步骤107、以分层视觉向量为目标,以分词文本向量与分层视觉向量之间的相关 性为权重系数,利用点积型注意力机制得到修正视觉特征;
47.步骤108、对不同时刻的修正文本特征进行时间层面自注意力融合,得到终极文 本特征;
48.步骤109、对不同位置的修正视觉特征进行空间层面自注意力融合,得到终极视 觉特征;
49.步骤110、将终极文本特征和终极视觉特征进行拼接后,输入带有softmax全连 接层的神经网络模型,进行社交网络虚假新闻检测。
50.由图1所示可以得知,本发明实施例利用bi-lstm神经网络模型进行文本特征 提取、利用vgg-19神经网络模型进行视觉特征提取,利用点积型注意力机制分别对 文本特征和视觉特征进行修改正,更容易保留边缘痕迹,对鉴别真伪性起到辅助作用, 并且采用点积型注意力机制以文本融合图像、以图像融合文本的思想可充分体现跨模 态的交互作用。此外还考虑了模态内融合,对不同时刻的修正文本特征进行时间层面 自注意力融合得到终极文本特征,以及对不同位置的修正视觉特征进行空间层面自注 意力融合得到终极视觉特征,并将终极文本特征和终极视觉特征进行拼接后,输入带 有softmax的全连接层神经网络模型,有效结合时空效应实现深度融合,从而实现及 时检测虚假新闻,有利于帮助阻止这类新闻的重大扩散。
51.发明人发现,多模态特征具有优于单模态特征的特性,逐渐成为虚假新闻检测的 研究热点。一方面,多模态呈现了新闻内容的多个方面或多个角度;其次,不同模态 获取的信息可以在鉴别新闻权威性上相互补充;再者,不同的信息来源通常涉及到不 同的领域专长,如nlp专家擅长操纵文字而cv专家擅长操纵图像;最重要的是, 现实世界往往是由复杂的文字、图像、语音等跨模态信息构建的。由此可见,多模态 的思想对虚假新闻检测至关重要,如何提取多模态特征也已成为当前虚假新闻检测的 技术难点。多模态特征包含了多模态特征表示和多模态特征融合两大环节,由于跨模 态的交互作用,如何有效融合仍然是一个有挑战性的问题。目前绝大多数的多模态融 合算法采用的是简单拼接的方式,过于直接暴力。发明人发现,attrnn模型可以借 助于注意力机制融合不同模态的代表成果,具体是将图像在预训练模型的顶层特征作 为权重,对文字的顶层特征进行融合。以此表明和文本单元有相近语义的视觉单元应 该被赋予更大权重,但是没有明确的机制表明这种关联的有效性。本发明实施例采用 rnn网络提取新闻的文字模态在“时间层面”的文本特征,采用cnn网络提取新闻 的图像模态在“空间层面”的视觉特征,然后采用注意力机制进行模态内和模态间的 融合。具体地,以文本特征出发,以视觉特征作为注意力的权重,得到终极视觉特征 的修正化文本特征;同样地,以视觉特征出发,以文本特征作为注意力的权重,得到 终极文本特征的修正化视觉特征。在此基础上,修正的文本特征在不同时刻上进行注 意力
的加权求和,修正的视觉特征在不同位置上进行注意力的加权求和。最终拼接两 个特征向量作为交叉融合之后的特征表示输入分类器,得到新闻的真伪标签。本发明 实施例考虑新闻文字模态在不同时刻的文本特征流,图像模态在不同层级的视觉特征 堆;考虑注意力机制中(query,key,value)的映射关系,分别以文本特征流和视觉 特征堆作为query,视觉特征堆和文本特征流作为key和value,计算融合视觉的文本 特征和融合文本的视觉特征,由此实现模态间融合;在此基础上,对修正的文本特征 在不同时刻上实现自注意力,对修正的视觉特征在不同层级上实现自注意力,由此实 现模态内融合,最终达到注意力交叉融合的效果。
52.下面对每个步骤进行详细分析。
53.在步骤101中,获得社交网络新闻数据,所述社交网络新闻数据包含新闻文字元 素和新闻图像元素。
54.具体的,社交网络新闻数据可以表示为(t,i),其中新闻文字元素可以表示为 t={t1,t2,...,ts},新闻图像元素可以表示为i={i1,i2,...,is},s为社交网络新闻数据的样 本集合数量,新闻的真伪属性标签可以表示为y。
55.在步骤102中,对所述新闻文字元素进行预处理,其中预处理包括:特殊符号剔 除处理、分词处理、停用词剔除处理、词嵌入编码处理。
56.在一个实施例中,按如下方式对新闻文字元素进行词嵌入编码处理:
57.对新闻文字元素进行特殊符号剔除处理、分词处理和停用词剔除处理后,根据预 先建立的词向量映射表进行词嵌入编码处理。
58.具体实施时,首先对新闻文字元素进行特殊符号剔除处理,然后利用jieba分词 算法,对特殊符号剔除处理后的新闻文字元素进行分词处理,对分词处理后的新闻文 字元素进行停用词剔除处理,根据停用词剔除处理后的新闻文字元素以及预先建立的 词向量映射表,进行词嵌入编码处理。
59.例如,对于任何一条新闻样本的新闻文字元素,均执行以下预处理操作f(
·
):首 先将文字部分进行清洁,即去掉“,。:,\.;|
‑“”
——_/nbsp &;@、《》~()())#o!: 【】”等特殊符号,然后,将清洁后的文字部分作分词操作,可采用jieba分词算法; 对分词处理后的新闻文字元素去掉“$0 1 2 3 4 5 6 7 8 9?_
“”
、。《》
……”
等停用 词。最终,根据每个词的词向量映射表(embedding映射表),获取该条新闻的低维 文本向量表示,也即预处理后的新闻文字元素。
60.在步骤103中,对预处理后的新闻文字元素,采用bi-lstm神经网络模型进行 文本特征提取,得到分词文本向量。
61.具体实施时,对于预处理后的新闻文字元素,也即低维文本词向量,依次输入 bi-lstm神经网络模型作循环计算,获取该条新闻的分词文本向量,也即高维文本 词向量。假设序列长度为n,则bi-lstm神经网络模型抽取得到的特征可表示为 [h1,h2,...,hn]=bi-lstm[f(t)],其中hi对应第i个词。
[0062]
在步骤104中,对所述新闻图像元素,采用vgg-19神经网络模型进行视觉特征 提取,得到分层视觉向量。
[0063]
具体实施时,对于任何一条新闻样本的新闻图像元素,依次输入预训练好的 vgg-19神经网络模型,获取该新闻的分层视觉向量。
[0064]
需要说明的是,采用的是预先训练好的bi-lstm神经网络模型和vgg-19神经 网络模型进行特征提取,bi-lstm神经网络模型是利用历史新闻文字元素进行预先 训练的,vgg-19神经网络模型是利用历史新闻图像元素进行预先训练的。
[0065]
在步骤105中,对所述分层视觉向量进行后处理,其中后处理包括:降维处理和 对齐处理。
[0066]
在一个实施例中,对所述分层视觉向量进行后处理,包括:
[0067]
对所述分层视觉向量中每一层级分别进行平均池化处理,得到各层级降维后的向 量;
[0068]
将各层级降维后的向量输入全连接层神经网络模型,得到对齐后的隐藏层维度的 分层视觉向量。
[0069]
具体实施时,对于新闻的分层视觉向量,是由不同维度大小的张量组成的,大小 分别为每一层的《通道数,宽度,高度》。为了将不同大小的张量映射为相同维度的 向量,本发明采用平均池化和维度对齐两种技术。具体是先在每个通道数内部求均值, 再将以通道数为维度的向量送入一个全连接层,将维度转换为文本抽取器中bi-lstm 的隐藏单元数。将上述环节记做g(
·
),则vgg-19抽取得到的可表示为 [c1,c2,...,cm]=g[vgg-19(v)]。
[0070]
在步骤106中,以分词文本向量为目标,以分层视觉向量与分词文本向量之间的 相关性为权重系数,利用点积型注意力机制得到修正文本特征。
[0071]
在一个实施例中,按如下公式利用点积型注意力机制得到修正文本特征:
[0072][0073]
其中,q'1为修正文本特征,q1为分词文本向量,k1和v1为分层视觉向量,dk为 缩放因子,t为转置变换。
[0074]
具体实施时,采用点积型注意力(dot-productattention)机制用图像(v1)表示 文本(q1)。具体思想是将图像(k1)和文本(q1)建立联系计算其相关性,然后 以计算出的相关性为权重,加权叠加图像(v1)中的向量,最终以文本(q1)为目 标生成修正的文本(q1’)。根据计算公式文本特征集合[h1,h2,...,hn]视作q1,视觉特征集合[c1,c2,...,cm]视作k1和v1,忽略缩 放因子。依次输入文本特征,计算其在视觉特征上的注意力权重并聚合,由此得到被 视觉特征聚合的文本特征表示,计算公式为:
[0075][0076]
其中,是文本特征hi相对于视觉特征cj的注意力权重:
[0077][0078]
在步骤107中,以分层视觉向量为目标,以分词文本向量与分层视觉向量之间的 相关性为权重系数,利用点积型注意力机制得到修正视觉特征。
[0079]
在一个实施例中,按如下公式利用点积型注意力机制得到修正视觉特征:
[0080][0081]
其中,q'2为修正视觉特征,q2为分层视觉向量,k2和v2为分词文本向量,dk为 缩放因子,t为转置变换。
[0082]
具体实施时,将文本(k2)和图像(q2)建立联系计算其相关性,然后以计算 出的相关性为权重,加权叠加文本(v2)中的向量,最终以图像(q2)为目标生成 修正的图像(q2’)。根据计算公式视觉 特征集合[c1,c2,...,cm]视作q2,文本特征集合[h1,h2,...,hn]视作k2和v2。依次输入视 觉特征,计算其在文本特征上的注意力权重并聚合,由此得到被文本特征聚合的视觉 特征表示,计算公式为:
[0083][0084]
其中,是视觉特征cj相对于文本特征hi的注意力权重:
[0085][0086]
在步骤108中,对不同时刻的修正文本特征进行时间层面自注意力融合,得到终 极文本特征。
[0087]
具体实施时,在以图像融合文本的基础上,面向不同时刻的文本向量,进行时间 层面的自注意力融合。具体地,分别计算单词1,2,...,n相对于末位单词的相关性,依 次加权叠加顶层的文本特征,得到最终的终极文本特征t。
[0088]
在步骤109中,对不同位置的修正视觉特征进行空间层面自注意力融合,得到终 极视觉特征。
[0089]
具体实施时,在以文本融合图像的基础上,本发明拟面向不同位置的视觉向量, 进行空间层面的自注意力融合。具体地,分别计算层级1,2,...,m相对于末位层级的相 关性,依次加权叠加顶层的视觉特征,得到最终的终极视觉特征i。
[0090]
在步骤110中,将终极文本特征和终极视觉特征进行拼接后,输入带有softmax 全连接层的神经网络模型,进行社交网络虚假新闻检测。
[0091]
具体实施时,将两次修正得到的终极文本特征t和终极视觉特征i拼接后,连接 一个带softmax的全连接层作为虚假新闻检测器。以x表示特征,y表示标签,输出 虚假标签的概率md(x;θd),其中θd代表上述检测器(带有softmax全连接层的神经网 络模型)中的参数。计算交叉熵损失,采用梯度下降法不断降低损失函数使得预测标 签接近于ground truth,即:
[0092]
ld(θd)=-ie
(x,y)~(x,y)
[ylogmd(x;θd) (1-y)(1-logmd(x;θd))]
[0093]
其中,x为特征,y为标签,md(x;θd)为输出虚假标签的概率,θd为带有softmax 全连接层的神经网络模型中的参数。需要说明的是,采用的是预先训练好的带有 softmax全连接层的神经网络模型,带有softmax全连接层的神经网络模型是利用拼 接后的历史终极文本特征和历史终极视觉特征进行预先训练的。
[0094]
在传统的多模态虚假新闻检测算法中,文
[0095]
本和图像不同模态之间的融合大多采用以拼接为代表的简单融合,没有考虑模态 之间的相互作用。为了解决这一问题,jin等提出了采用注意力机制融合文本和图像 的架构,但图像特征采用的是新闻在预训练好的vgg-19的顶层特征,注意力也仅仅 是从文本到图像的单向融合,存在一定的局限性。本发明实施例致力于解决这一弊端, 提取的图像特征是vgg-19上多个层级的向量表示,注意力机制也包含了从文本到图 像、从图像到文本、从文本到文本、从图像到图像四个维度的交叉融合。一方面,适 用于图像分类领域的预训练特征无法体现真伪特性,相比于顶层特征,隐层特征更容 易保留边缘痕迹,对鉴别真伪性起到辅助作用;另一方面,采用注意力机制以文本融 合图像、以图像融合文本的思想可充分体现跨模态的交互作用;此外,在模态间融合 的基础上,文本和图像的自注意力也考虑了模态内融合,有效结合时空效应,实现深 度融合。本专利提出的基于注意力交叉融合的多模态虚假新闻检测算法在准确率、精 准率、召回率、f1-score上均优于传统算法。
[0096]
本发明实施例以微博数据集为例,完成文字和配图的匹配后,训练数据包含了 7531组图文,其中真实新闻占3783组,虚假新闻占3748组,其余的为测试数据。 在测试数据中,真实新闻有996条,虚假新闻有1000条,一共2996条。采用本发明 实施例的方法,经过100个epoch的学习后,损失函数可以降低至0.3177。相较于传 统基于注意力机制模态融合的多模态虚假新闻检测算法attrnn中损失函数降低至 0.4277而言,提升了25.7%%。训练集的准确率大致在0.9956附近,验证集的准确率 大致在0.7571附近。相较于传统算法训练集和验证集的准确率0.8847和0.6095而言, 依次提升了12.5%和24.2%。测试集的准确率为0.780,相较于传统算法的0.592,这 一指标提升了31.8%。具体地,本发明在测试集中真实新闻上的精确率、召回率、 f1-score分别为0.795、0.772,、0.783,传统算法在测试集中真实新闻上的精确率、召 回率、f1-score分别为0.594、0.667、0.628,。二者相比,三大指标依次提升了33.8%、 15.7%、24.7%。具体地,本发明在测试集中虚假新闻上的精确率、召回率、f1-score 分别为0.764、0.772、0.783,传统算法在测试集中真实新闻上的精确率、召回率、 f1-score分别为0.591、0.513、0.549,。二者相比,三大指标依次提升了29.3%、50.5%、 42.6%。
[0097]
下面给出一个具体实施例,说明本发明实施例中社交网络虚假新闻检测的具体应 用。如图2所示,按如下步骤进行社交网络虚假新闻检测:
[0098]
步骤一:数据处理。按照训练数据的真实新闻、训练数据的虚假新闻、测试数据 的真实新闻、测试数据的虚假新闻四个路径,依次完成对数据的整理工作,每一条新 闻的格式统一化为“id、text、image、label”。
[0099]
(1)去掉特殊字符;
[0100]
(2)分词;
[0101]
(3)去掉停用词;
[0102]
(4)词嵌入编码。
[0103]
步骤二:文本特征提取。对于新闻的embedding向量表示,依次输入bi-lstm 作循环计算,获取该条新闻的高维文本向量表示。假设序列长度为n,则bi-lstm 抽取得到的特征可表示为[h1,h2,...,hn]=bi-lstm[f(t)],其中hi对应第i个词。
[0104]
步骤三:视觉特征提取。对于任何一条新闻样本的图像元素,依次输入预训练好 的vgg-19,获取该新闻的分层视觉向量表示。
[0105]
步骤四:视觉特征后处理。对于新闻的分层视觉向量表示,是由不同维度大小的 张量组成的,大小分别为每一层的《通道数,宽度,高度》。为了将不同大小的张量 映射为相同维度的向量,本发明拟采用平均池化和维度对齐两种技术。具体是先在每 个通道数内部求均值,再将以通道数为维度的向量送入一个全连接层,将维度转换为 文本抽取器中bi-lstm的隐藏单元数。将上述环节记做g(
·
),则vgg-19抽取得到的 可表示为[c1,c2,...,cm]=g[vgg-19(v)]。
[0106]
步骤五:文本特征提取。依次将每条新闻预处理之后的文本输入bi-lstm,分 别保存神经网络的隐层状态向量。最终文本特征向量的大小为163
×
32,其中163指 文本的最大单词数seq_len,32指隐藏层维度hid_dim;
[0107]
步骤六:图像特征提取。依次将每条新闻的图像输入vgg-19,分别保存神经网 络的隐层位置向量。
[0108]
(1)输入初始大小为224
×
224
×3[0109]
(2)层级0(3
×3×
64卷积):输出大小为224
×
224
×
64;
[0110]
(3)层级1(relu):输出大小为224
×
224
×
64
[0111]
(4)层级2(3
×3×
64卷积):输出大小为224
×
224
×
64
[0112]
(5)层级3(relu):输出大小为224
×
224
×
64
[0113]
(6)层级4(2
×
2池化):输出大小为112
×
112
×
64
[0114]
(7)层级5(3
×3×
128卷积):输出大小为112
×
112
×
128
[0115]
……
[0116]
(37)层级35(relu):输出大小为14
×
14
×
512
[0117]
(38)层级36(2
×
2池化):输出大小为7
×7×
512
[0118]
步骤七:图像后处理。
[0119]
(1)降维:依次将每一层级的张量在《宽度,高度》构成的平面上做平均池化, 将《宽度,高度,通道数》的张量降维为通道数的向量。输出维度为64或128或256 或512的隐层向量;
[0120]
(2)对齐:依次将每一层级的向量送入一个全连接层,将通道数维度的向量对 齐为隐藏层维度的向量。最终图像向量特征的大小为37
×
32,其中37指图像的最大 层级数lay_len,32指的是隐藏层维度hid_dim;
[0121]
步骤八:以文本融合图像。q1为图像向量(维度37
×
32),k1和v1为文本向量(维 度136
×
32)。根据注意力机制,权重为对矩阵k1q
1t
(维度163
×
37)的softmax行归一 化,维度为163。最终以权重系数叠加相乘到图像向量上,得到修正的图像向量(维 度37
×
32)。
[0122]
步骤九:以图像融合文本。q2为文本向量(维度163
×
32),k2和v2为图像向量 (维度37
×
32)。根据注意力机制,权重为对矩阵k2q
2t
(维度37
×
163)的softmax列 归一化,维度为163。最终以权重系数叠加相乘到文本向量上,得到修正的文本向量 (维度163
×
32)。
[0123]
步骤十:文本自融合。q1、k1、v1全为步骤七中被修正的文本向量,重复采用 注意力机制得到再次修正的文本向量。在时间上分别以各个时刻的向量融合到最后一 个时刻,最终的输出为文本最后一个单词的向量(维度为32)。
[0124]
步骤十一:图像自融合。q2、k2、v2全为步骤六中被修正的图像向量,重复采 用注意力机制得到再次修正的图像向量。在空间上分别以各个位置的向量融合到最后 一个位置,
算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算 机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或 方框图一个方框或多个方框中指定的功能的步骤。
[0153]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发 明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等, 均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献