一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于双增强变压器的视觉问答模型

2022-12-02 23:44:52 来源:中国专利 TAG:

and pattern recognition.2019.
12.[7]vaswani,ashish,et al."attention is all you need."advances in neural information processing systems 30(2017).


技术实现要素:

[0013]
针对现有技术存在的问题,本发明提供一种基于双增强变压器的视觉问答模型,该模型克服由于视觉特征平坦操作所造成的信息损失以及目前的视觉问答模型只关注于局部特征交互的问题。
[0014]
本发明解决其现实问题是采取以下技术方案实现的:
[0015]
1、一种基于双增强变压器的视觉问答模型,所述视觉问答模型包括全局增强模块、位置增强模块;
[0016]
所述全局增强模块用于将视觉问答模型中的视觉特征和文本特征融合表示;
[0017]
所述位置增强模块用于将视觉问答模型中的视觉特征进行相对位置信息表示;
[0018]
其中:所述全局增强模块将视觉问答模型中的视觉特征和文本特征融合表示包括如下步骤:
[0019]
所述全局增强模块通过faster r-cnn将提取图像的区域转换为视觉局部特征v
l

[0020]
所述全局增强模块通过两层的双向lstm将词向量转换为文本局部特征q
l

[0021]
所述全局增强模块按照如下公式对视觉局部特征v
l
进行提取获得视觉全局特征vg;
[0022][0023]
所述全局增强模块按照如下公式对文本局部特征q
l
进行提取获得文本全局特征qg;
[0024][0025]
所述全局增强模块按照如下公式对视觉局部特征v
l
与视觉全局特征vg进行融合获得视觉整体特征v;
[0026]
v=[v
l
:vg]
[0027]
所述全局增强模块按照如下公式对文本局部特征q
l
与文本全局特征qg进行融合获得文本整体特征q;
[0028]
q=[q
l
:qg]。
[0029]
进一步,所述位置增强模块用于将视觉问答模型中的视觉特征进行相对位置信息表示包括如下步骤:
[0030]
所述位置增强模块对视觉局部特征进行边界盒子的位置识别,即:
[0031][0032]
所述位置增强模块按照如下公式对视觉局部特征计算获得边界盒子的中心坐标;
[0033][0034]
所述位置增强模块按照如下公式对视觉局部特征计算获得局部区域的相对位置关系;
[0035][0036]
所述位置增强模块对视觉全局特征进行边界盒子的位置识别,即:
[0037]
{(0,0),(1,1)}
[0038]
所述位置增强模块对视觉全局特征计算获得全局边界盒子的中心坐标;
[0039][0040]
所述位置增强模块对视觉全部特征计算获得全局部区域的相对位置关系;
[0041]
所述位置增强模块对局部区域的相对位置关系和全局部区域的相对位置关系通过全连接层嵌入到高维向量;在将相关位置关系嵌入到标量中,获得相对位置信息;即:
[0042]
re
ij
=ffn(re
ij
)
[0043]
re
ij
=relu(re
ijwre
)
[0044]
其中:re的维度为图像区域个数乘图像区域个数。
[0045]
有益效果:
[0046]
与现有技术相比,本发明的技术方案所带来的有益效果是:本发明在视觉问答变压器模型上,引入了两个增强模块,分别是位置增强模块和全局增强模块,前者解决了视觉特征平坦操作造成的信息损失问题,丰富了视觉特征的表达能力,后者解决了目前的视觉问答模型只考虑局部特征交互,没有考虑全局特征这一问题,另外,本发明在视觉问答任务上验证了本发明的模型,证明了本发明提出的两个模块的有效性和相互补充性。在视觉问答的vqa2.0数据集任务上,本发明和朴素的视觉问答变压器模型相比,总的准确率提高了0.64%,在yes/no问题上准确率提高了0.26%,在num问题上准确率提高了2.46%,在other问题上准确率提高了0.70%,通过以上实验,本发明发现本发明的模型有效提升了朴素的视觉问答变压器模型的性能。
附图说明:
[0047]
图1是一种基于双增强变压器的视觉问答模型流程图;
[0048]
图2是一种基于双增强变压器的视觉问答模型的位置增强模块结构图;
[0049]
图3是一种基于双增强变压器的视觉问答模型的全局增强模块结构图。
具体实施方式
[0050]
本发明中提出了一种基于双增强变压器的视觉问答模型,以下结合图1对本发明专利的实施过程做进一步详细说明。
[0051]
一种基于双增强变压器的视觉问答模型,所述模型包括位置增强模块和全局增强模块。
[0052]
所述位置增强模块用于视觉特征,首先利用边界盒子的几何结构,包含两个坐标,分别代表视觉特征的左上角和右下角,可以得到边界盒子的中心坐标和长宽,然后计算视觉特征的相对几何关系,最后送入到神经网络得到相对位置信息。在transformer的self-attention里面,本发明将其与query矩阵和key转置矩阵相乘得到的结果相加,对由于视觉特征平坦操作所造成的信息损失做补充,通过这种操作,视觉特征的语义信息变得更加丰富,包含丰富的位置信息。
[0053]
所述全局增强模型用于视觉特征和文本特征,视觉特征借助faster r-cnn提取,问题单词先转化为glove词向量,再送入到两层的双向lstm中,得到文本特征表示,然后用平均池,也就是取视觉特征的平均值和文本特征的平均值,来得到视觉特征的全局表示和文本特征的全局表示,然后将局部特征和全局特征拼接起来,送入到变压器中,作为输入向量。
[0054]
本发明公开了一种基于双增强变压器的视觉问答模型。该模型包括位置增强模块和全局增强模块。位置增强模型引入视觉特征的相对位置信息,从而提高了视觉特征表示。位置增强模型首先利用边界盒子的几何结构,包含两个坐标,分别代表视觉特征的左上角和右下角,可以得到边界盒子的中心坐标和长宽,然后计算视觉特征的相对几何关系,最后送入到神经网络得到相对位置信息。全局增强模块将全局特征和局部特征联合起来建模模内和模外的交互来获得视觉特征和文本特征的全面表示。全局增强模型首先通过局部特征计算全局特征,然后将全局特征和局部特征拼接起来,作为总体特征,送入到变压器里面。对于位置增强模块,全局增强模块也可以作为只考虑局部位置关系,没有考虑全局位置和局部位置交互问题的一种补充。对于全局增强模块,位置增强模块是作为只考虑特征层面交互,没有考虑到位置信息交互的一种补充,两种模块互相影响,相互促进。本发明克服了由于视觉特征平坦操作所造成的信息损失以及目前的视觉问答模型只关注于局部特征交互的问题。
[0055]
图1显示了本方法的流程图;图2显示了本发明设计的位置增强模块的结构图;图3显示了本发明设计的全局增强模块的结构图。本发明的具体步骤如下:
[0056]
(1)对于视觉特征,借助faster r-cnn提取图像的区域,得到视觉特征v
l
,对于文本特征,首先将问题分词,转化为glove词向量,然后送入到两层的双向lstm中,得到文本特征q
l

[0057]
(2)借助平均池,提取视觉全局特征vg和文本全局特征qg,公式如下:
[0058][0059][0060]
(3)把全局特征和局部特征拼接起来,作为变压器视觉问答模型的输入向量,公式如下:
[0061]
v=[v
l
:vg]
[0062]
q=[q
l
:qg]
[0063]
其中[:]为拼接操作。
[0064]
(4)前面提到的借助faster r-cnn提取图像区域,除了特征以外,还能得到边界盒子,为图像区域的左上角和右下角然后可以计算图像区域的中心坐标,公式如下:
[0065][0066]
通过对两个图像区域的长宽和中心坐标做交互,可以得到相对几何关系,公式如下:
[0067][0068]
除了通过faster r-cnn提取局部图像区域以外,本发明还要考虑整个图像,也就是全局边界盒子,具体来说,全局边界盒子的左上角和右下角为{(0,0),(1,1)}(经过归一化),然后通过上述提到的公式,可以得到全局区域和局部区域的相对几何关系。
[0069]
(5)将得到的相对几何关系通过具有激活功能的全连接层嵌入到高维向量。最后,将相关几何关系嵌入到标量中,获得相对位置信息。
[0070]
re
ij
=ffn(re
ij
)
[0071]
re
ij
=relu(re
ijwre
)
[0072]
其中re的维度为图像区域个数乘图像区域个数。
[0073]
(6)通过上述部分,得到了全局特征和相对位置信息,分别对应着全局增强模块和位置增强模块。全局增强模块已经被引入,通过全局特征与局部特征拼接起送入到变压器中。位置增强模块在得到相对位置信息后,还需要在self-attention中进一步做相关操作。
[0074]
(7)变压器的self-attention整体公式如下:0
[0075][0076]
(8)将相对位置信息re引入后,整体公式如下:
[0077][0078]
(9)通过上述操作,将位置增强模块和全局增强模块引入到朴素的视觉问答变压器模型中,解决了视觉特征因平坦操作所造成的信息损失的问题,和目前的视觉问答模型只考虑局部特征交互的问题。
[0079]
(10)本发明在vqa-v2数据集上进行有效性验证,vqa-v2数据集是视觉问答任务上最常用的数据集,它包含人类标注的问答答案对来自coco数据集的图像,每张图片有3个问题,每个问题有10个答案,整个数据集可分为3部分,分别是训练集(80k张图片和444k问题答案对)、验证集(40k张图片和214k问题答案对)、测试集(80k张图片和448k问题答案对),频率最高的答案将被视为正确答案。所有的问答类型可以分3种,yes/no,number,other。
[0080]
在本节的实验中,vqa-v2数据集的评价指标为准确率(accuracy)。关于实验的参数设置如下:整体参数采用朴素的视觉问答变压器模型的参数,具体实验结果如下。
[0081]
表1各模型在视觉问答任务上的实验结果
[0082]
modely/nnumotherallbottom-up81.8244.2156.0565.32mcan86.8253.2660.7270.63base88.8758.1863.7873.48base pa88.9059.9363.9273.87base ga88.9159.2264.1273.70our method88.9360.6464.4874.12
[0083]
如上表所示,本发明的模型在vqa-v2数据集上都取得了最好的结果。相比于基线模型,本发明模型的准确率在y/n,num,other,all至少提高了0.06%,2.46%,0.70%和0.64%。从以上实验结果可知,相比于朴素的视觉问答变压器模型,本发明的模型仍然体现出了明显的性能优势,体现了两个模块的有效性。
[0084]
总体来说,本发明提供了一种基于双增强变压器的视觉问答模型,该模型提出了两个模块,分别是位置增强模块和全局增强模型,位置增强模型解决了由于视觉特征平坦所造成的信息损失的问题,同时引入了位置信息,丰富视觉特征表示,全局增强模块解决了模型只考虑局部特征交互,没有考虑到全局特征这一问题,丰富了视觉特征和文本特征的表示。对于位置增强模块,全局增强模块也可以作为只考虑局部位置关系,没有考虑全局位置和局部位置交互问题的一种补充。对于全局增强模块,位置增强模块是作为只考虑特征层面交互,没有考虑到位置信息交互的一种补充,两种模块互相影响,相互促进。
[0085]
基于此,本发明提出基于双增强变压器的视觉问答模型。该模型包括位置增强模块和全局增强模块。位置增强模型,引入视觉特征的相对位置信息,从而提高了视觉特征表示。位置增强模型首先利用边界盒子的几何结构,包含两个坐标,分别代表视觉特征的左上角和右下角,可以得到边界盒子的中心坐标和长宽,然后计算视觉特征的相对几何关系,最后送入到神经网络得到相对位置信息。全局增强模块,将全局特征和局部特征联合起来建模模内和模外的交互来获得视觉特征和文本特征的全面表示。全局增强模型首先通过局部特征计算全局特征,然后将全局特征和局部特征拼接起来,作为总体特征,送入到变压器里面。对于位置增强模块,全局增强模块也可以作为只考虑局部位置关系,没有考虑全局位置和局部位置交互问题的一种补充。对于全局增强模块,位置增强模块是作为只考虑特征层面交互,没有考虑到位置信息交互的一种补充,两种模块互相影响,相互促进。
[0086]
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献