一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多重注意力机制的动态记忆网络模型的视觉问答方法与流程

2022-02-19 04:36:54 来源:中国专利 TAG:


1.本发明属于计算机视觉和自然语言处理领域结合的跨模态任务技术领域,具体涉及一种基于多重注意力机制的动态记忆网络模型的视觉问答方法。


背景技术:

2.注意力机制在视觉问答、图像字幕和机器翻译等任务中被广泛应用,视觉问答注意力模型基于问题特征生成图片特征的注意力分布,以便进行准确的问答。目前,视觉问答注意力机制一般只在图像的最后一个卷积层进行加权池化,即不同空间区域权重不同,但不同通道具有相同的权重,导致特征图空间信息不可避免地丢失,这与卷积神经网络特征图空间性和通道性并存的特性相冲突。更糟糕的是,注意力机制只用在最后一个卷积层,那里的感受野相当大,感受野之间的差异有限,导致空间注意力不明显。因此研究者们提出将通道注意力和空间注意力相结合,成为神经网络的“左膀右臂”。
3.视觉问答中部分问题涉及到物体之间的多跳关系,如“自行车的篮子里有什么?”,模型需要首先寻找图片中的自行车,根据自行车定位篮子的位置,然后识别篮子内包含的物体。可以看出,视觉问答答案预测需要根据问题逐步匹配回答问题的最佳图片区域。因此除了使用注意力机制提取回答问题所需要的关键信息外,视觉问答模型还应具备一定的记忆能力,根据不同的问题进行相关信息的检索、推理和存储。由于rnn、lstm、gru等具有记忆功能的神经网络记忆步长较短,因而无法满足视觉问答任务对有效信息的长期记忆和存储要求。为了缓解有效信息的丢失,本文使用动态记忆网络迭代地查找与问题相关的视觉信息。


技术实现要素:

4.本发明的目的是提供一种基于多重注意力机制的动态记忆网络模型的视觉问答方法,解决了视觉问答中需要多重推理的复杂问题,提高了视觉问答模型的准确率。
5.本发明所采用的技术方案是,基于多重注意力机制的动态记忆网络模型的视觉问答方法,包括以下步骤:
6.步骤1,对输入的图像与文本进行预处理,将图像与文本送入模型的输入模块负责对图像与文本特征进行提取,获得的是目标级别的特征;
7.步骤2,为了得到问题特征,将步骤1输入的问题进行特征提取,根据其标点符号和空格,划分成独立的单词;接下来对这些单词使用预训练的词模型进行向量化表示,然后将其词向量表示输入循环神经网络,获取最后一个时间步的隐藏状态,得到问题特征;
8.步骤3,为了得到图片特征,将步骤1输入的图片送入特征提取网络,得到由k个置信度最高的区域的特征组成的区域目标特征;
9.步骤4,对步骤2与步骤3得到的问题特征与图片特征使用多重注意机制迭代更新记忆,来产生回答问题所需的上下文向量;
10.步骤5,将步骤2中的问题特征与步骤4中产生的新图特征送入特征融合器联合推
断出答案,其中答案从分类器给出概率最高的候选答案中选出。
11.本发明的特征还在于,
12.步骤2的具体实施方式如下:
13.步骤2.1:首先,将输入的问题文本处理成模型能够接受的形式,那么输入的问题q表示为:
14.q=[q
l
,q2,...,q
n
]
[0015]
其中:n为句子长度,q
i
为单词;
[0016]
步骤2.2:其次,使用词向量模型将单词映射到同一个向量空间中,获得单词的词嵌入表示;而获得的单词的词向量h表示为:
[0017]
h=[h1,h2,...,h
n
l
[0018]
其中:h
i
为单词q
i
的词向量,h为经过训练之后的单词词向量;本文将处理好的词向量输入gru网络,过程通过如下等式表示:
[0019][0020]
其中:s为输入文本句子特征,h
i
为输入文本的词向量,表示词向量是p维;
[0021]
步骤2.3:最后,将词向量输入到循环神经网络中进行句子的特征提取,即问题特征。
[0022]
步骤2中的问题特征是使用在语料库上预训练的glove词向量模型获得每个单词的词向量表示。
[0023]
步骤3具体按照以下步骤实施:
[0024]
在接受了输入图片之后,由于不是图中所有的元素都与问题有关,为了更加准确的锁定目标,需要在图表示上应用注意力机制,分别找出解答问题关键的区域,这里使用了自上而下的注意力模型,采用具有高级语义的目标检测网络faster r

cnn来提取图片特征;先是利用vgg和resnet基础网络提取图像特征图,然后再根据区域建议网络和区域建议池化来得到固定尺寸的建议框特征图,再进行分类与回归,以获得精确的图像特征;最后得到置信度最大的前k个候选区域作为图像特征,其提取过程如下所示:
[0025][0026]
其中:v
k
表示任意一个候选物体,v表示选取的置信度,表示每个候选物体是d维。
[0027]
步骤4具体按照以下步骤实施:
[0028]
步骤4.1:首先,将我们步骤2与步骤3所得到的问题特征与图片特征进行融合操作;
[0029]
步骤4.2:其次,将对象特征图首先通过通道注意力获得和问题紧密相关的通道特征图,进一步在经过通道关注的特征图上使用空间注意力机制,获得和问题紧密相关的对象空间区域,基于此更新模型记忆,迭代此过程,获得回答问题的关键上下文信息;更新的模型记忆m
t
如下:
[0030][0031]
其中:[
·

·
]表示特征拼接操作,w
t
表示参数更新矩阵,b表示偏置,表示新的
图像特征,m
t
中t表示某一时刻,m
t
‑1表示情景记忆;q表示问题向量。
[0032]
步骤5具体按照以下步骤实施:
[0033]
首先将更新的模型记忆m
t
和问题向量q以block多模态融合方式进行特征融合,得到融合特征j;在得到联合特征表示j后,使用两个全连接层来执行分类过程;随后使用dmn

ma模型中sigmoid函数来执行答案预测,而该模型允许每个问题有多个正确答案,每个候选答案都有一个分数,范围在(0,1)之间;最后选取概率值最大的候选答案作为模型的最终答案且如下所示:
[0034]
y=sigmoid(w
j
j b
j
)
[0035]
其中:w
j
表示完全连接层的参数,b
j
表示偏置项,y表示最终答案,且训练过程中使用交叉熵作为损失函数。
[0036]
本发明的有益效果是:
[0037]
1.本发明基于多重注意力机制的动态记忆网络模型。与以往的注意力模型不同的是,本模型不仅仅使用基于空间的注意力机制,进一步地,使用了通道注意力机制,使得视觉问答模型在不同的通道特征图上使用不同的权重,空间注意力机制成为通道注意力机制的有效补充。另外,对动态记忆网络模型的输入模块和情景记忆模块进行深入研究,在输入模块中使用faster

rcnn获得目标级别的物体特征;在情景记忆模块中使用多重注意力机制根据问题不断进行记忆更新、存储,迭代推理获得回答问题的最相关视觉向量,有效利用上下文信息进行答案推理。最后融合网络的最终记忆和问题表示,推测出正确答案。
[0038]
2.本发明方法设计科学合理,能够使用多重记忆力机制根据问题不断进行记忆更新、存储,迭代推理获得问题答案的最相关视觉向量,有效利用上下文信息进行答案推理。而记忆网络则进一步提高了视觉问答模型的准确率。
[0039]
3.本发明方法在对动态记忆网络的基础上,提出了基于多重注意力机制的动态记忆网络模型(dmn

ma)。与以往模型不同的是,它在读取输入的图像特征时应用了基于问题引导的多重注意力机制,不仅关注图像的空间区域,也在图像不同卷积通道上进行关注,更加符合特征图通道性与空间性并存的三维特性。dmn

ma模型在找寻图像特征时迭代查询与问题相关的视觉信息,不断更新记忆内容,获得回答问题的关键记忆,从而解决视觉问答中需要多重推理的复杂问题。
附图说明
[0040]
图1为本发明方法中情景记忆模块迭代两次示意图;
[0041]
图2为本发明方法中基于多重注意力机制的动态记忆网络模型整体框架图;
[0042]
图3为本发明模拟实验中的记忆力可视化处理前的示意图;
[0043]
图4为本发明模拟实验中的记忆力可视化处理后的示意图。
具体实施方式
[0044]
下面结合附图和具体实施方式对本发明进行详细说明。
[0045]
本发明基于多重注意力机制的动态记忆网络模型的视觉问答方法,包括以下步骤:
[0046]
步骤1,对输入的图像与文本进行预处理,将图像与文本送入模型的输入模块负责
对图像与文本特征进行提取,获得的是目标级别的特征;
[0047]
步骤2,为了得到问题特征,将步骤1输入的问题进行特征提取,根据其标点符号和空格,划分成独立的单词;接下来对这些单词使用预训练的词模型进行向量化表示,然后将其词向量表示输入循环神经网络,获取最后一个时间步的隐藏状态,得到问题特征;
[0048]
步骤2的具体实施方式如下:
[0049]
步骤2.1:首先,将输入的问题文本处理成模型能够接受的形式,即问题文本中的所有单词根据标点符号和空格,划分为独立的单词;那么输入的问题q表示为:
[0050]
q=[q1,q2,...,q
n
]
[0051]
其中:n为句子长度,q
i
为单词;
[0052]
步骤2.2:其次,使用词向量模型将单词映射到同一个向量空间中,获得单词的词嵌入表示;词嵌入是一种将文本中的词转换成实数向量的方法,这样转换成向量的方式可以方便计算。而获得的单词的词向量h表示为:
[0053]
h=[h1,h2,...,h
n
]
[0054]
其中:h
i
为单词q
i
的词向量,h为经过训练之后的单词词向量;这里使用经过预训练的glove词向量模型获得每个单词的词向量表示,由于本文所用视觉问答数据集中,问题文本一般不超过20单词,因此本文将处理好的词向量输入gru网络,过程通过如下等式表示:
[0055][0056]
其中:s为输入文本句子特征,h
i
为输入文本的词向量,表示词向量是p维。
[0057]
步骤2.3:最后,将词向量输入到循环神经网络中进行句子的特征提取,即问题特征。
[0058]
步骤2中的问题特征是使用在大型语料库上预训练的glove词向量模型获得每个单词的词向量表示。
[0059]
步骤3,为了得到图片特征,将步骤1输入的图片送入特征提取网络,得到由k个置信度最高的区域的特征组成的区域目标特征;这里使用的特征提取网络为faster r

cnn网络。
[0060]
步骤3具体按照以下步骤实施:
[0061]
在接受了输入图片之后。由于不是图中所有的元素都与问题有关,为了更加准确的锁定目标,需要在图表示上应用注意力机制,分别找出解答问题关键的区域。这里使用了自上而下的注意力模型,采用具有高级语义的目标检测网络faster r

cnn来提取图片特征;先是利用vgg和resnet基础网络提取图像特征图,然后再根据区域建议网络和区域建议池化来得到固定尺寸的建议框特征图,再进行分类与回归,以获得精确的图像特征;最后得到置信度最大的前k个候选区域作为图像特征,其提取过程如下所示:
[0062][0063]
其中:v
k
表示任意一个候选物体,v表示选取的置信度,表示每个候选物体是d维。
[0064]
步骤4,对步骤2与步骤3得到的问题特征与图片特征使用多重注意机制迭代更新记忆,来产生回答问题所需的上下文向量;采用通道注意力与空间注意力相结合的方式,对
所回答的问题进项一次次的记忆更新;
[0065]
步骤4具体按照以下步骤实施:
[0066]
步骤4.1:首先,将我们步骤2与步骤3所得到的问题特征与图片特征进行融合操作;
[0067]
步骤4.2:其次,如图1图像通道特征图所示,将对象特征图首先通过通道注意力获得和问题紧密相关的通道特征图,进一步在经过通道关注的特征图上使用空间注意力机制,获得和问题紧密相关的对象空间区域,基于此更新模型记忆,迭代此过程,获得回答问题的关键上下文信息;更新的模型记忆m
t
如下:
[0068][0069]
其中:[
·

·
]表示特征拼接操作,w
t
表示参数更新矩阵,b表示偏置,表示新的图像特征,m
t
中t表示某一时刻,m
t
‑1表示情景记忆;q表示问题向量。其中通道注意力主要关注的是物体,之后进行相关计算获得通道关注向量。而空间注意力是通过问题来定位回答问题的最佳对象区域,给予不同对象区域不同的权重,此过程不是平等地对待每个对象区域。在每一次经过通道注意力模块和空间注意力模块,使用新的图像特征更新情景记忆,生成向量。遵循之前视觉问答的工作,使用relu激活函数更新记忆。
[0070]
步骤5,将步骤2中的问题特征与步骤4中产生的新图特征送入特征融合器联合推断出答案,其中答案从分类器给出概率最高的候选答案中选出。
[0071]
步骤5具体按照以下步骤实施:
[0072]
首先将更新的模型记忆m
t
和问题向量q以block多模态融合方式进行特征融合,得到融合特征j。在得到联合特征表示j后,使用两个全连接层来执行分类过程。随后使用dmn

ma模型中sigmoid函数来执行答案预测,而该模型允许每个问题有多个正确答案,每个候选答案都有一个分数,范围在(0,1)之间。最后选取概率值最大的候选答案作为模型的最终答案且如下所示:
[0073]
y=sigmoid(w
j
j b
j
)
[0074]
其中:w
j
表示完全连接层的参数,b
j
表示偏置项,y表示最终答案。且训练过程中使用交叉熵作为损失函数。
[0075]
本发明具体过程如图2所示。首先提取输入图像和文本的区域目标特征,将图像处理维事实的向量,同时并对输入的问题进行编码;建立一个基于多重注意力机制的动态记忆网络模型,然后将得到的文本问题与图像特征可以进行多次输入进行迭代,而在每次迭代后都更新上下文记忆,直至出现概率较高的答案。其次将再利用特征融合,并与问题交互得到新的图特征,最终将得到的图特征与问题共同推断出答案。本发明实施于图像视觉问答,相比于利用整体图像特征的传统方法或是忽略关系重要性的其他图网络视觉问答方法,采用本发明的技术方案将有效提升视觉问答模型的性能。
[0076]
模拟实验及实验结果表征
[0077]
1.数据集
[0078]
该模型在两个视觉问答公开数据集上进行实验,分别为coco

qa和vqa2.0数据集。coco

qa数据集图片来自ms

coco。共包括123587张图片,其中72783张图片用于训练,38948张图片用于测试,重要的是,该数据集问题的答案分布比较均匀。vqa2.0数据集包含来自
ms

coco的204721张图片,训练和验证集约有123,287张图片,其中训练集约有8万张,测试集有81434张图片。该数据集共有614163个问题,每一副图片有三个问题,每个问题有十个答案,每个问题答案由十个不同标注者提供。
[0079]
2.实验环境
[0080]
使用python3.6开发语言,开发框架为pytorch1.1.0版本。具体地,图像输入模块k=100,每个对象特征向量维度为2048,使用resnet152作为基础网络进行图像特征提取。问题模块将问题处理为固定长度,超出的长度舍弃,不够的用0填充。coco

qa数据集问题长度固定为20,将vqa2.0数据集问题长度固定为14。词向量维数为300,gru隐层维度为2048,得到的问题向量维度也为2048。答案预测阶段,coco

qa数据集有430个答案;vqa2.0数据集中,如果某个答案在训练集中出现超过8次,则将其加入候选答案集合中,共获得3129个候选答案。
[0081]
实验中所有的激活函数使用relu,在输入层和输出层使用p=0.5的dropout以防止过拟合。训练过程中所有训练样本均被随机shuffle,batch大小设置为32,epoch为20。训练过程中使用adam随机梯度下降算法,初始学习率为0.001,dmn

ma模型在训练5个epoch后,每3个epoch将学习率降为之前的1/10。
[0082]
3.实验结果与分析
[0083]
由于dmn

ma模型情景记忆模块迭代次数的不确定性,我们首先在coco

qa数据集和vqa2.0数据集上设置不同的迭代次数,以寻找模型的最佳性能。模型在两个数据集上的整体准确率与迭代次数的实验结果如表1所示。
[0084][0085]
表1情景记忆模块迭代次数准确率对比
[0086]
从表1可得,增加迭代次数,模型准确率上升,当迭代次数为3时,模型在两个数据集上的整体准确率最高,再增加迭代次数,模型准确率急剧下降。总体来说,多重注意力机制迭代3次准确率最高,因此实验将迭代次数都设置为3。
[0087]
接下来,为了验证提出模型的有效性,表2列出了模型与其他主流方法在coco

qa测试集上的实验结果。
[0088][0089]
表2在coco

qa数据集上整体准确度、wups指标与其他方法的比较
[0090]
从表2可以看出,提出的dmn

ma模型总体准确率达到64.57%,和传统vis lstm方法相比,准确率提高了11.26%。特别是和视觉问答经典注意力方法san相比,总体准确率提高了约3%,与qpu模型相比准确率提高了2.07%。另外,模型在wups0.9和wups0.0上也有不俗的效果。说明在视觉问答研究中,仅仅使用空间注意力进行迭代推理是不够的,基于问题的通道注意力同样重要。
[0091]
如表3所示,提出的dmn

ma模型在总体性能上比基准模型cnn lstm高出12.96%,高出mcb模型4.91%,比resonnet模型性能高出2.54%;另外模型在总体准确率上比经典自上而下注意力机制的视觉问答系统模型领先1.51%。值得注意的是,dmn

ma模型与自上而下注意力机制的视觉问答系统模型采用了相同的数据预处理方式,即采用faster

rcnn提取图像视觉特征,采用glove gru提取问题特征,不同的是自上而下注意力机制的视觉问答系统模型仅采用空间注意力机制进行答案预测,这充分证明了提出模型的有效性。
[0092][0093]
表3在coco

qa上各问题类型准确率对比
[0094]
综上,将dmn

ma模型在coco

qa和vqa2.0数据集上与多种主流方法进行比较,可以看出,dmn

ma模型结合多重注意力机制与记忆网络的优点,更符合卷积特征图的三维特性,同时在答案预测过程中减少了上下文信息丢失,具有较好的性能。
[0095]
4.注意力可视化
[0096]
针对提出的模型,随机挑选了数据集中的几个图片和问题进行注意力可视化展示,如图3

4所示。图3上方为问题,图3为原始图片,图4为经过模型注意力可视化后的图片,下方ground truth为数据集答案,prediction表示模型预测的答案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献