一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自我对比学习克服视觉问答的语言先验方法

2022-08-31 00:36:13 来源:中国专利 TAG:


1.本发明涉及一种基于自我对比学习克服视觉问答的语言先验方法,属于计算机自然语言处理与计算机视觉技术领域。


背景技术:

2.视觉问答(vqa)的目的是根据视觉内容自动回答自然语言问题,这是多模态(例如语言和图像)的基准任务之一。它需要视觉分析、语言理解、多模态信息融合和推理。最近几年,vqa的研究引起了人们极大的兴趣,发布了各种基准数据集。随着大量作品的提出,vqa任务取得了重大进展。大量作品试图理解图像和问题,但最近的研究发现这些作品在很大程度上受到训练qa对中的表面语言相关性(即语言先验)的驱动,而忽略了图像内容。例如,这些模型倾向于使用“2”来回答“多少
……
?”的问题和“网球”来回答“什么运动
……
?”的问题,而忽略了图像内容的组合来推理关于这个问题。为了帮助解决这些偏差因素,agrawal等人2018年创建了诊断基准vqa-cp(vqa在通过重新组织各个vqa数据集的训练和验证拆分来更改先验)。大多数现有作品设计了各种注意力机制来学习模态之间的关系,可以在vqa基准测试(如vqa v2)上取得良好的效果。然而,由于语言先验,这些作品的性能在 vqa-cp上显着下降。为了减轻语言先验,现有的工作重点是减少问题的统计先验并增加图像的依赖性和可解释性,大致可以分为有辅助任务的学习和无辅助任务的学习。没有辅助任务的学习使用辅助qa分支来标准化目标vqa模型或特定复杂学习策略的训练。这些方法试图添加一个辅助分支来捕获语言先验以削弱其效果。辅助任务学习引入了额外的人工监督和辅助任务(视觉基础,图像字幕等)以增加图像依赖性和可解释性)。这些方法可以在辅助任务的指导下更好地理解图像内容,从而达到更好的性能。但固有的数据偏差严重导致表面语言相关。因此,在依赖相关视觉区域做出决策的同时,在不引入额外注释的情况下减少固有语言先验至关重要。现有的减少语言先验的工作可以大致分为有辅助任务的学习和无辅助任务的学习。通过辅助任务学习。这些作品引入了额外的人工监督和辅助任务,以增加图像的依赖性和可解释性。


技术实现要素:

3.本发明提供了一种基于自我对比学习克服视觉问答的语言先验方法,利用新颖的自对比学习来克服vqa的语言先验问题,可以专注于相关区域来预测关于输入图像的给定问题的正确答案,提高vqa模型的推理能力和鲁棒性。
4.本发明的技术方案是:一种基于自我对比学习克服视觉问答的语言先验方法,所述方法的具体步骤如下:
5.step1、首先将问题、图像与答案选项作为实验数据,其次对图像进行预处理提取特征图,并将问题预处理生成问题特征向量;
6.step2、使用注意力层学习去识别图像与问题相关区域;经step1预处理操作之后,注意力机制利用问题来计算图像区域上的注意力权重,以定位与问题相关的图像区域,将
得到的问题特征q和加权后的图像特征融合为联合表示r;
7.step3、使用反注意力层识别当前不相关或不太相关的图像区域;以利用step2 获得的注意力权重值,将问题特征q和加权后的反图像特征融合为联合表示r0,将问题集中在不相关的区域并忽略图像上的相关区域以形成对比;
8.step4、后处理:通过step3得到的联合表示r0以及step1得到的联合表示r,训练所提出的网络来优化自对比损失lscl和基础vqa分类损失lvqa的联合损失,我们可以专注于相关区域来预测关于输入图像的给定问题的正确答案。
9.进一步地,所述步骤step1包括如下:
10.step1.1、首先对图像使用预训练模型faster-r-cnn提取一系列视觉目标特征;
11.step1.2、将问题进行词嵌入,传递到一个单层gru生成问题特征;
12.进一步地,所述步骤step2的具体步骤如下:
13.step2.1、经过提取出图像和问题特征之后,将其传递到注意力层,将图像特征和问题特征转换到相同维度的空间;
14.step2.2、计算注意力权重,然后为每一个特征图生成一个归一化注意力权重,最终的图像特征为所有输入特征加权之和;
15.step2.3、将加权后的图像特征与step1.2得到的问题特征融合为联合特征表示r,进而计算在候选答案集a每一个答案a的概率分布
16.进一步地,所述步骤step3的具体步骤如下:
17.step3.1、注意力机制使用问题来计算图像区域上的注意力权重,以定位与问题相关的图像区域。然而,反注意力机制是注意力机制的对立面。它通过将问题集中在不相关的区域并忽略图像上的相关区域以形成对比来帮助vqa模型克服语言先验。
18.step3.2、以step2得到注意力权重值为中心出发,使用注意力层获得的注意力权重a,归一化的反注意力权重α

,其执行负操作,opponent(a)=-a或者opponent(a)=e-a
使得较大的权重变小,较小的权重变大,从而使用softmax函数输出的注意力权重集中在不相关的区域上;
19.step3.3、学习完反注意力权重之后,生成加权后的反图像特征随后类似于注意力层,我们将加权后的图像特征与step1.2得到的问题特征q融合为联合特征表示r0,进而计算在候选答案集a每一个答案a的概率分布
20.进一步地,所述步骤step4的具体步骤如下:
21.step4.1、首先损失层包含两个分支,第一个损失层旨在利用基础的vqa模型概率分布其通过最小化二进值交叉熵损失来进行优化,损失函数被定义为lvqa;
22.step4.2、,另一个分支是自对比层,旨在利用自对比层预测的答案分布来增加问题和图像之间的相关性和依赖性,我们首先考虑了类似于qice[36]的目标函数,得益于此,认为基于同一图像中的相关和不相关区域的问题预测的答案之间存在一定的相关性,即预测的答案是相互排斥的,因此排除了自对比层定义为的部分答案,然后提出了自对比学习损失lscl来增加问题与图像的相关性;
[0023]
step4.3、训练了所提出的网络来优化step4.2中的自对比损失lscl和step4.1中的基础vqa分类损失lvqa的联合损失,通过这个方案,我们可以专注于相关区域来预测关于
输入图像的给定问题的正确答案。
[0024]
进一步地,所述反注意力层的模型类似于注意力层,首先使用注意力层获得的注意力权重a,归一化的反注意力权重α

可以计算为:α

=softmax(opponent(a)),在学习完反注意力权重之后,我们生成反图像特征如下所示:我们将加权后的反图像特征与step1.2得到的问题特征q融合为联合特征表示r0,进而计算在候选答案集a每一个答案a的概率分布其公式表示如下:q
′0=f
″q(q), v
′0=f
″v(v),(v),其中,fv,fq,f0是变换函数并且 w0表示需要学习的权重矩阵。
[0025]
本发明的有益效果是:
[0026]
1、本发明通过一种新颖的自对比学习方法解决了vqa问题,通过对比图像中与问题相关和与问题无关的区域生成的答案来克服语言先验。
[0027]
2、经过自对比学习训练后,模型被迫根据相关图像区域学习更多信息。它有效地增加了图像的语义依从性和可解释性。这样,图像特征和问题上下文在建模过程中不再孤立存在。
[0028]
3、在流行的基准测试vqa-cp v1和vqa-cp v2上进行了大量实验。实验结果表明,我们的方法可以在不使用额外注释的情况下显着提高基准数据集的性能。特别是,通过在lmh模型的顶部构建,我们在vqa-cp v2上实现了59.00%的最先进性能,绝对性能提升了6.51%。
附图说明
[0029]
图1为基于自我对比学习克服视觉问答的语言先验方法的结构图;
[0030]
图2为本发明与几种克服语言先验vqa模型变体的对比;
[0031]
图3为本发明自对比学习的例子;
[0032]
图4为本发明的流程图。
具体实施方式
[0033]
实施例1:如图1-图4所示,一种基于自我对比学习克服视觉问答的语言先验方法,其特征在于:所述方法的具体步骤如下:
[0034]
step1、首先将问题、图像与答案选项作为实验数据,其次对图像进行预处理提取特征图,并将问题预处理生成问题特征向量;
[0035]
step2、使用注意力层学习去识别图像与问题相关区域;经step1预处理操作之后,注意力机制利用问题来计算图像区域上的注意力权重,以定位与问题相关的图像区域,将得到的问题特征q和加权后的图像特征融合为联合表示r;
[0036]
step3、使用反注意力层识别当前不相关或不太相关的图像区域;以利用step2 获得的注意力权重值,将问题特征q和加权后的反图像特征融合为联合表示r0,将问题集中在不相关的区域并忽略图像上的相关区域以形成对比;
[0037]
step4、后处理:通过step3得到的联合表示r0以及step1得到的联合表示r,训练所提出的网络来优化自对比损失lscl和基础vqa分类损失lvqa的联合损失,我们可以专注于相关区域来预测关于输入图像的给定问题的正确答案。
[0038]
进一步地,所述步骤step1包括如下:
[0039]
step1.1、首先对图像使用预训练模型faster-r-cnn提取一系列视觉目标特征;
[0040]
step1.2、将问题进行词嵌入,传递到一个单层gru生成问题特征;
[0041]
进一步地,所述步骤step2的具体步骤如下:
[0042]
step2.1、经过提取出图像和问题特征之后,将其传递到注意力层,将图像特征和问题特征转换到相同维度的空间;
[0043]
step2.2、计算注意力权重,然后为每一个特征图生成一个归一化注意力权重,最终的图像特征为所有输入特征加权之和;
[0044]
step2.3、我们将加权后的图像特征与step1.2得到的问题特征融合为联合特征表示 r,进而计算在候选答案集a每一个答案a的概率分布
[0045]
进一步地,所述步骤step3的具体步骤如下:
[0046]
step3.1、注意力机制使用问题来计算图像区域上的注意力权重,以定位与问题相关的图像区域。然而,反注意力机制是注意力机制的对立面。它通过将问题集中在不相关的区域并忽略图像上的相关区域以形成对比来帮助vqa模型克服语言先验。
[0047]
step3.2、以step2得到注意力权重值为中心出发,使用注意力层获得的注意力权重a,归一化的反注意力权重α

,其执行负操作,opponent(a)=-a或者opponent(a)=e-a
使得较大的权重变小,较小的权重变大,从而使用softmax函数输出的注意力权重集中在不相关的区域上;
[0048]
step3.3、学习完反注意力权重之后,生成加权后的反图像特征随后类似于注意力层,我们将加权后的图像特征与step1.2得到的问题特征q融合为联合特征表示r0,进而计算在候选答案集a每一个答案a的概率分布
[0049]
进一步地,所述步骤step4的具体步骤如下:
[0050]
step4.1、首先损失层包含两个分支,第一个损失层旨在利用基础的vqa模型概率分布其通过最小化二进值交叉熵损失来进行优化,损失函数被定义为lvqa;
[0051]
step4.2、另一个分支是自对比层,旨在利用自对比层预测的答案分布来增加问题和图像之间的相关性和依赖性,我们首先考虑了类似于qice[36]的目标函数,得益于此,认为基于同一图像中的相关和不相关区域的问题预测的答案之间存在一定的相关性,即预测的答案是相互排斥的,因此排除了自对比层定义为的部分答案,然后提出了自对比学习损失lscl来增加问题与图像的相关性;
[0052]
step4.3、训练了所提出的网络来优化step4.2中的自对比损失lscl和step4.1中的基础vqa分类损失lvqa的联合损失,通过这个方案,我们可以专注于相关区域来预测关于输入图像的给定问题的正确答案。
[0053]
进一步地,所述反注意力层的模型类似于注意力层,首先使用注意力层获得的注意力权重a,归一化的反注意力权重α

可以计算为:α

=softmax(opponent(a)),在学习完反注意力权重之后,我们生成反图像特征如下所示:我们将加权后的反图像特征与step1.2得到的问题特征q融合为联合特征表示r0,进而计算在候选答案集a每一个答案a的概率分布其公式表示如下:q
′0=f
″q(q), v
′0=f
″v(v),
其中,fv,fq,f0是变换函数并且 w0表示需要学习的权重矩阵。
[0054]
本发明在流行的基准测试vqa-cp v1和vqa-cp v2上进行了大量实验。实验结果表明,本发明的方法可以在不使用额外注释的情况下显着提高基准数据集的性能。特别是,通过在lmh模型的顶部构建,在vqa-cp v2上实现了59.00%的最先进性能,绝对性能提升了6.51%,结果如表1、表2所示。
[0055]
表1为本发明在vqa-cp v2上的实验结果
[0056][0057]
表2为本发明在vqa-cp v1上的实验结果
[0058][0059]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献