一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度辨识度迁移的跨模态检索方法与流程

2021-10-24 04:12:00 来源:中国专利 TAG:辨识 迁移 深度 信息检索 检索


1.本发明涉及一种基于深度辨识度迁移的跨模态检索方法,属于信息检索技术领域。


背景技术:

2.跨模态检索旨在跨越不同模态实现信息检索,即可以根据任意查询模态的样本返回与该查询样本相关的其他模态的检索结果,比如,根据查询文本输出对应的图片检索结果。近年来,深度学习在跨模态检索领域进展巨大,相继提出了一系列基于深度学习的跨模态检索方法。这些跨模态深度方法通过深度自编码、生成对抗等方式挖掘不同模态数据间的关联信息,弥合多模态数据模态内的语义鸿沟和模态间的异构鸿沟,学习语义一致的公共表示特征。
3.然而,现有的跨模态深度方法都忽略了不同模态数据间的语义辨识度的差异,因而导致其检索精确度有待于进一步的提高。


技术实现要素:

4.为了解决现有的基于深度学习的跨模态检索方法对多模态数据的语义辨识度差异性考虑不足导致的检索精确度低的问题,本发明提供一种基于深度辨识度迁移的跨模态检索方法。所述方法包括:
5.步骤s1,构建深度辨识度迁移网络,所述深度辨识度迁移网络包括原始多模态特征提取模块、文本辨识度迁移模块以及文本辨识度增强模块,各模块依次连接;
6.步骤s2,采用公共数据集训练所构建的深度辨识度迁移网络,所述公共数据集包含n个图片文本对;
7.步骤s3,利用训练好的深度辨识度迁移网络获得待检索图片或文本的最优公共表示特征,并采用余弦距离度量待检索图片或文本的最优公共表示特征与数据库中各图片或文本的公共表示特征间的距离,得到相似度矩阵,根据相似度矩阵输出相应的跨模态检索结果。
8.可选的,所述方法在训练所构建的深度辨识度迁移网络时,首先提取公共数据集中图片的原始特征和文本的原始特征,并根据图片的原始特征和文本的原始特征分别学习对应图片公共表示特征u=[u1,u2,

u
n
]和文本公共表示特征v=[v1,v2,

v
n
];然后设定语义约束函数j3和重构损失函数j4对文本公共表示特征v的语义辨识度进行增强;设定模态不变损失函数j1和样本相关性损失函数j2将增强后的文本公共表示特征的语义高辨识度迁移到了图片公共表示特征,增强图片公共表示特征的语义辨识度,训练过程中最小化总目标函数j并采用adam模型进行参数更新,不断迭代从而得到训练好的的深度辨识度迁移网络,所述总目标函数j由模态不变损失函数j1、样本相关性损失函数j2、语义约束函数j3和重构损失函数j4共同构成;
[0009]
其中u
i
表示图片i的公共表示特征向量,v
j
表示文本j的公共表示特征向量,i=1,
2,
……
,n;j=1,2,
……
,n。
[0010]
可选的,所述原始多模态特征提取模块由两个对称特征提取部分构成,分别用于提取图片和文本的原始特征,得到图片原始特征矩阵h
α
和文本原始特征矩阵h
β

[0011]
所述文本辨识度迁移模块由图片公共表示特征学习模块和文本公共表示特征学习模块组成;二者均由两个激活函数为relu的全连接层组成,且二者的最后一层全连接层共享权重,称为共享权重层;
[0012]
所述文本辨识度增强模块由文本公共表示特征的线性分类器与文本公共表示特征的解码模块组成;其中文本公共表示特征的线性分类器为一层全连接,文本公共表示特征的解码模块包含两层激活函数为relu的全连接。
[0013]
可选的,所述方法在得到图片原始特征矩阵h
α
和文本原始特征矩阵h
β
后,还包括:
[0014]
在共享权重层定义模态不变损失函数j1和样本相关性损失函数j2;
[0015][0016]
其中,||
·
||
f
表示f范数;
[0017][0018]
其中,表示图片i的公共表示特征和文本j的公共表示特征之间的余弦相似度,u
i
表示图片i的公共表示特征向量,v
j
表示文本j的公共表示特征向量;表示图片i的公共表示特征和图片j的公共表示特征之间的余弦相似度,表示文本i的公共表示特征和文本j的公共表示特征之间的余弦相似度,1{
·
}为指示函数;
[0019]
将图片原始特征矩阵h
α
和文本原始特征矩阵h
β
送入文本辨识度迁移模块获得对应的图片公共表示特征u和文本公共表示特征v。
[0020]
可选的,所述方法还包括:
[0021]
利用所述线性分类器预测公共子空间的文本公共表示特征的语义类别,并增加语义约束函数j3:
[0022][0023]
其中,p
t
v为文本模态样本生成的预测类别向量,y为真实类别标签;
[0024]
文本公共表示特征的解码模块通过一个欠完备自编码器对文本公共表示特征v中
的每一个文本公共表示特征v
i
进行解码,得到对应的文本解码特征进而得到文本解码特征矩阵
[0025]
定义重构损失函数j4,利用重构损失函数j4最小化文本解码特征向量与文本原始特征向量之间的距离:
[0026][0027]
设定深度辨识度迁移的跨模态检索方法的总目标函数为:
[0028]
j=λ1j1 λ2j2 λ3j3 λ4j4[0029]
其中,λ1、λ2、λ3、λ4是平衡超参,分别表示模态不变损失、样本相关性损失、文本语义损失以及文本解码特征重构损失的重要程度
[0030]
最小化网络总目标函数j并采用adam模型进行参数更新,不断迭代从而得到训练好的的深度辨识度迁移网络;其中线性分类器的更新公式为p=(vv
t
)
‑1v
t
y。
[0031]
可选的,所述方法步骤s2中所采用的公共数据集包括wikipedia数据集和pascal sentence数据集。
[0032]
可选的,所述平衡超参λ1、λ2、λ3、λ4设置为λ1=1、λ2=1、λ3=25、λ4=1。
[0033]
可选的,所述图片公共表示特征学习模块和文本公共表示特征学习模块的两个激活函数为relu的全连接层隐藏单元数分别为2048和1024。
[0034]
可选的,所述方法还包括:
[0035]
获得wikipedia数据集对应的标签矩阵y={y1,y2,

y
n
},wikipedia数据集中每一图片文本对相应的标签向量y
i
=[y
1i
,y
2i
,

,y
ci
]∈r
10

[0036]
获得pascal sentence数据集对应的标签矩阵y={y1,y2,

y
n
},pascal sentence数据集中每一图片文本对相应的标签向量y
i
=[y
1i
,y
2i
,

,y
ci
]∈r
20

[0037]
其中c表示样本类别。
[0038]
可选的,所述步骤s2,采用公共数据集训练所构建的基于深度辨识度迁移网络时,设定学习率τ=0.0001、最大迭代次数n=1000。
[0039]
本发明有益效果是:
[0040]
通过提出一种新的跨模态检索方法,通过文本辨识度增强子网的语义约束和重构约束对文本公共表示特征的语义辨识度进行了增强,通过文本辨识度迁移子网的图文公共表示特征间的模态不变约束及样本相关性约束将文本公共表示特征的语义高辨识度迁移到了图片公共表示特征,增强了图片公共表示特征的语义辨识度,进而提升了跨模态检索性能,更好的完成跨模态检索。
附图说明
[0041]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]
图1是本技术一个实施例中提供的基于深度辨识度迁移的跨模态检索方法中建立
multimedia》第251

260页。
[0057]
pascal sentence数据集可参考rashtchian c等人的“collecting image annotations using amazon’s mechanical turk”,该文章于2010年发表在《workshop on creating speech and language data with amazon’s mechanical turk.stroudsburg》第139

147页。
[0058]
请参照图2a和图2b,为wikipedia数据集中的图片和文本数据提取相应的原始底层深度特征,分别是4096维的图片卷积特征和300维的文本卷积特征,在各原始空间中进行单模态分类并绘制了图片模态和文本模态的混淆矩阵。由图2a和图2b可知,原始文本特征的语义辨识度明显强于原始图片特征的语义辨识度。因此,本技术所提出的基于深度辨识度迁移的跨模态检索方法在学习图片和文本的公共表示特征时,尽可能的保留文本的语义辨识度,并将公共子空间的辨识度向文本空间拉近能提高不同模态公共表示特征的语义辨识度,进而提升跨模态检索性能。
[0059]
本发明所述的深度辨识度迁移的跨模态检索方法,包括以下步骤:
[0060]
步骤(1)构建深度辨识度迁移网络:
[0061]
步骤1.1:请参照图1,本发明所述方法中构建的深度辨识度迁移网络包含三个组成部分,分别是原始多模态特征提取模块、文本辨识度迁移模块以及文本辨识度增强模块,各模块依次连接。
[0062]
步骤1.2:参照图1,原始多模态特征提取模块由两个对称特征提取部分构成,分别用于提取图片和文本的原始特征。其中,图片原始特征提取部分与imagenet上预训练的vgg19网络保持一致;文本原始特征提取部分与text cnn保持一致。
[0063]
将提取到的图片原始特征矩阵记为其中每个元素表示数据集中一张图片的原始特征向量;将提取到的文本原始特征矩阵记为其中每个元素表示数据集中一条文本的原始特征向量。本技术中,以上标α和β区分图片和文本。
[0064]
text cnn网络可参考kim y等人的“convolutional neural networks for sentence classification”,该文章于2014年发表在《conference on empirical mehods in natural language processing》第1746

1751页。
[0065]
步骤1.3:参照图1,文本辨识度迁移模块由图片公共表示特征学习模块和文本公共表示特征学习模块组成,分别用于;图片公共表示特征学习模块和文本公共表示特征学习模块均由两个激活函数为relu的全连接层组成,隐藏单元数分别为2048和1024,且两模块最后一层全连接共享权重(后称为共享权重层)。
[0066]
在共享权重层定义模态不变损失函数j1和样本相关性损失函数j2。其中,模态不变损失函数j1用于最小化成对的图片公共表示特征和文本公共表示特征之间的距离以消除不同模态样本的公共表示特征向量间的模态差异,定义为:
[0067][0068]
其中,||
·
||
f
表示f范数、u为图片公共表示特征、v为文本公共表示特征,n为样本个数。
[0069]
样本相关性损失函数j2用于多模态数据模态间的相关性和模态内的局部一致性,定义为:
[0070][0071]
其中,表示图片i的公共表示特征和文本j的公共表示特征之间的余弦相似度,u
i
表示图片i的公共表示特征向量,v
j
表示文本j的公共表示特征向量;表示图片i的公共表示特征和图片j的公共表示特征之间的余弦相似度,表示文本i的公共表示特征和文本j的公共表示特征之间的余弦相似度,1{
·
}为指示函数,该指示函数表示当两个输入样本是同一模态且为同一类别时,指示函数的值为1,否则为0。
[0072]
通过式(2)的第一项可以度量图片公共表示特征与文本公共表示特征之间的距离,第二项和第三项分别用于度量图片模态样本内和文本模态样本内的相似度。
[0073]
步骤1.4:参照图1,文本辨识度增强模块由文本公共表示特征的线性分类器与文本公共表示特征的解码模块组成,其中文本公共表示特征的线性分类器为一层全连接,单元数与数据集类别数一致;文本公共表示特征的解码模块包含两层激活函数为relu的全连接,第一层单元数为10,第二层单元数为300,与文本原始特征向量维度一致。本技术在语义损失部分只保留了文本语义损失,去掉了图片的语义损失,利用线性分类器预测公共子空间的文本公共表示特征的语义类别,并增加语义约束函数j3,使文本模态样本生成的预测类别向量p
t
v应尽可能与真实类别标签y表示一致,语义约束函数j3定义为:
[0074][0075]
文本公共表示特征的解码模块通过一个欠完备自编码器对文本公共表示特征v
i
进行解码,得到文本解码特征
[0076]
为了使文本解码特征矩阵尽可能的与文本原始特征矩阵保持一致,利用重构损失最小化文本解码向量与文本原始特征向量之间的距离,重构损失函数定义为:
[0077][0078]
步骤1.5设定深度辨识度迁移的跨模态检索方法的总目标函数为:
optimization[eb/ol].https://arxiv.org/abs/1412.6980,2014

12

22.
[0098]
步骤(4)跨模态检索精度测试:
[0099]
步骤4.1:在前述两个跨模态数据集wikipedia和pascal sentence上进行图像检索文本(i2t)和文本检索图像(t2i)这两个跨模态检索任务,将测试集中的图像和文本送入训练好的最优模型。
[0100]
步骤4.2:使用训练好的深度辨识度迁移网络为测试集样本学习最优公共表示特征,并采用余弦距离度量图文公共表示特征间的距离,得到相似度矩阵。
[0101]
根据相似度矩阵输出相应的跨模态检索结果。
[0102]
为进一步评估本技术的跨模态检索性能,继续步骤4.3;
[0103]
步骤4.3:根据步骤4.2得到的相似度矩阵计算每个样本的ap值,并对测试集中所有样本的ap值进行平均,得到最终的map值,即可评估跨模态检索方法的性能。
[0104]
步骤4.4:为了验证本技术提供的方法的检测性能,将本发明与8种现有的先进跨模态检索方法在上述2个基准数据集上进行了对比实验,包括2种传统的跨模态检索方法,分别是cca和jrl,以及6种基于深度的跨模态检索算法,分别是cmdn、ccl、dcca、acmr、dscmr和mmca

cmr。
[0105]
实验结果:
[0106]
表1为wikipedia数据集上跨模态检索map值对比结果。
[0107]
表2为pascal sentence数据集上跨模态检索map值对比结果。
[0108]
从表1和表2的结果可知,图像检索文本i2t任务中本方法在wikipedia数据集和pascal sentence数据集上的平均map分别为0.574和0.760,文本检索图像t2i任务中本方法在wikipedia数据集和pascal sentence数据集上的平均map值分别为0.506和0.772,各检索任务的性能都有一定提升,在2个数据集上均超过了上述列出的8种对比方法。此外,dscmr在8种对比方法中性能最优,与dscmr相比,本技术提供方法的平均性能在2个数据集上分别提高了0.7%和3.0%。
[0109]
表1 wikipedia数据集的结果
[0110][0111]
表2 pascal sentence数据集的结果
animation and virtual worlds》第31卷,该方法通过多模态语义自编码器学习内容感知特征向量以充分挖掘不同模态数据间的相关信息。
[0122]
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
[0123]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜