一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种跨模态数据检索方法、装置及设备与流程

2022-12-06 22:07:46 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,具体涉及一种跨模态数据检索方法、装置及设备。


背景技术:

2.目前,互联网上的文本、图像和视频等不同类型的媒体数据在快速增长,跨模态检索在现实世界的应用变得越来越重要。假设给定一个来自不同模式的查询任务和数据库,跨模态检索则是检索与查询最相关数据库的任务。跨模态检索这方面的研究大多集中在图像和文本模态上。
3.通常,现有技术中的跨模态数据检索方法,将视觉和文本输入映射到公共嵌入空间的嵌入函数,跨模态检索任务可以简化为欧氏空间中熟悉的最近邻检索任务。
4.但是,现有技术中的将不同模态数据投射到公共特征空间的方法,会过于关注不同模态数据的共享信息从而损失掉特异特性,使得跨模态检索的相似度较低。


技术实现要素:

5.有鉴于此,本发明的目的在于提供一种跨模态数据检索方法、装置及设备,以解决现有技术中会过于关注不同模态数据的共享信息从而损失掉特异特性,使得跨模态检索的相似度较低的问题。
6.根据本发明实施例的第一方面,提供一种跨模态数据检索方法,包括:
7.获取包含第一模态数据和第二模态数据的数据集;
8.对所述数据集进行处理,生成训练集;
9.构建特异特征提取网络,及,模态转换网络;
10.将所述训练集输入至所述特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;
11.利用所述第一特征和所述第二特征,对所述模态转换网络进行训练;
12.利用所述特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。
13.优选的,所述对所述数据集进行处理,生成训练集,包括:
14.分析所述第一模态数据和第二模态数据,分别得到与所述第一模态数据同类的第二模态数据以及与所述第一模态数据同异类的第二模态数据;
15.将所述第一模态数据、与所述第一模态数据同类的第二模态数据、与所述第一模态数据同异类的第二模态数据以三元组的形式整合为第一数据组;
16.分析所述第一模态数据和第二模态数据,得出与所述第二模态数据同类的第一模态数据以及与所述第二模态数据同异类的第一模态数据;
17.将所述第二模态数据、与所述第二模态数据同类的第一模态数据、与所述第二模态数据同异类的第一模态数据整合以三元组的形式为第二数据组;
18.将所述第一数据组和第二数据组作为训练集。
19.优选的,所述构建特异特征提取网络,包括:
20.构建包括第一特征提取器和第二特征提取器的特异特征提取网络;
21.所述第一特征提取器和第二特征提取器的结构相同,均包含一个最大池化层和七个卷积层。
22.优选的,所述构建包括第一特征提取器和第二特征提取器的特异特征提取网络,包括:
23.按照特定结构构建所述第一特征提取器和第二特征提取器;
24.所述特定结构具体为:第一卷积层、最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层;
25.将所述第二卷积层的输入与所述第四卷积层的输出参差连接;
26.将所述第五卷积层的输入与所述第七卷积层的输出参差连接。
27.优选的,所述将所述训练集输入至所述特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征,包括:
28.通过所述第一特征提取器对所述第一数据组进行特征提取,生成第一特征;
29.通过所述第二特征提取器对所述第二数据组进行特征提取,生成第二特征。
30.优选的,所述利用所述第一特征和所述第二特征,对所述模态转换网络进行训练,包括:
31.对所述第一特征和所述第二特征进行模态内排序损失约束和交叉熵约束;
32.将约束后的数据通过模态转换矩阵,得到第一转换特征和第二转换特征;
33.对所述第一特征和第二转换特征进行三元组约束,对所述第二特征和第一转换特征进行三元组约束,得到训练好的模态转换矩阵,进而得到训练好的模态转换网络。
34.优选的,所述的方法,还包括:
35.根据所述数据集,生成数据随机的测试集;
36.将所述测试集作为输入,进行跨模态检索,生成测试结果。
37.根据本发明实施例的第二方面,提供一种跨模态数据检索装置,包括:
38.训练数据获取模块,用于获取包含第一模态数据和第二模态数据的数据集;
39.数据处理模块,用于对所述数据集进行处理,生成训练集;
40.构建模块,用于构建特异特征提取网络,及,模态转换网络;
41.训练模块,用于将所述训练集输入至所述特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;还用于利用所述第一特征和所述第二特征,对所述模态转换网络进行训练;
42.跨模态检索模块,用于利用所述特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。
43.优选的,所述的装置,还包括:
44.测试模块,用于根据所述数据集,生成数据随机的测试集;将所述测试集作为输入,进行跨模态检索,生成测试结果。
45.根据本发明实施例的第三方面,提供一种跨模态数据检索设备,包括:
46.主控器,及与所述主控器相连的存储器;
47.存储器,其中存储有程序指令;
48.所述主控器用于执行存储器中存储的程序指令,执行上述任一项所述的方法。
49.本发明的实施例提供的技术方案可以包括以下有益效果:
50.可以理解的是,本发明能够获取包含第一模态数据和第二模态数据的数据集;对数据集进行处理,生成训练集;构建特异特征提取网络,及,模态转换网络;将训练集输入至特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;利用第一特征和第二特征,对模态转换网络进行训练;利用特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。可以理解的是,本发明利用搭建的特异特征提取网络,分别提取双模态数据特征,利用模态转换网络进行转换,能够使得每一种模态的数据特征在各自的特征空间,进行相似度度量,避免了因为公共空间投射带来的信息损失。
51.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
52.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
53.图1是根据一示例性实施例示出的一种跨模态数据检索方法步骤示意图;
54.图2是根据一示例性实施例示出的一种跨模态数据检索流程图;
55.图3是根据一示例性实施例示出的一种跨模态数据检索装置示意框图。
具体实施方式
56.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
57.实施例一
58.图1是根据一示例性实施例示出的一种跨模态数据检索方法步骤示意图,参见图1,提供一种跨模态数据检索方法,包括:
59.步骤s11、获取包含第一模态数据和第二模态数据的数据集;
60.步骤s12、对所述数据集进行处理,生成训练集;
61.步骤s13、构建特异特征提取网络,及,模态转换网络;
62.步骤s14、将所述训练集输入至所述特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;
63.步骤s15、利用所述第一特征和所述第二特征,对所述模态转换网络进行训练;
64.步骤s16、利用所述特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。
65.在具体实践中,上述数据集可以表示为x={(ai,bi,yi)|i=1,2,...,n}其中,ai为第一模态数据,bi为第二模态数据,yi是数据集的标签。而对于第一模态数据,在第二模态数据中包含与所述第一模态数据同类的第二模态数据、与所述第一模态数据同异类的第二模
态数据。对于第二模态数据,在第一模态数据中包含与所述第二模态数据同类的第一模态数据、与所述第二模态数据同异类的第一模态数据。
66.在具体应用场景中,本实施例首先需要获取数据集,进而构建特异特征提取网络,及,模态转换网络,并通过数据集完成对网络的训练。图2是根据一示例性实施例示出的一种跨模态数据检索流程图,在具体应用场景中,经过上述步骤训练完成后的网络如图2所示,假设用户想要对模态1以及模态2的数据进行跨模态检索,模态1以及模态2的数据输入至特异特征提取网络,进而,特异特征提取网络根据模态1的数据生成第一特征x1,根据模态2的数据生成第二特征z2,将第一特征以及第二特征输入至模态转换网络,能够将第一特征x1转换成模态2的特征x
1(2)
,将第二特征z2转换成模态1的特征z
2(1)
,之后,便能够在模态1的特征空间,进行第一特征x1和z
2(1)
的相似度度量,同时,在模态2的特征空间,进行第二特征z2和x
1(2)
的相似度度量。
67.可以理解的是,本发明能够获取包含第一模态数据和第二模态数据的数据集;对数据集进行处理,生成训练集;构建特异特征提取网络,及,模态转换网络;将训练集输入至特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;利用第一特征和第二特征,对模态转换网络进行训练;利用特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。可以理解的是,本发明利用搭建的特异特征提取网络,分别提取双模态数据特征,利用模态转换网络进行转换,能够使得每一种模态的数据特征在各自的特征空间,进行相似度度量,避免了因为公共空间投射带来的信息损失。
68.需要说明的是,所述对所述数据集进行处理,生成训练集,包括:
69.分析所述第一模态数据和第二模态数据,分别得到与所述第一模态数据同类的第二模态数据以及与所述第一模态数据同异类的第二模态数据;
70.将所述第一模态数据、与所述第一模态数据同类的第二模态数据、与所述第一模态数据同异类的第二模态数据以三元组的形式整合为第一数据组;
71.分析所述第一模态数据和第二模态数据,得出与所述第二模态数据同类的第一模态数据以及与所述第二模态数据同异类的第一模态数据;
72.将所述第二模态数据、与所述第二模态数据同类的第一模态数据、与所述第二模态数据同异类的第一模态数据整合以三元组的形式为第二数据组;
73.将所述第一数据组和第二数据组作为训练集。
74.在具体实践中,对于训练集,数据以三元组形式输入网络,即,将训练集划分为两个数据组,第一数据组为第一模态数据的,可以用{ai,b
p
,bn}表示,其中,ai为第一模态数据,b
p
代表与所述第一模态数据同类的第二模态数据,bn代表与所述第一模态数据同异类的第二模态数据。同理,对于第二数据组,可以用{bi,a
p
,an}表示,其中,bi所述第二模态数据,a
p
代表与所述第二模态数据同类的第一模态数据,an代表与所述第二模态数据同异类的第一模态数据。
75.可以理解的是,通过将数据集处理成三元组形式的训练集,能够使得特异特征提取网络,及,模态转换网络对数据的处理更加精确、快速。
76.需要说明的是,所述构建特异特征提取网络,包括:
77.构建包括第一特征提取器和第二特征提取器的特异特征提取网络;
78.所述第一特征提取器和第二特征提取器的结构相同,均包含一个最大池化层和七个卷积层。
79.在具体实践中,在构建特异特征提取网络时,所述特异特征提取网络包括两个结构相同的特征提取器,在具体应用场景中,两个特征提取器能够分别提取一组模态数据的特征。
80.具体通过如下方式进行构建,所述构建包括第一特征提取器和第二特征提取器的特异特征提取网络,包括:
81.按照特定结构构建所述第一特征提取器和第二特征提取器;
82.所述特定结构具体为:第一卷积层、最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层;
83.将所述第二卷积层的输入与所述第四卷积层的输出参差连接;
84.将所述第五卷积层的输入与所述第七卷积层的输出参差连接。
85.在具体实践中,所述第一特征提取器和第二特征提取器的结构相同,均包含特定结构,特定结构为:第1卷积层

最大池化层

第2卷积层

第3卷积层

第4卷积层

第5卷积层

第6卷积层

第7卷积层,第2卷积层的输入与第4卷积层的输出残差连接,第5卷积层的输入与第7卷积层的出残差连接。
86.优选的,第1卷积层的卷积核大小为7
×
7,数量为64,步长为2;最大池化层池化窗口大小为3
×
3,步长为2;第2、4、5和7卷积层的卷积核大小为1
×
1,数量分别为64、256、128和512,步长为1;第3和6卷积层的卷积核大小为3
×
3,数量分别为128和256,步长为2。
87.可以理解的是,通过按照上述方式构建特征提取器,能够使得最终得到的结果更加精准。
88.需要说明的是,所述将所述训练集输入至所述特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征,包括:
89.通过所述第一特征提取器对所述第一数据组进行特征提取,生成第一特征;
90.通过所述第二特征提取器对所述第二数据组进行特征提取,生成第二特征。
91.在具体实践中,特异特征提取网络中包含两个结构相同的特征提取器,在对网络进行训练时,能够通过所述第一特征提取器对所述第一数据组进行特征提取,生成第一特征;通过所述第二特征提取器对所述第二数据组进行特征提取,生成第二特征。同理,在进行跨模态数据检索任务时,也能够通过第一特征提取器对模态1进行特征提取,通过第二特征提取器对模态2进行提取。如此设置,不仅增加了运行效率,还能够使得运行结果更加精准。
92.需要说明的是,所述利用所述第一特征和所述第二特征,对所述模态转换网络进行训练,包括:
93.对所述第一特征和所述第二特征进行模态内排序损失约束和交叉熵约束;
94.将约束后的数据通过模态转换矩阵,得到第一转换特征和第二转换特征;
95.对所述第一特征和第二转换特征进行三元组约束,对所述第二特征和第一转换特征进行三元组约束,得到训练好的模态转换矩阵,进而得到训练好的模态转换网络。
96.在具体实践中,对所述第一特征和所述第二特征进行交叉熵约束,能够使得双模态样本特征有足够的可辨别性,交叉熵公式为:
[0097][0098]
其中,n代表样本数量,xi代表模态1样本特征,zi代表模态2样本特征,p(yi∣xi)代表对于模态1样本特征预测值,p(yi∣zi)代表对于模态2样本特征预测值。
[0099]
而对所述第一特征和所述第二特征进行模态内排序损失约束,能够保证同一模态内的特征可辨别性,对于每一个标签为i的样本,在同一模态内,正样本和负样本之间的距离应该大于预定义值ρ2,公式如下所示:
[0100][0101]
其中,ρ2是预定义的边界值,j和k表示不同类别的标签。
[0102]
受矩阵论中的过渡矩阵的思想的启发,即,不同线性空间的基向量可以通过过渡矩阵相互表征,基向量对应的特征表示也可以通过过渡矩阵相互表征。图像数据是欧几里得数据,双模态图像数据对应不同的基向量,可以通过模态转换矩阵w
t
转换两种图像特征,使得两种模态的数据可以在各自的特征空间进行相似度度量:
[0103]
x
1(2)
=w
t
·
x1,
[0104][0105]
s.t.||w
t
||2=1
[0106]
利用三元组损失对转换的特征进行约束,公式如下:
[0107][0108]
对于模态1标签为yi的锚点样本特征它和模态2转换到模态1的同类样本特征的距离,应该小于它和模态2异类样本特征的距离。同理,对于模态2的样本,也需要这样的约束。x和z代表不同模态的样本特征,i和j表示同类,i和k表示同类。ρi表示预定义的边界值,d(
·
)表示欧几里得距离,为了训练稳定所有的特征x和z都是标准化后的。
[0109]
本方法的损失函数为:
[0110]
l=lc l
intra
l
trip
[0111]
s.t.||w
t
||2=1
[0112]
在具体训练时,将划分好的双模态数据,以三元组的形式输入设计好的特异特征提取网络,分别得到第一特征x1和第二特征z2。对x1和z2分别进行模态内排序损失约束和交叉熵约束,x1通过模态转换矩阵w
t
得到第二转换特征x
1(2)
,z2通过模态转换矩阵得到第二转换特征z
2(1)
。对所述第一特征x1和第二转换特征z
2(1)
进行三元组约束,对所述第二特征z2和第一转换特征x
1(2)
进行三元组约束,得到训练好的模态转换矩阵。
[0113]
需要说明的是,所述的方法,还包括:
[0114]
根据所述数据集,生成数据随机的测试集;
[0115]
将所述测试集作为输入,进行跨模态检索,生成测试结果。
[0116]
在具体实践中,可以根据所述数据集,生成数据随机的测试集,对于测试集,随机输入即可,不需要三元组形式,将所述测试集作为输入,进行跨模态检索,生成测试结果。
[0117]
对该实施例进行测试后,与现有跨模态检索模型进行对比,得出性能评价表,如下表所示:
[0118][0119]
表1
[0120]
以上仿真实验表明:本实施例的多通道检索单通道的ap为99.01%,单通道检索多通道的ap为98.9%;多通道检索单通道的map为98.79%,单通道检索多通道的map为98.74%,这两个指标均高于现有技术中的tone,sidhcnn和distillation_50。
[0121]
由此可见,本实施例利用搭建的特异特征提取网络,分别提取双模态数据特征,设计了模态转换矩阵,使得每一种模态的数据特征在各自的特征空间,进行相似度度量,避免了因为公共空间投射带来的信息损失。实验证明,本发明是一种非常实用的跨模态检索方法。
[0122]
实施例二
[0123]
图3是根据一示例性实施例示出的一种跨模态数据检索装置示意框图,参见图3,提供一种跨模态数据检索装置,包括:
[0124]
训练数据获取模块101,用于获取包含第一模态数据和第二模态数据的数据集;
[0125]
数据处理模块102,用于对所述数据集进行处理,生成训练集;
[0126]
构建模块103,用于构建特异特征提取网络,及,模态转换网络;
[0127]
训练模块104,用于将所述训练集输入至所述特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;还用于利用所述第一特征和所述第二特征,对所述模态转换网络进行训练;
[0128]
跨模态检索模块105,用于利用所述特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。
[0129]
可以理解的是,本实施例通过训练数据获取模块101能够获取包含第一模态数据和第二模态数据的数据集;通过数据处理模块102对数据集进行处理,生成训练集;通过构建模块103构建特异特征提取网络,及,模态转换网络;通过训练模块104将训练集输入至特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;利用第一特征和第二特征,对模态转换网络进行训练;通过跨模态检索模块105利用特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。可以理解的是,本发明利用搭建的特异特征提取网络,分别提取双模态数据特征,利用模态转换网络进行转换,能够使得每一种模态的数据特征在各自的特征空间,进行相似度度量,避免了因为公共空间投射带来的信息损失。
[0130]
需要说明的是,所述的装置,还包括:
[0131]
测试模块,用于根据所述数据集,生成数据随机的测试集;将所述测试集作为输入,进行跨模态检索,生成测试结果。
[0132]
可以理解的是,通过设置测试模块,能够对训练好的特异特征提取网络及模态转换网络进行测试,并生成测试结果,使得在利用训练好的特异特征提取网络及模态转换网络进行跨模态检索之前,能够大致了解训练成果。
[0133]
实施例三
[0134]
根据本发明实施例的第三方面,提供一种跨模态数据检索设备,包括:
[0135]
主控器,及与所述主控器相连的存储器;
[0136]
存储器,其中存储有程序指令;
[0137]
所述主控器用于执行存储器中存储的程序指令,执行上述任一项所述的方法。
[0138]
可以理解的是,本实施例能够获取包含第一模态数据和第二模态数据的数据集;对数据集进行处理,生成训练集;构建特异特征提取网络,及,模态转换网络;将训练集输入至特异特征提取网络,生成第一模态数据对应的第一特征和第二模态对应的第二特征;利用第一特征和第二特征,对模态转换网络进行训练;利用特异特征提取网络及训练好的模态转换网络,在每种模态各自的特征空间进行跨模态检索。可以理解的是,本发明利用搭建的特异特征提取网络,分别提取双模态数据特征,利用模态转换网络进行转换,能够使得每一种模态的数据特征在各自的特征空间,进行相似度度量,避免了因为公共空间投射带来的信息损失。
[0139]
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0140]
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
[0141]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明
的实施例所属技术领域的技术人员所理解。
[0142]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0143]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0144]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0145]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0146]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0147]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献