一种用于细粒度跨模态检索的通道混合方法

2022-11-14 02:01:49 来源：中国专利 TAG：

技术特征：
1.一种用于细粒度跨模态检索的通道混合方法，其特征在于，包括以下步骤：步骤1，通过预训练卷积神经网络提取图像、视频、音频与文本共四个模态数据的特征信息；步骤2，对于步骤1中提取到的图像、视频、音频与文本共四个模态数据的特征信息，在通道维度中做不同模态间数据特征的交互，挖掘不同模态间数据的相似语义信息；步骤3，在缩小不同模态中拥有相同子类别数据的空间距离的同时，增加不同模态下不同子类别数据的空间距离，从而增加模型对不同类别数据的甄别能力。2.根据权利要求1所述的用于细粒度跨模态检索的通道混合方法，其特征在于，步骤1通过不同的预训练卷积神经网络获取图像视频音频与文本共四个模态数据的特征组；假设共存在n个类别，记类别空间为那么整体样本空间可记为其中代表四个不同的模态；代表模态下的属于类别y
i
的样本的集合；对于中的每个模态，从集合中随机选取四个样本组成一个图像—音频—视频—文本对，记为其中，m∈{1,2,
…
,n}，代表类别y
m
下图像模态中的一个样本实例，含义与相似；对于这个图像—音频—视频—文本对通过预训练的卷积神经网络提取特征组：其中，其中，为图像实例的特征，含义与相似；分别代表特征的通道维度，它们的值相同，均为d；h与w代表这些特征的高度与宽度；为不同模态下的预训练卷积神经网络。3.根据权利要求2所述的用于细粒度跨模态检索的通道混合方法，其特征在于，对于步骤1中得到的特征组进行通道维度的信息交互；首先需要替换中四种模态中任意一种模态的特征，使其属于类别y
n
且y
n
≠y
m
；而后需要将四个特征在通道维度上拆解成4份，最后重新组合这些拆解的特征并使用重新组合的特征参与模型训练。4.根据权利要求3所述的用于细粒度跨模态检索的通道混合方法，其特征在于，替换中图像模态的特征，具体方法如下：1)在图像样本集中选取类别为y
n
的样本实例其中y
n
≠y
m
；根据公式(1)得到的特征2)用的特征替换中图像模态的特征得到一个新的特征组3)将新的特征组x中的4个特征均拆解为四份：
其中，l1，l2，l3，l4代表每一部分的通道维度的大小；在每一次图像—音频—视频—文本对的特征组生成过程中，l1，l2，l3与l4都在保持l1 l2 l3 l4＝d的基础上随机生成；4)重新组合这些拆解的特征，得到新的特征组，如下：4)重新组合这些拆解的特征，得到新的特征组，如下：4)重新组合这些拆解的特征，得到新的特征组，如下：4)重新组合这些拆解的特征，得到新的特征组，如下：y
α
，y
β
，y
γ
，y
δ
代表新的特征的类别标签；重新定义这4个标签的值如下：代表新的特征的类别标签；重新定义这4个标签的值如下：代表新的特征的类别标签；重新定义这4个标签的值如下：代表新的特征的类别标签；重新定义这4个标签的值如下：最后，在卷积神经网络中，通过交叉熵损失进行模型的训练。5.根据权利要求4所述的用于细粒度跨模态检索的通道混合方法，其特征在于，在采用通道混合的方式进行数据增强的同时，缩小不同模态中拥有相同子类别数据的空间距离，增加不同模态下不同子类别数据的空间距离；对于步骤2得到的新的特征与通过一层1
×
1的卷积层与全局平均池化层将其变化为大小为h
×
w的特征向量与最后，对于这些特征向量，在卷积神经网络的训练过程中，还需进行如下损失函数约束：其中，b是训练过程中每次随机选取图像—音频—视频—文本对的数量；代表通过第i个图像—音频—视频—文本对得到的特征向量，c
i
代表与相关的模态内类别中心向量；ψ
(
·
)代表余弦相似函数；代表指示函数；[
·
]

代表校验函数max(0,
·
)，即若中括号内函数计算值大于0，则输出不变，否则输出为0；ξ是控制不同类别间距离的阈值；θ，ζ是用于对齐量纲的超参数，σ是用于判断和相似程度的超参数。6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5中任一所述的方法的步骤。7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一所述的方法的步骤。8.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-5中任一所述的方法的步骤。

技术总结
本发明公开了一种用于细粒度跨模态检索的通道混合方法，包括：通过预训练卷积神经网络提取图像、视频、音频与文本共四个模态数据的特征信息；对于提取到的图像、视频、音频与文本共四个模态数据的特征信息，在通道维度中做不同模态间数据特征的交互，挖掘不同模态间数据的相似语义信息，提升检索性能；在缩小不同模态中拥有相同子类别数据的空间距离的同时，增加不同模态下不同子类别数据的空间距离，从而增加模型对不同类别数据的甄别能力。本发明通过引导不同模态间数据在通道维度上做信息交互，挖掘不同模态数据间的共性特征，增强卷积神经网络对于不同模态数据的特征提取能力，可以获得更高的跨模态检索准确率。可以获得更高的跨模态检索准确率。可以获得更高的跨模态检索准确率。

技术研发人员：沈阳孙旭豪魏秀参
受保护的技术使用者：南京理工大学
技术研发日：2022.08.21
技术公布日：2022/11/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种异构神经网络计算资源管理系统及方法与流程

一种用于细粒度跨模态检索的通道混合方法

相关文献

最热文献