一种跨模态神经网络构建方法、行人检索方法及系统与流程

2021-12-04 02:24:00 来源：中国专利 TAG：

技术特征：
1.一种跨模态神经网络构建方法，其特征在于，所述方法包括：步骤11、获取可见光样本图像和近红外样本图像，并对所述可见光样本图像和所述近红外样本图像进行预处理，得到可见光块序列数据和近红外块序列数据；步骤12、将所述可见光块序列数据输入至第一自注意力机制模块中，获得可见光全局特征和可见光局部特征；并将所述近红外块序列数据输入至第二自注意力机制模块中，获得近红外全局特征和近红外局部特征；步骤13、利用所述可见光全局特征、所述可见光局部特征、所述近红外全局特征和所述近红外局部特征训练第一神经网络，得到跨模态神经网络。2.根据权利要求1所述的方法，其特征在于，所述对所述可见光样本图像和所述近红外样本图像进行预处理，得到可见光块序列数据和近红外块序列数据，具体包括：将所述可见光样本图像和所述近红外样本图像分别拆分成多个图像块，以形成可见光块序列集和近红外块序列集；其中，所述可见光样本图像和所述近红外样本图像的图像块拆分规则相同；将所述可见光块序列集输入至第一线性投射模块中，得到包含每个可见光图像块位置信息的可见光块序列数据；并将所述近红外块序列集输入至第二线性投射模块中，得到包含每个近红外图像块位置信息的近红外块序列数据。3.根据权利要求1所述的方法，其特征在于，所述步骤13具体包括：将所述可见光全局特征输入至第一神经网络中，训练第一预设映射矩阵，得到可见光全局映射矩阵；将所述可见光局部特征输入至第一神经网络中，训练第二预设映射矩阵，得到可见光局部映射矩阵；将所述近红外全局特征输入至第一神经网络中，训练第三预设映射矩阵，得到近红外全局映射矩阵；将所述近红外局部特征输入至第一神经网络中，训练第四预设映射矩阵，得到近红外局部映射矩阵；根据所述可见光全局映射矩阵、所述可见光局部映射矩阵、所述近红外全局映射矩阵、所述近红外局部映射矩阵构建跨模态神经网络。4.根据权利要求1所述的方法，其特征在于，所述跨模态神经网络的损失函数为：；其中，l2是对输入的两个向量求取l2损失；为可见光全局映射矩阵；为可见光全局特征；为近红外全局映射矩阵；为近红外全局特征，为可见光局部映射矩阵；为可见光局部特征；为近红外局部映射矩阵；为近红外局部特征；j=1,
…
,k ；k为拆分的图像块的数量。5.根据权利要求1所述的方法，其特征在于，所述第一自注意力机制模块的损失函数为：
；其中，为可见光全局损失；为可见光局部损失；所述第二自注意力机制模块的损失函数为：；其中，为近红外全局损失；为近红外局部损失。6.一种跨模态行人检索方法，其特征在于，所述方法包括：步骤21、获取目标行人图像，并对所述目标行人图像进行预处理，得到目标图像块序列数据；所述目标行人图像为可见光图像或近红外图像；步骤22、将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中，获得目标图像全局特征和目标图像局部特征；步骤23、将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中，得到跨模态全局特征和跨模态局部特征；其中，所述跨模态神经网络为权利要求1至5中任一项所述的跨模态神经网络；步骤24、利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索，得到跨模态检索结果。7.根据权利要求6所述的方法，其特征在于，所述对所述目标行人图像进行预处理，得到目标图像块序列数据，具体包括：将所述目标行人图像拆分成多个图像块，以形成目标图像块序列集；将所述目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中，得到包含每个目标图像块位置信息的目标图像块序列数据。8.根据权利要求6所述的方法，其特征在于，若所述目标行人图像为可见光图像，则所述步骤23具体包括：将所述目标图像全局特征输入至所述跨模态神经网络中，利用可见光全局映射矩阵对所述目标图像全局特征进行映射，得到跨模态全局特征；将所述目标图像局部特征输入至所述跨模态神经网络中，利用可见光局部映射矩阵对所述目标图像局部特征进行映射，得到跨模态局部特征；若所述目标行人图像为近红外图像，则所述步骤23具体包括：将所述目标图像全局特征输入至所述跨模态神经网络中，利用近红外全局映射矩阵对所述目标图像全局特征进行映射，得到跨模态全局特征；将所述目标图像局部特征输入至所述跨模态神经网络中，利用近红外局部映射矩阵对所述目标图像局部特征进行映射，得到跨模态局部特征。9.一种跨模态行人检索系统，其特征在于，所述系统包括：预处理模块，用于获取目标行人图像，并对所述目标行人图像进行预处理，得到目标图像块序列数据；所述目标行人图像为可见光图像或近红外图像；第一特征提取模块，用于将所述目标图像块序列数据输入至与所述目标行人图像的图像类型对应的自注意力机制模块中，获得目标图像全局特征和目标图像局部特征；
第二特征提取模块，用于将所述目标图像全局特征和所述目标图像局部特征输入至跨模态神经网络中，得到跨模态全局特征和跨模态局部特征；其中，所述跨模态神经网络为权利要求1至5中任一项所述的跨模态神经网络；检索模块，用于利用所述跨模态全局特征和/或所述跨模态局部特征在含有目标行人的视频集中进行特征匹配检索，得到跨模态检索结果。10.根据权利要求9所述的系统，其特征在于，所述预处理模块具体用于：将所述目标行人图像拆分成多个图像块，以形成目标图像块序列集；将所述目标图像块序列集输入至与所述目标行人图像的图像类型对应的线性投射模块中，得到包含每个目标图像块位置信息的目标图像块序列数据。

技术总结
本发明公开了一种跨模态神经网络构建方法、行人检索方法及系统，属于数据分析检索技术领域，能够解决跨模态识别精度较低，行人识别效果较差的问题。所述方法包括：获取可见光样本图像和近红外样本图像，并对可见光样本图像和近红外样本图像进行预处理，得到可见光块序列数据和近红外块序列数据；将可见光块序列数据输入至第一自注意力机制模块中，获得可见光全局特征和可见光局部特征；并将近红外块序列数据输入至第二自注意力机制模块中，获得近红外全局特征和近红外局部特征；利用可见光全局特征、可见光局部特征、近红外全局特征和近红外局部特征训练第一神经网络，得到跨模态神经网络。本发明用于跨模态图像识别。本发明用于跨模态图像识别。本发明用于跨模态图像识别。

技术研发人员：张德馨
受保护的技术使用者：中科智为科技（天津）有限公司
技术研发日：2021.11.05
技术公布日：2021/12/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于安卓端的App自动定制打包方法及装置与流程

一种跨模态神经网络构建方法、行人检索方法及系统与流程

相关文献

最热文献