一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种跨模态语义增强生成对抗网络的零样本视觉分类方法与流程

2021-10-24 04:00:00 来源:中国专利 TAG:样本 语义 对抗 生成 增强

技术特征:
1.一种跨模态语义增强生成对抗网络的零样本视觉分类方法,其特征在于,包括以下步骤:(1)、下载样本图像并预处理;下载n张样本图像及每张样本图像对应的标签c
i
和语义特征y
i
,通过残差神经网络提取每张样本图像的视觉特征x
i
,i=1,2,

,n;将所有的标签c
i
组成标签集c,所有的视觉特征x
i
组成视觉特征集x,以及所有的语义特征y
i
组成语义特征集y;(2)、构建跨模态语义增强的生成对抗网络;在传统的生成对抗网络中增加包含视觉特征过滤层和跨模态嵌入层的跨模态语义增强层;分别在生成对抗网络的生成器生成假的视觉特征和输入的真实的视觉特征之后部署跨模态语义增强层,然后对真假两种视觉特征进行语义增强处理,再让辨别器去辨别输出的真伪;(3)、训练练跨模态语义增强的生成对抗网络;(3.1)、训练跨模态语义增强层;在视觉特征集x中选取p个视觉特征x
i
,再与这p个视觉特征x
i
对应的语义特征y
i
一起输入至跨模态语义增强模块,i=1,2,

,p;(3.1.1)、训练视觉特征过滤层;在视觉特征过滤层中,通过全连接网络对视觉特征x
i
进行降维处理,视觉特征x
i
的维度减少一半,降维后的视觉特征记为然后将视觉特征分别输入至分类器f
cls
和回归器f
reg
,其中,分类器f
cls
和回归器f
cls
均使用一层全连接的结构;分类器f
cls
将视觉特征变换为可见类别数量的分类预测结果,记为回归器f
cls
根据视觉特征重构出与语义特征y
i
相同维度的新语义特征,记为计算本轮训练后分类器f
cls
的损失值以及回归器f
cls
的损失值;的损失值;其中,c
i
为视觉特征x
i
对应的标签;表示交叉损失熵;表示求余弦相似度;重复上述过程,直至分类器f
cls
和回归器f
reg
收敛,得到训练完成的视觉特征过滤层;(3.1.2)、训练跨模态嵌入层;在跨模态嵌入层中,通过一个全连接层把语义特征y
i
变化为视觉特征相同的维度,变换后的语义特征记为将视觉特征和语义特征通过一个公共的全连接层将其嵌入到同一个子空间,得到
跨模态视觉特征和跨模态语义特征在同一个子空间中,计算p个跨模态视觉特征和跨模态语义特征的欧式距离的平均值l
dis
;将跨模态视觉特征和跨模态语义特征输入至训练完成的分类器f
cls
和回归器f
reg
,采用交叉损失熵来计算分类损失采用交叉损失熵来计算分类损失其中,表示跨模态视觉特征的分类预测结果,表示跨模态语义特征的分类预测结果;通过计算重构后的语义特征同原来的语义特征之间的距离来计算回归损失通过计算重构后的语义特征同原来的语义特征之间的距离来计算回归损失其中,表示重构后的语义特征,表示重构后的语义特征;通过这三个损失函数来计算跨模态嵌入层的总损失l

;其中,β权重系数;重复上述过程,直至总损失l

,得到训练完成的跨模态嵌入层;(3.2)、训练基于跨模态语义增强的生成对抗网络;将训练完成的跨模态语义增强模块嵌入到传统生成对抗网络,然后输入批量的语义特征y
i
和随机高斯噪声,通过生成器g生成假的视觉特征集;将假的视觉特征集与真的视觉特征集输入至跨模态语义增强层进行语义增强,从而输出跨模态的真假视觉特征集;将跨模态的真假视觉特征集及对应的语义特征输入至辨别器d,将跨模态假的特征集输入训练完成的分类器f
cls
和回归器f
reg
,然后计算三部分的总损失值其中,辨别器d的损失为:将输入到辨别器d的真的跨模态特征表示为将输入到辨别器d的假的跨模态特征表示为然后对这两个特征取一个插值从而计算出辨别器d的损失值l
wgan
;其中,λ为权重系数,e[d(
·
)]表示对辨别器d的输出求期望,表示对辨别器d
的输出先求期望再求2范数;分类器f
cls
直接用交叉损失熵计算的分类损失:回归器f
reg
直接计算的重构语义特征与y
i
的欧式距离的损失:重复上述过程,直至三部分的总损失值收敛,得到训练完成的跨模态语义增强的生成对抗网络;(4)、训练基于零样本分类的跨模态特征分类器;将不可见类别的语义特征输入训练完成的跨模态语义增强的生成对抗网络,通过生成器得视觉特征,再经过跨模态语义增强层进行语义增强,得到跨模态特征,然后将跨模态特征填充至可见样本的跨模态特征集中,最后利用填充后的跨模态特征集训练得到用于零样本分类的跨模态特征分类器;(5)、视觉分类提取待检测图像的视觉特征,经过跨模态语义增强并输入至训练完成的跨模态特征分类器,从而输出该视觉特征的类别。

技术总结
本发明公开了一种跨模态语义增强生成对抗网络的零样本视觉分类方法,先下载多张样本图像及每张样本图像对应的标签和语义特征,并通过残差神经网络提取每张样本图像的视觉特征;然后构建跨模态语义增强的生成对抗网络并训练,再基于该生成对抗网络训练出基于零样本分类的跨模态特征分类器,从而完成待检测图像的视觉分类。的视觉分类。的视觉分类。


技术研发人员:杨阳 孙浩天 位纪伟 徐行
受保护的技术使用者:电子科技大学
技术研发日:2021.07.02
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜