一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标类别识别方法、训练方法及可读存储介质与流程

2022-02-22 08:39:44 来源:中国专利 TAG:

技术特征:
1.一种目标类别识别方法,其特征在于,该方法包括:对待识别图像进行特征提取,得到第一特征向量,第一特征向量的维度为c1*h1*w1,其中,c1为预设的通道数,h1为预设的每个通道的特征长度,w1为预设的每个通道的特征宽度;对第一特征向量分别进行不同粒度下的特征降解,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数;对于每一粒度下每个通道中的每个特征值,将特征值与特征值的注意力系数相乘,得到特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征值构成所述粒度下的第二特征向量;分别采用不同粒度下的第二特征向量进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率;对于每一目标类别,对不同粒度下待识别图像中含有所述目标类别的概率进行加权计算,得到待识别图像中含有所述目标类别的最终概率。2.根据权利要求1所述的方法,其特征在于,所述分别采用不同粒度下的第二特征向量进行目标分类计算,包括:对不同粒度下的第二特征向量分别进行基于通道的全局平均池化处理,得到不同粒度下的每个通道的全局平均特征值,在不同粒度下分别采用所述粒度下的所有通道的全局平均特征值进行所述粒度下的目标分类计算,从而得到不同粒度下待识别图像中含有各目标类别的概率。3.根据权利要求1所述的方法,其特征在于,所述对第一特征向量分别进行不同粒度下的特征降解,包括:设当前粒度为m2,则将第一特征向量的每个通道中的所有特征值划分为m2个子区域,每个子区域中包含的特征值的数目为(h1/m)*(w1/m),针对所述m2个子区域中处于相同位置的每m2个特征值,取所述m2个特征值中的最大特征值,这样共取到(h1/m)*(w1/m)个最大值,(h1/m)*(w1/m)个最大值构成了通道的特征降解后的特征值,所有通道的特征降解后的特征值构成了当前粒度m2下特征降解后的特征向量,其中,m为不小于1的整数。4.根据权利要求1所述的方法,其特征在于,所述待识别图像为管道图像,所述目标类别为管道缺陷类别。5.根据权利要求4所述的方法,其特征在于,所述管道缺陷类别包括:暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、或/和破裂。6.一种用于目标类别识别的神经网络的训练方法,其特征在于,该方法包括:获取多帧目标类别识别场景中的图像作为训练图像;将训练图像依次输入神经网络的骨干网络进行特征提取,得到第一特征向量;对第一特征向量分别进行不同粒度下的特征降解,将不同粒度下得到的特征降解后的特征向量分别输入到所述神经网络的对应粒度的空间级别的注意力模块进行空间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数;对于每一粒度下每个通道中的每个特征值,将所述特征值与特征值的注意力系数相乘,得到所述特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征
值构成所述粒度下的第二特征向量;分别将不同粒度下的第二特征向量输入到所述神经网络的对应粒度的全连接层进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率;对于每一目标类别,对不同粒度下待识别图像中含有所述目标类别的概率进行加权计算,得到待识别图像中含有所述目标类别的最终预测概率;对训练图像中含有每个目标类别的最终预测概率以及训练图像中含有每个目标类别的真实概率,计算得到预测损失值,将所述预测损失值用于更新神经网络参数;当神经网络收敛时,将此时的神经网络作为最终使用的神经网络。7.根据权利要求6所述的方法,其特征在于,所述分别将不同粒度下的第二特征向量输入到所述神经网络的对应粒度的全连接层进行目标分类计算,包括:对不同粒度下的第二特征向量分别进行基于通道的全局平均池化处理,得到不同粒度下的每个通道的全局平均特征值,分别将每一粒度下的所有通道的全局平均特征值输入到所述神经网络的对应粒度的全连接层进行对应粒度下的目标分类计算,从而得到不同粒度下待识别图像中含有各目标类别的概率。8.根据权利要求6所述的方法,其特征在于,所述对第一特征向量分别进行不同粒度下的特征降解,包括:设当前粒度为m2,则将第一特征向量的每个通道中的所有特征值划分为m2个子区域,每个子区域中包含的特征值的数目为(h1/m)*(w1/m),针对m2个子区域中处于相同位置的每m2个特征值,取m2个特征值中的最大特征值,这样共取到(h1/m)*(w1/m)个最大值,(h1/m)*(w1/m)个最大值构成了该通道的特征降解后的特征值,所有通道的特征降解后的特征值构成了当前粒度m2下特征降解后的特征向量,其中,m为不小于1的整数。9.根据权利要求6所述的方法,其特征在于,所述获取多帧目标类别识别场景中的图像作为训练图像之后、所述将训练图像依次输入神经网络的骨干网络进行特征提取之前,进一步包括:对待识别目标进行视频流采集,将采集的视频流划分为预设第三数目个视频段,识别每个视频段中包含的目标类别,从每个视频段中分别采样出第四数目帧图像作为训练图像,在每个训练图像上标注训练图像包含的各目标类别的概率,其中,对于任一训练图像,若所述训练图像所属的视频段包含一目标类别,则在所述训练图像上标注所述目标类别的概率为100%,若所述训练图像所述的视频段不包含一目标类别,则在所述训练图像上标注该目标类别的概率为0%。10.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至5中任一项所述的目标类别识别方法的步骤,或者如权利要求6至9中任一项所述的用于目标类别识别的神经网络的训练方法的步骤。

技术总结
本发明实施例提出目标类别识别方法、训练方法及可读存储介质。方法包括:对待识别图像进行特征提取,得到第一特征向量;对第一特征向量分别进行不同粒度下的特征降解,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算;对于每一粒度下每个通道中的每个特征值,将该特征值与该特征值的注意力系数相乘,得到第二特征向量;分别采用不同粒度下的第二特征向量进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率;对于每一目标类别,对不同粒度下待识别图像中含有该目标类别的概率进行加权计算,得到待识别图像中含有该目标类别的最终概率。本发明实施例更加细化了目标类别识别的粒度。本发明实施例更加细化了目标类别识别的粒度。本发明实施例更加细化了目标类别识别的粒度。


技术研发人员:艾国 凌明 杨作兴 房汝明 向志宏
受保护的技术使用者:深圳比特微电子科技有限公司
技术研发日:2022.01.04
技术公布日:2022/2/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献