一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标类别识别方法、训练方法及可读存储介质与流程

2022-02-22 08:39:44 来源:中国专利 TAG:


1.本发明实施例涉及图像处理技术领域,尤其涉及目标类别识别方法、用于目标类别识别的神经网络的训练方法、及可读存储介质和计算机程序产品。


背景技术:

2.在很多场景中,由于种种目的,需要对目标进行分类。而对于形态和纹理相近的不同目标类别,一般的图像分类方法难以区分。例如:在地下管道建设场景中,近些年来,我国的城市化进程发展迅猛,随着数以亿计的人口涌入城市,地下管道承担的压力进一步加剧,地下管道建设作为城市建设过程中一项非常重要的基础任务,影响着城市正常运行的稳定性,及时检修管网系统,是保证城市基础设施建设稳定性的重要保障。
3.目前,针对地下管道缺陷检测采用最多的是先通过机器人下井拍摄视频数据,再将获取的海量信息通过人力筛选进行缺陷类型评判,最后生成相关报告。例如,现有的方法是使用单幅图像输入实现了不同管道缺陷的分类。但是该方法具有如下不足之处:一、该方法忽略了管道缺陷的一个独有问题,即大多数关键缺陷类型分布广,但是实际占据面积比例小,如:树根、裂缝、错口等缺陷类型,针对这些缺陷类型,该方法不能很好地进行区分。
4.二、该方法基于单幅图像提取得到的全局特征做缺陷分类,容易使得模型无法捕获缺陷本身具有鉴别性的信息,易受到背景等噪声影响。
5.三、当两类缺陷在形态、纹理相似度较高时,如:腐蚀、结垢等缺陷类型,该方法提供的模型无法依赖全局上的笼统语义信息区分它们。
6.由于上述限制,该方法只能局限应用于七类管道类型缺陷,包括:变形、腐蚀、结垢、错口、沉积、渗漏以及破裂。而根据我国住房城乡建设部关于发布的行业标准《城镇排水管道检测与评估技术规程》中介绍,地下排水管道缺陷类型共有17种,包括:暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏以及破裂。显然该方法无法有效准确地区分完整的17种缺陷类型。此外,管道数据初始来源于视频数据,如能实现管道视频数据全粒度(即17种缺陷类别)的缺陷分类,将能极大促进城市地下管网的检修工作进行。


技术实现要素:

7.本发明实施例提出目标类别识别方法、用于目标类别识别的神经网络的训练方法、及可读存储介质和计算机程序产品,以细化目标类别识别的类别粒度,并提高目标类别识别的识别精度。
8.本发明实施例的技术方案是这样实现的:一种目标类别识别方法,该方法包括:对待识别图像进行特征提取,得到第一特征向量,第一特征向量的维度为c1*h1*w1,其中,c1为预设的通道数,h1为预设的每个通道的特征长度,w1为预设的每个通道的特
征宽度;对第一特征向量分别进行不同粒度下的特征降解,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数;对于每一粒度下每个通道中的每个特征值,将特征值与特征值的注意力系数相乘,得到特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征值构成所述粒度下的第二特征向量;分别采用不同粒度下的第二特征向量进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率;对于每一目标类别,对不同粒度下待识别图像中含有所述目标类别的概率进行加权计算,得到待识别图像中含有所述目标类别的最终概率。
9.所述分别采用不同粒度下的第二特征向量进行目标分类计算,包括:对不同粒度下的第二特征向量分别进行基于通道的全局平均池化处理,得到不同粒度下的每个通道的全局平均特征值,在不同粒度下分别采用所述粒度下的所有通道的全局平均特征值进行所述粒度下的目标分类计算,从而得到不同粒度下待识别图像中含有各目标类别的概率。
10.所述对第一特征向量分别进行不同粒度下的特征降解,包括:设当前粒度为m2,则将第一特征向量的每个通道中的所有特征值划分为m2个子区域,每个子区域中包含的特征值的数目为(h1/m)*(w1/m),针对所述m2个子区域中处于相同位置的每m2个特征值,取所述m2个特征值中的最大特征值,这样共取到(h1/m)*(w1/m)个最大值,(h1/m)*(w1/m)个最大值构成了通道的特征降解后的特征值,所有通道的特征降解后的特征值构成了当前粒度m2下特征降解后的特征向量,其中,m为不小于1的整数。
11.所述待识别图像为管道图像,所述目标类别为管道缺陷类别。
12.所述管道缺陷类别包括:暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、或/和破裂。
13.一种用于目标类别识别的神经网络的训练方法,该方法包括:获取多帧目标类别识别场景中的图像作为训练图像;将训练图像依次输入神经网络的骨干网络进行特征提取,得到第一特征向量;对第一特征向量分别进行不同粒度下的特征降解,将不同粒度下得到的特征降解后的特征向量分别输入到所述神经网络的对应粒度的空间级别的注意力模块进行空间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数;对于每一粒度下每个通道中的每个特征值,将所述特征值与特征值的注意力系数相乘,得到所述特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征值构成所述粒度下的第二特征向量;分别将不同粒度下的第二特征向量输入到所述神经网络的对应粒度的全连接层进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率;对于每一目标类别,对不同粒度下待识别图像中含有所述目标类别的概率进行加权计算,得到待识别图像中含有所述目标类别的最终预测概率;对训练图像中含有每个目标类别的最终预测概率以及训练图像中含有每个目标
类别的真实概率,计算得到预测损失值,将所述预测损失值用于更新神经网络参数;当神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
14.所述分别将不同粒度下的第二特征向量输入到所述神经网络的对应粒度的全连接层进行目标分类计算,包括:对不同粒度下的第二特征向量分别进行基于通道的全局平均池化处理,得到不同粒度下的每个通道的全局平均特征值,分别将每一粒度下的所有通道的全局平均特征值输入到所述神经网络的对应粒度的全连接层进行对应粒度下的目标分类计算,从而得到不同粒度下待识别图像中含有各目标类别的概率。
15.所述对第一特征向量分别进行不同粒度下的特征降解,包括:设当前粒度为m2,则将第一特征向量的每个通道中的所有特征值划分为m2个子区域,每个子区域中包含的特征值的数目为(h1/m)*(w1/m),针对m2个子区域中处于相同位置的每m2个特征值,取m2个特征值中的最大特征值,这样共取到(h1/m)*(w1/m)个最大值,(h1/m)*(w1/m)个最大值构成了该通道的特征降解后的特征值,所有通道的特征降解后的特征值构成了当前粒度m2下特征降解后的特征向量,其中,m为不小于1的整数。
16.所述获取多帧目标类别识别场景中的图像作为训练图像之后、所述将训练图像依次输入神经网络的骨干网络进行特征提取之前,进一步包括:对待识别目标进行视频流采集,将采集的视频流划分为预设第三数目个视频段,识别每个视频段中包含的目标类别,从每个视频段中分别采样出第四数目帧图像作为训练图像,在每个训练图像上标注训练图像包含的各目标类别的概率,其中,对于任一训练图像,若所述训练图像所属的视频段包含一目标类别,则在所述训练图像上标注所述目标类别的概率为100%,若所述训练图像所述的视频段不包含一目标类别,则在所述训练图像上标注该目标类别的概率为0%。
17.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上任一项所述的目标类别识别方法的步骤,或者如上任一项所述的用于目标类别识别的神经网络的训练方法的步骤。
18.本发明实施例中,通过对从待识别图像中提取的第一特征向量分别进行不同粒度下的特征降解,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算,从而得到每一粒度下的空间增强特征向量,分别采用不同粒度下的空间增强特征向量进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率,之后,对于每一目标类别,对不同粒度下待识别图像中含有该目标类别的概率进行加权计算,得到待检测识别图像中含有该目标类别的最终概率,从而实现了对目标类别的细粒度分类,对于分布广、实际占面积比例小等可鉴别性特征不明显的目标类别也能够有效区分;且,由于该方法采用多粒度的特征,因此能够有效区分类间混淆度大的目标类别。从而该方法更加细化了目标类别识别的类别范围,并提高了目标类别识别的识别精度。
附图说明
19.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其
他的附图。
20.图1为本发明一实施例提供的目标类别识别方法流程图;图2为本发明一实施例提供的用于目标类别识别的神经网络的训练方法流程图;图3为本发明另一实施例提供的用于目标类别识别的神经网络的训练方法流程图;图4为本发明实施例提供的目标类别识别装置的结构示意图;图5本发明实施例提供的用于目标类别识别的神经网络的训练装置的结构示意图;图6为本发明实施例提供的一种电子设备的示例性结构示意图。
具体实施方式
21.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
23.下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
24.图1为本发明一实施例提供的目标类别识别方法流程图,其具体步骤如下:步骤101:对待识别图像进行特征提取,得到第一特征向量,第一特征向量的维度为c1*h1*w1,其中,c1为预设的通道数,h1为预设的每个通道的特征长度,w1为预设的每个通道的特征宽度。
25.步骤102:对第一特征向量分别进行不同粒度下的特征降解,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数。
26.其中,不同粒度下的特征降解指的是,把h1*w1大小特征按照由粗到细划分为例如3*3、6*6和9*9个子区域。三种粒度特征对应的每个子区域大小分别为(h1/3)*(w1/3),(h1/6)*(w1/6)和(h1/9)*(w1/9)。三种粒度特征对应形状大小分别是:c1*9*(h1/3)*(w1/3),c1*36*(h1/6)*(w1/6)和c1*81*(h1/9)*(w1/9)。紧接着,在每种粒度特征的第二维度上执行求最大值操作,得到形状大小为c1*(h1/3)*(w1/3),c1*(h1/6)*(w1/6)和c1*(h1/9)*(w1/9)的不同粒度特征。此操作从不同空间区域汇总最具鉴别性的特征,一方面可以去除背景特征干扰,另一方面又可以挖掘对分类最有意义的信息。
27.步骤103:对于每一粒度下每个通道中的每个特征值,将该特征值与该特征值的注
意力系数相乘,得到该特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征值构成该粒度下的第二特征向量。
28.其中,注意力系数的取值范围为[0,1]。注意力系数的值越大,代表对应特征值的重要程度越大;反之,代表对应特征值的重要程度越小。
[0029]
步骤104:分别采用不同粒度下的第二特征向量进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率。
[0030]
步骤105:对于每一目标类别,对不同粒度下待识别图像中含有该目标类别的概率进行加权计算,得到待识别图像中含有该目标类别的最终概率。
[0031]
一帧图像中可能包含多个目标类别,这里只给出待识别图像中含有每个目标类别的概率,以供用户参考。每个目标类别的概率的取值范围为:[0%,100%]。
[0032]
上述实施例中,通过对从待识别图像中提取的第一特征向量分别进行不同粒度下的特征降解,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算,从而得到每一粒度下的空间增强特征向量,分别采用不同粒度下的空间增强特征向量进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率,之后,对于每一目标类别,对不同粒度下待识别图像中含有该目标类别的概率进行加权计算,得到待识别图像中含有该目标类别的最终概率,从而实现了对目标类别的细粒度分类,对于分布广、实际占面积比例小等可鉴别性特征不明显的目标类别也能够有效区分;且,由于该方法采用多粒度的特征,因此能够有效区分类间混淆度大的目标类别。从而该方法细化了目标类别识别的类别范围,并提高了目标类别识别的识别精度。
[0033]
一可选实施例中,步骤101具体包括:步骤1011:对待识别图像进行通道特征提取,得到通道特征向量,通道特征向量的维度为c1*h1*w1,其中,c1为预设的通道数,h1为预设的每个通道的特征长度,w1为预设的每个通道的特征宽度。
[0034]
步骤1012:对通道特征向量进行通道级别的注意力系数计算,得到每个通道的注意力系数。
[0035]
步骤1013:对于所述通道特征向量中的每个通道,将该通道中的每个特征值分别乘以该通道的注意力系数,分别得到该通道的各通道增强特征值,所有通道的所有通道增强特征值构成第一特征向量。
[0036]
上述实施例通过计算通道特征向量中每个通道的注意力系数,并将通道特征向量中每个通道中的每个特征值与该通道的注意力系数相乘,得到第一特征向量,从而增强了待识别图像中的目标特征,弱化了待识别图像中的非目标特征,最终提高了目标类别识别的准确度。
[0037]
一可选实施例中,步骤1011中,对待识别图像进行通道特征提取,包括:将待识别图像输入神经网络的骨干网络进行通道特征提取;且,步骤1012中,对所述通道特征向量进行通道级别的注意力系数计算,包括:将通道特征向量输入神经网络的通道级别的注意力模块进行通道级别的注意力系数计算。
[0038]
通过通道级别的注意力模块的计算后,有用的通道特征会被赋予更大的注意力系数,无用的通道特征则被赋予更小的注意力系数,从而强化了有用的通道特征,弱化了无用的通道特征。
[0039]
上述实施例中通过神经网络中的骨干网络实现了对待识别图像的通道特征提取,通过神经网络的注意力模块实现了对通道特征向量的通道级别的注意力系数计算。
[0040]
一可选实施例中,步骤101中,对待识别图像进行特征提取,包括:将待识别图像输入神经网络的骨干网络进行特征提取;步骤102中,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算,包括:将不同粒度下得到的特征降解后的特征向量分别输入到神经网络的对应粒度的空间级别的注意力模块进行空间级别的注意力系数计算;步骤104中,分别采用不同粒度下的第二特征向量进行目标分类计算,包括:分别将不同粒度下的第二特征向量输入到神经网络的对应粒度的全连接层进行目标分类计算。
[0041]
上述实施例中,通过神经网络的骨干网络实现了对待识别图像的特征提取,通过神经网络的不同粒度下的空间级别的注意力模块实现了对特征降解后的特征向量的空间级别的注意力系数计算,通过神经网络的不同粒度下的全连接层实现了不同粒度下的目标类别识别。
[0042]
一可选实施例中,步骤104中,分别采用不同粒度下的第二特征向量进行目标分类计算,包括:对不同粒度下的第二特征向量分别进行基于通道的全局平均池化处理,得到不同粒度下的每个通道的全局平均特征值,在不同粒度下分别采用该粒度下的所有通道的全局平均特征值进行该粒度下的目标分类计算,从而得到不同粒度下待识别图像中含有各目标类别的概率。
[0043]
一可选实施例中,步骤102中,对第一特征向量分别进行不同粒度下的特征降解,包括:设当前粒度为m2,则将第一特征向量的每个通道中的所有特征值划分为m2个子区域,每个子区域中包含的特征值的数目为(h1/m)*(w1/m),针对该m2个子区域中处于相同位置的每m2个特征值,取该m2个特征值中的最大特征值,这样共取到(h1/m)*(w1/m)个最大值,该(h1/m)*(w1/m)个最大值构成了该通道的特征降解后的特征值,所有通道的特征降解后的特征值构成了当前粒度m2下特征降解后的特征向量,其中,m为不小于1的整数。
[0044]
上述实施例中,通过采集不同粒度下的特征,聚合了来自不同位置的可鉴别性特征表示,减少了背景噪声等信息参与最后的分类决策。这么做具有两个好处,一个是,能使得具有分布广、实际面积占比小的目标类别特征表示在最大程度保留的同时,过滤掉对目标类别区分无意义的背景信息;另一个是,聚合不同区域的局部表示信息,这对于区分类间混淆度大的类别有着重要意义。
[0045]
一可选实施例中,步骤101之前,进一步包括:对待识别目标进行视频流采集,将采集的视频流划分为预设第一数目个视频段,从每个视频段中分别采样出第二数目帧图像作为待识别图像。
[0046]
图2为本发明一实施例提供的用于目标类别识别的神经网络的训练方法流程图,其具体步骤如下:步骤201:获取多帧目标类别识别场景中的图像作为训练图像。
[0047]
步骤202:将训练图像依次输入神经网络的骨干网络进行特征提取,得到第一特征向量。
[0048]
步骤203:对第一特征向量分别进行不同粒度下的特征降解,将不同粒度下得到的特征降解后的特征向量分别输入到神经网络的对应粒度的空间级别的注意力模块进行空
间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数。
[0049]
步骤204:对于每一粒度下每个通道中的每个特征值,将该特征值与该特征值的注意力系数相乘,得到该特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征值构成该粒度下的第二特征向量。
[0050]
步骤205:分别将不同粒度下的第二特征向量输入到神经网络的对应粒度的全连接层进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率。
[0051]
步骤206:对于每一目标类别,对不同粒度下待识别图像中含有该目标类别的概率进行加权计算,得到待识别图像中含有该目标类别的最终预测概率。
[0052]
步骤207:对训练图像中含有每个目标类别的最终预测概率以及训练图像中含有每个目标类别的真实概率,通过交叉熵函数计算得到预测损失值,将该预测损失值用于反传梯度更新神经网络参数。
[0053]
步骤208:当神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
[0054]
一可选实施例中,上述步骤205中,分别将不同粒度下的第二特征向量输入到神经网络的对应粒度的全连接层进行目标分类计算,包括:对不同粒度下的第二特征向量分别进行基于通道的全局平均池化处理,得到不同粒度下的每个通道的全局平均特征值,分别将每一粒度下的所有通道的全局平均特征值输入到所述神经网络的对应粒度的全连接层进行对应粒度下的目标分类计算,从而得到不同粒度下待识别图像中含有各目标类别的概率。
[0055]
一可选实施例中,上述步骤203中,对第一特征向量分别进行不同粒度下的特征降解,包括:设当前粒度为m2,则将第一特征向量的每个通道中的所有特征值划分为m2个子区域,每个子区域中包含的特征值的数目为(h1/m)*(w1/m),针对该m2个子区域中处于相同位置的每m2个特征值,取该m2个特征值中的最大特征值,这样共取到(h1/m)*(w1/m)个最大值,该(h1/m)*(w1/m)个最大值构成了该通道的特征降解后的特征值,所有通道的特征降解后的特征值构成了当前粒度m2下特征降解后的特征向量,其中,m为不小于1的整数。
[0056]
一可选实施例中,上述步骤201与202之间,进一步包括:对待识别目标进行视频流采集,将采集的视频流划分为预设第三数目个视频段,识别每个视频段中包含的目标类别,从每个视频段中分别采样出第四数目帧图像作为训练图像,在每个训练图像上标注该训练图像包含的各目标类别的概率,其中,对于任一训练图像,若该训练图像所属的视频段包含一目标类别,则在该训练图像上标注该目标类别的概率为100%,若该训练图像所述的视频段不包含一目标类别,则在该训练图像上标注该目标类别的概率为0%。
[0057]
本发明实施例中的待识别图像可为管道图像,对应地,目标类别为管道缺陷类别。
[0058]
一可选实施例中,管道缺陷类别包括:暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、或/和破裂。
[0059]
图3为本发明另一实施例提供的用于目标类别识别的神经网络的训练方法流程图,其具体步骤如下:步骤301:接收针对目标所在位置采集的视频流,按照预设分段长度对采集的视频流进行分段,并针对每个视频段,标注在该视频段中出现的目标类别。
[0060]
步骤302:分别从每个视频段中随机采样一帧图像,在每帧采样图像中标注该帧采样图像中出现的目标类别,其中,每帧采样图像中出现的目标类别为该帧采样图像所属的
视频段中出现的目标类别。
[0061]
步骤303:针对每帧采样图像,在预设的增强处理方法中,随机选择一种增强处理方法,采用所选择的增强处理方法,对该帧采样图像进行增强处理;在增强处理后的采样图像中选择预设比例的图像作为训练图像,将训练图像放入训练集中,将剩余图像作为验证图像,将验证图像放入验证集中。
[0062]
增强处理方法如:随机左右翻转、亮度抖动、随机小角度旋转等。
[0063]
预设比例的取值可根据需要设定,如:设定为80%。
[0064]
步骤304:将训练集中的每帧训练图像以第一向量的形式依次输入到神经网络的骨干网络,以对训练图像进行通道特征提取,骨干网络输出第二向量。
[0065]
如:若训练图像的通道数为c0(如:若训练图像为rgb图像,则c0=3),分辨率为h0*w0(即训练图像的高度为h0,宽度为w0),则训练图像可表示为c0*h0*w0的第一向量。
[0066]
设骨干网络输出的通道数为c1,进行的降采样次数为n,则骨干网络输出的第二向量的维度为:c1*h1*w1,其中,h1=h0/n,w1=w0/n。其中,c1一般取256、512或1024。
[0067]
骨干网络可采用resnet50网络。
[0068]
步骤305:将第二向量输出到神经网络的通道级别的注意力(channelwiseattention)模块,以计算得到每个通道的注意力系数,所有通道的注意力系数构成第三向量。
[0069]
第三向量的维度为c1,即c1个通道中的每个通道对应一个注意力系数,注意力系数的取值范围为[0,1]。
[0070]
步骤306:对于第二向量中的每个通道,将该通道中的每个特征值与第三向量中的该通道的注意力系数相乘,得到该通道中的各通道增强特征值,所有通道的所有通道增强特征值构成了第四向量。
[0071]
即,对于第二向量的c1个通道中的任一通道c1中的h1*w1个特征值,将该h1*w1个特征值中的每一特征值分别乘以第三向量中的通道c1的注意力系数,1≤c1≤c1。
[0072]
第四向量的维度与第二向量相同,仍然为:c1*h1*w1。
[0073]
步骤307:将第四向量输入到神经网络的粗粒度的空间级别的注意力(spatialwiseattention)模块,得到第四向量中的每一个特征值的注意力系数,第四向量中的所有特征值的注意力系数构成第五向量。
[0074]
第四向量中的每一个特征值即,步骤306中的通道增强特征值。
[0075]
第五向量的维度与第四向量相同,仍然为:c1*h1*w1。本步骤中的注意力系数的取值范围为[0,1]。
[0076]
步骤308:将第四向量中的每一特征值与第五向量中的该特征值的注意力系数相乘,得到第四向量中的每一特征值对应的空间增强特征值,第四向量中的所有特征值对应的空间增强特征值构成了第六向量。
[0077]
第六向量的维度同样为c1*h1*w1。
[0078]
步骤309:对第六向量中的每个通道中的特征值进行全局平均池化处理,得到每个通道的全局平均特征值,所有通道的全局平均特征值构成第七向量。
[0079]
对第六向量中的每个通道中的特征值进行全局平均池化处理,即对于第六向量的c1个通道中的每一通道c1(1≤c1≤c1)中的h1*w1个特征值求平均值,得到每个通道c1的全
局平均特征值。则第七向量的维度为c1。
[0080]
步骤310:将第七向量输入神经网络的粗粒度下的全连接层,得到粗粒度下训练图像中含有每个目标类别的概率。
[0081]
步骤311:针对第四向量中的每个通道,将该通道中的所有特征值均匀划分为p2(p》1)个子区域,每个子区域包含的特征值对应的子特征向量的维度为:(h1/p)*(w1/p),对该p2个子区域中的相同位置的p2个特征值取最大特征值,最终得到的所有通道的所有最大特征值构成第八向量。
[0082]
第四向量的维度为c1*h1*w1,将每个通道中的所有特征值均匀划分为p2个子区域后,每个子区域对应的子特征向量的维度为(h1/p)*(w1/p),针对该p2个子区域中处于相同位置的每p2个特征值,在每p2个特征值中分别取最大值,这样共取到(h1/p)*(w1/p)个最大值。c1个通道共取到c1*(h1/p)*(w1/p)个最大特征值,则第八向量的维度为c1*(h1/p)*(w1/p)。
[0083]
步骤312:将第八向量输入到神经网络的中粒度的空间级别的注意力模块,得到第八向量中的每一个特征值的注意力系数,第八向量中的所有特征值的注意力系数构成第九向量。
[0084]
第九向量的维度与第八向量相同,仍然为:c1*(h1/p)*(w1/p)。本步骤中的注意力系数的取值范围为[0,1]。
[0085]
步骤313:将第八向量中的每一特征值与第九向量中的该特征值的注意力系数相乘,得到第八向量中的每一特征值对应的空间增强特征值,第八向量中的所有特征值对应的空间增强特征值构成了第十向量。
[0086]
第十向量的维度同样为c1*(h1/p)*(w1/p)。
[0087]
步骤314:对第十向量中的每个通道中的特征值进行全局平均池化处理,得到每个通道的全局平均特征值,所有通道的全局平均特征值构成第十一向量。
[0088]
对第十向量中的每个通道中的特征值进行全局平均池化处理,即对于第十向量的c1个通道中的每一通道c1(1≤c1≤c1)中的(h1/p)*(w1/p)个特征值求平均值,得到每个通道c1的全局平均特征值。则第十一向量的维度为c1。
[0089]
步骤315:将第十一向量输入神经网络的中粒度下的全连接层,得到中粒度下训练图像中含有每个目标类别的概率。
[0090]
步骤316:针对第四向量中的每个通道,将该通道中的所有特征值均匀划分为q2(q》p》1)个子区域,每个子区域包含的特征值对应的子特征向量的维度为:(h1/q)*(w1/q),对该q2个子区域中的相同位置的q2个特征值取最大特征值,最终得到的所有通道的所有最大特征值构成第十二向量。
[0091]
第四向量的维度为c1*h1*w1,将每个通道中的所有特征值均匀划分为q2个子区域后,每个子区域对应的子特征向量的维度为(h1/q)*(w1/q),针对该q2个子区域中处于相同位置的每q2个特征值,在每q2个特征值中分别取最大特征值,这样共取到(h1/q)*(w1/q)个最大值。c1个通道共取到c1*(h1/q)*(w1/q)个最大值,则第十二向量的维度为c1*(h1/q)*(w1/q)。
[0092]
步骤317:将第十二向量输入到神经网络的细粒度的空间级别的注意力模块,得到第十二向量中的每一个特征值的注意力系数,第十二向量中的所有特征值的注意力系数构
成第十三向量。
[0093]
第十三向量的维度与第十二向量相同,仍然为:c1*(h1/q)*(w1/q)。本步骤中的注意力系数的取值范围为[0,1]。
[0094]
步骤318:将第十二向量中的每一特征值与第十三向量中的该特征值的注意力系数相乘,得到第十二向量中的每一特征值对应的空间增强特征值,第十二向量中的所有特征值对应的空间增强特征值构成了第十四向量。
[0095]
第十四向量的维度同样为c1*(h1/q)*(w1/q)。
[0096]
步骤319:对第十四向量中的每个通道中的特征值进行全局平均池化处理,得到每个通道的全局平均特征值,所有通道的全局平均特征值构成第十五向量。
[0097]
对第十四向量中的每个通道中的特征值进行全局平均池化处理,即对于第十四向量的c1个通道中的每一通道c1(1≤c1≤c1)中的(h1/q)*(w1/q)个特征值求平均值,得到每个通道c1的全局平均特征值。则第十五向量的维度为c1。
[0098]
步骤320:将第十五向量输入神经网络的细粒度下的全连接层,得到细粒度下训练图像中含有每个目标类别的概率。
[0099]
步骤321:根据步骤310、315、320分别得到的粗粒度、中粒度、细粒度下训练图像中含有每个目标类别的概率,针对每一目标类别,对粗粒度、中粒度和细粒度下训练图像中含有该目标类别的概率进行加权求和,得到训练图像中含有该目标类别的最终预测概率。
[0100]
设粗粒度、中粒度、细粒度下训练图像中含有同一目标类别的概率对应的权值分别为α、β、γ,则α β γ=1。
[0101]
步骤322:对训练图像中含有每个目标类别的最终预测概率与训练图像中含有每个目标类别的真实概率,通过交叉熵函数(cross entropy)计算预测损失值,将该预测损失值用于反传梯度更新神经网络参数。
[0102]
若训练图像中含有某个目标类别,则训练图像中含有该目标类别的真实概率为100%,否则为0%。
[0103]
当神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
[0104]
其中,步骤307~310、步骤311~315、步骤316~320是并行进行的。
[0105]
图4为本发明实施例提供的目标类别识别装置的结构示意图,该装置主要包括:特征提取模块41、多粒度下的空间注意力模块42、多粒度下的空间增强模块43、多粒度下的目标分类模块44和加权计算模块45,其中:特征提取模块41,用于对待识别图像进行特征提取,得到第一特征向量,第一特征向量的维度为c1*h1*w1,其中,c1为预设的通道数,h1为预设的每个通道的特征长度,w1为预设的每个通道的特征宽度。
[0106]
多粒度下的特征降解及空间注意力模块42,用于对第一特征向量分别进行不同粒度下的特征降解,对不同粒度下得到的特征降解后的特征向量分别进行空间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数。
[0107]
多粒度下的空间增强模块43,用于对于每一粒度下每个通道中的每个特征值,将该特征值与该特征值的注意力系数相乘,得到该特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征值构成该粒度下的第二特征向量。
[0108]
多粒度下的目标分类模块44,用于分别采用不同粒度下的第二特征向量进行目标
分类计算,得到不同粒度下待识别图像中含有各目标类别的概率。
[0109]
加权计算模块45,对于每一目标类别,对不同粒度下待识别图像中含有该目标类别的概率进行加权计算,得到待识别图像中含有该目标类别的最终概率。
[0110]
图5为本发明实施例提供的用于目标类别识别的神经网络的训练装置的结构示意图,该装置主要包括:训练图像获取模块51、特征提取模块52、多粒度下的特征降解及空间注意力模块53、多粒度下的空间增强模块54和多粒度下的目标分类模块55,其中:训练图像获取模块51,用于获取多帧目标类别识别场景中的图像作为训练图像。
[0111]
特征提取模块52,用于将训练图像获取模块51获取的训练图像依次输入神经网络的骨干网络进行特征提取,得到第一特征向量。
[0112]
多粒度下的特征降解及空间注意力模块53,用于对特征提取模块52得到的第一特征向量分别进行不同粒度下的特征降解,将不同粒度下得到的特征降解后的特征向量分别输入到神经网络的对应粒度的空间级别的注意力模块进行空间级别的注意力系数计算,得到不同粒度下每个通道的每个特征值的注意力系数。
[0113]
多粒度下的空间增强模块54,用于根据多粒度下的特征降解及空间注意力模块53的特征降解结果和得到的注意力系数,对于每一粒度下每个通道中的每个特征值,将该特征值与该特征值的注意力系数相乘,得到该特征值对应的空间增强特征值,每一粒度下的所有通道的所有空间增强特征值构成该粒度下的第二特征向量。
[0114]
多粒度下的目标分类模块55,用于分别将多粒度下的空间增强模块54得到的不同粒度下的第二特征向量输入到神经网络的对应粒度的全连接层进行目标分类计算,得到不同粒度下待识别图像中含有各目标类别的概率;对于每一目标类别,对不同粒度下待识别图像中含有该目标类别的概率进行加权计算,得到待识别图像中含有该目标类别的最终预测概率;对训练图像中含有每个目标类别的最终预测概率以及训练图像中含有每个目标类别的真实概率,通过例如交叉熵函数计算得到预测损失值,将该预测损失值用于反传梯度更新神经网络参数;当神经网络收敛时,将此时的神经网络作为最终使用的神经网络。
[0115]
本发明实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上任一实施例所述的目标类别识别方法或用于目标类别识别的神经网络的训练方法的步骤。
[0116]
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时可执行如上所述目标类别识别方法或用于目标类别识别的神经网络的训练方法中的步骤。实际应用中,所述的计算机可读介质可以是上述实施例各设备/装置/系统所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。其中,在计算机可读存储介质中存储指令,其存储的指令在由处理器执行时可执行如上目标类别识别方法或用于目标类别识别的神经网络的训练方法中的步骤。
[0117]
根据本技术公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本技术保护的范围。在本技术公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0118]
如图6所示,本发明实施例还提供一种电子设备。如图6所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:该电子设备可以包括一个或一个以上处理核心的处理器61、一个或一个以上计算机可读存储介质的存储器62以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器62的程序时,可以实现上述目标类别识别方法或用于目标类别识别的神经网络的训练方法。
[0119]
具体的,实际应用中,该电子设备还可以包括电源63、输入输出单元64等部件。本领域技术人员可以理解,图6中示出的电子设备的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:处理器61是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器62内的软件程序和/或模块,以及调用存储在存储器62内的数据,执行服务器的各种功能和处理数据,从而对该电子设备进行整体监控。
[0120]
存储器62可用于存储软件程序以及模块,即上述计算机可读存储介质。处理器61通过运行存储在存储器62的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器62可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器62可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器62还可以包括存储器控制器,以提供处理器61对存储器62的访问。
[0121]
该电子设备还包括给各个部件供电的电源63,可以通过电源管理系统与处理器61逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源63还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0122]
该电子设备还可包括输入输出单元64,该输入单元输出64可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出64还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
[0123]
本技术附图中的流程图和框图,示出了按照本技术公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0124]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本技术中。特别地,在
不脱离本技术精神和教导的情况下,本技术的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本技术公开的范围。
[0125]
本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本技术。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献