一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于混合注意力机制的跨语义细粒度图像分类方法

2022-11-19 10:36:04 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,具体是基于混合注意力机制的跨语义细粒度图像分类方法。


背景技术:

2.近年来,随着人工智能的发展,卷积神经网络已成为一种提取图像特征的常用方法之一,深度学习在智能监控、垃圾分类、人脸识别等领域得到了成功应用,尤其是在图像识别、动作识别和细粒度图像分类等方面有了突破性进展。
3.常规的图像分类任务是对图像进行类间分类,也被称为粗粒度图像分类。细粒度图像分类是对于某一个大类别中的子类进行分类,如对于犬类中萨摩耶犬、阿拉斯加犬和哈士奇犬等子类别进行分类。细粒度图像分类相较于粗粒度图像分类具有更为相似的外观和特征,因此类间差异更小,同时所采集图像存在着姿态、视角、光照、遮挡、背景干扰等影响,使得类内差异更大,分类更困难。
4.常规的细粒度分类方法仅仅通过卷积神经网络来提取特征,很难定位到关键性部位,导致只能粗略的定位需要被区分的位置。引入视觉注意力网络来提取细微的差别用于区别不同位置。使网络模型选择性的关注感兴趣的部位,忽略其他位置。
5.针对以上问题,2019年luo等人提出crossx网络结构,利用osme模块,其中包括两个相同的注意力机制senet,来提取目标多个局部特征,并通过构建特定损失函数引导注意力特征关注不同的语义部分。但相同的注意力模块会导致关注的局部区域相同,以致在优化这些度量损失时难以收敛,难度较大。


技术实现要素:

6.本发明的目的在于提供基于混合注意力机制的跨语义细粒度图像分类方法,以解决上述背景技术中提出的问题。
7.本发明的技术方案是:基于混合注意力机制的跨语义细粒度图像分类方法,包括以下步骤:
8.s1、构造网络模型,经过骨干网络提取特征;
9.s2、特征经过混合注意力模块,获得双激励注意特征图;
10.s3、来自同一激励模块的特征合并连入同一全连接层,并计算跨类别跨语义正则化和跨层正则化;
11.s4、依据损失函数,对深度网络模型进行训练;
12.s5、利用训练得到的深度卷积神经网络模型,对各类细粒度数据集进行分类。
13.优选的,s2中,所述混合注意力模块包括通道注意力机制模型和空间注意力机制模型。
14.优选的,所述构造通道注意力机制模型步骤如下:
15.s1、图像特征同时经过全局平均池化和全局最大池化,分别得到两种不同的空间
语义描述算子;
16.s2、将两种算子经过一维卷积,产生两个通道注意力特征向量;
17.s3、将产生的两个通道注意力特征向量使用相加方式进行融合,最后通过激活函数,得到通道注意力向量。
18.优选的,所述构造空间注意力机制模型步骤如下:
19.s1、图像特征分别沿着水平和垂直两个方向进行池化,得到两个嵌入后维度分别为c*h*1和c*1*w的信息特征图;
20.s2、沿着空间维度拼接,并通过1*1卷积和sigmoid激活得到两方向注意力向量;
21.s3、最后对原特征进行重校准,得到空间注意力向量。
22.优选的,s3中,所述跨类别跨语义正则化计算步骤如下:
23.s1、将特征值u
p
通过池化得到f
p

24.s2、f
p
通过l2正则化,并计算相关性和得到相关矩阵s;
[0025][0026]
s3、利用来自不同图像的特征与来自不同激励块的特征之间的关系来鼓励在不同语义部分的激活模块;
[0027][0028]
s4、通过最大化同一激励模块内的相关性,以及最小化不同激励模块之间的相关性来优化该正则化器。
[0029]
优选的,s3中,所述跨层正则化计算步骤如下:
[0030]
s1、利用特征金字塔网络合并不同层之间的特征数据;
[0031]
s2、通过跨层损失函数匹配不同层之间的预测分布,来学习鲁棒性特征;
[0032]
l
cl
(pr
l
,pr
l-1
)=kl(pr
l
||pr
l-1
)。
[0033]
优选的,对一张图像进行分类预测计算步骤如下:
[0034]
s1、输入一张图像进入骨干网络进行第l-1阶段和第l阶段特征提取,分别记作u1和u2;
[0035]
s2、分别对u1和u2引入通道注意力和空间注意力来提取语义信息显著性特征,记为s
1,1
,s
1,2
和s
2,1
,s
2,2

[0036]
s3、将来自同一激励块的注意特征融合;
[0037]
s4、将特征及融合后的特征分别经过全局平均池化或全局最大池化后拼接在一起,得到特征f,同时通过跨类别跨语义正则化器,计算c3s损失函数;
[0038]
s5、特征f经过全连接层后送入softmax分类器,同时计算跨层正则化cl;
[0039]
s6、通过梯度反向传播优化损失函数,优化模型。
[0040]
本发明通过改进在此提供基于混合注意力机制的跨语义细粒度图像分类方法,与现有技术相比,具有如下改进及优点:
[0041]
本发明针对细粒度图像,即粗粒度的大类别进行更加细致的子类划分,可以很好地解决子类别具有的类间相似度较大和类内相似度较小的问题,既可以考虑到同一类别中不同图像之间的联系,又可以很容易地进行端到端训练。
附图说明
[0042]
下面结合附图和实施例对本发明作进一步解释:
[0043]
图1是本发明所采用的基于混合注意力机制的跨语义细粒度图像分类方法流程图。
[0044]
图2是本发明所采用的通道注意力机制结构图。
[0045]
图3是本发明所采用的空间注意力机制结构图。
具体实施方式
[0046]
下面对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
本发明通过改进在此提供基于混合注意力机制的跨语义细粒度图像分类方法,本发明的技术方案是:
[0048]
如图1所示,基于混合注意力机制的跨语义细粒度图像分类方法,包括以下步骤:
[0049]
s1、利用跨层跨语义的细粒度图像分类系统中的特征提取单元对输入图像进行特征提取,获得特征图;
[0050]
具体的,利用深度卷积神经网络(在本发明具体实施例中采用resnet50)对输入的图片进行特征提取,分别在经过layer3最后一个botteleneck(即第13个bottleneck)后得到特征图u1,以及在layer4最后一个bottleneck(即第16个bottleneck)得到特征图u2。
[0051]
s2、第l-1阶段特征图u1经过混合注意力(用于定位图像中更具判别性的区域,获得细粒度图像的语义信息),得到通道注意力s
1,1
和空间注意力s
1,2
;第l阶段特征图u2经过混合注意力,得到通道注意力s
2,1
和空间注意力s
2,2
,接着将s
1,1
和s
2,1
特征进行融合,以及s
1,2
和s
2,2
融合,得到s
3,1
,s
3,2

[0052]
其中,混合注意力包括通道注意力ca和空间注意力sa;其中,通道注意力ca:使用最大池化和平均池化获得两个全局特征,经过一维卷积得到两个注意图,将这两个注意图拼接后对原始特征图进行重构;空间注意力sa:将通道分解为两个沿着不同方向聚合特征的一维特征编码过程。其中一个沿着空间方向捕获长程依赖,另一个沿着空间方向保留精确的位置信息。
[0053]
具体的,如图2所示,特征图u同时经过全局平均池化和全局最大池化,分别得到不同的空间语义描述算子。并将二者通过一维卷积,将两个通道注意力特征向量使用相加方式进行融合,最后通过激活函数,得到通道注意力向量。
[0054]
同时,如图3所示,特征图u经过空间注意力sa,输入特征首先沿着水平和垂直两个方向进行池化,得到两张嵌入后维度分别为c*h*1和c*1*w的信息特征图。其沿着空间维度拼接,1*1卷积后激活,通过split操作后得到两个分离的特征图,分别对其进行sigmoid激活后得到两方向注意力向量,最后对原特征进行重校准,得到空间注意力向量。
[0055]
s3、使用特征金字塔网络合并l-1阶段和l阶段得到的注意力特征数据;
[0056]
具体的,u
l-1
为l-1阶段特征图,u
l
为第l阶段特征图,先对u
l
经过1x1卷积降维,后通过双线性插值进行上采样,再与上一阶段特征图u
l-1
进行合并,后批量归一化得到ug。
[0057][0058]
s4、将同一激励模块中提取的特征引入跨类别跨语义正则化器(通过不同图像和不同激励模块的特征映射之间的相关性来学习语义特征),最大化同一激励模块内的相关性,最小化不同激励模块之间的相关性;
[0059][0060]
其中f
p
=[f
p,1
,...,f
p,n
]∈r
cxn
,
[0061]
s5、对cl正则化器引入损失函数。和分别为第l阶段和第l-1阶段的预测输出;
[0062][0063]
s6、计算网络最终损失:
[0064][0065][0066]
s7、通过全连接层到softmax,计算分类概率,如计算跨层正则化cl和交叉熵损失l
data

[0067]
为进一步验证本分类方法的效果,将该图像分类方法的准确率和其他方法进行对比,实验结果如下表所示。准确率为被正确分类的样本占总样本的比值。由实验结果可见,我们的方法在三个数据集上的效果和racnn、dcl等方法比较都达到最好,表1为本发明实验结果统计表。
[0068]
表1
[0069] racnndclourscub85.386.987.0fgvc87.591.292.3stanford-cars92.594.194.5
[0070]
本发明针对细粒度图像,即粗粒度的大类别进行更加细致的子类划分,可以很好地解决子类别具有的类间相似度较大和类内相似度较小的问题。首先采用普通卷积网络提取原图像特征信息;然后,针对最后一阶段和上一阶段特征图同时引入通道注意力和空间注意力对特征图进行注意力激发,将来自l-1阶段和l阶段的特征图组合以生成合并的特征图;接着,通过全局最大池化或全局平均池化聚合特征图以获得相应的集合特征,来自同一阶段的融合特征被跨类别跨语义正则化相互约束,同时被送到全连接层生成逻辑值;最后,转换为类概率,通过跨层正则化对逻辑进行约束,并组合用于分类。既可以考虑到同一类别中不同图像之间的联系,又可以很容易地进行端到端训练。并通过在三个公开数据集上的实验证明了它的稳健性、有效性。
[0071]
上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献