一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于SE模块和自注意力机制网络的图像分类方法与流程

2021-10-24 07:37:00 来源:中国专利 TAG:图像 注意力 模块 机制 方法

一种基于se模块和自注意力机制网络的图像分类方法
技术领域
1.本发明涉及图像识别和深度学习技术领域,尤指一种基于se模块和自注意力机制网络的图像分类方法。


背景技术:

2.图像分类是计算机视觉、机器学习与深度学习领域非常活跃的研究方向,图像分类得到广泛应用,比如人脸识别、行人检测、交通场景物体识别、车牌识别、以及相册自动归类等。
3.图像分类是人工智能计算机视觉领域中很重要的基础任务,也是目标检测的基础,图像分类的准确性影响后续任务的性能评估。目前有基于机器学习的支持向量机图像分类方法,主流的深度学习图像分类方法主要分为两大类,一类是基于卷积神经网络有:alexnet、vgg、googlenet以及resnet等经典的神经网络;另一类是基于自注意力机制有:vision transformer和transformer in transformer。
4.和本发明最接近的是基于自注意力机制的vision transformer,先把整张图片切片成若干个patch,然后利用自注意力机制提取每个patch之间的全局特征,经过多层感知机继续传输。自注意力机制和多层感知机堆叠构成一个编码器层,通过堆叠若干个这种编码器层构成vision transformer框架,把最后编码器层patch0的输出输入到softmax层得到图像类别预测结果。
5.和本发明相对接近的是基于自注意力机制的transformer in transformer,用两个transformer中编码器层分别提取每个patch之间和patch内部的特征,两个编码器层构成一个模块,通过堆叠若干个这种模块构成transformer in transformer框架。


技术实现要素:

6.本发明的目的其一使每个patch的局部特征得到利用,其二使每一最小单元层的patch0全局特征得到利用,更多特征利用以至于提高分类准确度,提出一种基于se模块和自注意力机制网络的图像分类方法。
7.为了实现以上的发明目的,采用如下的技术方案:
8.一种基于se模块和自注意力机制网络的图像分类方法,包括一下步骤:
9.s1:将输入的图片转换成规定大小矩阵,然后把这些数据转成张量数据类型,再输入模型。
10.s2:将一张图片切片成若干个patch,添加patch0用作分类特征,加入位置信息丰富特征表示。
11.s3:利用se模块对每个patch内部提取特征。
12.s4:利用自注意力机制提取每个patch之间的特征。
13.s5:自注意力机制输出数据投入两层mlp。
14.s6:将s3、s4、s5形成的模块串行堆叠形成本发明提出方法的最小单元层,堆叠l最
小单元层,从而提取更高级的局部和全局特征。
15.s7:将上述步骤得到的全局特征用于分类。
16.优选的是,步骤s1所述为图片预处理,如果输入图片较少,通过数据增强方法后再转化成张量数据类型。
17.优选的是,步骤s2所述将一张图片,其像素为c
×
h
×
w,切片成个个patch,每个patch是c
×
h1×
w1,然后把每个patch展成1
×
ch1w1的向量,实现切片要用到卷积操作和flatten(展平)操作,其输入维度(b,c,h,w),输出维度(b,n,ch1w1),其中c为图片的通道数,b为batch size(批量大小)。此外还要添加patch0用作分类特征,即有m=n 1个patch,故本步骤输出的维度是(b,m,ch1w1)。每个patch(包括patch0)要加入位置信息,这样自注意力机制能更好的学习到即使是同一张图片,patch位置不同,得到的分类结果是不一样的。
18.优选的是,步骤s3所述patch内部特征提取采用卷积神经网络,所以要把上一步的输出维度(b,m,ch1w1)变成(b,m,c,h1,w1);为了使输入输出宽、高一样,使用0填充,使用ch1w1个卷积核,从ch1w1个维度提取patch内部特征,得到ch1w1个h1×
w1特征图,即维度是(ch1w1,h1,w1);接着对每个特征图使用全局平均池化,得到(ch1w1,1,1);经过第一线性层,输出维度设置为其中β为缩放因子,激活函数relu,公式表示如式(1),
[0019][0020]
其中b1是可训练参数,x1是输入,x2是输出;第二线性层,输入维度是输出维度是dim=ch1w1,激活函数softmax,得到每个通道的权重,公式表示如式(2),
[0021][0022]
其中b2是可训练参数,x2是输入,x3输出;分别与每个通道的特征图相乘,然后把所有的特征图相加,得到f是1
×
h1×
w1的特征图,该特征图包含了ch1w1维度提取的patch内部特征信息的融合,公式表示如式(3),
[0023]
f=x
31
c1 x
32
c2

x
3i
c
i i=1,2,

,ch1w1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(3)
[0024]
其中x
3i
是x3的元素,c
i
是用卷积神经网络提取patch内部的每个特征图;经过flatten后,再经过线性层,把维度升到ch1w1。可见se模块输入输出维度都是(b,m,ch1w1),其中batch(批量)中每张图片共享se模块,可以减少参数量。
[0025]
优选的是,步骤s4所述采用多头自注意力机制从不同维度提取全局特征,自注意力机制过程可以用下面过程展现:
[0026]
先经过线性层和转化维度操作,初始化三个张量q、k、v,其目的是为了训练这三个张量,维度都是其中b表示batch size,h表示多头自注意力机制的头数量,m表示输入自注意力机制patch的数量(包括patch0),d=c,h1,w1表示每个patch的维度。
[0027][0028]
故w的维度是(b,h,m,m),其中第2维度的第i行第j列元素代表第i个patch对第j个patch的权重。
[0029]
a=wv
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(5)
[0030]
故a的维度是a聚合了整张图片特征信息,再把a的维度转成(b,m,d)输出下一层。
[0031]
优选的是,步骤s5所述两层感知机可用如下公式表示:
[0032]
第一层:
[0033][0034]
其中,x4是输入,x5是输出,b4是偏置,其中α是缩小倍数,w4和b4是训练参数。
[0035]
第二层:
[0036][0037]
其中,x5是输入,x6是输出,b5是偏置,x5和b5是训练参数。该步输出的维度也是(b,m,d)。
[0038]
优选的是,步骤s6所述在输入每个模块之前,有归一化的操作,然后每个模块添加shortcut连接。
[0039]
优选的是,步骤s7所述由于每个最小单元层patch0注意的范围不同,导致提取的全局信息不同,所以把每个最小单元层多层感知机输出的patch0提取出来,记为u
i
∈r1×
d
,i=1,2,

,l,然后,
[0040][0041]
p=k1u1 k2u2

k
i
u
i
,i=1,2,

,l
ꢀꢀꢀ
式(9)
[0042]
out=softmax(p)
ꢀꢀꢀ
式(10)
[0043]
其中k
i
代表u
i
的权重,e∈r
d
×1是训练参数,p表示按照每个最小单元层输出的patch0不同权重融合的全局特征,最后p把输入softmax层得到分类置信度,将置信度最高的类别作为预测的结果。
[0044]
与现有的技术相比,本发明达到的有益效果是:
[0045]
第一,本发明在输入自注意力机制之前,使用se模块对patch内部特征进行提取,使输入自注意力机制的patch向量表示更丰富,更多的特征得到利用,提高分类准确度,计算量比transformer in transformer架构少。
[0046]
第二,把每个最小单元层的ptach0输出取出来,然后分配相应的权重,该权重是自动学习得到,每个最小单元层patch0输出乘以相应的权重再相加,这样就可以把每个最小单元层提取的全局特征得以利用,那么输入softmax层特征更丰富,提高分类的准确度。
附图说明
[0047]
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,附图仅用于示例性说明,不能理解为本发明的限制。
[0048]
图1是本发明的流程图;
[0049]
图2是本发明所述se模块的流程图;
[0050]
图3是本发明所述最小单元层的流程图。
具体实施方式
[0051]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0052]
实施例:
[0053]
一种基于se模块和自注意力机制网络的图像分类,如图1所示,本模型包括3部分。第一部分是将一张图片切成若干个patch,并添加patch0用作分类特征,还要加入位置信息。第二部分是最小单元层,包括se模块提取每个patch内部的局部特征,自注意力机制提取每个patch之间的全局特征,以及多层感知机,根据需要来确定堆叠l最小单元层。第三部分是取每最小单元层的patch0输出,分别赋予不同的权重,再融合起来,输入softmax层得到预测结果。
[0054]
第一部分:假定一张彩色图片像素为3
×
224
×
224,每个patch的像素为3
×
16
×
16,有个patch,用卷积操作来切片,其参数设置为:卷积核3
×
16
×
16,步长(1,1),不用偏置,卷积核数量设置为ch1w1=3
×
16
×
16=768,输入的维度是(b,3,224,224),经过卷积操作得到特征图维度是(b,768,14,14),flatten操作后的维度(b,768,196),把第1和第2维调换,维度变成(b,196,768)。其中c为图片的通道数,彩色图片的通道为3,h1、w1为每个patch的高和宽,本实施例中均为16,b为batch size。添加patch0后,即有m=n 1=197个patch,开始时,patch0为全0向量,后经训练得到表示全局特征的向量,那么该部分输出维度是(b,197,768)。每个patch(包括patch0)要加入位置信息,这样自注意力机制能更好的学习到即使是同一张图片,patch位置不同,得到的分类结果是不一样的。
[0055]
第二部分:首先是se模块,其流程图如图2所示,由于要利用卷积神经网络,所以要把上一步的输出维度(b,197,768)变成(b,197,3,16,16);卷积参数设置为:卷积核3
×3×
3,步长(1,1),使用偏置,为了使输入输出宽、高一样,使用0填充,上下增加一行,左右增加一列,使用768个卷积核,从768个维度提取patch内部特征,得到768个16
×
16特征图,即维度是(768,16,16);接着对每个特征图使用全局平均池化,得到(768,1,1);经过第一线性层,输出维度设置为其中缩放因子是16,激活函数relu,公式表示如式(1),
[0056][0057]
其中w1∈r
768
×
48
、b1是可训练参数,x1是输入,x2是输出;第二线性层,输入维度是dim=48,输出维度是dim=768,激活函数softmax,得到每个通道的权重,公式表示如式(2),
[0058][0059]
其中w2∈r
48
×
768
、b2是可训练参数,x2是输入,x3输出;分别与每个通道的特征图相乘,然后把所有的特征图相加,得到f是1
×
16
×
16的特征图,该特征图包含了768维度提取的patch内部特征信息的融合,公式表示如式(3),
[0060]
f=x
31
c1 x
32
c2

x
3i
c
i i=1,2,

,768
ꢀꢀꢀ
式(3)
[0061]
其中x
3i
是x3的元素,c
i
是用卷积神经网络提取patch内部的每个特征图;经过flatten后,再经过线性层,把维度升到768。可见se模块输入输出维度都是(b,197,768),其中batch中每张图片共享se模块,可以减少参数量。
[0062]
然后是多头自注意力机制从不同维度提取全局特征,设定多头自注意力机制的头数量为8,先经过线性映射和转化维度初始化三个张量q、k、v,维度都是(b,8,176,96),我们的目的是为了训练这三个张量,其中b表示batch size。通过式(4)
[0063][0064]
可以得到权重张量w,维度是(b,8,176,176),其中第2维度的第i行第j列元素代表第i个patch对第j个patch的权重。
[0065]
a=wv
ꢀꢀꢀ
式(5)
[0066]
a的维度是(b,8,197,96),a聚合了整张图片局部和全局特征,再把a的维度转成(b,197,768)输出下一层。
[0067]
再投入两层多层感知机,第一层,
[0068][0069]
其中,x4是输入,x5是输出,w4∈r
768
×
48
,b4是偏置,其中缩小倍数设置为16,w4和b4是训练参数。第二层:
[0070][0071]
其中,x5是输入,x6是输出,w5∈r
48
×
768
,b5是偏置,x5和b5是训练参数。该步输出的维度也是(b,197,768)。
[0072]
如图3所示,在输入se模块、自注意力机制和多层感知机之前,先归一化的操作,然后添加shortcut连接,串行堆叠就构成了本发明提出的最小单元层,可以根据要求堆叠不同的层数。
[0073]
第三部分:由于每个最小单元层patch0注意的范围不同,导致提取的全局特征不同,想要把这些特征利用起来,就需要把这些特征融合,设定堆叠6最小单元层,把每个最小单元层多层感知机输出的patch0提取出来,记为u
i
∈r1×
768
,i=1,2,

,6,用softmax函数获取权重,权重越高代表该最小单元层的全局特征越重要。公式如下:
[0074][0075]
p=k1u1 k2u2 k3u3 k4u4 k5u5 k6u6ꢀꢀꢀ
式(9)
[0076]
out=softmax(p)
ꢀꢀꢀ
式(10)
[0077]
其中k
i
代表u
i
的权重,e∈r
768
×1是训练参数,p表示按照每个最小单元层输出的patch0不同权重融合的全局特征,最后p把输入softmax层得到分类置信度,将置信度最高
的类别作为预测的结果。
[0078]
上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜