一种基于SE模块和自注意力机制网络的图像分类方法与流程

2021-10-24 07:37:00 来源：中国专利 TAG：图像注意力模块机制方法

一种基于se模块和自注意力机制网络的图像分类方法
技术领域
1.本发明涉及图像识别和深度学习技术领域，尤指一种基于se模块和自注意力机制网络的图像分类方法。

背景技术：

2.图像分类是计算机视觉、机器学习与深度学习领域非常活跃的研究方向，图像分类得到广泛应用，比如人脸识别、行人检测、交通场景物体识别、车牌识别、以及相册自动归类等。
3.图像分类是人工智能计算机视觉领域中很重要的基础任务，也是目标检测的基础，图像分类的准确性影响后续任务的性能评估。目前有基于机器学习的支持向量机图像分类方法，主流的深度学习图像分类方法主要分为两大类，一类是基于卷积神经网络有：alexnet、vgg、googlenet以及resnet等经典的神经网络；另一类是基于自注意力机制有：vision transformer和transformer in transformer。
4.和本发明最接近的是基于自注意力机制的vision transformer，先把整张图片切片成若干个patch，然后利用自注意力机制提取每个patch之间的全局特征，经过多层感知机继续传输。自注意力机制和多层感知机堆叠构成一个编码器层，通过堆叠若干个这种编码器层构成vision transformer框架，把最后编码器层patch0的输出输入到softmax层得到图像类别预测结果。
5.和本发明相对接近的是基于自注意力机制的transformer in transformer，用两个transformer中编码器层分别提取每个patch之间和patch内部的特征，两个编码器层构成一个模块，通过堆叠若干个这种模块构成transformer in transformer框架。

技术实现要素：

6.本发明的目的其一使每个patch的局部特征得到利用，其二使每一最小单元层的patch0全局特征得到利用，更多特征利用以至于提高分类准确度，提出一种基于se模块和自注意力机制网络的图像分类方法。
7.为了实现以上的发明目的，采用如下的技术方案：
8.一种基于se模块和自注意力机制网络的图像分类方法，包括一下步骤：
9.s1：将输入的图片转换成规定大小矩阵，然后把这些数据转成张量数据类型，再输入模型。
10.s2：将一张图片切片成若干个patch，添加patch0用作分类特征，加入位置信息丰富特征表示。
11.s3：利用se模块对每个patch内部提取特征。
12.s4：利用自注意力机制提取每个patch之间的特征。
13.s5：自注意力机制输出数据投入两层mlp。
14.s6：将s3、s4、s5形成的模块串行堆叠形成本发明提出方法的最小单元层，堆叠l最
小单元层，从而提取更高级的局部和全局特征。
15.s7：将上述步骤得到的全局特征用于分类。
16.优选的是，步骤s1所述为图片预处理，如果输入图片较少，通过数据增强方法后再转化成张量数据类型。
17.优选的是，步骤s2所述将一张图片，其像素为c
×
h
×
w，切片成个个patch，每个patch是c
×
h1×
w1，然后把每个patch展成1
×
ch1w1的向量，实现切片要用到卷积操作和flatten(展平)操作，其输入维度(b,c,h,w)，输出维度(b,n,ch1w1)，其中c为图片的通道数，b为batch size(批量大小)。此外还要添加patch0用作分类特征，即有m＝n 1个patch，故本步骤输出的维度是(b,m,ch1w1)。每个patch(包括patch0)要加入位置信息，这样自注意力机制能更好的学习到即使是同一张图片，patch位置不同，得到的分类结果是不一样的。
18.优选的是，步骤s3所述patch内部特征提取采用卷积神经网络，所以要把上一步的输出维度(b,m,ch1w1)变成(b,m,c,h1,w1)；为了使输入输出宽、高一样，使用0填充，使用ch1w1个卷积核，从ch1w1个维度提取patch内部特征，得到ch1w1个h1×
w1特征图，即维度是(ch1w1,h1,w1)；接着对每个特征图使用全局平均池化，得到(ch1w1,1,1)；经过第一线性层，输出维度设置为其中β为缩放因子，激活函数relu，公式表示如式(1)，
[0019][0020]
其中b1是可训练参数，x1是输入，x2是输出；第二线性层，输入维度是输出维度是dim＝ch1w1，激活函数softmax，得到每个通道的权重，公式表示如式(2)，
[0021][0022]
其中b2是可训练参数，x2是输入，x3输出；分别与每个通道的特征图相乘，然后把所有的特征图相加，得到f是1
×
h1×
w1的特征图，该特征图包含了ch1w1维度提取的patch内部特征信息的融合，公式表示如式(3)，
[0023]
f＝x
31
c1 x
32
c2
…
x
3i
c
i i＝1,2,
…
,ch1w1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(3)
[0024]
其中x
3i
是x3的元素，c
i
是用卷积神经网络提取patch内部的每个特征图；经过flatten后，再经过线性层，把维度升到ch1w1。可见se模块输入输出维度都是(b,m,ch1w1)，其中batch(批量)中每张图片共享se模块，可以减少参数量。
[0025]
优选的是，步骤s4所述采用多头自注意力机制从不同维度提取全局特征，自注意力机制过程可以用下面过程展现：
[0026]
先经过线性层和转化维度操作，初始化三个张量q、k、v，其目的是为了训练这三个张量，维度都是其中b表示batch size，h表示多头自注意力机制的头数量，m表示输入自注意力机制patch的数量(包括patch0)，d＝c,h1,w1表示每个patch的维度。
[0027][0028]
故w的维度是(b,h,m,m),其中第2维度的第i行第j列元素代表第i个patch对第j个patch的权重。
[0029]
a＝wv
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(5)
[0030]
故a的维度是a聚合了整张图片特征信息，再把a的维度转成(b,m,d)输出下一层。
[0031]
优选的是，步骤s5所述两层感知机可用如下公式表示：
[0032]
第一层：
[0033][0034]
其中，x4是输入，x5是输出，b4是偏置，其中α是缩小倍数，w4和b4是训练参数。
[0035]
第二层：
[0036][0037]
其中，x5是输入，x6是输出，b5是偏置，x5和b5是训练参数。该步输出的维度也是(b,m,d)。
[0038]
优选的是，步骤s6所述在输入每个模块之前，有归一化的操作，然后每个模块添加shortcut连接。
[0039]
优选的是，步骤s7所述由于每个最小单元层patch0注意的范围不同，导致提取的全局信息不同，所以把每个最小单元层多层感知机输出的patch0提取出来，记为u
i
∈r1×
d
,i＝1,2,
…
,l，然后，
[0040][0041]
p＝k1u1 k2u2
…
k
i
u
i
,i＝1,2,
…
,l
ꢀꢀꢀ
式(9)
[0042]
out＝softmax(p)
ꢀꢀꢀ
式(10)
[0043]
其中k
i
代表u
i
的权重，e∈r
d
×1是训练参数，p表示按照每个最小单元层输出的patch0不同权重融合的全局特征，最后p把输入softmax层得到分类置信度，将置信度最高的类别作为预测的结果。
[0044]
与现有的技术相比，本发明达到的有益效果是：
[0045]
第一，本发明在输入自注意力机制之前，使用se模块对patch内部特征进行提取，使输入自注意力机制的patch向量表示更丰富，更多的特征得到利用，提高分类准确度，计算量比transformer in transformer架构少。
[0046]
第二，把每个最小单元层的ptach0输出取出来，然后分配相应的权重，该权重是自动学习得到，每个最小单元层patch0输出乘以相应的权重再相加，这样就可以把每个最小单元层提取的全局特征得以利用，那么输入softmax层特征更丰富，提高分类的准确度。
附图说明
[0047]
为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，附图仅用于示例性说明，不能理解为本发明的限制。
[0048]
图1是本发明的流程图；
[0049]
图2是本发明所述se模块的流程图；
[0050]
图3是本发明所述最小单元层的流程图。
具体实施方式
[0051]
以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。
[0052]
实施例：
[0053]
一种基于se模块和自注意力机制网络的图像分类，如图1所示，本模型包括3部分。第一部分是将一张图片切成若干个patch，并添加patch0用作分类特征，还要加入位置信息。第二部分是最小单元层，包括se模块提取每个patch内部的局部特征，自注意力机制提取每个patch之间的全局特征，以及多层感知机，根据需要来确定堆叠l最小单元层。第三部分是取每最小单元层的patch0输出，分别赋予不同的权重，再融合起来，输入softmax层得到预测结果。
[0054]
第一部分：假定一张彩色图片像素为3
×
224
×
224，每个patch的像素为3
×
16
×
16，有个patch，用卷积操作来切片，其参数设置为：卷积核3
×
16
×
16，步长(1,1)，不用偏置，卷积核数量设置为ch1w1＝3
×
16
×
16＝768，输入的维度是(b,3,224,224)，经过卷积操作得到特征图维度是(b,768,14,14)，flatten操作后的维度(b,768,196)，把第1和第2维调换，维度变成(b,196,768)。其中c为图片的通道数，彩色图片的通道为3，h1、w1为每个patch的高和宽，本实施例中均为16，b为batch size。添加patch0后，即有m＝n 1＝197个patch，开始时，patch0为全0向量，后经训练得到表示全局特征的向量，那么该部分输出维度是(b,197,768)。每个patch(包括patch0)要加入位置信息，这样自注意力机制能更好的学习到即使是同一张图片，patch位置不同，得到的分类结果是不一样的。
[0055]
第二部分：首先是se模块，其流程图如图2所示，由于要利用卷积神经网络，所以要把上一步的输出维度(b,197,768)变成(b,197,3,16,16)；卷积参数设置为：卷积核3
×3×
3，步长(1,1)，使用偏置，为了使输入输出宽、高一样，使用0填充，上下增加一行，左右增加一列，使用768个卷积核，从768个维度提取patch内部特征，得到768个16
×
16特征图，即维度是(768,16,16)；接着对每个特征图使用全局平均池化，得到(768,1,1)；经过第一线性层，输出维度设置为其中缩放因子是16，激活函数relu，公式表示如式(1)，
[0056][0057]
其中w1∈r
768
×
48
、b1是可训练参数，x1是输入，x2是输出；第二线性层，输入维度是dim＝48，输出维度是dim＝768，激活函数softmax，得到每个通道的权重，公式表示如式(2)，
[0058][0059]
其中w2∈r
48
×
768
、b2是可训练参数，x2是输入，x3输出；分别与每个通道的特征图相乘，然后把所有的特征图相加，得到f是1
×
16
×
16的特征图，该特征图包含了768维度提取的patch内部特征信息的融合，公式表示如式(3)，
[0060]
f＝x
31
c1 x
32
c2
…
x
3i
c
i i＝1,2,
…
,768
ꢀꢀꢀ
式(3)
[0061]
其中x
3i
是x3的元素，c
i
是用卷积神经网络提取patch内部的每个特征图；经过flatten后，再经过线性层，把维度升到768。可见se模块输入输出维度都是(b,197,768)，其中batch中每张图片共享se模块，可以减少参数量。
[0062]
然后是多头自注意力机制从不同维度提取全局特征，设定多头自注意力机制的头数量为8，先经过线性映射和转化维度初始化三个张量q、k、v，维度都是(b,8,176,96)，我们的目的是为了训练这三个张量，其中b表示batch size。通过式(4)
[0063][0064]
可以得到权重张量w，维度是(b,8,176,176),其中第2维度的第i行第j列元素代表第i个patch对第j个patch的权重。
[0065]
a＝wv
ꢀꢀꢀ
式(5)
[0066]
a的维度是(b,8,197,96)，a聚合了整张图片局部和全局特征，再把a的维度转成(b,197,768)输出下一层。
[0067]
再投入两层多层感知机，第一层，
[0068][0069]
其中，x4是输入，x5是输出，w4∈r
768
×
48
，b4是偏置，其中缩小倍数设置为16，w4和b4是训练参数。第二层：
[0070][0071]
其中，x5是输入，x6是输出，w5∈r
48
×
768
，b5是偏置，x5和b5是训练参数。该步输出的维度也是(b,197,768)。
[0072]
如图3所示，在输入se模块、自注意力机制和多层感知机之前，先归一化的操作，然后添加shortcut连接，串行堆叠就构成了本发明提出的最小单元层，可以根据要求堆叠不同的层数。
[0073]
第三部分：由于每个最小单元层patch0注意的范围不同，导致提取的全局特征不同，想要把这些特征利用起来，就需要把这些特征融合，设定堆叠6最小单元层，把每个最小单元层多层感知机输出的patch0提取出来，记为u
i
∈r1×
768
,i＝1,2,
…
,6，用softmax函数获取权重，权重越高代表该最小单元层的全局特征越重要。公式如下：
[0074][0075]
p＝k1u1 k2u2 k3u3 k4u4 k5u5 k6u6ꢀꢀꢀ
式(9)
[0076]
out＝softmax(p)
ꢀꢀꢀ
式(10)
[0077]
其中k
i
代表u
i
的权重，e∈r
768
×1是训练参数，p表示按照每个最小单元层输出的patch0不同权重融合的全局特征，最后p把输入softmax层得到分类置信度，将置信度最高
的类别作为预测的结果。
[0078]
上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于SE模块和自注意力机制网络的图像分类方法与流程

相关文献

最热文献