一种细粒度图像分类方法及系统、终端设备及存储介质

2022-06-02 11:41:50 来源：中国专利 TAG：

1.本发明属于图像分类方法技术领域，涉及一种细粒度图像分类方法及系统、终端设备及存储介质。

背景技术：

2.细粒度目的是对属于同一基础类别的图像进行更加细致的子类划分。例如区分野生鸟类、汽车等。由于类别之间具有细微的类间差异以及较大的类内差异，难以捕获特定区域的细微差异进行分类。虽然深度学习促进了计算机视觉任务的研究，但其在细粒度分类中的应用依旧让人不那么满意，这是由于难以找到信息丰富的区域并提取其中的判别特征而造成的。对于像鸟类这样姿势多样的类别，分类情况更加糟糕。
3.因此，如何让cnn定位可区分的部分并学习可区分的特征是需要解决的重要问题。细粒度分类的关键在于开发自动方法来准确识别图像中的信息区域。之前的一些方法利用了细粒度的人类注释，例如鸟类分类中鸟类部位的注释。虽然这样可以取得不错的成绩，但是耗费了大量的人工，并且需要相对专业的知识，这使得这些方法不太实用。
4.因此很多人采用无监督学习方案来定位信息区域。它们消除了对人工注释的需求，但缺乏一种机制来保证模型专注于正确的区域，这通常会导致准确性下降。无监督学习主要朝着两个方向，一种是基于部分特征，这些方法通常由两个不同的子网络组成。具体来说，具有注意力机制的定位子网络被设计用于定位判别部分，并遵循分类子网络进行识别。由于特别设计的注意力模块和损失函数，使得网络难以优化。另一种是基于高阶信息，这些方法认为一阶信息不足以对图像的差异性进行建模，而是使用高阶信息对区分进行编码，这些方法的局限性在于占用大量的计算资源，并且可解释性较差。

技术实现要素：

5.针对现有技术中存在的问题，本发明提供一种细粒度图像分类方法及系统、终端设备及存储介质，从而达到网络对潜在性特征的关注，自动有效捕获特定区域的细微差异，并基于细微差异对图片进行分类，有效提高图片分类时的分类效率以及分类准确性。
6.本发明是通过以下技术方案来实现：
7.一种细粒度图像分类方法，包括以下步骤：
8.s1：获取待分类图片；
9.s2：将待分类的图片输入预先构建的多样性特征互补融合网络中，并采用所述多样性特征互补融合网络对所述图片进行分类；
10.s3：获取所述图片的分类结果。
11.优选的，所述多样性特征互补融合网络包括显著性和潜在性特征模块以及特征交换融合模块。
12.优选的，采用所述多样性特征互补融合网络对所述图片进行分类包括以下步骤：
13.s201，将待分类的图片传入到所述多样性特征互补融合网络中，进入网络中的图
片提取特征后，经过所述显著性和潜在性特征模块，输出显著性特征，并根据所述显著性特征获取潜在性特征，所述潜在性特征继续传入到网络的下一层；
14.s202，将步骤s201中提取的显著性特征传入卷积模块，进行维度的变换；
15.s203，对步骤s202中变换维度的特征传入特征交换融合模块，进行特征融合，并增强特征的多样性，获取最终的多样性特征；
16.s204，将步骤s203获取的所述最终的多样性特征进行全局平均池化操作，通过线性层对所述变换维度的特征进行降维，并使用交叉熵损失函数对所述多样性特征互补融合网络进行优化，进行距离度量，完成所述图片的分类。
17.优选的，所述步骤s201具体为：
18.所述步骤s201中将待分类的图片依次传入三个显著性和潜在性特征模块中，输出x
s1
，x
s2
和x
s3
三个显著性特征，并对所述显著性特征进行抑制，得到潜在性特征x
p
，并将x
p
传入到网络的下一层中，具体为：
19.若所述多样性特征互补融合网络的输入模块的特征尺寸为x∈rc×w×h，其中c，w，h分别表示特征的通道，宽度和高度；在模块中，将x沿着宽度的方向，均等的分为m个相等的子特征，所述子特征的宽度为t，其中t＝w/m，所述子特征表示为xi∈rc×
t
×h,i∈[1,m]；使用1
×
1的卷积conv()和relu()运算对所述子特征进行处理，得到特征si，所述特征si表示为：
[0020]
si＝relu(conv(xi))∈r1×
t
×hꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(20)
[0021]
对得到的特征si进行广义平均池化操作，具体为：
[0022][0023]
式中，hd为特征的高度，wd为特征的宽度，为当前维度所有数值的累加和，p为广义平均池化的参数；
[0024]
通过所述广义平均池化得到显著性参数bi'；
[0025]b′i＝gem(si)∈r1×1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0026]
对得到的显著性参数b'＝(b
′1,
…
b'm)∈r1×m×1进行归一化操作，得到显著性因子，具体为：
[0027][0028]
式中，b＝(b1,
…bm
)∈r1×m为显著性因子；
[0029]
将归一化得到的显著性因子b＝(b1,
…bm
)∈r1×m与原始的输入特征x进行加权求和，得到特征的显著性部分；在获取所述特征的显著性部分之前对显著性因子b＝(b1,
…bm
)∈r1×m×1进行尺寸变换处理，具体为b＝repeat(b)∈r1×w×1，得到xi中的显著性特征xs：
[0030]
xs＝(x
⊙
(α*b))
ꢀꢀꢀꢀꢀ
(24)
[0031]
其中，α是一个超参数，为调节显著性参数；
⊙
表示矩阵点乘；
[0032]
将所述特征si再次进行广义平均池化，得到特征t
′i：
[0033]
t
′i＝gem(si)∈r1×1ꢀꢀꢀꢀꢀꢀꢀꢀ
(25)
[0034]
使用softmax函数对特征t
′i进行归一化处理，得到特征t＝(t1…
tm)∈r1×m×1；对所述特征t＝(t1…
tm)∈r1×m×1的显著性进行抑制，获取剩余的潜在性特征：
[0035][0036]
β∈[0,1]是一个超参数；通过剔除潜在性特征中的显著性参数，再进行尺寸变换处理，具体为t＝repeat(t)∈r1×w×1；得到潜在性特征x
p
：
[0037]
x
p
＝x
⊙
t
ꢀꢀꢀ
(27)
[0038]
⊙
表示矩阵点乘。
[0039]
优选的，所述步骤s202具体为：
[0040]
将步骤s201得到的特征x
s1
,x
s2
,x
s2
输入到1
×
1的卷积层conv1
×
1()中，进行维度变化处理，分别得到特征x
o1
,x
o2
,x
o3
：
[0041]
x
o1
＝conv1
×
1(x
s1
)；
ꢀꢀꢀꢀꢀꢀꢀ
(28)
[0042]
x
o2
＝conv1
×
1(x
s2
)；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(29)
[0043]
x
o3
＝conv1
×
1(x
s3
)。
ꢀꢀꢀꢀꢀꢀꢀ
(30)
[0044]
优选的，所述步骤s203具体为：
[0045]
若所述步骤s202中得到的变换维度后的特征为其中c，w，h分别表示特征的通道，宽度和高度；将所述特征中c，w，h分别表示特征的通道，宽度和高度；将所述特征输入特征交换融合模块中，对输入特征进行映射处理，更改特征的尺寸，x
o1
、x
o2
分别得到映射特征x1∈rc×
l
和x2∈rc×
l
，l＝w
×
h；分别计算所述映射特征的权重矩阵ω
o1
和ω
o2
，其中，ω
o1
∈rc×c、ω
o2
∈rc×c，所述特征的权重矩阵计算如下：
[0046]
首先，在x
o1
和之间进行双线性计算，得到双线性矩阵之后对所述双线性矩阵进行求负，并使用softmax函数进行处理，得到权重函数，计算公式如下：
[0047][0048]
ω
ij
为通过函数求得的权重矩阵，c为通道数；
[0049]
通过对所述权重矩阵进行减法运算提取两个特征的差异性信息，具体为：
[0050]
ωs＝|ω
o1-ω
o2
|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(32)
[0051]
||表示绝对值；
[0052]
将得到的所述权重矩阵ω
o1
和ω
o2
与所述输入的特征x
o1
、x
o2
相乘得到多样性特征：
[0053]
x
′1＝ωsx1∈rc×
l
，x'2＝ωsx2∈rc×
l
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(33)
[0054]
将多样性特征映射回输入特征的尺寸
[0055]
若输入的变换维度后的特征集合为i＝{x
o1
,x
o2
,x
o2
,
…
x
on
}，所述变换维度后特征集合的多样性特征为：
[0056][0057]
采用所述变换维度后特征集合的多样性特征y
oi
对输入的特征
进行增强，得到最终输入的特征的最终多样性特征，表示为：
[0058]
yi＝x
oi
λ*y
oi
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(35)
[0059]
yi为最终多样性特征，x
oi
为输入的特征，λ为超参数。
[0060]
优选的，所述步骤s204具体为：
[0061]
使用交叉熵损失函数计算最终多样性特征yi的分类损失，先将特征yi进行全局平均池化和全连接维度变换操作，具体为：fi＝fc(gap(yi)),i＝1,2,3；
[0062]
经过全局平均池化和全连接维度变换操作处理后再使用softmax函数计算分类概率，具体为：
[0063][0064]
式中，f
ic
是特征向量fi的第c项，c是类别的数量，其中ti＝[t
i1
,t
i2
,
…
,t
ic
]，t
ic
表示向量中第i个特征属于c类；
[0065]
再使用交叉熵损失函数来计算损失：
[0066]
li＝-y
t
log(ti)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(37)
[0067]
其中，y为输入图像的真实标签，ti为预测的分类得分向量，最终的优化损失函数为：
[0068][0069]
取所有特征的预测平均值作为最终的预测结果。
[0070]
一种图片分类系统，包括：
[0071]
数据采集模块，用于采集图片；
[0072]
识别分类模块，用于将待分类的图片输入预先设定的多样性特征互补融合网络，并利用所述多样性特征互补融合网络对所述图片进行分类；
[0073]
结果输出模块，用于获取所述图片的分类结果。
[0074]
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时运行上述的细粒度图像分类方法。
[0075]
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时运行上述的细粒度图像分类方法。
[0076]
与现有技术相比，本发明具有以下有益的技术效果：
[0077]
一种细粒度图像分类方法，采用多样性特征互补融合网络对图片进行分类，采用多样性特征互补融合网络包括显著性和潜在性特征模块(significance and potential feature module，spfm)，该模块将特征图的显著特征进行增强，同时挖掘余下的潜在性特征，并保证了特征间的关联性。采用特征交换融合模块(feature exchange fusion module，fefm)将提取的通道间差异性信息与不同尺度和深度的特征进行融合，以补充不同尺度特征中的语义信息，实现信息互补，提升了特征多样性，增强了网络的性能。通过捕捉图片中的显著性部分，自动有效捕获特定区域的细微差异，并基于细微差异对图片进行分
类，有效提高图片分类时的分类效率以及分类准确性。该方法不需要边界框，可以进行端对端训练。
附图说明
[0078]
为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0079]
图1为本发明实施例中一种细粒度图像分类方法的流程示意图；
[0080]
图2为本发明中多样性特征互补融合网络的框架示意图；
[0081]
图3为本发明中显著性潜在性特征模块的结构示意图；
[0082]
图4为本发明中多样性特征互补融合网络对图片进行分类的步骤；
[0083]
图5为本发明中一种图片分类系统的结构示意图。
具体实施方式
[0084]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0085]
因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0086]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0087]
在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0088]
此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。
[0089]
在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
[0090]
下面结合附图对本发明做进一步详细描述：
[0091]
实施例1
[0092]
如图1所示，一种细粒度图像分类方法，包括以下步骤：
[0093]
s1：获取待分类图片；
[0094]
s2：将待分类的图片输入预先构建的多样性特征互补融合网络中，并采用所述多样性特征互补融合网络对所述图片进行分类；
[0095]
如图2所示，多样性特征互补融合网络包括三个显著性和潜在性特征模块(significance and potential feature module，spfm)，三个spfm分别位于残差模块三、残差模块四以及残差模块五的末端。
[0096]
如图3所示，spfm包括特征分块结构，该特征分块结构可沿特征的宽度进行分割；一个1x1的卷积层，主要是对特征进行一个降维处理；以及一个包含第一参数和第二参数的广义平均池化层(generalized-mean pooling,gem)，第一参数用于获取显著性特征，第二参数用于获取潜在性特征。第一参数为3，第二参数为7。
[0097]
多样性特征互补融合网络还包括特征交换融合模块(feature exchange fusion module，fefm)，特征交换融合模块位于显著性和潜在性特征模块之后，主要是对显著性和潜在性特征模块中提取的显著性特征进行处理，经过这个模块后，得到多样性特征，起到增强特征丰富性的作用。
[0098]
fefm包括特征差异性模块(feature difference module，fdm)和特征融合模块。将提取的显著性特征传入提出的特征交换融合模块中，特征先经过特征差异性模块，在这个模块中，可以获得特征间的差异性信息，得到特征差异性信息后，经过特征融合将信息补充到相应特征部位，以达到特征多样性的作用，增强网络的鲁棒性。
[0099]
fdm由1x1的卷积和矩阵减法组成。使用1x1的卷积对传入的显著性特征进行维度变换，将其维度调整一致。将调整维度后的显著性特征按维度生成大小为cxc的权重矩阵，c表示特征通道。再将生成的权重矩阵使用矩阵减法，得到差异性特征，最后使用特征融合，得到多样性特征。
[0100]
spfm包括两个步骤：(1)对该阶段得到的特征进行显著性增强得到显著性特征；(2)对特征增强后的显著性特征进行抑制得到潜在性特征。将显著性特征提取出来传入到特征交换融合模块，之后将显著抑制后的潜在特征传入网络，以此进一步的挖掘潜在特征中的类别信息。
[0101]
s3：获取所述图片的分类结果。
[0102]
如图4所示，所述多样性特征互补融合网络对所述图片进行分类包括以下步骤：
[0103]
s201，将待分类的图片传入到所述多样性特征互补融合网络中，进入网络中的图片提取特征后，经过所述显著性和潜在性特征模块，输出显著性特征，并根据所述显著性特征获取潜在性特征，所述潜在性特征继续传入到网络的下一层；
[0104]
步骤s201具体为：
[0105]
所述步骤s201中将待分类的图片依次传入三个显著性和潜在性特征模块中，输出x
s1
，x
s2
和x
s3
三个显著性特征，并对所述显著性特征进行抑制，得到潜在性特征x
p
，并将x
p
传入到网络的下一层中，具体为：
[0106]
若所述多样性特征互补融合网络的输入模块的特征尺寸为x∈rc×w×h，其中c，w，h分别表示特征的通道，宽度和高度；在模块中，将x沿着宽度的方向，均等的分为m个相等的
子特征，所述子特征的宽度为t，其中t＝w/m，所述子特征表示为xi∈rc×
t
×h,i∈[1,m]；使用1
×
1的卷积conv()和relu()运算对所述子特征进行处理，得到特征si，所述特征si表示为：
[0107]
si＝relu(conv(xi))∈r1×
t
×hꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(39)
[0108]
对得到的特征si进行广义平均池化操作，具体为：
[0109][0110]
式中，hd为特征的高度，wd为特征的宽度，为当前维度所有数值的累加和，p为广义平均池化的参数；
[0111]
通过所述广义平均池化得到显著性参数b
′i；
[0112]b′i＝gem(si)∈r1×1ꢀꢀꢀꢀꢀꢀ
(41)
[0113]
对得到的显著性参数b'＝(b
′1,
…
b'm)∈r1×m×1进行归一化操作，得到显著性因子，具体为：
[0114][0115]
式中，b＝(b1,
…bm
)∈r1×m为显著性因子；
[0116]
将归一化得到的显著性因子b＝(b1,
…bm
)∈r1×m与原始的输入特征x进行加权求和，得到特征的显著性部分；在获取所述特征的显著性部分之前对显著性因子b＝(b1,
…bm
)∈r1×m×1进行尺寸变换处理，具体为b＝repeat(b)∈r1×w×1，得到xi中的显著性特征xs：
[0117]
xs＝(x
⊙
(α*b))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(43)
[0118]
其中，α是一个超参数，为调节显著性参数；
⊙
表示矩阵点乘；
[0119]
将所述特征si再次进行广义平均池化，得到特征t
′i：
[0120]
t
′i＝gem(si)∈r1×1ꢀꢀꢀꢀꢀ
(44)
[0121]
使用softmax函数对特征t
′i进行归一化处理，得到特征t＝(t1…
tm)∈r1×m×1；对所述特征t＝(t1…
tm)∈r1×m×1的显著性进行抑制，获取剩余的潜在性特征：
[0122][0123]
β∈[0,1]是一个超参数；通过剔除潜在性特征中的显著性参数，再进行尺寸变换处理，具体为t＝repeat(t)∈r1×w×1；得到潜在性特征x
p
：
[0124]
x
p
＝x
⊙
t
ꢀꢀꢀ
(46)
[0125]
⊙
表示矩阵点乘。
[0126]
s202，将步骤s201中提取的显著性特征传入卷积模块，进行维度的变换；
[0127]
步骤s202具体为：
[0128]
将步骤s201得到的特征x
s1
,x
s2
,x
s2
输入到1
×
1的卷积层conv1
×
1()中，进行维度变化处理，分别得到特征x
o1
,x
o2
,x
o3
：
[0129]
x
o1
＝conv1
×
1(x
s1
)
ꢀꢀꢀ
(47)
[0130]
x
o2
＝conv1
×
1(x
s2
)
ꢀꢀꢀ
(48)
[0131]
x
o3
＝conv1
×
1(x
s3
)
ꢀꢀꢀ
(49)
[0132]
s203，对步骤s202中变换维度的特征传入特征交换融合模块，进行特征融合，并增强特征的多样性，获取最终的多样性特征；
[0133]
步骤s203具体为：
[0134]
若所述步骤s202中得到的变换维度后的特征为其中c，w，h分别表示特征的通道，宽度和高度；将所述特征中c，w，h分别表示特征的通道，宽度和高度；将所述特征输入特征交换融合模块中，对输入特征进行映射处理，更改特征的尺寸，x
o1
、x
o2
分别得到映射特征x1∈rc×
l
和x2∈rc×
l
，l＝w
×
h；分别计算所述映射特征的权重矩阵ω
o1
和ω
o2
，其中，ω
o1
∈rc×c、ω
o2
∈rc×c，所述特征的权重矩阵计算如下：
[0135]
首先，在x
o1
和之间进行双线性计算，得到双线性矩阵之后对所述双线性矩阵进行求负，并使用softmax函数进行处理，得到权重函数，计算公式如下：
[0136][0137]
ω
ij
为通过函数求得的权重矩阵，c为通道数；
[0138]
通过对所述权重矩阵进行减法运算提取两个特征的差异性信息，具体为：
[0139]
ωs＝|ω
o1-ω
o2
|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(51)
[0140]
||表示绝对值；
[0141]
将得到的所述权重矩阵ω
o1
和ω
o2
与所述输入的特征x
o1
、x
o2
相乘得到多样性特征：
[0142]
x
′1＝ωsx1∈rc×
l
，x'2＝ωsx2∈rc×
l
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(52)
[0143]
将多样性特征映射回输入特征的尺寸
[0144]
若输入的变换维度后的特征集合为i＝{x
o1
,x
o2
,x
o2
,
…
x
on
}，所述变换维度后特征集合的多样性特征为：
[0145][0146]
采用所述变换维度后特征集合的多样性特征y
oi
对输入的特征对输入的特征进行增强，得到最终输入的特征的最终多样性特征，表示为：
[0147]
yi＝x
oi
λ*y
oi
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(54)
[0148]
yi为最终多样性特征，x
oi
为输入的特征，λ为超参数。
[0149]
s204，将步骤s203获取的所述最终的多样性特征进行全局平均池化操作，通过线性层对所述变换维度的特征进行降维，并使用交叉熵损失函数对所述多样性特征互补融合网络进行优化，进行距离度量，完成所述图片的分类。
[0150]
步骤s204具体为：
[0151]
使用交叉熵损失函数计算最终多样性特征yi的分类损失，先将特征yi进行全局平均池化和全连接维度变换操作，具体为：fi＝fc(gap(yi)),i＝1,2,3；
[0152]
经过全局平均池化和全连接维度变换操作处理后再使用softmax函数计算分类概
率，具体为：
[0153][0154]
式中，f
ic
是特征向量fi的第c项，c是类别的数量，其中ti＝[t
i1
,t
i2
,
…
,t
ic
]，t
ic
表示向量中第i个特征属于c类；
[0155]
再使用交叉熵损失函数来计算损失：
[0156]
li＝-y
t
log(ti)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(56)
[0157]
其中，y为输入图像的真实标签，ti为预测的分类得分向量，最终的优化损失函数为：
[0158][0159]
取所有特征的预测平均值作为最终的预测结果。
[0160]
如图5所示，一种图片分类系统，包括：
[0161]
数据采集模块100，用于采集图片；
[0162]
识别分类模块200，用于将待分类的图片输入预先设定的多样性特征互补融合网络，并利用所述多样性特征互补融合网络对所述图片进行分类；
[0163]
结果输出模块300，用于获取所述图片的分类结果。
[0164]
本发明实施例还提供一种终端设备，该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述图片分类过程中的各个步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
[0165]
所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。
[0166]
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。
[0167]
所述处理器可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0168]
所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。
[0169]
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中图片分类过程中的各个步骤或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述红外视频动作识别过程中的各个步骤。其中，所述计算机程
序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0170]
实施例2
[0171]
一种基于多样性特征互补融合网络的细粒度分类方法，具体按以下步骤实施：
[0172]
步骤1，首先将分类图片传入到多样性特征互补融合网络(diversity feature complementary fusion network，dfcf)中，进入网络中的图片提取特征后，经过显著性和潜在性特征模块(significance and potential feature module，spfm)就输出显著性特征xs，并对显著性特征的显著性抑制作为潜在性特征x
p
继续传入到网络的下一层；
[0173]
步骤2，将步骤1中提取的显著性特征xs分别传入到1x1卷积conv()模块中，进行一个维度的变换；
[0174]
步骤3，将步骤2中变换维度的特征传入到特征交换融合模块(feature exchange fusion module，fefm)中，进行一个特征融合，增强特征多样性；
[0175]
步骤4，将输出的多样性特征分别进行全局平均池化操作，并通过最后的线性层对传入的特征维度进行变换，传入的特征维度过多，计算量巨大，通过线性层进行降维，对特征进行提炼，便于后续处理，使用交叉熵损失函数对网络进行优化进行距离度量，得到分类结果。
[0176]
步骤1的具体实施方法：
[0177]
在给定图像的情况下，观察图像时更加关注其显著对象，并描述其动作和属性。在多样性特征互补融合网络模型(diversity feature complementary fusion network，dfcf)中，显著性和潜在性特征模块(significance and potential feature module，spfm)的主要功能是将特征图的显著特征进行增强，同时挖掘余下的潜在性特征，并保证了特征间的关联性。
[0178]
使用resnet-50作为基础框架，将显著性和潜在性特征模块(spfm)灵活的插入网络的stage3、4和5层中，传入的图片经过(spfm)分别输出x
s1
，x
s2
和x
s3
一共三个显著性特征，并对显著性特征进行抑制得到潜在性特征x
p
传入到网络的下一层中，如从stage3得到的潜在性特征经过抑制后传入stage4中。
[0179]
假定输入模块的特征尺寸为x∈rc×w×h，其中c，w，h分别表示特征的通道，宽度和高度。在模块中，将x沿着宽度的方向，均等的分为m个相等的子特征，子特征的宽度为t，其中t＝w/m,每个子特征可以表示为xi∈rc×
t
×h,i∈[1,m]，之后使用一个1
×
1的卷积conv()和relu()运算对每个子特征进行处理，得到特征si：
[0180]
si＝relu(conv(xi))∈r1×
t
×hꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(58)
[0181]
然后对得到的特征si进行广义平均池化(generalized average pooling，gem)操作，得到代表显著性特征的显著性参数b
′i，因此可以使用b
′i来表示xi的显著性。广义平均池化(gem)与全局平均池化相比，多了一个可以调节的参数p，当p为1的时候，广义平均池化
就为全局平均池化，当p趋于无穷时则为全局最大池化：
[0182][0183]
因此，通过广义平均池化(gem)求得显著性参数b
′i为：
[0184]b′i＝gem(si)∈r1×1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(60)
[0185]
这里广义平均池化(gem)的参数p设置为p＝7，在提取显著性特征时，将p设置为稍大的数值7，因为gem考量了整个维度上的参数，因此得到的显著性特征更具有代表性，当p再大时会更加趋近全局最大池化，则会影响模型性能。之后使用softmax函数对得到的显著参数b'＝(b
′1,
…
b'm)∈r1×m×1进行归一化操作
[0186][0187]
将归一化得到的显著性因子b＝(b1,
…bm
)∈r1×m与原始的输入特征x进行加权求和，可以得到特征的显著性部分。在这之前由于相互尺寸不匹配，需要先对b＝(b1,
…bm
)∈r1×m×1进行尺寸变换处理，b＝repeat(b)∈r1×w×1，由此可以得到xi中的显著性特征xs：
[0188]
xs＝(x
⊙
(α*b))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(62)
[0189]
α是一个超参数，为调节显著性参数；
[0190]
⊙
表示矩阵点乘。
[0191]
将上文提取的特征si再次进行广义平均池化(gem)，不同的是这里(gem)的参数p设置为p＝3，由此可以得到特征t
′i：
[0192]
t
′i＝gem(si)∈r1×1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(63)
[0193]
与得到显著性特征的方法相同，使用softmax函数对特征t
′i进行归一化处理，得到特征t＝(t1…
tm)∈r1×m×1。为了得到潜在性特征，需要抑制特征t＝(t1…
tm)∈r1×m×1其中的显著性，以便网络可以关注剩余下的潜在性特征，不断挖掘特征中的潜在信息：
[0194][0195]
β∈[0,1]是一个超参数，代表着对显著性抑制的程度，数值越小，抑制的越强烈。通过剔除潜在性因子中的显著性参数，再进行尺寸变换处理t＝repeat(t)∈r1×w×1，由此可以得到潜在性特征x
p
：
[0196]
x
p
＝x
⊙
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(65)
[0197]
⊙
表示矩阵点乘。所提出的spfm模块可以表示为：spfm(x)＝(xo,x
p
)。
[0198]
步骤2具体实施方法：
[0199]
将得到的特征x
s1
,x
s2
,x
s2
输入到1
×
1的卷积层conv1
×
1()中，进行一个维度变化处理，分别得到特征x
o1
,x
o2
,x
o3
：
[0200]
x
o1
＝conv1
×
1(x
s1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(66)
[0201]
x
o2
＝conv1
×
1(x
s2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(67)
[0202]
x
o3
＝conv1
×
1(x
s3
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(68)
[0203]
步骤3具体实施方法：
[0204]
将输入的特征分别表示为其中c，w，h分别表示特征的通道，宽度和高度。首先对输入特征进行映射处理，更改特征的尺寸，由x
o1
、x
o2
分别得到映射特征x1∈rc×
l
和x2∈rc×
l
，l＝w
×
h。在分别计算各自的权重矩阵ω
o1
和ω
o2
(ω
o1
∈rc×c、ω
o2
∈rc×c),特征矩阵计算如下。首先，在x
o1
和之间进行双线性计算，得到双线性矩阵之后对它进行求负，并使用softmax函数进行处理，得到权重函数，计算公式如下：
[0205][0206]
为了提取两个特征的差异性，通过对权重矩阵进行减法运算来提取此类差异性信息：
[0207]
ωs＝|ω
o1-ω
o2
|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(70)
[0208]
||表示绝对值，得到的权重矩阵为特征的差异性信息。通过减法，抑制了彼此的相关性，增强了不同特征之间的差异性。将得到的权重矩阵ω
o1
和ω
o2
与初始的输入特征x
o1
、x
o2
相乘得到多样性特征：
[0209]
x
′1＝ωsx1∈rc×
l
，x'2＝ωsx2∈rc×
l
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(71)
[0210]
将得到的多样性特征映射回输入特征的尺寸以便后续处理将得到的多样性特征映射回输入特征的尺寸以便后续处理假定输入的特征集合为i＝{x
o1
,x
o2
,x
o2
,
…
x
on
}，x
oi
的多样性特征可以表示为：
[0211][0212]
由此可以得到最终的特征表示：
[0213]
yi＝x
oi
λ*y
oi
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(73)
[0214]
λ是一个超参数，根据更改其大小可以觉得特征多样性的程度。
[0215]
步骤4具体实施方法：
[0216]
在训练阶段，使用交叉熵损失函数来计算每个最终的多样性特征yi的分类损失，先将特征进行全局平均池化(gap)和全连接(fc)维度变换操作，具体为fi＝fc(gap(yi)),i＝1,2,3。处理后再使用softmax函数计算分类概率：
[0217][0218]
其中f
ic
是特征向量fi的第c项，c是类别的数量，其中ti＝[t
i1
,t
i2
,
…
,t
ic
]，t
ic
表示向量中第i个特征属于c类。再使用交叉熵损失函数来计算损失：
[0219]
li＝-y
t
log(ti)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(75)
[0220]
其中y为输入图像的真实标签，由one-hot向量表示，ti为预测的分类得分向量，最终的优化损失函数为：
[0221]
[0222]
其中n＝3为显著性特征的数量。在测试时，取所有特征的预测平均值作为最终的预测结果。通过优化上述的损失函数，提出的网络模型可以端对端的进行训练，训练一次就可以得到最终的分类结果。
[0223]
以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据查询方法、装置、设备、介质、产品及查询组件与流程

一种细粒度图像分类方法及系统、终端设备及存储介质

相关文献

最热文献