一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多分支结构的多标签图像分类方法和模型构建方法及装置

2022-05-27 01:22:41 来源:中国专利 TAG:


1.本发明属于图像分类技术领域,涉及多标签图像分类方法,具体涉及一种多分支结构的多标签图像分类方法和模型构建方法及装置。


背景技术:

2.图像分类任务是许多视觉任务的基础,现实生活中,一幅图像往往由多个目标构成,例如一幅图像中包含人、狗和猫,因此多标签图像更贴合实际,图像通常包含很多大小不一的语义目标。解决多标签图像分类问题的方法有传统机器学习算法以及深度学习算法。
3.传统机器学习算法主要依据以下两个思路:(1)问题转换法。即我们可以将多标签图像分类问题看成多个单标签的图像分类问题,此时可以训练多个分类器来进行多次单标签分类即可。(2)新的算法。不再将多标签问题转换为已知的单标签问题,而是直接根据图像的特点,提出适应于多标签图像分类的算法。
4.随着深度学习的不断发展,许多深度学习算法也用于多标签的图像分类,神经网络利用其强大的非线性表征能力可以在大规模数据中学习到有效的特征,提升了图像分类的精度。2014年魏云超等在程明明教授提出的bing理论基础上,提出了hypotheses-cnn-pooling的框架结构,即对每张输入图片都提取多个候选区域,然后将每个候选区域均送入cnn中进行分类训练,每个候选区域产生一个c维的预测结果,最终利用max pooling得到最终的分类结果。此方法可提取多个hypotheses,但是针对每张图片均产生多个候选区域,并且候选区域都要送入cnn进行训练,造成很大的计算量。cnn网络有强大的非线性表征能力,而rnn网络可以建立image和label之间的关联,2016年jiang wang等提出了cnn-rnn联合的网络结构,cnn网络用于提取图片特征,rnn则用于搜索,此方法考虑了类别之间的相关性,结果仅对于大目标和具有依赖性的物体上效果好,而对于小目标和不具有依赖性的物体上效果差,此方法并不能很好的识别到多个不同尺寸的目标。并且zhang j等人同年在cnn-rnn网络结构的基础上加入了regional lstm模块,regional lstm模块对cnn网络获得的特征起到导向作用,可获得相应特征的位置信息,进一步考虑了特征、位置及标签之间的依赖关系。图卷积网络也被应用于多标签的图像分类网络中,2019年chen z m等人将图卷积网络应用于多标签分类中,等等。主要利用了特征及标签之间的依赖关系,当特征之间不具备相应的依赖关系,并且目标的尺寸、抽象程度不同时,则需要根据目标的特点针对性的选择合适的特征进行类别预测。
5.针对多标签图像分类问题,相关算法不断涌出。现有方法没有针对性地发挥不同特征对于不同语义目标的分类优势,因此多标签图像分类准确度有待提高。


技术实现要素:

6.针对现有技术中的缺陷和不足,本发明提供一种多分支结构的多标签图像分类方法和模型构建方法及装置,解决现有技术较难全面预测输入图像中的所有语义目标,较小
尺寸的目标常被忽略等问题,充分利用不同特性的特征,从而提高多标签图像分类的准确率。
7.为达到上述目的,本发明采取如下的技术方案:
8.一种多分支结构的多标签图像分类模型构建方法,包括以下步骤:
9.步骤1:将原始数据集按照预设比例划分得到训练集和测试集,所述训练集和测试集中包含每张图像对应的真实标签;
10.步骤2:将训练集输入至特征提取网络中,从特征提取网络的不同处得到特征f1、f2及f3;
11.步骤3:将步骤2得到的特征f1、f2及f3分别作为三个分支l1、l2及l3的输入特征,各分支以本分支输入特征为主,其他分支输入特征为辅分别进行特征融合,得到融合后的特征f
11
、f
21
及f
31

12.步骤4:将步骤3所得融合后的特征f
11
、f
21
及f
31
输入coordinate-attention网络中,得到经过coordinate-attention网络作用加权后的特征f
12
、f
22
及f
32

13.步骤5:根据步骤4得到的加权后的特征f
12
、f
22
及f
32
分别进行类别预测,得到所有类别的预测得分;
14.步骤6:从步骤5得到的预测得分中,逐类别选择最大值作为此类别的最终预测得分,得到输入图像的预测结果;
15.步骤7:将步骤6得到的预测结果与图像的真实标签进行对比,求得loss值,进行反向传播更新网络参数,达到预设训练批次完成训练,得到多分支结构的多标签图像分类模型,将测试集输入训练好的网络中,得到对应的分类准确率;该多分支结构的多标签图像分类模型用于多标签图像分类。
16.本发明还包括如下技术特征:
17.可选地,所述步骤2中的特征提取网络为resnet101网络,resnet101网络结构依次分为6个部分:conv1,conv2_x,conv3_x,conv4_x,conv5_x,fc,分别在conv3_x,conv4_x输出处引出特征f1、f2,用于作为分支l1、l2的输入特征,并在conv5_x的输出处加上spp模块,随后将spp模块作用后的特征f3作为分支l3的输入特征。
18.可选地,所述步骤3具体包括:
19.步骤3.1:针对特征f1,利用上采样将特征f2及f3的特征尺寸变为与f1一致;将采样后尺寸与特征f1一致的特征f3及f3与特征f1进行拼接,要实现在channel维度上进行拼接,拼接后的特征表示为:f
11
=n1*(c1 c2 c3)*h1*w1,其中特征f
11
的num值为n1,通道数为c1 c2 c3,尺寸为h1*w1;
20.步骤3.2:针对特征f2,利用上采样或下采样将特征f1及f3的特征尺寸变为与f2一致;将采样后尺寸与特征f2一致的特征f1及f3与特征f2进行拼接,要实现在channel维度上进行拼接,拼接后的特征表示为:f
21
=n2*(c1 c2 c3)*h2*w2,其中特征f
21
的num值为n2,通道数为c1 c2 c3,尺寸为h2*w2;
21.步骤3.3:针对特征f3,利用下采样将特征f1及f2的特征尺寸变为与f3一致;将采样后尺寸与特征f3一致的特征f1及f2与特征f3进行拼接,要实现在channel维度上进行拼接,拼接后的特征表示为:f
31
=n3*(c1 c2 c3)*h3*w3,其中特征f
31
的num值为n3,通道数为c1 c2 c3,尺寸为h3*w3。
22.可选地,所述步骤4具体包括:
23.步骤4.1:将特征f
11
、f
21
及f
31
均输入coordinate-attention网络中,分别得到特征f
11
、f
21
及f
31
对应的三组沿水平坐标方向和竖直坐标方向的编码输出;
24.步骤4.2:针对特征f
11
,将1
×
1卷积函数及非线性激活函数作用于步骤4.1得到的特征f
11
的编码输出,生成特征f
11
的空间信息在水平和竖直方向进行编码的中间特征映射f;
25.步骤4.3:将中间特征映射f沿水平坐标方向和竖直坐标方向两个空间维度切分为两个单独张量fh,fw,分别利用1
×
1卷积函数将张量fh,fw的通道数变为与输入特征相同的通道数,再经过sigmod函数作用后作为注意力权重,与输入特征相乘即可得到加权后的特征f
12

26.步骤4.4:针对特征f
21
及f
31
,分别重复步骤4.2、步骤4.3能分别得到特征f
21
及f
31
对应加权后的特征f
22
及f
32

27.可选地,所述步骤5中,所述类别预测为各分支独立预测其对应特征属于类别空间中的哪几个类;各分支独立预测得到(batch_size,num_classes)大小的矩阵,其中,batch_size为每次输入图像数,num_classes为数据集的标签类别总数,采用零作为阈值,预测得分大于零则表示输入图像中包含此类别,反之则不包含此类别。
28.可选地,所述步骤6中,逐类别选择即根据每个分支独立预测得到的(batch_size,num_classes)大小的矩阵,针对每个类别,通过max函数选择三个分支预测结果中针对此类别的预测得分最大值作为整个网络对于此输入图像针对此类别的得分;将类别空间中的所有类别进行以上重复操作,即可得到输入图像的最终预测结果。
29.一种多分支结构的多标签图像分类模型构建装置,包括:
30.确定模块,用于确定原始数据集并将原始数据集按照预设比例划分得到训练集和测试集,所述训练集和测试集中包含每张图像对应的真实标签;
31.特征提取模块,用于将训练集输入至特征提取网络中,从特征提取网络的不同处得到特征f1、f2及f3;
32.特征融合模块,用于将特征f1、f2及f3分别作为三个分支l1、l2及l3的输入特征,各分支以本分支输入特征为主,其他分支输入特征为辅分别进行特征融合,得到融合后的特征f
11
、f
21
及f
31

33.加权模块,用于将所得融合后的特征f
11
、f
21
及f
31
输入coordinate-attention网络中,得到经过coordinate-attention网络作用加权后的特征f
12
、f
22
及f
32

34.类别预测模块,用于根据加权后的特征f
12
、f
22
及f
32
分别进行类别预测,得到所有类别的预测得分;
35.逐类别选择预测结果模块,用于从预测得分中,逐类别选择最大值作为此类别的最终预测得分,得到输入图像的预测结果;
36.模型训练模块,用于将预测结果与图像的真实标签进行对比,求得loss值,进行反向传播更新网络参数,达到预设训练批次完成训练,得到多分支结构的多标签图像分类模型,该多分支结构的多标签图像分类模型用于多标签图像分类。
37.一种多标签图像分类方法,把待分类图像输入所述的多分支结构的多标签图像分类模型中,输出多标签分类结果。
38.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行计算机程序时实现所述的多分支结构的多标签图像分类模型构建方法的步骤,或实现所述的多标签图像分类方法的步骤。
39.一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,该程序指令可被处理器执行以实现所述的多分支结构的多标签图像分类模型构建方法的步骤,或实现所述的多标签图像分类方法的步骤。
40.本发明与现有技术相比,有益的技术效果是:
41.本发明利用特征提取网络不同处特征具有不同特性的特点,例如较低层特征具有较多的细节信息,而较高层特征具有较多的语义信息,不同特性的特征可以用于有针对性地处理相应的特征,因此提出多分支结构,并进一步通过特征融合操作实现各个分支以本分支特征为主,其他分支特征为辅的信息融合,以及attention网络进一步对特征进行加权提取,多个分支独立预测,最终选择针对此类别效果最好的分支结果作为整个网络对其的预测结果,从而在整体上有效提升图像的分类准确率。
附图说明
42.图1为本发明的多分支结构的多标签图像分类方法流程示意图。
具体实施方式
43.本发明提供一种多分支结构的多标签图像分类方法和模型构建方法及装置,考虑到多标签图像的特点,一般图像中包含多个语义目标,多个语义目标间存在尺寸等方面的差异,在boosting集成思路的启发下,充分利用不同特点的特征,用于全面的预测所有目标,无论其需要较多的细节信息亦或者较多的语义信息。采用多个分支独立预测,最终选择效果最好的,从而使得在整体上有效提升网络的分类准确率。
44.本发明针对多标签图像中存在多个大小不一、不同特性的语义目标的特点,在传统cnn特征提取网络的基础上,将网络不同处的特征作为后续分支的输入特征,随后每个分支进行特征融合操作,并将融合后的特征输入attention网络,得到用于预测的最终特征,并进行独立的预测,逐类别选择效果最好的分支结果作为整个网络对于此类别的预测值,最终得到整个网络对输入样本的预测结果。其中:
45.特征提取网络利用传统resnet网络进行图像特征提取,选择特征提取网络不同处的特征作为后续网络分支l1、l2及l3的输入特征。
46.特征融合是利用上采样或下采样首先将其他分支特征的尺寸变为与本分支特征尺寸一致,随后利用concatenate拼接技术实现多个相同尺寸特征的融合;每个分支均重复上述融合操作,即以本分支特征为主体,以其他分支特征为补充,从而实现各个分支有自己的特色同时具有较为全面的目标信息。
47.attention网络用于对融合后的特征进行进一步的加权提取,本发明中利用coordinate-attention方法作用于融合后的特征,其加权方式不仅关注了通道方向也关注了特征的精确位置信息。
48.逐类别选择效果最好的分支结果,即通过多分支独立预测,随后利用max函数选择多分支预测结果中针对此类别预测值的最大值,实现从整体上提高网络的分类准确率。
49.本发明的一个实施例提供一种多分支结构的多标签图像分类模型构建方法,如图1所示,包括以下步骤:
50.步骤1,将原始数据集按照预设比例划分得到训练集和测试集,训练集和测试集中包含每张图像对应的真实标签;该原始数据集为常用于多标签图像分类的公开数据集;在本实施例中分别使用了coco,voc2007,flicker25k数据集,这些公开数据集已经分为了训练集和测试集,如若没有直接分为训练和测试集,则按照8∶2的比例将数据集分为训练集和测试集。
51.步骤2:将训练集输入至特征提取网络中,从特征提取网络的不同处得到特征f1、f2及f3;
52.特征提取网络采用resnet101网络实现,从resnet101网络的不同处引出输出特征作为分支l1、l2及l3的输入特征;resnet网络主要有两种基础块,分别为basicblock和bottleneck,其中basicblock由两个3*3的卷积块及identity mapping组成。bottleneck则由1
×
1,3
×
3,1
×
1这三个卷积块以及identity mapping组成。resnet101网络结构依次分为6个部分:convl,conv2_x,conv3_x,conv4_x,conv5_x,fc,分别在conv3_x,conv4_x输出处引出特征f1、f2,用于作为分支l1、l2的输入特征,并在conv5_x的输出处加上spp模块,随后将spp模块作用后的特征f3作为分支l3的输入特征;resnet101包括基础块bottleneck,其中conv1是核为7的卷积层,conv2_x是在conv1的结果上加上核为3的最大池化后,再接3个bottleneck基础块,conv3_x,conv4_x,conv5_x分别是由4个、23个、3个bottleneck基础块构成。
53.步骤3:将步骤2得到的特征f1、f2及f3分别作为三个分支l1、l2及l3的输入特征,各分支以本分支输入特征为主,其他分支输入特征为辅分别进行特征融合,得到融合后的特征f
11
、f
21
及f
31

54.特征融合是在每个分支上实现的重复操作,包含两个阶段,其中第一阶段为以本分支输入特征尺寸(hi×
wi)为标准,将剩余分支输入特征经过上采样或下采样操作,变成与本分支输入特征一样的尺寸(hi×
wi);第二阶段为针对第一阶段的结果,采用concatenate拼接实现特征融合,得到融合后的特征f
11
、f
21
及f
31
。具体地,特征融合模块重复应用于每个分支,以本分支特征为基准,主要采用最近邻点插值法进行上采样或3
×
3的卷积操作进行下采样,将其他分支特征尺寸变为与本分支特征一样的尺寸,随后进行拼接融合。
55.步骤3的具体步骤包括:
56.步骤3.1:针对特征f1,利用上采样将特征f2及f3的特征尺寸变为与f1一致;将采样后尺寸与特征f1一致的特征f2及f3与特征f1进行拼接,假设f1=(n1,c1,h1,w1)、f2=(n2,c2,h2,w2)、f3=(n3,c3,h3,w3),其中,n1、c1、h1和w1分别为特征f1的num值、通道数、长和宽,n2、c2、h2和w2分别为特征f2的num值、通道数、长和宽,n3、c3、h3和w3分别为特征f3的num值、通道数、长和宽;则要实现在channel维度上进行拼接,拼接后的特征表示为:f
11
=n1*(c1 c2 c3)*h1*w1,其中特征f
11
的num值为n1,通道数为c1 c2 c3,尺寸为h1*w1;
57.步骤3.2:针对特征f2,利用上采样或下采样将特征f1及f3的特征尺寸变为与f2一致;将采样后尺寸与特征f2一致的特征f1及f3与特征f2进行拼接,要实现在channel维度上进行拼接,拼接后的特征表示为:f
21
=n2*(c1 c2 c3)*h2*w2,其中特征f
21
的num值为n2,通道数为c1 c2 c3,尺寸为h2*w2;
58.步骤3.3:针对特征f3,利用下采样将特征f1及f2的特征尺寸变为与f3一致;将采样后尺寸与特征f3一致的特征f1及f2与特征f3进行拼接,要实现在channel维度上进行拼接,拼接后的特征表示为:f
31
=n3*(c1 c2 c3)*h3*w3,其中特征f
31
的num值为n3,通道数为c1 c2 c3,尺寸为h3*w3。
59.步骤4:将步骤3所得融合后的特征f
11
、f
21
及f
31
输入coordinate-attention网络中,得到经过coordinate-attention网络作用加权后的特征f
12
、f
22
及f
32

60.步骤4的具体步骤包括:
61.步骤4.1:将特征f
11
、f
21
及f
31
均输入coordinate-attention网络中,分别得到特征f
11
、f
21
及f
31
对应的三组沿水平坐标方向和竖直坐标方向的编码输出;具体的,首先对特征f
11
沿着水平坐标方向和竖直坐标方向对每个通道进行编码,其尺寸为(h1,w1),当高度为h时,对应的第c个通道的输出为:其中,为特征f
11
第c个通道的特征沿水平坐标方向的编码输出,h为高度,w是特征f
11
的宽度,i是变量,0≤i<w,xc(h,i)随i改变;当宽度为w时,对应的第c个通道的输出为:(h,i)随i改变;当宽度为w时,对应的第c个通道的输出为:其中,为特征f
11
第c个通道的特征沿竖直坐标方向编码输出,w为高度,h是特征f
11
的宽度,j是变量,0≤j<h,xc(j,w)随j改变;随后将特征f
11
所有通道的沿水平坐标方向的编码输出进行concatenate操作得到zh,同理得到zw;
62.步骤4.2:针对特征f
11
,将1
×
1卷积函数及非线性激活函数作用于步骤4.1得到的编码输出zh,zw上,生成特征f
11
的空间信息在水平和竖直方向进行编码的中间特征映射f∈r
(c/r
×
(h w))
,其中,zh,zw分别为沿水平方向和竖直方向拼接后的编码输出,f为1
×
1的卷积函数,δ为非线性激活函数,r表示下采样比例,c为特征f
11
通道数,h,w分别为特征f
11
的长和宽。
63.步骤4.3:将中间特征映射f沿水平坐标方向和竖直坐标方向两个空间维度切分为两个单独张量fh,fw,分别利用1
×
1卷积函数将张量fh,fw的通道数变为与输入特征相同的通道数,再经过sigmod函数作用后作为注意力权重,与输入特征相乘即可得到加权后的特征f
12
;具体的,两个方向的注意力权重分别为gh和gw,将权重与输入特征相乘即可得到加权后的特征f
12
为:f
12
=f
11
×gh
×gw

64.步骤4.4:针对特征f
21
及f
31
,分别重复步骤4.2、步骤4.3能分别得到特征f
21
及f
31
对应加权后的特征f
22
及f
32

65.步骤5:根据步骤4得到的加权后的特征f
12
、f
22
及f
32
分别进行类别预测,得到所有类别的预测得分;图像的标签是类别中的一个或多个;
66.类别预测为各分支独立类别预测,预测特征属于类别空间中的哪几个类,得到(batch_size,num_classes)大小的矩阵,batch_size为每次输入网络的图片数,num_classes为数据集对应的标签类别总数;此时采用零作为阈值,大于零则表示输入图像中包含此类别反之则不包含此类别。
67.步骤6:从步骤5得到的预测得分中,逐类别选择最大值作为此类别的最终预测得分,得到输入图像的预测结果;
68.逐类别选择即根据每个分支独立预测得到的(batch_size,num_classes)大小的
矩阵,针对每个类别,通过max函数选择三个分支预测结果中针对此类别的预测得分最大值作为整个网络对于此输入图像针对此类别的得分。将类别空间中的所有类别进行以上重复操作,即可得到整个网络对于输入图像的最终预测结果。
69.步骤7:将步骤6得到的预测结果与图像的真实标签进行对比,求得loss值,进行反向传播更新网络参数,达到预设训练批次完成训练,得到多分支结构的多标签图像分类模型。
70.具体的,采用bcewithlogitsloss函数计算得到loss值,其包括了sigmoid层和bceloss层;假设网络有n个batch,每个batch预测n个标签,bcewithlogitsloss计算公式如下:
71.loss={l1,

,ln}
72.ln=-[yn·
log(δ(xn)) (1-yn)
·
log(1-δ(xn))]
[0073]
其中δ(xn)为sigmoid函数,用于将输入x映射到(0,1)的区间,计算公式为:xn为预测得分,yn为真实标签。
[0074]
本发明一个实施例中,提供了一种多分支结构的多标签图像分类模型构建装置,包括:
[0075]
确定模块,用于确定原始数据集并将原始数据集按照预设比例划分得到训练集和测试集,训练集和测试集中包含每张图像对应的真实标签;
[0076]
特征提取模块,用于将训练集输入至特征提取网络中,从特征提取网络的不同处得到特征f1、f2及f3;特征提取网络采用resnet101网络实现,resnet101网络结构依次分为6个部分:conv1,conv2_x,conv3_x,conv4_x,conv5_x,fc,分别在conv3_x,conv4_x输出处引出特征f1、f2,用于作为分支l1、l2的输入特征,并在conv5_x的输出处加上spp模块,随后将spp模块作用后的特征f3作为分支l3的输入特征。
[0077]
特征融合模块,用于将特征f1、f2及f3分别作为三个分支l1、l2及l3的输入特征,各分支以本分支输入特征为主,其他分支输入特征为辅分别进行特征融合,得到融合后的特征f
11
、f
21
及f
31
;具体的,对特征f1,利用上采样将特征f2及f3的特征尺寸变为与f1一致,将采样后尺寸与特征f1一致的特征f2及f3与特征f1进行拼接,针对特征f2,利用上采样或下采样将特征f1及f3的特征尺寸变为与f2一致进行拼接,针对特征f3,利用下采样将特征f1及f2的特征尺寸变为与f3一致进行拼接。
[0078]
加权模块,用于将所得融合后的特征f
11
、f
21
及f
31
输入coordinate-attention网络中,得到经过coordinate-attention网络作用加权后的特征f
12
、f
22
及f
32
;具体的,将特征f
11
、f
21
及f
31
均输入coordinate-attention网络中,分别得到特征f
11
、f
21
及f
31
对应的三组沿水平坐标方向和竖直坐标方向的编码输出;将特征f
11
所有通道的沿水平坐标方向的编码输出进行concatenate操作得到zh,同理得到zw;将1
×
1卷积函数及非线性激活函数作用于编码输出zh,zw,生成特征f
11
的空间信息在水平和竖直方向进行编码的中间特征映射f,再将中间特征映射f沿水平坐标方向和竖直坐标方向两个空间维度切分为两个单独张量fh,fw,分别利用1
×
1卷积函数将张量fh,fw的通道数变为与输入特征相同的通道数,再经过sigmod函数作用后作为注意力权重,与输入特征相乘即可得到加权后的特征f
12
;重复上述操作分别得到特征f
21
及f
31
对应加权后的特征f
22
及f
32

[0079]
类别预测模块,用于根据加权后的特征f
12
、f
22
及f
32
分别进行类别预测,得到所有类别的预测得分;具体的,类别预测为各分支独立预测,预测特征属于类别空间中的哪几个类,得到(batch_size,num_classes)大小的矩阵,batch_size为每次输入网络的图片数,num_classes为数据集对应的标签总数;采用零作为阈值,大于零则表示输入图像中包含此类别反之则不包含此类别。
[0080]
逐类别选择预测结果模块,用于从预测得分中,逐类别选择最大值作为此类别的最终预测得分,得到输入图像的预测结果;具体的,逐类别选择即根据每个分支独立预测得到的(batch_size,num_classes)大小的矩阵,针对每个类别,通过max函数选择三个分支预测结果中针对此类别的预测得分最大值作为整个网络对于此输入图像针对此类别的得分。将类别空间中的所有类别进行以上重复操作,即可得到整个网络对于输入图像的最终预测结果。
[0081]
模型训练模块,用于将预测结果与图像的真实标签进行对比,求得loss值,进行反向传播更新网络参数,达到预设训练批次完成训练,得到多分支结构的多标签图像分类模型,该多分支结构的多标签图像分类模型用于多标签图像分类;具体的,采用bcewithlogitsloss函数计算得到loss值,其包括了sigmoid层和bceloss层;假设网络有n个batch,每个batch预测n个标签,bcewithlogitsloss计算公式如下:
[0082]
loss={l1,

,ln}
[0083]
ln=-[yn·
log(δ(xn)) (1-yn)
·
log(1-δ(xn))]
[0084]
其中δ(xn)为sigmoid函数,用于将输入x映射到(0,1)的区间,计算公式为:xn为预测得分,yn为真实标签。
[0085]
在一个实施例中,提供一种多标签图像分类方法,把待分类图像输入上述构建的多分支结构的多标签图像分类模型中,输出多标签分类结果。
[0086]
在一个实施例中,提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述各实施例的多分支结构的多标签图像分类模型构建方法的步骤,或多标签图像分类方法的步骤。
[0087]
在一个实施例中,提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,该程序指令可被处理器执行以实现上述各实施例的多分支结构的多标签图像分类模型构建方法的步骤,或多标签图像分类方法的步骤。
[0088]
上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品等等。
[0089]
在各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的易失性或非易失的计算机可读取存储介质中。基于这样的理解,本方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括:
u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0090]
本实施例提供了多标签图像分类的准确率验证实验:
[0091]
表1
[0092] cnn-rnnrlsddeltaresnet101multi-banch(ours)coco61.265.971.381.7682.26voc200784.087.590.391.2691.31flicker25k
‑‑‑
79.1580.23
[0093]
表1为采用本发明的多分支结构的多标签图像分类方法与现有分类方法对同一数据集的预测准确率对比表。将本文提出的方法表示为multi-banch(ours),分别与现有的多标签图像分类方法的准确率进行对比,有结果可知,本方法相较于其他方法准确率更高。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献