一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于空间关联的多标签图像识别方法与流程

2021-11-25 02:02:00 来源:中国专利 TAG:


1.本发明涉及计算机视觉与多媒体分析领域,具体地说是一种基于空间关联的多标签图像识别方法。


背景技术:

2.对于输入的自然图像,多标签图像识别是同时获取图像中的多个物体的类别信息。因为图像中存在多个物体,而且物体与物体之间不可避免的存在特定关联,因此多标签图像识别难度更高。针对自然场景下的多标签图像识别,北京交通大学的wei等人提出先提取图像中的不同物体粗略位置,分别预测类别后再聚合到一起。中国科学技术大学的zhu等人提出基于空间正则的方法来增强不同物体在空间上的响应。百度的wang等人通过联合卷积神经网络和循环神经网络来建模标签语义之间的共现关联,并以标签重要性作为顺序依次预测。旷视研究院的chen等人提出通过图神经网络来建模标签之间的语义相关性,再对分类网络的特征进行加权,进而让相关性高的类别之间响应有相互促进的作用,让相关性低的类别之间响应有相互抑制的作用。


技术实现要素:

3.提出一种基于空间关联的多标签图像识别方法,给定输入自然图像,能够同时识别出图像中包含的多个物体的类别。
4.本发明包含如下5个步骤:
5.步骤s100,给定自然图像,输入到卷积神经网络编码器,得到图像包含不同尺度信息的第一特征图。
6.步骤s200,将第一特征图经过跨尺度特征增强进一步增强空间信息,再输入空间关联模块,生成表征空间关联的第二特征图。
7.步骤s300,将第一特征图经过降维得到维度为类别数量的热度图,对热度图通过全局空间池化与损失函数进行约束以保证热度图与每个类别的响应。将热度图转置后与第一特征图点乘后得到图神经网络的节点,再通过邻接矩阵构造模块得到邻接矩阵。
8.步骤s400,将构造好的图神经网络的节点与邻接矩阵输入标签关联模块,生成表征标签关联的第三特征图。
9.步骤s500,将第二特征图与第三特征图通过置信度加权模块得到最终的图像表征和分类结果。
10.本发明公开了一种基于空间关联的多标签图像识别方法,相比于上述方法,具有三个有益的特点:1)通过引入跨尺度增强和自注意力机制建模长距离的空间上下文关联。2)通过类别约束和空间关联联合构建图神经网络的结点以及邻接矩阵,明确结点的语义表征,建模动态的标签关联。3)通过置信度加权对空间关联特征和标签关联特征进行融合,减少单一特征表达的不稳定性。
附图说明
11.图1是本发明一种基于空间关联的多标签图像识别方法的总框架图;
12.图2是本发明一种基于空间关联的多标签图像识别方法实施s200的跨尺度特征增强模块结构图;
13.图3是本发明一种基于空间关联的多标签图像识别方法实施s200的空间关联模块结构图;
14.图4是本发明一种基于空间关联的多标签识别方法实施的算法流程图。
具体实施方式
15.下面将参考附图并结合实施例来详细说明本公开。
16.图1是本发明一种基于空间关联的多标签图像识别方法的总框架图。包括以下步骤:
17.步骤s100,给定自然图像,输入到卷积神经网络编码器resnet,得到图像包含不同尺度信息的第一特征图。其中,与都是交叉熵损失函数,输出的都是预测的分类标签,监督信号是分类标签的真值,可以用公式来表示:
18.l=

ylog(y
hat
)

(1

y)log(1

y
hat
),
19.其中,y是指类别的真值,离散值为{0,1},y
hat
是类别的预测值,范围为[0,1]。
[0020]
为选取目前性能较优的模型,采用行业通用的resnet网络作为骨架网络提取特征,抽取最后一层和倒数第二层的残差模块特征,分别是原图像三十二倍和十六倍下采样所得到的网络特征作为第一特征图。
[0021]
如图2所示,对于输入的第一特征图经过跨尺度特征增强进一步增强空间信息,再输入空间关联模块,生成表征空间关联的第二特征图。
[0022]
输入第一特征图中的三十二倍下采样特征f
32
(c
×
h
32
×
w
32
),通过1
×
1卷积进行维度压缩,得到f
t32
(c
t
×
h
32
×
w
32
)。输入第一特征图中的三十二倍下采样特征f
32
(c
×
h
32
×
w
32
),通过3
×
3卷积同时进行维度压缩与分辨率压缩,得到六十四倍下采样特征f
t64
(c
t
×
h
64
×
w
64
)。输入第一特征图中的十六倍下采样特征f
16
(c
×
h
16
×
w
16
),通过1
×
1卷积进行维度压缩,得到f
t16
(c
t
×
h
16
×
w
16
)。
[0023]
为了进一步增强这些不同尺度特征中的空间信息,将这三种不同尺度的特征输入到跨尺度特征增强模块中,通过上采样将不同尺度的特征尺度采样到相同尺度,再对不同特征进行相乘,抽取出不同特征之间相似的空间信息,再分别下采样到不同尺度与原来的特征通过相加进行增强,最后输出增强空间信息后的不同尺度特征。跨尺度特征增强模块可以用以下公式来表示:
[0024]
f
com
=f
t16
×
u(f
t32
)
×
u(f
t64
)
[0025]
f
t16
=f
com
f
t16
[0026]
f
t32
=d(f
com
) f
t32
[0027]
f
t64
=d(f
com
) f
t64
[0028]
其中,f
com
是跨尺度特征中提取的相似特征,f
t16
是十六倍下采样的特征图,f
t32
是三十二倍下采样的特征图,f
t64
是六十四倍下采样的特征图是对卷积神经网络编码器
resnet的默认输出特征图进行3
×
3卷积得到的,u是上采样函数,将所有特征上采样到相同尺度,d是下采样函数,将所有特征下采样到各自尺度。
[0029]
如图3所示,在得到空间信息增强的特征后,再将这些特征分别在维度上划分成h份后输入多头自注意力模块中建模空间关联。多头自注意力模块是通过学习输入特征图之间的关系,输出和输入相同尺寸和数量的特征,特征经过优化。多头自注意力模块可以用以下公式来表示:
[0030][0031][0032]
其中,softmax为数学函数,attn
i
函数是指第i个自注意力模块,w{q,k,v}指输入的每个特征f需要学习的共享权重,f是输入的特征,concat是特征拼接函数,w
h
是全连接层的权重;由于多头自注意力会将特征最后一维的维度均分为a
k
,故需要拼接操作concat,将特征恢复为原来的维度d,再经过权重w
h
完成最后的映射;之后将输出的特征集合重新拼接为和压缩特征图维度相同的特征图,与原特征相加后通过层正则化模块和激活模块relu得到可以表示空间关联的特征,该过程可以用以下公式来表示:
[0033][0034]
其中,指代空间关联特征图,也就是图3的输出特征,mhsa为多头自注意力模块,chunk为划分操作,concat为拼接操作,ln为层正则化模块,relu为激活模块。
[0035]
对三个增强后空间信息的特征分别经过上述的模块得到不同尺度的空间关联特征图再通过全局空间池化压缩空间维度,这样三个空间关联特征的维度就一致了,通过拼接操作concat起来得到第二特征图,作为图3的输出特征图,再经过分类器得到空间关联特征的分类结果。
[0036]
将第一特征图经过降维得到维度为类别数量的热度图,对热度图通过全局空间池化与损失函数进行约束以保证热度图与每个类别的响应。将热度图转置后与第一特征图点乘后得到图神经网络的节点,再通过邻接矩阵构造模块得到邻接矩阵。
[0037]
将第一特征图中的默认三十二倍下采样特征通过1
×
1卷积将维度压缩到类别数量,得到f
c
(n
×
h
32
×
w
32
),其中,fc是维度压缩后的特征图,括号内是特征fc的维度,n是指通道数与类别数量相同,h
32
是指高度下采样三十二倍的大小,也就是输入高度的三十二分之一,与resnet默认输出的特征图高度相同,w
32
是指输入宽度的三十二分之一。对得到的特征fc经过全局空间池化得到临时的分类结果,通过损失函数进行约束,这样就可以保证特征fc的每个通道都能表示不同类别的语义响应,也就可以将特征fc看作是类别数量的热度图。将特征fc的空间维度压缩到一起后转置,再将原来第一特征图中的默认三十二倍下采样特征的空间维度也压缩到一起,两特征通过点乘操作得到新的特征f
n
(n
×
c),其中,每个向量都可以表示对应类别的语义响应,因此将特征f
n
作为后续图神经网络的输入结点。
[0038]
为了更灵活的表示每张图像内不同类别之间的语义相关性,基于约束后的结点f
n
通过邻接矩阵构造模块,学习一个动态的邻接矩阵,过程可以用以下公式表示:
[0039][0040]
其中,m是邻接矩阵,sigmoid是s型激活函数,可以将值域从(

∞, ∞)变换到(0,1),是1
×
1卷积用来降低维度。
[0041]
将构造好的图神经网络的节点与邻接矩阵输入标签关联模块,生成表征标签关联的第三特征图。
[0042]
对于构造好的图神经网络的节点f
n
和邻接矩阵m,将其输入到标签关联模块,利用邻接矩阵中的相关性,通过gcn传播相关性并更新结点的值,最后再与原来的结点相加得到可以表征标签关联的新结点也就是第三特征图,以上过程可以用公式如下表示:
[0043][0044]
其中,gcn是指图神经网络,输入是可以表示不同类别的节点f
n
与表示类别间关系的邻接矩阵m; 表示将gcn增强后的节点与原节点相加,既增强了节点表征,又保留了原本的信息。
[0045]
将第二特征图与第三特征图通过置信度加权模块得到最终的图像表征和分类结果。
[0046]
表示空间关联的第二特征图经过分类器后得到分类结果cls
t
,表示标签关联的第三特征图经过分类器后得到分类结果cls
g
,对这两个分类结果进行加权,得到最终的图像多标签识别结果cls
final
。模型的训练过程中对这三个分类结果都通过损失函数进行约束,损失函数使用常用的交叉熵损失函数。
[0047]
如图4所示,本发明包含如下5个步骤:
[0048]
步骤s100,给定自然图像,输入resnet,得到图像包含不同尺度信息的第一特征图。
[0049]
步骤s200,将第一特征图经过跨尺度特征增强进一步增强空间信息,再输入空间关联模块,生成表征空间关联的第二特征图。
[0050]
步骤s300,将第一特征图经过降维得到维度为类别数量的热度图,对热度图通过全局空间池化与损失函数进行约束以保证热度图与每个类别的响应。将热度图转置后与第一特征图点乘后得到图神经网络的节点,再通过邻接矩阵构造模块得到邻接矩阵。
[0051]
步骤s400,将构造好的图神经网络的节点与邻接矩阵输入标签关联模块,生成表征标签关联的第三特征图。
[0052]
步骤s500,将第二特征图与第三特征图通过置信度加权模块得到最终的图像表征和分类结果。
[0053]
本公开的上述各个实施例具有如下有益效果:通过引入跨尺度增强和自注意力机制建模长距离的空间上下文关联;通过类别约束和空间关联联合构建图神经网络的结点以及邻接矩阵,明确结点的语义表征,建模动态的标签关联;通过置信度加权对空间关联特征和标签关联特征进行融合,减少单一特征表达的不稳定性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献