一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于分裂注意力的人-物交互关系分类方法与流程

2021-11-24 22:00:00 来源:中国专利 TAG:

技术特征:
1.一种基于分裂注意力的人

物交互关系分类方法,其特征在于,包括如下步骤:步骤1:输入带标签的图像数据,对图像数据进行像素平均并映射成三通道的特征向量;步骤2:构建基础网络块、特征分裂模块以及实例级自注意力模块,将基础网络块、特征分裂模块和实例级自注意力模块组成分裂注意力神经网络;步骤3:利用基础网络块提取图像的底层特征,将底层特征输入分裂注意力神经网络中,网络中将提取到的外观特征与底层特征融合,得到人和物的外观特征bp;步骤4:利用基础网络块提取图像的底层特征,并通过对特征进行裁剪、卷积、池化后得到人的局部动作特征,将图像映射为双通道二值图并提取"人

物"对的空间特征,将空间特征与人的局部动作特征按通道拼接后输入分裂注意力神经网络,得到能够减少空间歧义的"人

物"对的空间特征cp;步骤5:将bp与cp通过自注意力机制进行特征融合,得到最终分类结果。2.根据权利要求1所述的基于分裂注意力的人

物交互关系分类方法,其特征在于,所述步骤2中基础网络块结构如下:所述基础网络块由4个不同深度的残差块组成的resnet

50主干网以及一个独立的残差模块组成;所述resnet

50主干网结构为:首先构建一个两层的基础模块,包括步长为2的二维卷积层与最大池化层;再构建五个深度不同的残差块,深度分别为64,128,256,512,512;利用基础模块与前四个残差块生成resnet

50作为基础网络;所述独立的残差模块不在resnet

50中,用于分别处理人、物两种目标的特征。3.根据权利要求1所述的基于分裂注意力的人

物交互关系分类方法,其特征在于,所述步骤2中的特征分裂模块具体结构为:依次设置的卷积层、relu激活操作、特征分裂层、平均池化、连接层、relu激活操作、全连接层、softmax、注意力分裂层、特征融合;具体步骤为:s1.1:将底层特征输入独立的残差模块,并在1和2维上计算平均值,得到通道数为512的特征向量;s1.2:通过所述特征分裂层将s1.1中特征向量按通道切分为多个子特征向量,并将子特征向量按通道相加融合,再将融合后的特征向量进行归一化和可覆盖的relu激活操作,得到特征向量t1;s1.4:将卷积层的卷积操作设置为三个3
×
3的二维卷积;s1.5:将特征向量t1转换为(batch,2,channels),只将特征的第二维设置为2,再通过softmax操作将特征形状转换为(batch,

1,1,1),得到注意力向量;s1.6:通过注意力分裂层将s1.4中注意力向量按通道切分为多个子注意力向量;s1.7:将子特征向量与相应的子注意力向量相乘,再通过相加融合,得到已增大感受野的特征向量。4.根据权利要求1所述的基于分裂注意力的人

物交互关系分类方法,其特征在于,所述步骤2中实例级自注意力模块具体结构为:卷积层、池化层,归一化操作、自注意力层、全连接层;具体步骤为:s2.1:将底层特征输入独立的残差模块,并在1和2维上计算平均值,得到通道数为512的特征向量;s2.2:将通道数为512的特征向量送入池化层,并将特征转换为第二、三维大小为1的特
征向量,将其与输入的原始特征做元素级的相乘,得到注意力向量;s2.3:将s2.2中注意力向量进行归一化操作得到特征向量x;s2.4:将s2.3中特征向量x输入自注意力层,得到特征向量x1;s2.5:将特征向量x1输入全连接层,使用池化代替全连接中带步长的卷积,得到通道数为1024的注意力向量。5.根据权利要求2所述的基于分裂注意力的人

物交互关系分类方法,其特征在于,所述步骤3中具体步骤为:s3.1:将步骤1的三通道的特征向量输入基础网络resnet

50中,通过卷积和池化操作得到底层的全局特征;s3.2:对所述全局特征进行边缘填充后经过两次卷积与池化,再将得到的特征张量扁平化得到图像的外观特征;s3.3:利用步骤1中得到的人和物的目标框,对s3.2中外观特征裁剪得到人和物相应的局部特征r;s3.4:将人和物的局部特征r分别输入到步骤2构建的特征分裂模块中,得到人和物局部的外观特征r1;s3.5:将人和物的局部特征r输入到步骤2中构建的独立的残差模块中,并在第一、二维计算平均值进行降维,得到人和物局部的外观特征r2;s3.6:利用两个通道数为512的1
×
1卷积,分别与外观特征r2进行softmax操作,得到人和物局部的外观特征r3;s3.7:将人和物局部的外观特征r1与r3按通道进行拼接,再输入到步骤2中构建的实例级自注意力模块,并利用自注意力机制突出显示图像中的相关区域,得到精确的人和物的外观特征bp。6.根据权利要求1所述的基于分裂注意力的人

物交互关系分类方法,其特征在于,所述步骤4中具体步骤为:s4.1:将步骤1的三通道的特征向量输入基础网络resnet

50中,通过卷积和池化操作得到底层的全局特征;s4.2:将步骤1中得到的人和物的目标框作为参考框,对全局特征进行双通道二值映射,并从双通道二值图中提取"人

物"对的空间特征;s4.3:利用步骤1中得到的人的目标框,对s4.1底层的全局特征裁剪得到人的局部特征,再通过卷积与池化得到人的局部动作特征;s4.4:将s4.3中人的局部动作特征与s4.2中"人

物"对的空间特征按通道拼接,再与s4.3中人的局部特征相加融合,得到跨通道的特征张量;s4.5:将跨通道的特征张量分别输入特征分裂模块与实例级自注意力模块,得到"人

物"对的空间特征cp。7.根据权利要求1至6任一所述的基于分裂注意力的人

物交互关系分类方法,其特征在于,所述步骤5的具体方法为:s5.1:将步骤3与步骤4得到的人和物的外观特征bp和"人

物"对的空间特征cp经过相乘融合,再使用两个通道数为1024的卷积降低特征维度,得到特征向量k;s5.2:利用自注意力机制增强特征向量k的内部相关性,再将其映射到结果空间,得到
分类结果与相应的置信度。

技术总结
本发明涉及计算机视觉技术领域,公开了一种基于分裂注意力的人


技术研发人员:胡荣林 陈青云 董甜甜 朱全银 顾圆圆 赵志勇 何旭琴 邵鹤帅 王媛媛 朱诗雯 张粤
受保护的技术使用者:淮阴工学院
技术研发日:2021.07.14
技术公布日:2021/11/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献