一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种视图重要性网络与自注意力机制相结合的三维物体识别方法

2022-06-01 11:33:43 来源:中国专利 TAG:

技术特征:
1.一种视图重要性网络与自注意力机制相结合的三维物体识别方法,其特征在于:步骤1包括:将三维物体模型从n个视角进行投影,进而获取到该物体的n个渲染视图v={v1,v2,...,v
n
},其中v
i
为该物体的第i个视图;步骤2包括:将渲染视图v={v1,v2,...,v
n
}经过基础cnn模型提取出n个视图各自的初始视觉特征图z={z1,z2,...,z
n
},其中z
i
为该物体的第i个视图,z
i
∈r
c
×
h
×
w
,z∈r
n
×
c
×
h
×
w
,其中n代表多视图的数量,c代表每个视觉特征图的通道数,h代表每个视觉特征图的高度,w代表每个视觉特征图的宽度;步骤3包括:将n个视图的初始视觉特征图z={z1,z2,...,z
n
}输入到视图重要性网络,视图重要性网络将对每一个视图进行打分,如公式(1),score=softmax{f(z1),f(z2),...,f(z
n
)},
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)公式(1)中,f代表为视图重要性打分的网络层;softmax函数确保各视图的重要性总和为1,避免出现视图重要性分数差异悬殊;视图的初始特征图将与其重要性相乘,并与其初始特征图相加,如公式(2),p
i
=z
i
score
i
*z
i

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)公式(2)中,z
i
为该物体的第i个视图的初始视觉特征图,score
i
表示视图重要性网络对第i个视图重要性的打分;每个视图的初始特征图与其重要性相乘,并与其初始特征图相加,得到三维物体n个视图增强特征图p={p1,p2,

,p
n
},p
i
∈r
c
×
h
×
w
,p∈r
n
×
c
×
h
×
w
;步骤4包括以下子步骤:步骤4-1,将视图增强特征图p={p1,p2,...,p
n
}分别输入到三个卷积网络,生成新的特征映射p
q
,p
k
和p
v
,p
q
,p
k
,p
v
∈r
n
×
c
×
h
×
w
;将p
k
进行转置操作,并与p
q
进行矩阵相乘,获得特征图在空间上的关联关系,如公式(3),公式(3)中,s代表相似度,i和m为视角的索引,其中i,m∈[1,n],n为视角数,由于h与w数值相等,因此l2表示单个视角特征图中所有的空间位置;步骤4-2,将s
im
与p
v
进行矩阵相乘,得到跨视角增强特征图a={a1,a2,...,a
n
},a
i
∈r
c
×
h
×
w
,a∈r
n
×
c
×
h
×
w
;通过自注意力机制,打破了特征的局部性,实现了跨视角的非局部特征增强;步骤5包括:将跨视角增强特征图a={a1,a2,...,a
n
}通过1*1卷积进行降维,其中1*1卷积通过跨视角的方式对特征进行了提取,降维后的特征将输入到全连接层进行分类,实现三维物体的识别。

技术总结
本发明公开了一种视图重要性网络与自注意力机制相结合的三维物体识别方法。该方法包括:将待识别三维物体从n个不同的视角进行投影获得n个不同的二维视图,其中,n大于等于二;通过基础CNN模型对n个视图进行特征提取,得到对应视图的特征图;通过视图重要性网络判断n个视图各自对三维物体识别的重要程度,并根据重要程度对特征进行不同程度的加强,获得视图增强特征图;将视图增强特征图使用自注意力机制进行处理,得到三维形状描述符;将三维形状描述符输入到全连接网络进行多视角物体识别,实现三维物体识别。本发明将有利于三维物体识别的重要视图进行突出,同时抑制非重要视图对三维物体识别的干扰,提高三维物体识别精准度。度。度。


技术研发人员:马伟 徐儒常
受保护的技术使用者:北京工业大学
技术研发日:2022.02.16
技术公布日:2022/5/31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献