一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多尺度异源特征自适应融合的三维目标检测方法

2022-05-18 05:31:42 来源:中国专利 TAG:

技术特征:
1.一种基于多尺度异源特征自适应融合的三维目标检测方法,其特征在于,包括:(1)从公开数据集中获取包括训练样本集e1和测试样本集e2,每个样本包括lidar点云、rgb图像和三维目标的标注信息;(2)构建包括异源特征融合模块和关键点权重估计模块的异源特征融合网络,其中,异源特征融合模块用于不同模态数据的多尺度特征融合,权重估计模块用于特征融合后关键点的权重估计;(3)构建由异源特征编码模块、异源特征融合网络、三维候选框估计模块和输出层依次连接构成的目标检测模型t,其中:所述异源特征编码模块,包括顺次连接的三维体素特征编码模块、图像特征编码模块,该体素特征编码模块用于多尺度体素空间特征的提取,该图像特征编码模块用于多尺度图像语义特征的提取;所述三维候选框估计模块用于对三维目标的姿态信息进行粗估计,该姿态信息包括三维目标外接立方体的空间坐标、尺度和旋转角;所述输出层用于对融合特征后关键点的池化及三维目标框的精确回归;(4)利用训练样本集e1,采用梯度下降法对三维目标检测模型t进行训练,得到训练好的目标检测模型t
*
;(5)将测试样本集e2输入到训练好的目标检测模型t
*
进行前向传播,得到三维目标检测结果。2.根据权利要求1所述的方法,其特征在于,(2)中的异源特征融合模块,包括级联的4个不同尺度下结构相同的特征融合层,每个特征融合层包括3个全连接层、3个特征拼接层和特征映射层,具体结构为:将特征映射层、第一特征拼接层、第一全连接层依次级连,将第二特征拼接层、第二全连接层依次连接,将第一全连接层和第二全连接层分别和第三特征拼接层连接,将第三特征拼接层、第三全连接层依次连接。3.根据权利要求1所述的方法,其特征在于,(2)中的关键点权重估计模块包括两个卷积层、两个反卷积层、两个全连接层、一个特征拼接层、softmax层和坐标映射层,其结构关系为:第1全连接层、第1反卷积层、第1卷积层依次级连,1卷积层和第2全连接层分别与第1特征拼接层连接,第1特征拼接层、第2反卷积层、第2卷积层、softmax层、坐标映射层依次级连;所述两个卷积层,其的卷积核大小均为1,卷积核个数均为2;所述第1反卷积层,其卷积核大小为32,卷积核个数为2,步长为16;所述第2反卷积层,其卷积核大小为64,卷积核个数为2,步长为32。4.根据权利要求1所述的方法,其特征在于,(3)中的三维体素特征编码模块,包括6个三维稀疏卷积层、6个归一化层、6个relu激活层,其结构关系为:第1三维稀疏卷积层->第1归一化层->第1个relu激活层->第2三维稀疏卷积层->第2归一化层->第2relu激活层->第3三维稀疏卷积层->第3归一化层->第3relu激活层->第4三维稀疏卷积层->第4归一化层->第4relu激活层->第5三维稀疏卷积层->第5归一化层->第5relu激活层->第6三维稀疏卷积->第6归一化层->第6relu激活层;所述第1、第2个三维稀疏卷积层的卷积核大小均为3
×3×
3,卷积核个数均为16,步长
均为(1,1,1);所述第3、第4、第5个三维稀疏卷积层的卷积核大小均3
×3×
3,步长均为(2,2,2),积核个数分别为32、64、64;所述第6个三维稀疏卷积层的卷积核大小为3
×1×
1,卷积核个数为128,步长(2,1,1)。5.根据权利要求1所述的方法,其特征在于,(3)中三维候选框估计模块,包括4个卷积层、4个归一化层、4个relu激活层和2个全连接层,其第1卷积层、第1归一化层、第1relu激活层、第2卷积层、第2归一化层、第2relu激活层、第3卷积层、第3归一化层、第3relu激活层、第4卷积层、第4归一化层、第4relu激活层依次级联,且第1全连接层和第2全连接层分别与第4relu激活层连接;所述第1卷积层的卷积核大小为3,卷积核个数为256,步长为2;所述第2、第3、第4个卷积层的卷积核大小为3,卷积核个数为256,步长为1。6.根据权利要求1所述的方法,其特征在于,(3)中的输出层,包括2个卷积层、最大池化层、2个全连接层,其第一卷积层、第二卷积层、最大池化层依次级联,且第一全连接层和第二全连接层分别与最大池化层连接;所述第1卷积层的卷积核大小为1,卷积核个数为1024,步长为1;所述第2卷积层的卷积核大小为1,卷积核个数为512,步长为2。7.根据权利要求1所述的方法,其特征在于,(4)中训练三维目标检测模型t,实现如下:(4a)设置初始化迭代次数为i,最大迭代次数为i,i≥100,第i次迭代的三维目标检测模型为t
i
,t
i
的权值参数为ω
i
,并令i=1,t
i
=t;(4b)将训练样本集e1作为三维目标检测模型t的输入,对训练样本集e1中的点云进行三维体素初始化和关键点的随机采样,得到三维体素集合v和关键点集合p;(4c)将体素集合v和训练样本集e1中的图像作为异源特征编码模块的输入,得到体素特征图集合v1和图像特征图集合f1;(4d)将体素特征图集合v1、图像特征图集合f1和关键点集合p作为异源特征融合模块的输入,借助空间坐标转换矩阵r,经过一系列卷积和拼接操作,得到特征融合后的关键点集合p1;(4e)将图像特征图集合f1中的第二特征图和第四特征图作为关键点权重估计模块的输入,得到图像的像素二分类结果,并借助空间坐标转换矩阵r将该像素二分类结果映射到特征融合后的关键点集合p1,得到特征融合后的前景关键点集合p2,并采用交叉熵损失函数计算其二分类损失值:其中,n表示关键点的个数,表示像素的类别预测概率值,y
n
表示像素的真实类别值;(4f)将体素特征图集合v1中的第五体素特征图作为三维候选框估计模块的输入,得到三维候选框集合b
rpn
,并计算其三维候选框估计损失值l
rpn
;(4g)将三维候选框集合b
rpn
和特征融合后的前景关键点集合p2作为输出层的输入,得到最终预测的三维目标框集合b
out
,计算其三维目标框预测损失值l
rcnn
,并计算总损失值l
i
;(4h)根据总损失值l
i
,采用反向传播的方法,更新网络参数ω
i
,得到第i次的目标检测模型t
i
,ω
i
的更新公式如下:
其中,ω
*
表示ω
i
的更新结果,η表示l的学习率,表示求导操作;(4i)判断i≥i是否成立,若是,则得到训练好的三维目标检测模型t
*
,否则,令i=i 1,返回(4b)。8.根据权利要求7所述的方法,其特征在于:所述(4f)中计算三维候选框估计损失值l
rpn
,实现如下:(4f1)采用交叉熵损失函数计算第m个三维候选框的类别损失值框的类别损失值其中,表示第m个三维候选框的类别概率值,y
m
表示第m个三维候选框的真实类别值;(4f2)采用和smooth-l1损失函数计算三维候选框的总损失值l
rpn
:其中,m表示所有三维候选框的个数,表示第m个三维候选框的预测偏移量,表示第m个三维候选框相对于真实目标框的偏移量,β表示权重超参数。9.根据权利要求7所述的方法,其特征在于:所述(4g)中计算三维目标框预测损失值l
rcnn
和总损失值l
i
,实现如下:(4g1)采用交叉熵损失函数计算第k个预测的三维目标框的类别损失值(4g1)采用交叉熵损失函数计算第k个预测的三维目标框的类别损失值其中,表示第k个预测的三维目标框的类别概率值,y
k
表示第k个预测的三维目标框的真实类别值;(4g2)采用l
iou
和smooth-l1损失函数计算预测的三维目标框的总损失值l
rcnn
:其中,k表示所有预测的三维目标框的个数,表示第k个预测的三维目标框偏移量,表示第k个预测的三维目标框相对于真实的三维目标框的偏移量;(4g3)采用加权求和的方式计算三维目标检测模型的总损失值l
i
:其中,表示l
rpn
的权重超参数,γ表示l
seg
的权重超参数。

技术总结
本发明提出了一种基于多尺度异源特征自适应融合的三维目标检测方法,主要解决现有技术在单一传感器数据下对低分辨率三维目标检测精度低的问题,其方案为:建立训练、测试样本集;对点云进行体素初始化和关键点采样;构建三维体素特征编码模块编码体素特征;构建三维候选框估计模块估计三维候选框;构建图像特征编码网络编码图像特征;构建异源特征融合模块融合体素特征、图像特征和关键点特征;构建关键点权重估计模块对关键点作二分类;建立输出层,构建三维目标检测模型并对其训练;使用训练好的模型对点云中的三维目标进行检测。本发明改进了对低分辨率三维目标的表征能力,提高了三维目标的检测精度,可应用于机器人导航、三维建模、自动驾驶与虚拟现实。自动驾驶与虚拟现实。自动驾驶与虚拟现实。


技术研发人员:朱虎明 杨贵鹏 焦李成 李佳昌 王晨 武文韬 惠少雄 王金成 侯彪
受保护的技术使用者:西安电子科技大学
技术研发日:2021.12.21
技术公布日:2022/5/17
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献