一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多模态输入与空间划分的三维目标检测方法与流程

2022-03-01 22:04:55 来源:中国专利 TAG:


1.本发明属于人工智能的目标检测领域,具体涉及一种多模态输入与空间划分的三维目标检测方法。


背景技术:

2.随着人工智能时代的到来,人们开始追求更为智能的生活方式。汽车作为生活中必不可少的代步工具,迫切需要智能驾驶系统作为辅助,从而为驾驶人员提供便利。智能驾驶面临的首要挑战是理解真实世界,而使汽车理解世界最有效、最常用的方式是通过计算机视觉(cv computer vision)。智能驾驶是一个对安全性要求很高的技术,主要受两个方面的影响:(1)准确性;(2)实时性。
3.在此之前的工作,多是通过原始点云数据作为输入,通过深度卷积网络,提取三维特征。但这样的方式会带来一些弊端,即:由于输入信息过于单一,原始点云数据会缺少纹理和颜色信息。因此,仅仅通过原始点云数据作为输入,会导致识别的准确性不高。另外,在之前的工作中,有人试图通过将三维空间划分的方法,采用cnn(convolutional neural network)进行特征提取。但是,由于原始点云的稀疏性以及点多分布在物体表面的特点,大部分三维空间分组中并没有物体,所以,以这种方式进行三维特征提取,会造成大量的算力资源的浪费。为提升检测的实时性和准确性,对三维目标检测现有问题的改进是具有极其重要的研究意义的。


技术实现要素:

4.针对现有技术中的不足,本发明提出了一种全新的多模态输入与空间划分的三维目标检测方法,本方法以提升三维目标检测的准确性和实时性为目标,分别提出了以下针对性策略。(1)本方法采用多模态输入,通过二维卷积神经网络vgg16直接提取图像的颜色和纹理信息,弥补只有原始点云数据输入造成的信息缺少问题。(2)本方法依然采用将三维空间划分成若干分组的方式,但在提取特征之前,先对这些分组进行筛选,只对有物体的三维分组提取特征及进行后续的预测,对剩下的三维分组直接舍弃,本发明显著提高了运算效率。(3)后处理任务直接进行回归预测信息,绘制bbox(bonding box),属于单阶段目标检测方法。
5.为实现上述目标,本发明采用以下技术方案:
6.多模态输入与空间划分的三维目标检测方法,包括以下步骤:
7.(1)采用原始点云数据和rgb三通道彩色图像作为多模态输入;
8.(2)对所述原始点云数据空间划分,逐行逐列索引点云分组,每一个点云分组为原始点云数据的子集,对点云分组随机采样,每一个点云分组采样出k个点,输入到pointnet中提取特征,得到k个特征向量,通过最大池化层对这k个特征向量进行降维,得到k个local-global特征向量;
9.(3)将rgb三通道彩色图像切分,经过逐行索引切片,输入到二维特征提取器vgg16
中,只提取第8层纹理颜色的浅层相关特征,得到从rgb三通道彩色图像中提取的k个颜色纹理特征向量;
10.(4)对k个local-global特征向量和k个颜色纹理特征向量进行融合,获得融合后的特征向量;
11.(5)融合后的特征向量经过全连接层,得到输出的预测结果,根据置信度,绘制bbox(bonding box)完成后处理任务。
12.为优化上述技术方案,采取的具体措施还包括:
13.进一步地,提取原始点云数据的特征:将原始点云数据空间划分,逐行逐列索引,一共w*h*d个点云分组,索引号为{0,1,2...w*h*d},其中w、h、d分别表示宽度方向、高度方向、深度方向空间划分个数;
14.根据点的分布,筛选出可能存在物体的点云分组,去除不存在物体的点云分组,如果分组中不包含点,则被去除掉,不负责预测物体;
15.对被保留下来的点云分组随机采样,每一个点云分组采样出k个点,输入到pointnet中,得到k个特征向量,然后对这k个特征向量在深度方向上通过最大池化层进行降维,得到k个1024维的local-global特征向量。
16.进一步地,提取rgb三通道彩色图像颜色的浅层相关特征:将rgb三通道彩色图像切分,逐行索引,一共w*h个切片,索引号为{0,1,2...w*h},其中w、h分别表示宽度方向、高度方向空间划分个数;
17.逐个切片输入到二维特征提取器vgg16中,只提取第8层纹理颜色的浅层相关特征,得到从rgb三通道彩色图像中提取的k个颜色纹理特征向量。
18.进一步地,对融合后的特征向量进行预测,完成后处理任务,通过损失函数训练整个网络,得到输出的预测结果:
19.对于每一个提取了特征的点云分组,需要判断该分组内含有待检测目标的可能性,通过置信度损失来衡量:
[0020][0021][0022][0023][0024]
其中,g
iou
表示边框损失函数,iou表示bbox(bounding box)与真实值的交并比,ac表示包围bbox和真实值的最小立方体区域体积,u表示bbox与真实值的并集体积;是第i个预测值ci通过sigmoid函数得到的预测置信度;oi表示第i个bbox与真实值重合度;表示置信度损失,n为正负样本个数;
[0025]
总损失函数定义如下:
[0026][0027]
其中,n
pos
为正样本个数,λ
conf
,λ
loc
,λ
cls
,λ
dir
分别表示置信度损失,定位损失,分类损失,方向角损失的平衡系数,分别表示置信度损失,定位损失,分类损失,方向角损失;最后,通过损失函数训练整个网络。
[0028]
本发明的有益效果是:
[0029]
(1)对原始点云数据空间划分w*h*d个分组,每个点云分组采样出k个点,可以降低运算量,抵消雷达获取原始点云数据由于距离带来差异(紧密远疏)的影响;另外,在提取特征之前,首先根据点的分布,筛选出可能存在物体的点云分组,去除不存在物体的点云分组,显著降低运算量;
[0030]
(2)采用多模态输入,引入rgb三通道彩色图像浅层特征,弥补了现有pointnet只进行原始点云数据输入带来的颜色纹理等信息损失的不足,提高了分类与检测的精确度;
[0031]
(3)对原始点云数据空间划分为多个分组,对每一个分组通过pointnet提取特征,将原始点云数据转化为结构化数据,为进一步与rgb三通道彩色图像提取出的特征向量进行融合提供基础,结构划数据后可以采用二维目标检测的思想,对每一个分组进行预测。
附图说明
[0032]
图1为本发明的方法示意图。
具体实施方式
[0033]
现在结合附图对本发明作进一步详细的说明。
[0034]
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
[0035]
如图1,本发明提供了一种多模态输入与空间划分的三维目标检测方法,包括以下步骤:
[0036]
采用原始点云数据和rgb三通道彩色图像作为多模态输入;
[0037]
对所述原始点云数据空间划分,逐行逐列索引点云分组,每一个点云分组为原始点云数据的子集,对点云分组随机采样,每一个点云分组采样出k个点,输入到pointnet中提取特征,得到k个特征向量,通过最大池化层对这k个特征向量进行降维,得到k个local-global特征向量;
[0038]
将rgb三通道彩色图像切分,经过逐行索引切片,输入到二维特征提取器vgg16中,只提取第8层纹理颜色的浅层相关特征,得到从rgb三通道彩色图像中提取的k个颜色纹理特征向量;
[0039]
对k个local-global特征向量和k个颜色纹理特征向量进行融合,获得融合后的特征向量;
[0040]
融合后的特征向量经过全连接层,得到输出的预测结果,根据置信度,绘制bbox(bonding box)完成后处理任务。
[0041]
从理论基础说明:
[0042]
(1)提取原始点云数据的特征:将原始点云数据空间划分,逐行逐列索引,一共w*h*d个点云分组,索引号为{0,1,2...w*h*d},其中w、h、d分别表示宽度方向、高度方向、深度方向空间划分个数;
[0043]
根据点的分布,筛选出可能存在物体的点云分组,去除不存在物体的点云分组,如果分组中不包含点,则被去除掉,不负责预测物体;
[0044]
对被保留下来的点云分组随机采样,每一个点云分组采样出k个点,输入到pointnet中,得到k个特征向量,然后对这k个特征向量在深度方向上通过最大池化层进行降维,得到k个1024维的local-global特征向量。
[0045]
(2)提取rgb三通道彩色图像颜色的浅层相关特征:将rgb三通道彩色图像切分,逐行索引,一共w*h个切片,索引号为{0,1,2...w*h其中w、h分别表示宽度方向、高度方向空间划分个数;
[0046]
逐个切片输入到二维特征提取器vgg16中,只提取第8层纹理颜色的浅层相关特征,得到从rgb三通道彩色图像中提取的k个颜色纹理特征向量。
[0047]
(3)对k个local-global特征向量和k个颜色纹理特征向量进行融合,获得融合后的特征向量;引入多模态输入,特征融合后,1)可以有效地解决由于原始点云数据缺失纹理、颜色信息而引起的分类精确度问题;2)可以有效地解决由于图像数据缺失三维信息而造成定位框定位不准确的问题。
[0048]
(4)损失函数:对融合后的特征向量进行预测,完成后处理任务,通过损失函数训练整个网络,得到输出的预测结果。对于每一个提取了特征的点云分组,需要判断该分组内含有待检测目标的可能性,通过置信度损失来衡量:
[0049][0050][0051][0052][0053]
其中,g
iou
表示边框损失函数,iou表示bbox(bounding box)与真实值的交并比,ac表示包围bbox和真实值的最小立方体区域体积,u表示bbox与真实值的并集体积;是第i个预测值ci通过sigmoid函数得到的预测置信度;oi表示第i个bbox与真实值重合度;表示置信度损失,n为正负样本个数,ln表示对数函数;
[0054]
每个三维bbox用x,y,z,w,l,h,θ表示,其中x,y,z表示物体中心三维坐标,w,l,h表示宽,长,高尺寸数据,θ表示雷达坐标系下的水平方向角,那么检测框回归任务中要学习的参数为这7个变量的偏移量:
[0055]
[0056][0057][0058]
δθ=sin(θ
gt-θa)
[0059]
δx,δy,δz,δw,δl,δh,δθ分别表示bbox与其相对应真实值的相对偏移量,x
gt
,y
gt
,z
gt
,w
gt
,l
gt
,h
gt
,θ
gt
表示三维坐标、宽、长、高和水平方向角真实值,xa,ya,za,wa,la,ha,θa分别表示三维坐标、宽、长、高和水平方向角的预测值;
[0060]
分类损失采用了多元交叉熵损失函数,定义如下:
[0061][0062]
其中,tk表示第k个正确分类的真实值,yk表示第k个神经网络的输出的预测结果;
[0063]
总损失函数定义如下:
[0064][0065]
其中,n
pos
为正样本个数,λ
conf
,λ
loc
,λ
cls
,λ
dir
分别表示置信度损失,定位损失,分类损失,方向角损失的平衡系数,分别表示置信度损失,定位损失,分类损失,方向角损失;最后,通过损失函数训练整个网络。
[0066]
本发明对原始点云数据空间划分w*h*d个分组,每个点云分组采样出k个点,可以降低运算量,抵消雷达获取原始点云数据由于距离带来差异(紧密远疏)的影响;另外,在提取特征之前,首先根据点的分布,筛选出可能存在物体的点云分组,去除不存在物体的点云分组,显著降低运算量。本发明采用多模态输入,引入rgb三通道彩色图像浅层特征,弥补了现有pointnet只进行原始点云数据输入带来的颜色纹理等信息损失的不足,提高了分类与检测的精确度。本发明对原始点云数据空间划分为多个分组,对每一个分组通过pointnet提取特征,将原始点云数据转化为结构化数据,为进一步与rgb三通道彩色图像提取出的特征向量进行融合提供基础,结构划数据后可以采用二维目标检测的思想,对每一个分组进行预测。
[0067]
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献