一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于三维点云数据和交通场景的汽车识别方法

2022-06-01 07:11:49 来源:中国专利 TAG:


1.本发明涉及交通检测领域,特别是涉及车辆、行人检测领域,尤其涉及一种基于三维点云数据和交通场景的汽车识别方法。


背景技术:

2.随着人工智能、传感器以及控制理论的不断发展,自动驾驶引起了学界和工业界的广泛关注,具有光明的应用前景。车辆在自动驾驶过程中,需要对周围的车辆、行人等目标进行检测和行为预测。目前,使用二维 rgb图像进行目标检测方法,无法准确识别对方车辆的空间、位置、深度和角度等信息,因而无法仅依靠单纯的目标方位信息对自身车辆的驾驶运动进行规划、控制。本发明采用与传统二维 rgb图像数据不同的三维点云数据,点云数据中的点都包含了目标对象的位置、距离、角度等特征信息,数据构成较二维rgb图像更加符合真实世界的实际情况。三维点云数据使用的数据主要是由激光雷达lidar(light detection and ranging)传感器所产生的。lidar全称激光检测和测距,又称光学雷达。其主要工作原理是接收雷达传感器发出的激光束反射光实现的。具有测距长、精度高、可靠性高等优点,被广泛应用于车载自动驾驶领域。目前lidar的生产商有velodyne、ibeo、quanergy、思岚科技等公司,其中以velodyne公司在业界中最为著名。
3.利用计算机视觉技术,研究者可以提取车辆、行人的轮廓、形状信息来进行目标检测。如cn111507340a公开了一种基于三维点云数据的目标点云数据提取方法,包括:获取原始三维点云数据,对原始三维点云数据进行去噪处理,得到去噪三维点云数据;从去噪三维点云数据中提取出强度图像数据;调用预设的目标提取算法对强度图像数据进行目标提取处理,得到目标强度图像数据;根据目标强度图像数据中各像素的像素坐标值,从原始三维点云数据中提取出目标三维点云数据;调用预设点云去噪算法对目标三维点云数据进行去噪处理,得到目标点云数据。虽然利用了三维点云数据,但对于数据提取后的行为特征和距离特征并无进一步的融合和特征降维,在交通场景中检测精度并不能达到使用要求。


技术实现要素:

4.本发明要解决的技术问题是:为了克服现有技术之不足,本发明提供一种基于三维点云数据和交通场景的汽车识别方法,能够结合空间中点云的位置、组成的轮廓、形状及周围场景信息来综合判断目标区域是否存在车辆,有效提高检测精度和检测效果,为自动驾驶系统提供精确的周边驾驶环境信息。
5.本发明解决其技术问题所采用的技术方案是:一种基于三维点云数据和交通场景的汽车识别方法,包括:1)基于多分辨率的逐柱特征提取网络;2)基于空间注意力的卷积检测框架;3)基于压缩-激活注意力的检测头。
6.进一步的,所述的基于多分辨率的逐柱特征提取网络包括依次进行的点云数据处理、柱特征提取、伪图特征提取。
7.进一步的,所述的点云数据处理具体为,点云数据中的点i由x、y、z、r四维唯一表
示;将点云中的点均匀划分在基于x-y平面的网格之中,该网格组成一组柱集合,设为柱p,其中柱p在z轴上无高度限制;将柱内原始输入的点x、y、z、r四维特征增强为x、y、z、r、xc、yc、zc、x
p
、y
p
九维特征,其中r为点i反射率,c下标表示到柱中所有点i的算术平均值距离,p下标表示距柱x,柱y中心的偏离。
8.进一步的,所述的柱特征提取具体为,对每个柱内的点i分别使用点云网络提取柱p内特征,采用高、中、低三种不同分辨率采集柱特征,三种分辨率分别通过对每个样本的非空柱数p和每个柱内点i的总数n实施限制从而控制稀疏度d,以生成尺度为t∈rd×
p
×n的疏密度张量;采用点云网络提取柱p内每个点i的特征,使柱p内每点分别通过线性层、批规范化层和relu层,输出大小为z∈rc×
p
×n张量;特征被按照原始柱的位置组合堆积起来,形成大小为s∈rc×h×w的伪图,其中高、中、低三种分辨率分别生成对应伪图sh、sm、s
l

9.优选的,保持框架张量t的固定大小为10000;若采集样本内或柱中数据少于10000,则通过使用零填充填充张量t至10000。此处以10000为阈值,如果充足指的是大于10000个数据点,通过随机采样方法保持在10000,数据过少指少于10000,则这时候需要通过数据增益补充到10000。
10.进一步的,所述的伪图特征提取包括依次进行的使用卷积操作下采样、使用反卷积操作上采样的方法提取伪图sh、sm、s
l
中车辆特征信息,上采样和下采样后都包含一个批规范化层和relu层,将上采样得到的伪图sh、sm、s
l
特征信息合并以生成新的点云伪图s。
11.进一步的,所述的基于空间注意力的卷积检测框架包括:1)使用1c、2c、4c通道分别提取伪图特征;2)使用空间注意力机制加强空间信息特征。
12.进一步的,所述的使用1c、2c、4c通道分别提取伪图特征具体如下:
13.使用区域提议网络,将伪图s输入检测框架,检测框架为下采样网络net1和上采样网络net2;
14.下采样网络net1通过卷积运算以越来越小的空间分辨率1c、2c、4c对特征图进行下采样,下采样网络由一系列(s,l,f)的块表示,其中s表示步长、f表示输出通道数、l表示3
×
3的二维卷积层层数,每个通道后都接有批规范化层和relu层,层内的第一个卷积步幅为s/s_in,以确保检测网络在接收到步长s_in的输入后,大小仍保持为s;层中后续卷积步长均为1,三层的通道数分别为[64,128,256],下采样网络产生依次减小的空间分辨率;
[0015]
上采样网络net2对不同分辨率的特征图通过反卷积进行上采样操作,上采样网络net2由(s_in,s_out,f)表示,其中s_in为初始步幅,s_out为终止步幅,f为最终特征;上采样网络后接有批规范化层和relu层,伪图s通过上采样及下采样网络分别生成伪图特征图f1、f2、f3。
[0016]
进一步的,所述的使用空间注意力机制加强空间信息特征包括如下步骤:将上述网络生成的伪图特征图f送入空间注意力模块,空间注意力模块将特征图使用两个1
×
1卷积层以分别生成两个新的特征图g1和g2;
[0017]
其中{g1,g2}∈rc×h×w,将g1转变为rc×
(h
×
w)
,然后对g1转置和g1执行矩阵乘法;
[0018]
接着利用softmax函数计算空间注意矩阵w
sa
∈r
(h
×
w)
×
(h
×
w)
,该矩阵对空间中突出部分进行显示编码;
[0019]
通过在g2和w
sa
之间执行矩阵乘法来生成特征图;
[0020]
最后合并输出三种尺度下经过空间注意力重新加权的场景目标特征图。
[0021]
进一步的,所述的基于压缩-激活注意力的检测头使用压缩-激活注意力机制对合并的多尺度特征图重新加权;
[0022]
压缩时,全局平均池化被使用以产生逐通道向量s∈rc;
[0023]
激活时,模块通过捕获逐通道依赖实现;
[0024]
se = relu (w2δ (w1s))
[0025]
δ()为sigmoid函数,relu()为relu函数,w1 ∈ r c/ r
ꢀ×c、 w2 ∈ rc×ꢀ
c/ r

[0026]
上述的基于压缩-激活注意力的检测头具有如下检测算法:
[0027]
上述压缩-激活注意力检测头的网络的输出结果,使用单针多盒检测器进行目标检测,单针多盒检测器网络分为六个模块,第一个模块由vgg16的前五层conv1、2、3、4、5卷积层组成,第二个模块为将vgg16中的fc6,fc7全连接层转变为conv6,conv7卷积层;剩余四个模块为添加的onv8、conv9、conv10和conv11卷积层四个模块,以此提取不同尺度下的目标信息,方法最后进行目标分类检测和非极大抑制位置回归操作。
[0028]
上述检测算法具有如下损失函数公式:
[0029]
真实目标的边界框使用(x, y, z, w, l, h,θ) 分别代表边界框的三维中心,宽度,长度,高度和偏转度,,,,,,,,
[0030]
x
gt
和xa分别表示真实目标和锚点,且,其中定位损失函数为:,
[0031]
因为定位损失无法区分边界框是否翻转,因此使用在离散方向上学习边界框方向;
[0032]
分类损失使用焦损失函数为:,为锚点的概率值, α=0.25, γ=2;
[0033]
总的损失函数为:,表示正概率锚的数量,β
loc
=2 ,β
cls
=1,β
dir
=0.2;
[0034]
损失函数使用adam优化器,学习率随着训练周期增长而降低。
[0035]
本发明的有益效果是,本发明提供的一种基于三维点云数据和交通场景的汽车识别方法,
[0036]
(1)通过基于点云数据集,为自动驾驶系统提供精确的周边驾驶环境信息;
[0037]
(2)利用空间注意力机制,并通过多分辨率共同检测,提高本发明在实际驾驶环境下的检测精度以及检测效果;
[0038]
(3)通过基于压缩-激活注意力的检测头,通过重新加权空间中不同通道间的权
重,达到提高单针多盒检测器算法的检测结果的目的。
附图说明
[0039]
下面结合附图和实施例对本发明进一步说明。
[0040]
图1是本发明基于三维点云数据和交通场景的汽车识别方法的系统流程图。
[0041]
图2是本发明中提出的基于多分辨率的逐柱特征提取网络的示意图。
[0042]
图3是本发明中提出的基于空间注意力的卷积检测框架的示意图。
[0043]
图4是本发明中提出的基于压缩-激活注意力的检测头的示意图。
具体实施方式
[0044]
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成,方向和参照(例如,上、下、左、右、等等)可以仅用于帮助对附图中的特征的描述。因此,并非在限制性意义上采用以下具体实施方式,并且仅仅由所附权利要求及其等同形式来限定所请求保护的主题的范围。
[0045]
如图1所示,一种基于三维点云数据和交通场景的汽车识别方法,综合考虑了点云数据集测距准,精度高,数据特征较多的因素,发明了基于点云数据集的车辆、行人检测方法,包括:
[0046]
1)基于多分辨率的逐柱特征提取网络;
[0047]
2)基于空间注意力的卷积检测框架;
[0048]
3)基于压缩-激活注意力的检测头。
[0049]
本发明通过单针多盒检测器进行检测,进一步利用行人的运动信息搜索感兴趣目标,提取感兴趣目标的运动序列、周围交通场景序列以及轨迹位置;本发明设计了一种三维卷积神经网络来处理感兴趣目标的运动序列,得到与行人穿越马路意图相关的行为特征。
[0050]
本发明根据行人所处的局部交通场景的要素以及车辆行驶速度得到两个权重,来修正人-车距离,并将修正后的距离送到多层感知机进行编码,得到与行人穿越马路意图相关的距离特征。
[0051]
最后将行为特征和距离特征进行信息融合,利用全连接层将融合后的特征降维,并通过softmax操作得到行人是否穿越马路的结果。
[0052]
图2给出了基于多分辨率的逐柱特征提取网络的示意图。图中不同深浅灰度表示的是从不同尺度提取到的特征,图2中的尺度为图中最左边所示的多分辨率。
[0053]
1)点云数据处理
[0054]
本发明提出的基于点云数据的处理,提取其中的感兴趣行人,以减少算法处理非感兴趣行人的时间开销。本发明将点云数据中的点i由x、y、z、r,通过计算增强为x、y、z、r、xc、yc、zc、x
p
、y
p
。分别包括点空间坐标、r反射率、c柱中所有点i的算术平均值距离、p距柱x,y中心的偏离。
[0055]
2)柱特征提取
[0056]
对每个柱内的点i按照高、中、低三种分辨率,采用点云网络提取柱内点云特征。通过对每个样本内非空柱数以及每个柱内点i的总数n实施限制来控制采集稀疏度d,以生成
尺度为t∈rd×
p
×n的疏密度张量。对于采集样本内或柱中数据冗余,通过随机采样以保留数据,保持框架张量t大小固定。若采集样本内或柱中数据过少,则通过零填充扩充张量t,以保持框架张量t大小。
[0057]
将点云网络输出的大小为z∈rc×
p
×n张量被按照原始柱的位置组合堆积起来形成大小为s∈rc×h×w的伪图,其中高、中、低三种分辨率分别生成对应伪图sh、sm、s
l

[0058]
3)伪图特征提取
[0059]
本发明对高、中、低三种分辨率的伪图sh、sm、s
l
,先使用卷积操作下采样、接着使用反卷积操作上采样的方法提取伪图sh、sm、s
l
中车辆特征信息,上采样和下采样后都包含一个批规范化层和relu层。最后将上采样得到的三种特征图信息合并以生成新的点云伪图s。
[0060]
图3给出了基于空间注意力的卷积检测框架的示意图。图3中,最左侧拼接的位图中不同深浅灰度表示的是从上采样得到的三种特征。
[0061]
4)使用1c、2c、4c通道分别提取伪图特征
[0062]
本发明通过多通道分别提取特征的检测方法实现真实交通情景下的车辆检测任务。使用伪图s输入区域提议网络检测框架。框架主要分为两个部分:下采样网络和上采样网络。下采样网络通过卷积运算以越来越小的空间分辨率(1c、2c、4c)对特征图进行下采样。下采样网络由一系列(s,l,f)的块表示。其中s表示步长、f表示输出通道数、l表示3
×
3的二维卷积层层数。每个通道后都接有批规范化层和relu层,层内的第一个卷积步幅为s/s_in,以确保检测网络在接收到步长s_in的输入后,大小仍保持为s。层中后续卷积步长均为1,三层的通道数分别为[64,128,256]。下采样网络可以产生依次减小的空间分辨率;上采样网络net2对不同分辨率的特征图通过反卷积进行上采样操作,上采样网络由(s_in,s_out,f)表示,其中s_in为初始步幅,s_out为终止步幅,f为最终特征。和下采样网络相同,上采样网络后也接有批规范化层和relu层。伪图s通过上采样及下采样网络分别生成伪图特征图f1、f2、f3。
[0063]
5)使用空间注意力机制加强空间信息特征
[0064]
将f1、f2、f3伪图特征送入空间注意力模块,空间注意力模块首先将特征图使用两个1
×
1卷积层以分别生成两个新的特征图g1和g2,其中{g1,g2}∈rc×h×w,将g1转变为rc×
(h
×
w)
,然后对g1转置和g1执行矩阵乘法。接着利用softmax函数计算空间注意矩阵w
sa
∈r
(h
×
w)
×
(h
×
w)
,该矩阵对可以对空间中突出部分进行显示编码。然后,通过在g2和w
sa
之间执行矩阵乘法来生成特征图。最后合并输出三种尺度下经过空间注意力重新加权的场景目标特征图。
[0065]
图4给出了基于se注意力的检测头的示意图。图4中的不同深浅灰度表示不同特征。
[0066]
6)基于压缩-激活网络的检测头
[0067]
使用压缩-激活注意力机制对合并的多尺度特征图重新加权,压缩-激活网络主要通过压缩和激活操作来实现的。在压缩操作,全局平均池化被使用以产生逐通道向量s∈rc。在激活阶段,模块通过捕获逐通道依赖实现。
[0068]
se = relu (w2δ (w1s))
[0069]
δ()为sigmoid函数 relu()为relu函数。w1 ∈ r c/ r
ꢀ×c、 w2 ∈ rc×ꢀ
c/ r

[0070]
7)检测算法
[0071]
本发明对压缩-激活网络的输出结果,使用单针多盒检测器进行目标检测,单针多盒检测器方法检测速度快,检测精度高。方法引入锚点的思想,可以适应多尺度的目标检测任务,较为符合点云数据尺度变换较大的特点。单针多盒检测器网络主要分为六个模块,第一个模块由vgg16的前五层conv1、2、3、4、5卷积层组成,接着将vgg16中的fc6,fc7全连接层转变为conv6,conv7卷积层。在此基础上了,又添加了conv8、conv9、conv10和conv11卷积层四个模块,以此提取不同尺度下的目标信息,方法最后进行目标分类检测和非极大抑制位置回归操作。
[0072]
真实目标的边界框使用(x, y, z, w, l, h,θ) 分别代表边界框的三维中心,宽度,长度,高度和偏转度,,,,,,,,
[0073]
x
gt
和xa分别表示真实目标和锚点,且,其中定位损失函数为:,
[0074]
因为定位损失无法区分边界框是否翻转,因此使用在离散方向上学习边界框方向;
[0075]
分类损失使用焦损失函数为:,为锚点的概率值, α=0.25, γ=2;
[0076]
总的损失函数为:,表示正概率锚的数量,β
loc
=2 ,β
cls
=1,β
dir
=0.2;
[0077]
损失函数使用adam优化器,学习率随着训练周期增长而降低。
[0078]
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献