一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于路侧RSU的点云语义分割与理解方法与流程

2021-12-07 21:48:00 来源:中国专利 TAG:

一种基于路侧rsu的点云语义分割与理解方法
技术领域
1.本发明涉及自动驾驶技术领域,具体的说,涉及一种基于路侧rsu的点云语义分割与理解方法。


背景技术:

2.语义分割与理解是自动驾驶系统领域中一个核心的技术,通过对3d点云的语义理解将道路环境点云数据进行分割,识别出汽车、行人、路牌、电线杆等物体以及道路施工、路面坑洼、交通事故等路面情况,帮助车辆更好的理解所处的驾驶道路环境。通过对汽车周围环境的准确理解,保证行驶的安全性。
3.自动驾驶场景中基于3d点云的语义理解系统一般分为五个步骤:点云采集、点云预处理、点云分割、点云重建、点云后处理。传统的点云分割方法一般可分为基于边缘、区域增长、属性聚类、模型拟合以及基于图的算法。但这些算法分割精度低且受点云分布密度影响大,现有的技术通常采用各种深度学习网络模型,将拍摄到的路面图像输入到神经网络中,通过计算机对图像中的物体进行像素级别的分割归类,以实现避让行人和车辆等障碍。
4.近年来,语义分割领域典型的deeplabv3和pspnet架构计算成本太高,无法在自主系统上实时运行。多数深度学习网络如pointnet及pointnet 多用于静态点云,在动态连续的自动驾驶场景中较少使用,实时性不高。随后的vgg、renet和resnet等经典模型对于图像分割效果较好,但对于无序的3d点云数据效果不佳。同时,多数深度学习方法对于大类点云分割效果好,但由于数据城市景观数据集上具有多尺度变化的挑战,在城市道路场景中需要分割算法具有很高的准确度,尤其是在物体的边界处,比如在城市道路中有很多尺度大小不一的目标,不同尺度的目标尤其是小尺度目标会给精细化分割带来很多困难,道路场景中会出现小目标(如行人等),这些小目标占比少,且易与背景混淆,对这些小目标不能进行很准确的语义分割。
5.综上所述,现有技术存在以下缺点:

使用复杂的网络架构,计算复杂度高,实时性较差;

对于移动小目标(行人等)、以及多目标重叠现象难以得到准确分割;

点云存储量大,不适用于大场景语义分割。


技术实现要素:

6.针对现有技术的不足,本发明的目的在于提供一种新的基于路侧rsu的点云语义分割与理解方法;本发明利用投影方法,基于图形处理器gpu的最近邻knn快速搜索,以传感器帧率(约10hz)或更快的速度准确分割整个雷达扫描点云,使用每个激光扫描的距离图像和2d cnn处理,对离散化错误数据消除,将结果重新投影到3d点云,实现对无人驾驶环境中的语义分割,其具有准确、快速和实时等优点,能解决自动驾驶道路场景中小目标语义分割效果不佳且实时性不好的问题,使自主机器能够及时做出决策。本发明的技术方案具体介绍如下。
7.一种基于路侧rsu的点云语义分割与理解方法,具体步骤如下:
8.步骤一、获取道路场景点云数据,基于球映射的方法,将3d点云转换为2d距离图像;
9.步骤二、对2d距离图像进行2d全卷积语义分割,获得2d图片语义分割的结果;
10.步骤三、将2d图片语义分割的结果用距离信息、像素坐标和传感器参数映射到3d空间中,2d距离图像与对应于每个点的图像坐标进行配对和索引;
11.步骤四、基于3d后处理清除一些错误的离散化点,获取最终3d点云的语义分割结果。
12.本发明中,步骤一中,采用rsu整合高清摄像头和微波雷达装置,将信息实时上传给云端,获取道路场景点云数据,得到道路、车辆、行人和障碍物的准确位置信息;其中,雷达以类似距离图像的方式表示原始输入数据,每一列代表一组激光测距仪在某一点上测量的距离,每一行代表每个激光测距仪不同的角度位置,这些激光测距仪以恒定的速率发射。
13.本发明中,步骤一中,基于球映射的方法将3d点云转换为2d距离图像时,将每一个点云通过映射转换为球坐标,然后转换为2d图像坐标;
14.将(x,y,z)映射为(u,v)的球映射公式如下:
[0015][0016]
其中:
[0017]
w,h是2d距离图像的宽和高;
[0018]
f
up
是雷达垂直方向上的上视角;
[0019]
r=||p
i
||2表示一个点到雷达的3d距离,i代表第i个点云,p
i
代表偏斜点云的坐标;
[0020]
将以上得到的所有(u,v)坐标组成一个队列保存起来,得到这一范围内的图像表示的点云。
[0021]
本发明中,步骤二中,对二维语义分割cnn网络进行修改,采用编码器

解码器的沙漏型架构,以darknet21作为骨干网络,来提取输入图像的多层次特征;将转换后的数据输入带有显著下采样编码器的2d语义分割cnn网络,获得较好的特征提取能力;利用不同规模的池化操作提取丰富的语义信息,在最后一个卷积层和全连接层中间,在卷积层和全连接层加一个空间金字塔池化层,改进不同尺度目标边缘分割的精确性,在距离图像上进行2d全卷积语义分割。
[0022]
本发明中,步骤二中,经过水平方向的下采样,距离图像中每个像素的概率分布为:
[0023][0024]
m
logit
表示logit模型;
[0025]
fl损失函数优化训练,重点学习和提取困难样本特征,具体公式为:
[0026]
fl(p
i
)=

α
t
(1

p
i
)
γ
1b(p
i
)
[0027]
其中γ表示注意力参数,p是类别预测概率,α
t
为类别权重,p
i
代表偏斜点云的坐
标。
[0028]
本发明中,步骤四中,3d后处理时采用knn搜索算法,将语义点云中的每一个点进行与它最接近的k个点进行一致投票,对2d转换到3d过程中出现的一些物体边缘部分的错误结果进行修正。
[0029]
和现有技术相比,本发明的有益效果在于:
[0030]

本发明通过对点云的球形投影,将输入点云转换为距离图像,使输入语义分割网络架构的点数大大减少,例如将130000个点投影到[64*512]范围图像后将只代表32768个点,这可以在gpu中以极快的速度进行,可以实现对整个点云的快速搜索,适用于大场景的点云分割;
[0031]

针对点云小目标分割效果不佳问题进行改进,采用空间金字塔池化算法,实现多尺度的目标检测,对移动小目标的语义分割达到了更高的准确率。
[0032]

利用距离图像和2d卷积以及gpu加速的后处理方法,只需要较小的内存和少量的参数,在准确度和速度之间取得良好的平衡,能够很好的保证系统的实时性。同时后处理方法可以恢复激光扫描中丢失的重要边界信息,改善离散化结果。
[0033]
综上,本发明具有参数较少、运算速度快、内存消耗少且对于行人这类多尺度障碍物分割效果佳等特点,更符合车载场景需求,可广泛应用于在道路行人检测语义理解系统中,实现对道路场景中行人等重要移动小目标实时准确分割。
附图说明
[0034]
下面结合附图对本技术方案作进一步说明:
[0035]
图1:系统流程图。
[0036]
图2:金字塔变换层原理图。
[0037]
图3:全卷积语义分割结构,对距离图像进行语义分割。由于激光雷达扫描垂直方向采集的点不多,而在水平方向可以任意旋转360度采集数据,因此,为了防止垂直方向的信息丢失,采用沙漏形状网络,系统在上采样和下采样的过程中,只在宽度上进行操作,保持高度不变。
[0038]
图4:系统处理流程,采用darknet21对深度图进行特征提取和语义分割,将转化后的数据输入带有显著下采样编码器的2d语义分割cnn。
[0039]
图5采用darknet21骨架和darknet53骨架对重要小目标语义分割效果对比图。
具体实施方式
[0040]
下面结合附图和实施例对本发明的技术方案进行详细介绍。
[0041]
本发明通过rsu参与到车辆定位中作为差分基站,和gps、卫星等联合,因为rsu的加入,对gps定位数据进行核对矫正,实现更精确的定位。对于车联网系统来说,对车辆位置信息的高质量、高精确的数据非常有价值。同时rsu也承担了一些数据处理功能,对自动驾驶来说,每辆车每秒会产生近1gb的数据量,rsu的边缘计算可以提高运算的效率和实时性。采集到点云数据后,对点云数据进行球面投影后得到深度图,输入到卷积神经网络cnn中进行特征提取,而cnn的输入需要固定的图像尺寸,不能适用于尺度不一致的障碍物检测,因此加入空间金字塔池化算法,利用多个具有不同速率的并行分支来捕获多尺度的上下文,
实现多尺度目标检测、实时高精度的城市道路场景语义分割方法,本文提出的框架在大型点云场景下可以更有效地实现语义分割。
[0042]
本发明的语义分割系统主要由四个部分组成:rsu协同点云数据采集装置、基于球投影的距离图像表示、带金字塔池化算法的语义分割网络、点云后处理算法。本发明的方法分为四个步骤(如图1所示):
[0043]
1.球映射:将输入点云基于球映射的方法,将3d点云数据转换为2d距离图像;
[0044]
2.语义分割:在距离图像上进行2d全卷积语义分割2;
[0045]
3.点云重建:将2d语义信息转换到3d点云上;
[0046]
4.基于距离图像的3d后处理,来清除一些错误的离散化点。
[0047]
本发明通过以下具体技术路线来实现:
[0048]
采用rsu整合高清摄像头和微波雷达装置,将信息实时上传给云端,获取道路场景点云数据,得到道路、车辆、行人和障碍物等的准确位置信息。雷达以类似距离图像的方式表示原始输入数据,每一列代表一组激光测距仪在某一点上测量的距离,每一行代表每个测距仪不同的角度位置,这些测距仪以恒定的速率发射,在高速行驶的车辆中,必须考虑车辆的运动,因此点云不再只包含像素的距离测量值,而是包含其他像素的多个测量值,为了获得完整的雷达点云准确语义分割,首先将每一个点云通过映射转换为球坐标,最后转换为2d图像坐标。
[0049]
将(x,y,z)映射为(u,v)的球映射公式如下:
[0050][0051]
其中:
[0052]
w,h是2d距离图像的宽和高;
[0053]
f
up
是雷达垂直方向上的上视角;
[0054]
r=||p
i
||2表示一个点到雷达的3d距离,其中i代表第i个点云,p
i
代表偏斜点云的坐标。
[0055]
将以上得到的所有(u,v)坐标组成一个队列保存起来。
[0056]
得到这一范围内的图像表示的点云后,本发明对二维语义分割cnn网络进行修改。2d全卷积语义分割网络架构(图3),输入为球坐标映射得到的深度图。由于激光雷达扫描垂直方向采集的点不多,而在水平方向可以任意旋转360度采集数据,因此,为了防止垂直方向的信息丢失,采用编码器

解码器的沙漏型架构,系统在上采样和下采样的过程中,只在宽度上进行操作,保持高度不变。全卷积网络将每一个偏斜点云p
i
=(x,y,z)转换为距离表示,通过球映射转换到图像坐标系的深度图,对深度图进行特征提取和语义分割。
[0057]
以darknet21作为骨干网络,用来提取输入图像的多层次特征,将转换后的数据输入带有显著下采样编码器的2d语义分割cnn网络,获得较好的特征提取能力(图4)。经过水平方向的下采样,距离图像中每个像素的概率分布为:
[0058][0059]
其中,m
logit
表示logit模型。
[0060]
fl损失函数优化训练,重点学习和提取困难样本特征,具体公式为:
[0061]
fl(p
i
)=

α
t
(1

p
i
)
γ
1b(p
i
)
[0062]
其中γ表示注意力参数,p是类别预测概率,α
t
为类别权重。
[0063]
利用不同规模的池化操作提取丰富的语义信息,在最后一个卷积层和全连接层中间,在卷积层和全连接层加一个空间金字塔池化层,改进不同尺度目标边缘分割的精确性,在距离图像上进行2d全卷积语义分割(图2)。
[0064]
经过点云重建,用距离信息、像素坐标和传感器参数来实现将2d图片语义分割的结果,映射到3d空间中,将距离图像与对应于每个点的图像坐标进行配对和索引,用knn算法获取最终3d点云的语义分割结果。
[0065]
在点云存储过程中,在同一范围图像像素中会存在两个或两个以上的点将获得相同的语义标签,推断出的点云标签在背景物体中会呈现出阴影,为了解决这个模糊和离散化问题,本发明通过点云后处理,采用一种快速的、gpu支持、knn搜索算法,将语义点云中的每一个点进行与它最接近的k个点进行一致投票,对2d转换到3d过程中出现的一些物体边缘部分的错误结果进行修正。
[0066]
对semantickitti测试数据集进行了测试,完成了对车辆行驶过程中动态场景的实时精准语义分割。为了进一步说明本发明方法对重要小目标语义分割的性能,对比了使用方法一(darknet21骨架)和方法二(darknet53骨架)。
[0067]
方法一在点云稀疏且类别杂乱的情况下能够将行人等移动小目标分割出来,而方法二出现了人和栅栏误分类的情况(图5)。结合实际出行情况,本发明方法对驾驶场景下行人类别分割效果良好且清晰完整,中间的人物头部和四肢清晰可见。
[0068]
将采用均交并比值(miou)作为评价指标展示语义分割效果,公式如下:
[0069][0070]
其中tp代表预测为正且预测正确的数量,tn代表预测为负且预测正确的数量,fp代表预测为负且预测错误的数量。miou表示了测试结果的集合和真实结果集合的交集与并集的比值,即检测的准确率;结果如表1所示。
[0071]
表1
[0072]
[0073][0074]
本发明使用卷积层数更少的darknet21骨架,相比于结构复杂、对gpu要求更高的darknet53来说,提高了分割效率,节约了计算资源。在对道路场景点云全语义分割的基础上,提高了重要但体量较小且不规则的小目标识别和分割效果。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献