基于跨模态语义增强的非结构化环境点云语义分割方法

2022-06-01 14:52:55 来源：中国专利 TAG：

1.本发明涉及智能车辆环境感知技术领域，具体为基于跨模态语义增强的非结构化环境点云语义分割方法。

背景技术：

2.三维场景理解是地面无人系统领域的关键技术，是实现结构化及非结构化环境下安全可靠通过的前提条件。目前较为成熟的技术主要针对城市结构化环境进行设计，针对非结构化环境(例如应急救援场景)的研究较少，技术尚不成熟。在非结构化环境中，没有车道、路面、护栏等结构特征，可行驶区域边界模糊、纹理多样；同时，受到地形、灌木等植被影响，障碍物特征复杂多变且存在遮挡、缺失情况。因此，现有的针对结构化环境设计的算法难以直接应用于非结构环境。
3.目前，基于深度学习的语义分割任务多采用相机和激光雷达作为其主要的传感数据输入来源。基于相机的非结构化环境语义分割方法，使用的颜色或纹理特征易受光照和天气的干扰，同时三维结构信息的缺失也限制了此类算法在不同场景的适应性。基于激光雷达的语义分割算法，由于点云数据的稀疏性、无序性、分布不均匀性，以及所依赖的的深度和几何信息过于单一，难以区分低分辨率或是具有相似几何特征的物体。而基于图像、雷达融合的方法(输入级、特征级、决策级融合)高度依赖于各输入信号的质量或已有的先验知识，无法适用于复杂多变的非结构化场景。因此，需要提出一种鲁棒的方法来融合不同传感器模态数据以实现非结构化环境的高精度有效三维语义分割。

技术实现要素：

4.为解决上述存在的问题，本发明提供基于跨模态语义增强的非结构化环境点云语义分割方法。该方法首先设计一种基于球面投影的点云分割模块，其次设计一种基于残差跨层连接的图像分割模块，接着设计一种基于gan的二维伪语义增强模块，最后利用样本集对网络进行训练，获得网络参数，从而实现非结构化环境三维点云语义的高效与可靠分割。本发明提出的方法使用球面投影，在降低索引和计算时间的同时，相比其他投影方法(例如鸟瞰图投影)可以生成更为紧凑密集的数据，有利于深度神经网络对于点云特征的提取；残差结构及扩张卷积的使用，不仅降低了网络结构的复杂度，还可以从网络不同深度的融合特征中挖掘出更多有效信息，从而保证该网络同时兼顾点云分割的准确性和实时性；使用gan风格迁移算法，使得图像和点云间的特征信息相互学习，将点云分割网络的语义特征转换为图像语义特征并作为点云分割网络的语义增强信息，可以弥补其缺失的色彩纹理等关键语义信息，实现点云和图像特征的深度融合；在测试阶段仅采用激光雷达传感器进行场景的语义分割，在不受光照和天气干扰的同时，兼顾图像包含的语义特征信息，提高了分割算法的鲁棒性。总体设计方案和网络示意图如图1、图2所示，包含如下步骤：
5.(1)基于球面投影的点云分割模块设计；
6.子步骤1：雷达点云预处理
7.激光雷达的数据点坐标系oxyz是以雷达中心为原点，载体前进方向为ox轴，按右手定则建立；方位角和顶角θ的计算公式如下：
[0008][0009]
其中，(x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标；对于点云中的每一个点都可以通过其(x,y,z)计算其即将欧式坐标系中的点投影到球面坐标系中；此球面坐标系实则是一个二维坐标系，对其角度进行微分化从而得到一个二维的直角坐标系：
[0010][0011]
其中，xi、xj为二维直角坐标系的横、纵坐标，δθ分别对应θ的分辨率；
[0012]
通过此球面投影变换，将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点(xi,xj)；提取点云中每一个点的3个特征：欧式坐标(x,y,z)，从而得到一个尺寸为(h,w,c)的张量，其中，h为球面投影变换后所得渲染图像的宽，w为该图的长，c＝3；以kitti数据集为例，该数据集使用的是64线激光雷达，因此h＝64；水平方向上，受数据集标注范围的限制，使用正前方90
°
的雷达点云数据，并将其划分为512个网格，即水平采样512个点，因此w＝512；
[0013]
子步骤2：基于残差扩张卷积的编码-解码网络设计
[0014]
针对非结构化环境语义分割任务，设计了一种基于残差扩张卷积的编码-解码网络；
[0015]
首先，确定卷积层类型、卷积核大小和卷积步长；
[0016]
设计扩张卷积层卷积核大小为1
×
1和3
×
3，步长均设为1；反卷积层的卷积核大小为3
×
3，步长为2，使得经过上采样后的特征图与输入分辨率相同；
[0017]
其次，确定池化层类型、采样尺寸和步长；
[0018]
采用最大池化操作来对特征图进行下采样，并将采样尺寸设为2
×
2，步长设为2；
[0019]
接着，确定dropout层分布；
[0020]
仅在编码器和解码器的中心层插入dropout；
[0021]
最后，将上述涉及的不同类型的网络层组合，利用交叉验证法进行模型选择，确定各层的层数、卷积核数量以及扩张卷积的扩张率，得到如下最优网络架构，其中每一个卷积操作都经过relu函数激活：
[0022]
block1：用32个1
×
1、扩张率为1的卷积核与512
×
64
×
3的输入样本做卷积，得到子特征图1，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做批标准化处理，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图1做逐像素相加，得到维度为512
×
64
×
32的特征图；
[0023]
池化层1：block2输出的特征图用2
×
2的最大池化层做下采样，步长为2，得到维度为256
×
32
×
32的特征图；
[0024]
block2：参照block1，用64个1
×
1、扩张率为1的卷积核与池化层1输出的特征图做卷积，得到子特征图2，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图2做逐像素相加，得到维度为256
×
32
×
64的特征图；
[0025]
池化层2：block2输出的特征图经过dropout后，用2
×
2的最大池化层做下采样，步
长为2，得到维度为128
×
16
×
64的特征图；
[0026]
block3：参照block1，用128个1
×
1、扩张率为1的卷积核与池化层2输出的特征图做卷积，得到子特征图3，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图3做逐像素相加，得到维度为128
×
16
×
128的特征图；
[0027]
池化层3：block3输出的特征图经过dropout后，用2
×
2的最大池化层做下采样，步长为2，得到维度为64
×8×
128的特征图；
[0028]
block4：参照block1，用256个1
×
1、扩张率为1的卷积核与池化层3输出的特征图做卷积，得到子特征图4，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图4做逐像素相加，得到维度为64
×8×
256的特征图；
[0029]
反卷积层1：用128个3
×
3的卷积核与block4输出的特征图做卷积并做bn，步长为2，经dropout后与block3输出的特征图逐像素相加，再经过dropout后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，最后经过dropout得到维度为128
×
16
×
128的特征图；
[0030]
反卷积层2：参照反卷积层1，用64个3
×
3的卷积核与block4输出的特征图做卷积并做bn，步长为2，经dropout后与block3输出的特征图逐像素相加，再经过dropout后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，最后经过dropout得到维度为256
×
32
×
64的特征图；
[0031]
反卷积层3：参照反卷积层1，用32个3
×
3的卷积核与block4输出的特征图做卷积并做bn，步长为2，与block3输出的特征图逐像素相加，再分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，最后得到维度为512
×
64
×
32的特征图；
[0032]
标准卷积层：用3个1
×
1的卷积核与反卷积层3输出的特征图做卷积，得到维度为512
×
64
×
3的特征图，3个通道对应语义类的总数；
[0033]
soft-max层：对标准卷积层输出的特征图做像素级分类，得到各类的概率，实现场景的三维语义分割；
[0034]
子步骤3：损失函数设计
[0035]
将传统的交叉熵损失用类频次的平方根对其加权，并与lovasz-softmax组合作为最终的损失函数，使各类的iou得分最大化，具体如下式：
[0036]
lseg3d＝-i1vip3dilogp3di 1ckjeck3
[0037]
其中，vi是各类的点数，p3di和p3di分别为真值和对应的预测概率，j表示iou的lovasz扩展，e(ck)是类ck的误差向量；
[0038]
(2)基于残差跨层连接的图像分割模块设计；
[0039]
子步骤1：编码-解码网络设计
[0040]
为了方便步骤(3)中二维伪语义增强模块中gan算法的使用，采用与点云分支相同的编码、解码结构以提取图像语义特征和得到各分类概率；
[0041]
子步骤2：损失函数设计
[0042]
采用标准交叉熵函数作为监督训练模型的损失函数：
[0043]
lseg2d＝-1njp2djlogp2dj4
[0044]
其中p2d(j)和p2dj分别表示真值和对应的预测值；
[0045]
(3)基于gan的二维伪语义增强模块设计；
[0046]
选择cyclegan作为二维伪语义增强模块的生成器，它是一种具有循环一致性的跨域图像生成gan模型，即有两个互为逆矩阵的生成器g:2d
→
3d,f:3d
→
2d，和两个判别器d2d、d3d，其中d2d用于区分原始二维语义特征{feature2dm}，即步骤(2)中编码器的输出，与由三维语义特征转换所得的二维伪语义特征{f(feature3dm)}，即步骤(1)中编码器的输出，d3d用于区分原始三维语义特征{feature3dm}与由二维语义特征转换所得的三维伪语义特征{g(feature2dm)}，使得cyclic2d＝fgfeature2d≈feature2d，cyclic3d＝g(ffeature3d)≈feature3d；
[0047]
各映射的对抗损失如下：
[0048][0049][0050]
为进一步减小映射函数空间，引入循环一致性损失，使学习到的映射函数具有循环一致性：
[0051]
lcycleg,f＝e2df(g(feature2dm))-feature2dm e3dg(f(feature3dm))-feature3dm6
[0052]
将其与二维、三维域的对抗损失相结合，得到二维伪语义增强模块的总损失函数如下：
[0053]
lg,f,d2d,d3d＝lgang,d3d,2d,3d lganf,d2d,2d,3d αlcycleg,f7
[0054]
其中，α为控制两目标相对重要性的超参数；
[0055]
(4)网络模型训练与点云语义分割
[0056]
子步骤1：点云分支训练
[0057]
采用adam优化器对网络参数进行迭代训练。优化器初始学习率设为0.01，衰减率设为0.1/20k次迭代，dropout率设为0.5，batchsize设为32，训练epoch设为500；
[0058]
先利用结构化环境数据集做预训练，所述结构化环境数据集包括kitti，得到预训练权重，再利用采集的少量非结构化环境数据做进一步训练，得到网络权重；为了增加训练数据的数量，本发明对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转-5
°
,5
°
处理；
[0059]
子步骤2：图像分支训练
[0060]
类似点云分支，先利用结构化环境数据集做预训练，所述结构化环境数据集包括kitti，得到预训练权重，再利用采集的少量非结构化环境数据做进一步训练，得到网络权重；
[0061]
子步骤3：cyclegan训练
[0062]
利用子步骤1、2所得网络权重，生成点云、图像分支编码器的成对输出feature2dm,feature3dmm＝1m，并利用其对cyclegan进行监督训练，实现二维、三维语义特
征的相互转换；
[0063]
子步骤4：点云网络再训练
[0064]
冻结点云分支编码器的参数，利用数据集对添加二维伪语义增强模块后的点云分支解码器进行再次训练，得到最终的网络权重；
[0065]
子步骤5：点云语义分割
[0066]
利用子步骤4所得网络权重，对采集到的雷达点云进行在线测试，得到非结构化环境三维点云语义分割结果。
[0067]
有益效果
[0068]
1、本发明使用的球面投影方法，在降低索引和计算时间的同时，更有利于点云特征的提取。
[0069]
2、本发明使用扩张卷积与残差结构，不仅降低了网络结构的复杂度，还可以从网络不同深度的融合特征中挖掘出更多有效信息，从而保证该网络同时兼顾准确性和实时性。
[0070]
3、本发明使用gan风格迁移算法，使得图像和点云间的特征信息相互学习，从而弥补了点云数据缺失的色彩、纹理等关键语义信息，实现了点云和图像特征的深度融合。
[0071]
4、本发明在测试阶段仅使用激光雷达传感器，不受光照和天气的干扰，同时兼顾点云的三维结构信息和图像包含的语义特征信息，提高了算法对不同场景的适应能力。
附图说明
[0072]
图1是总体方案流程图；
[0073]
图2是基于跨模态语义增强的点云分割网络示意图；
[0074]
图3是球面投影示意图；
[0075]
图4是block示意图；
[0076]
图5是反卷积层示意图；
[0077]
图6是cyclegan示意图。
具体实施方式
[0078]
下面结合附图与具体实施方式对本发明作进一步详细描述：
[0079]
三维场景理解是地面无人系统领域的关键技术，是实现结构化及非结构化环境下安全可靠通过的前提条件。目前较为成熟的技术主要针对城市结构化环境进行设计，针对非结构化环境(例如应急救援场景)的研究较少，技术尚不成熟。在非结构化环境中，没有车道、路面、护栏等结构特征，可行驶区域边界模糊、纹理多样；同时，受到地形、灌木等植被影响，障碍物特征复杂多变且存在遮挡、缺失情况。因此，现有的针对结构化环境设计的算法难以直接应用于非结构环境。
[0080]
目前，基于深度学习的语义分割任务多采用相机和激光雷达作为其主要的传感数据输入来源。基于相机的非结构化环境语义分割方法，使用的颜色或纹理特征易受光照和天气的干扰，同时三维结构信息的缺失也限制了此类算法在不同场景的适应性。基于激光雷达的语义分割算法，由于点云数据的稀疏性、无序性、分布不均匀性，以及所依赖的的深度和几何信息过于单一，难以区分低分辨率或是具有相似几何特征的物体。而基于图像、雷
达融合的方法(输入级、特征级、决策级融合)高度依赖于各输入信号的质量或已有的先验知识，无法适用于复杂多变的非结构化场景。因此，需要提出一种鲁棒的方法来融合不同传感器模态数据以实现非结构化环境的高精度有效三维语义分割。
[0081]
为解决上述存在的问题，本发明提供基于跨模态语义增强的非结构化环境点云语义分割方法。该方法首先设计一种基于球面投影的点云分割模块，其次设计一种基于残差跨层连接的图像分割模块，接着设计一种基于gan的二维伪语义增强模块，最后利用样本集对网络进行训练，获得网络参数，从而实现非结构化环境三维点云语义的高效与可靠分割。本发明提出的方法使用球面投影，在降低索引和计算时间的同时，相比其他投影方法(例如鸟瞰图投影)可以生成更为紧凑密集的数据，有利于深度神经网络对于点云特征的提取；残差结构及扩张卷积的使用，不仅降低了网络结构的复杂度，还可以从网络不同深度的融合特征中挖掘出更多有效信息，从而保证该网络同时兼顾点云分割的准确性和实时性；使用gan风格迁移算法，使得图像和点云间的特征信息相互学习，将点云分割网络的语义特征转换为图像语义特征并作为点云分割网络的语义增强信息，可以弥补其缺失的色彩纹理等关键语义信息，实现点云和图像特征的深度融合；在测试阶段仅采用激光雷达传感器进行场景的语义分割，在不受光照和天气干扰的同时，兼顾图像包含的语义特征信息，提高了分割算法的鲁棒性。总体设计方案和网络示意图如图1、图2所示，具体步骤包括：
[0082]
(1)基于球面投影的点云分割模块设计
[0083]
子步骤1：雷达点云预处理
[0084]
激光雷达点云数据量庞大，且由于环境采样的不均匀，点云的密度变化很大，使得密集的点搜索和索引操作相对耗时。常见的解决方法是将点云投影到二维图像空间中，或是采用栅格化方法将每一帧激光雷达数据转换成一幅伪图像，以生成标准卷积操作所需的结构化矩阵形式。此类方法提高了数据处理的效率，但是损失了大量原始点云及其几何特征，不利于后续网络的特征提取。为保证非结构化环境语义分割的实时性和有效性，本发明采用球面投影对雷达点云做预处理，以生成更为紧凑密集的渲染图像。
[0085]
本发明中激光雷达的数据点坐标系oxyz是以雷达中心为原点，载体前进方向为ox轴，按右手定则建立。方位角和顶角θ的计算公式如下：
[0086][0087]
其中，(x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标。对于点云中的每一个点都可以通过其(x,y,z)计算其即将欧式坐标系中的点投影到球面坐标系中。此球面坐标系实则是一个二维坐标系，为了便于理解，对其角度进行微分化从而得到一个二维的直角坐标系：
[0088][0089]
其中，xi、xj为二维直角坐标系的横、纵坐标，δθ分别对应θ的分辨率。
[0090]
通过此球面投影变换，可将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点(xi,xj)。本发明提取点云中每一个点的3个特征：欧式坐标(x,y,z)，如图3所示。从而得到一个尺寸为(h,w,c)的张量，其中，h为球面投影变换后所得渲染图像的宽，w为该图的长，c＝3。以kitti数据集为例，该数据集使用的是64线激光雷达，因此h＝64；水平方向上，受数据集标注范围的限制，使用正前方90
°
的雷达点云数据，并将其划分为512个网格(即水
平采样512个点)，因此w＝512。
[0091]
子步骤2：基于残差扩张卷积的编码-解码网络设计
[0092]
现有的快速分割网络(例如enet等)为实现结构化场景的高精度多重语义分割而设计了较深层的复杂结构，且未针对非结构化环境设计，在算法结构和原理上存在缺陷，难以直接应用于非结构环境。为此，本发明针对非结构化环境语义分割任务，设计了一种基于残差扩张卷积的编码-解码网络，具体如图2中点云分支所示。
[0093]
首先，确定卷积层类型、卷积核大小和卷积步长。
[0094]
一般而言，网络的特征表达能力随着标准卷积层数量的增加而增强，但堆叠较多的卷积层加大了计算量，实时性降低，网络出现过拟合的风险更大，而卷积层数量少则难以提取到表达能力强的特征。因此，在设计网络的过程中，引入了扩张卷积层。扩张卷积能够极大的扩大网络的感受野而不引入额外的参数，合理设计扩张卷积的扩张率并组合使用，能够使网络学习到完整的道路与障碍物信息。为了使特征图恢复到原始图片大小，同时避免引入大量噪声，设计参数可学习的反卷积层对特征图中深度压缩的特征进行逐层分级解耦。
[0095]
为了避免因卷积核过大而引入大量的参数，设计扩张卷积层卷积核大小为1
×
1和3
×
3，步长均设为1。反卷积层的卷积核大小为3
×
3，步长为2，使得经过上采样后的特征图与输入分辨率相同。
[0096]
其次，确定池化层类型、采样尺寸和步长。
[0097]
为了减少网络的计算量并进一步增加网络的感受野，使其能够感受到更大的目标(例如可行驶区域)，本发明引入池化层。最大池化能够保留采样窗口范围内最显著的特征(例如边缘特征)，因此采用最大池化操作来对特征图进行下采样，并将采样尺寸设为2
×
2，步长设为2。
[0098]
接着，确定dropout层分布。
[0099]
较低的网络层提取的基本特征为数据分布上一致的边缘和角等特征，而相对于结构化场景，非结构化场景下区分可行驶区域、障碍物与背景的特征较为稀疏，因此仅在编码器和解码器的中心层插入dropout，有利于网络在较深层中形成较好的高级特征。
[0100]
最后，将上述涉及的不同类型的网络层组合，确定各层的层数、卷积核数量以及扩张卷积的扩张率。
[0101]
一直以来，神经网络的结构设计都是研究者根据自己的应用场景和需求，参考当前公认性能出色的模型，设计出符合特定需求的网络架构。考虑到非结构化环境语义分割的任务是将可行驶区域、障碍物与背景分割(即三分类)，相较于当前大多数面向自动驾驶的多分类语义分割网络而言，其架构应该更加简洁，从而无需堆叠大量的卷积层，以满足准确性和实时性要求。本发明初步确定卷积层层数的取值范围为6～12。
[0102]
池化层在降低网络计算量的同时也损失了部分空间位置信息，因此其数量需要控制在一定的范围内，使得网络能够在尽可能减少计算量和尽可能保留更多空间位置信息的两者间保持平衡，初步确定池化层层数的取值范围为2～4。因为反卷积层的目的是将缩小了的特征图(由池化层下采样引起)恢复到输入图像大小，所以反卷积层的数量等于池化层的数量。
[0103]
参考现有的优秀语义分割模型，卷积核的数量大多设为2的整数次幂。卷积核数量
越少，网络能够提取到的特征越少，而较大的卷积核数量会引入较多参数，增加了优化难度。为了保持两者平衡，初步确定卷积核数量的范围为24～210。
[0104]
扩张卷积核的扩张率一般取值为2的整数次幂，扩张率越大，感受野越大，但引入的噪声亦越大，甚至会产生“网格效应”(造成分割不连续甚至漏分割)。因此，本发明初步确定扩张率的取值范围为20～24。
[0105]
确定扩张率的取值范围后，利用交叉验证法进行模型选择，得到网络性能最佳时所对应的模型架构。在网络设计过程中，不仅综合考虑了卷积层、池化层的类型以及各自层数对边界特征提取的影响，还引入了扩张卷积并对扩张率进行了设计，使其在获得较大感受野的同时，避免了“网格效应”。此外，参考resnet(he,kaiming,et al."deep residual learning for image recognition."proceedings of the ieee conference on computer vision and pattern recognition.2016.)、unet(ronneberger,olaf,philipp fischer,and thomas brox."u-net:convolutional networks for biomedical image segmentation."international conference on medical image computing and computer-assisted intervention.springer,cham,2015.)设计了残差结构进行跨层连接，以便让网络从不同深度的融合特征中挖掘出更多有效信息，从而使得网络能够在保证实时性的前提下学习到有意义的、完整的语义特征。由模型选择得到的最优网络架构如下(其中每一个卷积操作都经过relu函数激活)：
[0106]
block1：用32个1
×
1、扩张率为1的卷积核与512
×
64
×
3的输入样本做卷积，得到子特征图1，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做批标准化处理(bn，batch normalization)，将特征图拼接(concatenation)后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图1做逐像素相加(element-wise addition)，得到维度为512
×
64
×
32的特征图，具体如图4所示；
[0107]
池化层1：block2输出的特征图用2
×
2的最大池化层做下采样，步长为2，得到维度为256
×
32
×
32的特征图；
[0108]
block2：参照block1，用64个1
×
1、扩张率为1的卷积核与池化层1输出的特征图做卷积，得到子特征图2，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图2做逐像素相加，得到维度为256
×
32
×
64的特征图；
[0109]
池化层2：block2输出的特征图经过dropout后，用2
×
2的最大池化层做下采样，步长为2，得到维度为128
×
16
×
64的特征图；
[0110]
block3：参照block1，用128个1
×
1、扩张率为1的卷积核与池化层2输出的特征图做卷积，得到子特征图3，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图3做逐像素相加，得到维度为128
×
16
×
128的特征图；
[0111]
池化层3：block3输出的特征图经过dropout后，用2
×
2的最大池化层做下采样，步长为2，得到维度为64
×8×
128的特征图；
[0112]
block4：参照block1，用256个1
×
1、扩张率为1的卷积核与池化层3输出的特征图做卷积，得到子特征图4，之后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，再与子特征图4做逐像
素相加，得到维度为64
×8×
256的特征图；
[0113]
反卷积层1：用128个3
×
3的卷积核与block4输出的特征图做卷积并做bn，步长为2，经dropout后与block3输出的特征图逐像素相加，再经过dropout后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，最后经过dropout得到维度为128
×
16
×
128的特征图，具体如图5所示；
[0114]
反卷积层2：参照反卷积层1，用64个3
×
3的卷积核与block4输出的特征图做卷积并做bn，步长为2，经dropout后与block3输出的特征图逐像素相加，再经过dropout后分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，最后经过dropout得到维度为256
×
32
×
64的特征图；
[0115]
反卷积层3：参照反卷积层1，用32个3
×
3的卷积核与block4输出的特征图做卷积并做bn，步长为2，与block3输出的特征图逐像素相加，再分别与3
×
3、扩张率为1以及3
×
3、扩张率为2的卷积核做卷积并做bn，将特征图拼接后与1
×
1、扩张率为1的卷积核做卷积并做bn，最后得到维度为512
×
64
×
32的特征图；
[0116]
标准卷积层：用3个1
×
1的卷积核与反卷积层3输出的特征图做卷积，得到维度为512
×
64
×
3的特征图，3个通道对应语义类的总数；
[0117]
soft-max层：对标准卷积层输出的特征图做像素级分类，得到各类的概率，实现场景的三维语义分割。
[0118]
子步骤3：损失函数设计
[0119]
本发明将传统的交叉熵损失用类频次的平方根对其加权，并与lovasz-softmax组合作为最终的损失函数，使各类的iou得分最大化，具体如下式：
[0120]
lseg3d＝-i1vip3dilogp3di 1ckjeck3
[0121]
其中，vi是各类的点数，p3di和p3di分别为真值和对应的预测概率，j表示iou的lovasz扩展，e(ck)是类ck的误差向量；
[0122]
(2)基于残差跨层连接的图像分割模块设计
[0123]
子步骤1：编码-解码网络设计
[0124]
为了方便步骤(3)中二维伪语义增强模块中gan算法的使用，采用与点云分支相同的编码、解码结构以提取图像语义特征和得到各分类概率；
[0125]
子步骤2：损失函数设计
[0126]
本发明采用标准交叉熵函数作为监督训练模型的损失函数：
[0127]
lseg2d＝-1njp2djlogp2dj4
[0128]
其中p2d(j)和p2dj分别表示真值和对应的预测值；
[0129]
(3)基于gan的二维伪语义增强模块设计
[0130]
本发明选择cyclegan作为二维伪语义增强模块的生成器，它是一种具有循环一致性的跨域图像生成gan模型，如图6所示，即有两个互为逆矩阵的生成器g:2d
→
3d,f:3d
→
2d，和两个判别器d2d、d3d，其中d2d用于区分原始二维语义特征{feature2dm}(即步骤(2)中编码器的输出)与由三维语义特征转换所得的二维伪语义特征{f(feature3dm)}(即步骤(1)中编码器的输出)，d3d用于区分原始三维语义特征{feature3dm}与由二维语义特征转换所得的三维伪语义特征{g(feature2dm)}，使得cyclic2d＝fgfeature2d≈feature2d，cyclic3d＝g(ffeature3d)≈feature3d；
[0131]
各映射的对抗损失如下：
[0132][0133][0134]
为进一步减小可能的映射函数空间，引入循环一致性损失，使学习到的映射函数具有循环一致性：
[0135]
lcycleg,f＝e2df(g(feature2dm))-feature2dm e3dg(f(feature3dm))-feature3dm6
[0136]
将其与二维、三维域的对抗损失相结合，得到二维伪语义增强模块的总损失函数如下：
[0137]
lg,f,d2d,d3d＝lgang,d3d,2d,3d lganf,d2d,2d,3d αlcycleg,f7
[0138]
其中，α为控制两目标相对重要性的超参数；
[0139]
(4)网络模型训练与点云语义分割
[0140]
子步骤1：点云分支训练
[0141]
本发明采用adam优化器对网络参数进行迭代训练。优化器初始学习率设为0.01，衰减率设为0.1/20k次迭代，dropout率设为0.5，batchsize设为32，训练epoch设为500；
[0142]
利用结构化环境数据集(例如kitti)做预训练，得到预训练权重，再利用采集的少量非结构化环境数据做进一步训练，得到网络权重；为了增加训练数据的数量，本发明对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转-5
°
,5
°
处理；
[0143]
子步骤2：图像分支训练
[0144]
类似点云分支，先利用结构化环境数据集(例如kitti)做预训练，得到预训练权重，再利用采集的少量非结构化环境数据做进一步训练，得到网络权重；
[0145]
子步骤3：cyclegan训练
[0146]
利用子步骤1、2所得网络权重，生成点云、图像分支编码器的成对输出feature2dm,feature3dmm＝1m，并利用其对cyclegan进行监督训练，实现二维、三维语义特征的相互转换；
[0147]
子步骤4：点云网络再训练
[0148]
冻结点云分支编码器的参数，利用数据集对添加二维伪语义增强模块后的点云分支解码器进行再次训练，得到最终的网络权重；
[0149]
子步骤5：点云语义分割
[0150]
利用子步骤4所得网络权重，对采集到的雷达点云进行在线测试，得到非结构化环境三维点云语义分割结果。
[0151]
以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：累加装置、方法及可读存储介质与流程

基于跨模态语义增强的非结构化环境点云语义分割方法

相关文献

最热文献