一种基于混合注意力机制的图像-激光雷达数据融合方法

2022-04-27 03:40:14 来源：中国专利 TAG：

1.本发明涉及自动驾驶技术领域，提出了一种基于混合注意力机制的图像-激光雷达数据融合方法。

背景技术：

2.随着计算机科学和辅助驾驶技术的高速发展，自动驾驶技术俨然成为了人类交通的重要发展方向。感知作为自动驾驶系统中的关键技术，使用车载雷达、激光测距仪等感知设备捕获数据，借助交通规则、道路网络等先验知识估计车辆的运动状态，包括红绿灯识别、3d目标检测等等。为了确保自动驾驶的安全性，自动驾驶车辆需要获取大量的环境信息，并通过筛选和相关处理实现对车辆的精准控制。
3.检测三维空间中的物体是建立一个自动驾驶感知系统的基本要求，关系到自动驾驶车辆后续路径的规划和控制。在实际工作中，一辆自动驾驶的汽车需要从例如摄像机、激光雷达等传感器中获取原始数据，然后进行处理，以实现对周围环境的感知和表达，包括对对象的分类、检测和定位。
4.目前，国内外已经有了大量工作研究3d目标检测，主要包括基于激光雷达的方法、基于单目视觉的方法和基于多模态融合目标检测方法。当前，基于激光雷达的方法被广泛用于3d目标检测之中。相比于摄像头数据，激光雷达所获得的点云数据可以捕捉物体姿态并提供了准确的深度信息。然而这些方法在目标检测任务中并不完美，由于点云的稀疏性，缺乏对物体的细节信息的考虑，在分析远距离目标和遮挡对象时存在着无法识别的现象。另一方面，2d目标检测的重大突破让研究人员认识到摄像机图像拥有丰富的颜色信息和语义特征，于是，基于单目摄像头的环境感知算法被开发出来直接对读入的摄像机图像进行3d目标检测。然而，单目相机图像的深度信息通常是模糊的，这也导致使用单目相机实现3d目标检测算法效果难以达到自动驾驶时的定位要求。
5.在前人的研究中，有许多工作尝试使用多模态融合的方法克服激光雷达和图像单模态各自缺陷，根据传感器的使用方法融合方式可以划分为两大类1)在不同的阶段使用不同传感器的级联方法和2)多传感器联合输入的融合方法。这些方法虽然有效但各自存在局限性，对于前者方法，3d目标检测性能往往受到2d目标检测步骤的制约，由于相机图像受到遮挡、光照等环境因素影响，这可能会对3d目标检测的结果造成不良影响，除此之外，最近的pointpainting，fusionpainting等方法将图像语义分割的结果映射到点云中，无法进行端到端的训练也使整个工程变得复杂，导致难以获得最优解。对于后者方法，一些方法利用透视投影或者体素化的手段将激光雷达信息转换为与图像相同的二维表示方法如鸟瞰图，前视图视角，再运用2d卷积神经网络提取特征，并通过拼接操作对中间特征进行融合。这种方法不仅损失了点云的信息，并且特征映射关系十分粗糙。所以，如何在不损失点云信息的同时有效的融入图像的语义信息，从而提升3d目标检测性能依旧是一个悬而未决的问题。
6.综上所述，摄像头图像缺乏对深度的信息估计，难以保证3d目标检测的有效性，而激光雷达虽然可以进行空间估计，但是数据稀疏性的固有特点导致目标检测精度有限。因
此，需要综合考虑两类数据进行优势互补，利用多模态数据提高对周围环境的感知能力。但是现阶段的大量工作表明激光雷达和摄像机图像融合实现3d目标检测的方法并不完美，如果处理不当不但不会实现检测精度的提升，反而会降低目标检测的精度。

技术实现要素：

7.针对以上问题，本发明提出了一种基于混合注意力机制的图像-激光雷达数据融合方法。
8.为了实现上述目的，本发明提出了一种基于混合注意力机制的图像-激光雷达数据融合方法，所述方法包括：
9.步骤1)同时接收激光雷达点云数据和摄像机图像；
10.步骤2)基于球面映射，将点云数据转化为不同尺度的二维距离图像，并存储映射关系；
11.步骤3)基于激光雷达空间到2d相机空间的投影矩阵，对摄像机图像进行预处理；
12.步骤4)将不同尺度的二维距离图像和预处理后的摄像机图像输入预先建立和训练好的阶梯融合网络，得到融合后具有图像语义的点云特征；
13.步骤5)根据映射关系，将融合后的点云特征投影到原始激光点云数据中，并输入3d目标检测器实现目标检测；
14.所述阶梯融合网络，通过单独提取两个模态的深层特征，在不同尺度上利用注意力机制实现多模态融合。
15.作为上述方法的一种改进，所述步骤2)具体包括：
16.对于坐标个数为n，强度为4的点云数据，对任一点(x,y,z)，根据下式计算得到该点对应的二维距离图像的像素坐标(u,v)：
[0017][0018]
其中，是该点的距离，f＝f
up
f
down
表示激光传感器的垂直视野，f
up
和f
down
分别表示垂直视野的最高处和最低处，h和w分别表示期待的二维距离图像的高度和宽度；
[0019]
存储(n,4)的点云数据与n个二维距离图像的像素坐标(u,v)的映射关系。
[0020]
作为上述方法的一种改进，所述步骤3)具体包括：
[0021]
根据3d激光雷达空间到2d相机空间的投影矩阵p∈r3×4，r表示实数，对于点云中的任一3d点(x,y,z,1)
t
，根据下式得到在第i个摄像机图像上对应的像素点位置(u,v,1)
t
：
[0022]
[u,v,1]
t
＝p[x,y,z,1]
t
[0023]
其中，t表示转置。
[0024]
作为上述方法的一种改进，所述阶梯融合网络采用编解码模型，包括编码模块和解码融合模块，其中，
[0025]
所述编码模块，用于分别提取摄像机图像的图像语义信息，以及不同尺度的二维距离图像的特征图，得到具有语义的特征图；
[0026]
所述解码融合模块，用于将具有语义的特征图恢复至预设的最大距离图像尺寸，
在不同的尺寸上对编码模块提取的特征进行自适应融合。
[0027]
作为上述方法的一种改进，所述解码融合模块包括解码子模块和多模态融合子模块，其中，
[0028]
所述解码子模块，用于将具有语义的特征图恢复为h
×w×
8输出，h和w分别为预设的最大二维距离图像的高度和宽度；
[0029]
所述多模态融合子模块，用于在不同尺度上运用二维距离图像引导实现多模态融合。
[0030]
作为上述方法的一种改进，所述多模态融合子模块包括通道融合单元和空间融合单元，其中，所述多模态融合子模块的处理过程具体包括：
[0031]
所述通道融合单元通过自适应池化调整摄像机图像特征的尺寸，与二维距离图像特征fr的尺寸相匹配；通过卷积处理得到注意力的键kc与值vc；对二维距离图像特征使用卷积处理生成查询qc；根据kc和qc利用softmax激活函数计算通道注意力矩阵cam，将cam与值vc相乘，得到通道融合单元的输出ca：
[0032]
ca＝vc×
cam
[0033]
所述空间融合单元通过卷积处理调整摄像机图像特征的通道数，将调整后的摄像机图像特征与改变形状及转置后的二维距离图像特征qs进行矩阵相乘，利用softmax激活函数计算空间注意力矩阵sam，将sam与改变形状及转置后的摄像机图像特征vs相乘得到空间融合单元的输出sa：
[0034]
sa＝sam
×vs
[0035]
对通道融合单元的输出ca、空间融合单元的输出sa以及二维距离图像特征fr进行拼接，再通过卷积处理得到多模态融合结果输出ma：
[0036]
ma＝conv(concat(sa,ca,fr))
[0037]
其中，concat表示拼接，conv表示卷积一种基于混合注意力机制的图像-激光雷达数据融合系统，所述系统包括：接收模块、点云数据转化模块、预处理模块、融合处理模块、目标检测模块和阶梯融合网络；其中，
[0038]
所述接收模块，用于同时接收激光雷达点云数据和摄像机图像；
[0039]
所述点云数据转化模块，用于基于球面映射，将点云数据转化为不同尺度的二维距离图像，并存储映射关系；
[0040]
所述预处理模块，用于基于激光雷达空间到2d相机空间的投影矩阵，对摄像机图像进行预处理；
[0041]
所述融合处理模块，用于将不同尺度的二维距离图像和预处理后的摄像机图像输入预先建立和训练好的阶梯融合网络，得到融合后具有图像语义的点云特征；
[0042]
所述目标检测模块，用于根据映射关系，将融合后的点云特征投影到原始激光点云数据中，并输入3d目标检测器实现目标检测；
[0043]
所述阶梯融合网络，通过单独提取两个模态的深层特征，在不同尺度上利用注意力机制实现多模态融合。
[0044]
一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法中任一项所述的方法。
[0045]
一种非易失性存储介质，用于存储计算机程序，所述计算机程序当被处理器执行时执行上述方法中任一项所述的方法。
[0046]
与现有技术相比，本发明的优势在于：
[0047]
1、本发明在不损失点云原始信息的基础上，能够建立起摄像机图像和点云的有效融合，从而赋予点云的语义特征，提升3d目标检测的检测精度；
[0048]
2、本发明设计了一个新颖的多模态融合子模块，名为rc-fusion模块，利用混合注意力机制同时考虑特征的通道和空间信息有效地实现了距离图像和相机图像的自适应融合，而无需图像标注；
[0049]
3、本发明设计了一款通用的多模态融合前端网络，阶梯融合网络stair-fusion net，借助范围图像为纽带，实现了点云-范围图像-点云的无损映射的同时，为点云提供了范围图像和相机图像的语义特征；该网络可以很容易应用在当前在主流的3d目标检测框架中，并在各类目标上的检测精度均有提升。
附图说明
[0050]
图1是本发明基于混合注意力机制的图像-激光雷达数据融合方法的流程图；
[0051]
图2是本发明的阶梯融合网络stair-fusion net的结构示意图；
[0052]
图3是本发明的多模态融合子模块rc-fusion的结构示意图。
具体实施方式
[0053]
本发明提供了一种基于混合注意力机制的图像-激光雷达数据融合方法，包括步骤如下：
[0054]
步骤1、数据获取：采集自动驾驶汽车的激光雷达点云数据point clouds和摄像机图像camera image，以及激光雷达空间到2d相机空间的投影矩阵p。
[0055]
步骤2、点云表示方式转化：考虑激光雷达传感器的实际使用情况，利用球面映射将三维点云数据转化为稠密的二维距离图像(range image)表示，并存储转化中的每个点到每个像素的映射关系
[0056]
步骤3、摄像机图像预处理：通过激光雷达空间到2d相机空间的投影矩阵，对摄像机图像进行裁剪，保留点云对应摄像机图像中的部分摄像机图像。
[0057]
步骤4、多模态特征提取及融合：提出阶梯融合网络(stair-fusion)实现摄像机图像和点云信息的有效融合。stair-fusion net实质上是一个编解码模型并由两个流——摄像机图像数据流和距离图像数据流组成。在编码阶段单独提取两个模态深层特征，在解码过程中的各个尺度上运用距离图像引导的多模态融合模块(range-guided camera image fusion module,rc-fusion)实现多模态融合。
[0058]
步骤5、距离图像特征到点云特征的转化：根据步骤2中保留的映射关系，将融合后带有图像语义的特征反馈到三维点云中。
[0059]
步骤6、3d目标检测：借助现有的基于激光雷达的3d目标检测框架，将富有语义特征的点云特征作为输入，实现3d目标检测。
[0060]
下面结合附图和实施例对本发明的技术方案进行详细的说明。
[0061]
实施例1
[0062]
如图1所示，本发明的实施例1提出了一种基于混合注意力机制的图像-激光雷达数据融合方法，包括步骤如下：
[0063]
步骤1、数据获取：采集自动驾驶汽车的激光雷达点云数据point clouds和摄像机图像camera image，以及激光雷达空间到2d相机空间的投影矩阵p。为证明算法的有效性，整个流程基于公开的kitti数据集进行说明。
[0064]
步骤2、利用球面映射将三维点云数据转化为稠密的二维距离图像表示：相比于使用摄像机矩阵投影，球面映射更多的考虑了激光雷达传感器的实际使用情况，并且生成的范围图像更加稠密，可以在文献中查询详细信息。在此，我们使用球面映射作为范围图像的转化方法，正如下列公式所述：
[0065][0066]
其中，(u,v)代表范围图像的像素坐标，(x,y,z)是在3d空间中的点的坐标。其中，(u,v)代表范围图像的像素坐标，(x,y,z)是在3d空间中的点的坐标。是每一个点的距离，f＝f
up
f
down
代表激光传感器的垂直视野。h和w分别代表期待的范围图像的高度和宽度，可以通过设置不同的h和w调整范围图像分辨率。对于(n,4)的点云输入(坐标和强度)公式产生n个对应的u和v的输出，存储这一映射关系，以便于后续点云的恢复。对于范围图像的每一个像素位置，选取映射在该像素上距离最近的点以保证与摄像机图像提供的信息一致，然后，编码点坐标(x,y,z)距离和激光强度五个输入通道，最终的输入范围图像尺寸是h
×w×
5。对于kitti 3d目标检测数据集，考虑到velodyne 64lidar与图像的联合标定，设定最大尺度为h＝64,w＝512这足够包含前景图。
[0067]
步骤3、摄像机图像数据预处理：融入图像的目的是为了赋予点云语义信息，帮助3d目标检测器实现更精确的预测。为了避免引入干扰信息，仅保留点云对应的摄像机图像部分。给定一个3d点(x,y,z,1)
t
，在第i个摄像机图像上它对应的像素点位置(u,v,1)
t
由下式计算：
[0068]
[u,v,1]
t
＝p[x,y,z,1]
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中，p∈r3×4为3d激光雷达空间到2d相机空间的投影矩阵。
[0069]
步骤4、图2所示为本发明的stair-fusion net示意图。需要说明的是stair-fusion net的训练、测试的硬件平台为geforce rtx
tm 2080ti，软件环境为：ubuntu 18.04 pytorch 1.5 cuda 10.2 python 3.7。在下列步骤中，对业内人士基本都掌握的基本理论方法不进行过多叙述。
[0070]
网络结构的设计的主要步骤包括：
[0071]
1)如图2所示，stair-fusion net实质上是一个编解码模型并由双流——摄像机图像数据流和距离图像数据流组成。在编码阶段分别提取两个模态的深层特征，在解码过程中的各个尺度上运用rc-fusion模块实现多模态融合。
[0072]
2)图3所示为本发明的rc-fusion示意图。该模块在空间和通道上对距离图像和摄像机图像进行关联，实现不同模态的自适应融合。包括通道融合单元和空间融合单元，通道融合单元和空间融合单元的注意力对象及矩阵维度均不同。
[0073]
通道融合单元的处理过程具体包括：
[0074]
给定摄像机图像特征fc，通过自适应池化模块调整图像特征的尺寸使其与距离图
像特征尺寸fr相匹配；通过卷积模块得到注意力模块的键kc与值vc；对距离图像特征使用卷积模块生成查询qc；利用softmax激活函数计算通道注意力矩阵cam：
[0075][0076]
其中dc＝hr×
wr。cam的第ij个元素cam
ij
代表了距离图像特征的第i个通道对摄像机特征第j个通道的影响。然后计算与vc相乘，得到通道融合单元输出ca，即：
[0077]
ca＝vc×
cam
[0078]
空间融合单元的处理过程具体包括：通过卷积模块调整摄像机图像特征的通道数，然后将距离图像特征qs与调整后的摄像机特征进行矩阵相乘，得到空间注意力矩阵sam：
[0079][0080]
其中，ds＝cr,sam的第ij个元素sam
ij
代表了距离图像特征的第i个像素对摄像机图像特征的第j个像素的影响。使用该结果与摄像机图像特征vs相乘得到空间融合单元输出sa：
[0081]
sa＝sam
×vs
[0082]
最后，拼接通道融合输出、空间融合输出和距离图像特征尺寸fr，使用卷积模块调整通道数得到多模态融合结果输出ma：
[0083]
ma＝conv(concat(sa,ca,fr))
[0084]
具体实现方法：
[0085]
·
距离图像流：该流使用不同尺度的距离图像作为输入，提取范围图像的深度特征。虽然使用球面映射投影范围图像，在较大尺寸的范围图像中依旧会存在空洞，这危害了卷积操作，并且在会在识别小目标时产生歧义，因此生成不同的尺寸的范围图像这有利于提取语义信息。除此之外，为了获取更灵活的感受野并且与图像尺寸相适应，空洞残差模块在模型中被广泛使用。由于整个编码过程类似于一个阶梯，所以该网络被称为stairnet。
[0086]
·
摄像机图像流：该流使用摄像机图像作为输入，并且通过提取图像的语义信息。不同于范围图像，摄像机图像更具有判别力，大尺寸的摄像机图像输入意味着更少的信息丢失。并且由于摄像机图像与范围图像模态不同，堆叠更多的空洞残差模块以提取足够的图像语义信息。
[0087]
·
解码及融合：编码过程独立提取了两个模态的深度特征，在解码模块，将范围图像恢复至输入的尺寸，以避免信息的丢失，在不同的尺寸上对特征进行自适应融合，增强点云的特征表达。对于范围图像最大尺寸为h
×w×
5的输入，解码过程最终的输出是h
×w×
8。与此同时设计了一个rc-fusion实现多模态融合。正如图3所示，融合模块由通道融合模块和空间融合模块组成，它们的区别在于注意力的对象和矩阵维度。
[0088]
3)点云的重建：借助步骤2中保留的点云-距离图像映射关系表，将上述步骤提取的融合特征投影到原始点云中。
[0089]
步骤5、将赋有图像语义特征的点云信息，输入到现有的基于激光雷达的3d目标检测框架中，得到检测结果的输出，并验证结果的有效性。
[0090]
实施例2
[0091]
本发明的实施例2提出了一种基于混合注意力机制的图像-激光雷达数据融合系
统，所述系统包括：接收模块、点云数据转化模块、预处理模块、融合处理模块、目标检测模块和阶梯融合网络；其中，
[0092]
所述接收模块，用于同时接收激光雷达点云数据和摄像机图像；
[0093]
所述点云数据转化模块，用于基于球面映射，将点云数据转化为不同尺度的二维距离图像，并存储映射关系；
[0094]
所述预处理模块，用于基于激光雷达空间到2d相机空间的投影矩阵，对摄像机图像进行预处理；
[0095]
所述融合处理模块，用于将不同尺度的二维距离图像和预处理后的摄像机图像输入预先建立和训练好的阶梯融合网络，得到融合后具有图像语义的点云特征；
[0096]
所述目标检测模块，用于根据映射关系，将融合后的点云特征投影到原始激光点云数据中，并输入3d目标检测器实现目标检测；
[0097]
所述阶梯融合网络，通过单独提取两个模态的深层特征，在不同尺度上利用注意力机制实现多模态融合。
[0098]
实施例3
[0099]
本发明的实施例3还可提供的一种计算机设备，包括：至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。
[0100]
其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(track ball)、触感板或者触摸屏等。
[0101]
可以理解，本技术公开实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
[0102]
在一些实施方式中，存储器存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。
[0103]
其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。
[0104]
在本上述的实施例中，还可通过调用存储器存储的程序或指令，具体的，可以是应
用程序中存储的程序或指令，处理器用于：
[0105]
执行实施例1的方法的步骤。
[0106]
实施例1的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
[0107]
可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dsp device，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0108]
对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0109]
实施例4
[0110]
本发明实施例4提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现实施例1中方法的各个步骤。
[0111]
最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于Kafka与OkHttp的一站式实时交易推送系统的制作方法

一种基于混合注意力机制的图像-激光雷达数据融合方法

相关文献

最热文献