一种用于无人配送车的3D目标识别方法与流程

2022-11-19 09:01:53 来源：中国专利 TAG：

一种用于无人配送车的3d目标识别方法
技术领域
1.本发明涉及无人配送车领域，特别是涉及一种用于无人配送车的3d目标识别方法。

背景技术：

2.随着物流行业的快速发展，大量货物通过陆运、空运、海运通往世界各地，但是当到达配送点时，需要快递人员将包裹从配送点送到每一户人家，这非常浪费人力和物力，使得配送效率极大降低。若配送点的位置不发生改变，配送站到达小区的路程是固定的。现有技术中，采用无人配送车进行自动配送货物，无人配送车相对于在研发过程中的自动驾驶汽车，由于应用场景的不同，无人配送车相对要安全，无人配送车可以在低速，如小于20km/h，场景固定环境形势进行配送货物。但是由于是无人配送车，行驶在较多人的马路和小区环境中，需要准备识别车辆前方的目标，才能够根据目标进行路径规划。传统的基于图像目标识别都是基于2d的目标识别，尽管2d目标识别算法较为成熟，但是2d目标识别并未提供距离信息，使得无法为无人机配送车进行更好的路径规划服务，因此2d目标识别无法满足无人配送车的要求，需要在3d层面上进行目标信息，获取位于车辆前方的目标以及目标位置，从而进行路径规划和避障等操作。但是现阶段的3d目标识别处于发展过程中，在有遮挡、小目标物体或天气不好的条件下，识别率较低。在小区环境中，由于受到路灯或活动设施、密集树木等影响，当目标被短暂遮挡或部分遮挡后，现有算法较难识别，导致无人配送车可能出现潜在的安全隐患。

技术实现要素：

3.基于现有技术中存在的缺陷，本发明提供一种用于无人配送车的3d目标识别方法，至少包括：
4.分别获取安装车身的激光雷达捕获的点云图像和车载摄像头所拍摄的图像；
5.将车载摄像头所拍摄的图像通过第一神经网络模型进行运算后获取图像中的二维目标的位置和类别；
6.根据获取二维目标的位置，映射到激光雷达成像的三维点云图像的目标位置并选择目标对应的点云数据；
7.将类别和点云数据输入第二神经网络进行运算后通过从点云数据中分割出3d目标的全局特征；
8.将连续多帧的3d目标全局特征输入在第三神经网络中，通过网络回归出3d目标的位置。
9.一种用于无人配送车的3d目标识别方法，进一步可选地，激光雷达的点云数据与车载以太网的摄像头拍摄的图像的位置进行匹配对应，具体包括：
10.采用棋盘格方法获取标定矩阵对输入点云进行剪裁，利用标定矩阵将每个点p(x,y,z)投影到图像平面上，只保留图像平面内的点，使得激光雷达和摄像头两个传感器数据
具有相同的视场范围，投影公式为：
[0011][0012]
其中，k是摄像头的内参标定矩阵，r和t是描述激光雷达和摄像头位置之间的旋转矩阵和平移向量，(u,v)则是点p(x,y,z)对应的图像坐标。
[0013]
一种用于无人配送车的3d目标识别方法，进一步可选地，激光雷达的帧数据与摄像头的帧数据进行时间同步，具体包括：
[0014]
根据gptp协议分别计算车载以太网摄像头和激光雷达到自动驾驶主机的时间延迟和频率偏移；
[0015]
根据各自的时间延迟和频率偏移对车载以太网摄像头和激光雷达进行时间同步校准；
[0016]
以自动驾驶主机接收到的激光雷达发送的点云数据的时间点为参考基准，获取最接近当前激光雷达的点云数据对应时间的前一帧图像数据和后一帧图像数据，通过线性插值法，获得配准后的图像数据，并给配准后的图像数据标记上当前的参考时间戳。
[0017]
一种用于无人配送车的3d目标识别方法，进一步可选地，第三神经网络包括：lstm网络、全连接层；
[0018]
通过lstm网络将连续多帧的3d目标全局特征向量进行运算提取感兴趣目标的临时增强特征向量，将临时增强特征向量输入全连接层回归出3d目标的精确位置。
[0019]
一种用于无人配送车的3d目标识别方法，进一步可选地，隐含层均采用多层lstm单元，通过网格搜索方法确定最佳的隐含层数和神经元个数超参数取值；
[0020]
通过lstm单元进行提取特征后输入至全连接层进行回归出3d目标框的详细参数。
[0021]
一种用于无人配送车的3d目标识别方法，进一步可选地，对连续多帧3d目标全局特征向量进行相似度的损失函数控制，以提供相同对象的特征嵌入在连续帧中是相似的；
[0022]
连续帧中取同一对象的两个特征向量之间的相似度差来计算；
[0023]
v和ω是来自连续帧的对象的特征向量，l为向量的维度；
[0024][0025]
当输入连续多帧对象连续的余弦距离损失超过某一阈值时，过滤本次预测，继续进行下一次预测。
[0026]
一种用于无人配送车的3d目标识别方法，进一步可选地，在第一神经网络模型是基于二维卷积的神经网络模型，具体包括：多层残差网络单元、第一卷积特征层、第二卷积特征层、第三卷积特征层、第四卷积特征层，期中，多层残差网络单元用于对输入图像数据进行处理，根据第一卷积特征层模型参数，对图像数据的输入尺寸和通道数进行特征提取；
[0027]
从第一卷积特征层至第四卷积特征层，每次经过一个卷积层，尺寸缩小为原来的2倍，通道数增加为原来的2倍。
[0028]
一种用于无人配送车的3d目标识别方法，进一步可选地，第一神经网络模型还包括：第一预测层、第二预测层、第三预测层、第四预测层、合并层；
[0029]
其中，从上至下，从第四卷积特征层至第一卷积特征层开始，下层的输出与对应上一层的输出经过反卷积层进行2倍的上采样的输出进行相加后依次形成第三预测层、第二预测层、第一预测层；
[0030]
第四预测层与第四卷积特征层相同；
[0031]
将第一预测层至第四预测层进行合并后形成合并层；
[0032]
合并层经过一个1*1的卷积层后进行回归出2d目标位置信息和2d目标对应的类别。
[0033]
一种用于无人配送车的3d目标识别方法，进一步可选地，第二神经网络包括：第一分支全局特征提取网络、中心偏移特征提取网络、特征中心变换网络、第二分支全局特征提取网络；
[0034]
其中，第一分支全局特征提取网络提取第一全局特征后分别输入至中心偏移特征提取网络和特征中心变化网络进行相应的特征提取；
[0035]
然后将中心偏移特征提取网络的输出与特征中心变化网络的输出拼接处理后，在输入至第二分支全局特征提取网络进行第二全局特征的提取。
[0036]
一种用于无人配送车的3d目标识别方法，进一步可选地，第二神经网络是基于一维卷积层、全连接层、一维最大池化层为基的组合。
[0037]
一种用于无人配送车的3d目标识别方法，进一步可选地，第一分支全局特征提取网络至少包括一维卷积，具体包括：多个卷积层、最大池化层、全连接层；
[0038]
每经历一个卷积层，输出通道数增加或者不变，而点云的数量保持不变；
[0039]
然后通过最大池化层，将选择所有目标点中最大特征数值的表示3d目标；
[0040]
通过两个全连接层后对语义特征进行进一步提取；
[0041]
其中，将预设卷积层的输出与预设全连接层的输出进行拼接获得的3d目标特征数据。
[0042]
一种用于无人配送车的3d目标识别方法，进一步可选地，第一神经网络的损失函数包括：分类损失、置信度损失；
[0043]
分类损失函数和置信度损失分别采用用bcelogits和二进制交叉熵损失函数bceloss进行计算；
[0044]
一种用于无人配送车的3d目标识别方法，进一步可选地，第一神经网络的损失函数包括：定位损失，loc_loss定位损失函数计算公式如下：
[0045]
h＝|h
1-h2|，w＝|w
1-w2|
[0046][0047]
loc_loss＝2*in2-2*in(1 gloss)
[0048]
其中，h1、w1、h2、w2分别目标框与预测框的高和宽；
[0049]
iou为预测框与真实框的交并比；
[0050]
预测框与目标框的中心点之间的欧氏距离r；
[0051]
ch和cw分别是覆盖预测框和目标框的最小外接矩形的长和宽。
[0052]
一种用于无人配送车的3d目标识别方法，进一步可选地，第二神经网络和第三神
经网络损失函数计算：
[0053]
loss_3d＝lseg β*(lc l
box-reg
l
h-reg
l
h-cls
l
s-reg
l
s-cls
)
[0054]
其中，lseg表示第二神经网络进行3d实例分割的损失，lc表示中心偏移特征提取网络的偏移损失；
[0055]
l
h-reg
、l
h-cls
分别表示表航向角的回归损失和分类；
[0056]
l
s-reg
、l
s-cls
分别表示表尺寸的分类与回归损失。
[0057]
β为比例系数；
[0058]
一种用于无人配送车的3d目标识别方法，进一步可选地，第一分支全局特征提取网络包括序列分支网络，通过序列支网络训练一个正交矩阵来对输入点云进行旋转，使整个网络模型能够匹配各种旋转角度的点云；
[0059]
一种用于无人配送车的3d目标识别方法，进一步可选地，第一分支全局特征提取网络至少包括：3个一维卷积层，一个最大池化层、4个全连接层，然后通过reshape形成[batchsize,k,k]的u矩阵，其中，batchsize为目标数，k为维度；
[0060]
一种用于无人配送车的3d目标识别方法，进一步可选地，为使得u为正交矩阵，通过构造正交损失函数进行训练获得；
[0061]
正交损失函数:loss(u)＝min(e
–
u*u
t
)
[0062]
其中，loss(u)为正太损失函数，e为单位向量，u为正交矩阵；
[0063]
通过训练，使得loss(u)趋于0，即可得u为正太矩阵。
[0064]
通过将正交矩阵与相应卷积层的输出进行相乘获得的结果输出至下一卷积层中进行运算。
[0065]
有益效果：
[0066]
本发明的技术方案中，通过安装在无人配送车中的车载以太网摄像头和激光雷达获取的图像数据和点云数据，通过第一神经网络获取图像中2d目标位置坐标，然后根据2d目标的位置坐标在3d的激光雷达的点云数据进行选择对应目标的3d数据，通过第二神经网络和第三神经网络进行输出回归出3d目标位置和分类；
[0067]
本发明对车载以太网激光雷达和车载以太网的数据进行了同步匹配，解决现有技术中存在数据不匹配的技术问题；
[0068]
另外，在第三神经网络中，采用连续多帧的全局特征数据输出lstm的网络，进行lstm网络进行临时增强全局特征的提取，能够精确回归出3d目标的位置。
附图说明
[0069]
以下附图仅对本发明做示意性说明和解释，并不限定本发明的范围。
[0070]
图1为本发明一实施例中用于无人配送车的3d目标识别方式流程图。
[0071]
图2为本发明一实施例中第一神经网络的模型结构原理图。
[0072]
图3为本发明一实施例中预测框与目标框的几何位置示意图。
[0073]
图4为本发明一实施例中第二神经网络的模型结构原理图。
[0074]
图5为本发明一实施例中第二神经网络的模型结构中第一分支全局特征提取网络。
[0075]
图6为本发明一实施例中第二神经网络的模型结构中第二分支全局特征提取网
络。
[0076]
图7为本发明一实施例中第二神经网络的模型结构中心偏移特征提取网络。
[0077]
图8为本发明一实施例中第二神经网络的模型结构中特征中心变换网络。
[0078]
图9为本发明一实施例中第三神经网络的模型结构原理图。
具体实施方式
[0079]
为了对本文的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，在各图中相同的标号表示相同的部分。为使图面简洁，各图中的示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，为使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。
[0080]
关于控制系统，功能模块、应用程序(app)本领域技术人员熟知的是，其可以采用任何适当的形式，既可以是硬件也可以是软件，既可以是离散设置的多个功能模块，也可以是集成到一个硬件上的多个功能单元。作为最简单的形式，所述控制系统可以是控制器，例如组合逻辑控制器、微程序控制器等，只要能够实现本技术描述的操作即可。当然，控制系统也可以作为不同的模块集成到一个物理设备上，这些都不偏离本发明的基本原理和保护范围。
[0081]
本发明中“连接”，即可包括直接连接、也可以包括间接连接、通信连接、电连接，特别说明除外。
[0082]
本文中所使用的术语仅为了描述特定实施方案的目的并且不旨在限制本公开。如本文中所使用地，单数形式“一个”、“一种”、以及“该”旨在也包括复数形式，除非上下文明确地另作规定。还将理解的是，当在说明书中使用时，术语“包括”和/或“包含”是指存在有所陈述的特征、数值、步骤、操作、元件和/或组分，但是并不排除存在有或额外增加一个或多个其它的特征、数值、步骤、操作、元件、组分和/或其组成的群组。作为在本文中所使用的，术语“和/或”包括列举的相关项的一个或多个的任何和全部的组合
[0083]
应当理解，此处所使用的术语“车辆”或“车辆的”或其它类似术语一般包括机动车辆，例如包括运动型多用途车辆(suv)、公共汽车、卡车、各种商用车辆的乘用汽车，包括各种舟艇、船舶的船只，航空器等等，并且包括混合动力车辆、电动车辆、可插式混合动力电动车辆、氢动力车辆以及其它替代性燃料车辆(例如源于非石油的能源的燃料)。正如此处所提到的，混合动力车辆是具有两种或更多动力源的车辆，例如汽油动力和电力动力两者的车辆。
[0084]
此外，本公开的控制器可被具体化为计算机可读介质上的非瞬态计算机可读介质，该计算机可读介质包含由处理器、控制器或类似物执行的可执行程序指令。计算机可读介质的示例包括，但不限于，rom、ram、光盘(cd)-rom、磁带、软盘、闪存驱动器、智能卡和光学数据存储设备。计算机可读记录介质也可分布在通过网络耦合的计算机系统中，使得计算机可读介质例如通过远程信息处理服务器或控制器区域网络(can)以分布式方式存储和执行。
[0085]
本发明提供一种用于无人配送车的3d目标识别方法，参见图1至图9。具体包括：参见图1，分别获取安装车身的激光雷达捕获的点云图像和车载摄像头所拍摄的图像；
[0086]
将车载摄像头所拍摄的图像通过第一神经网络模型进行运算后获取图像中的二维目标的位置和类别；
[0087]
根据获取二维目标的位置，映射到激光雷达成像的三维图像的目标位置并选择目标对应的点云数据；
[0088]
将类别和点云图像输入第二神经网络进行运算后通过从点云图像中分割出3d目标的全局特征；
[0089]
将连续多帧的3d目标全局特征输入在第三神经网络中，通过网络回归出3d目标的位置。
[0090]
具体地，无人配送车的车身车顶安装有激光雷达，在车身前方，安装有两个车载以太网摄像头；
[0091]
在行驶过程中，根据激光雷达、车载以太网摄像头传感器的固有属性，各自按照自身的频率进行图像采集，但是由于车载以太网摄像头与激光雷达的采集频率不相同，这样会导致二者采集的当前环境图像可能出现不在同一个时刻，即获得的环境图像不一样，从而使得二者融合后产生较大的误差。
[0092]
现有技术中，通常是寻找两个相近时刻获得激光雷达的发射点云图像和车载摄像头采集的图像。但是这种方法仍然存在激光雷达形成的点云图像与车载摄像头采集的图像不同步，只是较为接近。另外，由于传感器采集的数据传输到自动驾驶主机会有延迟，不同传感器的时钟晶振以及经过的传输路线不同，使得时间延迟和时间偏移不同。从而导致现有lvds接口的摄像头和基于flexray或传统以太网总线传输，但是他们缺乏时间同步功能，因此在寻求相邻时间过程中即使能够获得相同的时刻的图像，但是由于缺乏时间同步，也会导致激光雷达和摄像头采集的图像并非在同一时刻。因此为了解决此问题，本实施例采用以下方法进行实时，以克服融合车载以太网激光激光雷达和车载以太网摄像头采集的数据保持同步一致性，具体包括：
[0093]
车载摄像头和激光雷达采用车载以太网接口的摄像头和车载以太网接口的激光雷达，非控制信号采用ieee 1722 avtp协议进行传输，控制信号基于some/ip协议进行传输；
[0094]
根据gptp协议分别计算车载以太网摄像头和车载以太网激光雷达到自动驾驶主机的时间延迟和频率偏移；
[0095]
根据各自的时间延迟和频率偏移对车载以太网摄像头和激光雷达进行时间同步校准；
[0096]
以自动驾驶主机接收到的激光雷达发送的点云数据的时间点为参考基准，获取最接近当前激光雷达的点云数据对应时间的前一帧图像数据和后一帧图像数据，通过线性插值法，获得配准后的图像数据，并给配准后的图像数据标记上当前的参考时间戳。
[0097]
具体地，在本实施例，由于采用激光雷达和摄像头两种传感器进行融合，并且以2d图像预测的位置去具有深度信息的激光雷达去截取对应的点云数据，但由于车载以太网摄像头与激光雷达的安装车身的几何位置并不相同，导致二者的成像不在同一坐标系中，因此需要对激光雷达和摄像头进行标定，使得二者的像素坐标系相对应，具体地：
[0098]
采用棋盘格方法获取标定矩阵对输入点云进行剪裁，利用标定矩阵将每个点p(x,y,z)投影到图像平面上，只保留图像平面内的点，使得激光雷达和摄像头两个传感器数据
具有相同的视场范围，投影公式为：
[0099][0100]
其中，k是摄像头的内参标定矩阵，r和t是描述激光雷达和摄像头位置之间的旋转矩阵和平移向量，(u,v)则是点p(x,y,z)对应的图像坐标；
[0101]
具体地，参见图2，在第一神经网络模型是基于二维卷积的神经网络模型，具体包括：多层残差网络单元、第一卷积特征层、第二卷积特征层、第三卷积特征层、第四卷积特征层，期中，多层残差网络单元用于对输入图像数据进行处理，根据第一卷积特征层模型参数，对图像数据的输入尺寸和通道数进行特征提取；
[0102]
从第一卷积特征层至第四卷积特征层，每次经过一个卷积层，尺寸缩小为原来的2倍，通道数增加为原来的2倍。
[0103]
多层残差网络单元包括多个卷积3d卷积层，根据特征提取更高级语义，可以增加不同数量的卷积层，调整每层的输入的宽度和高度以及通道数，使其符合第一卷积特征层的输入；
[0104]
从第一卷积特征层至第四卷积特征层，一种可以选的输入shape控制为：[batchsize，256,256,128],[batchsize，128,128,256],[batchsize，64,64,256],[batchsize，32,32,1024],其中，batchsize为每批次输入图片数量。
[0105]
第一神经网络模型还包括：第一预测层、第二预测层、第三预测层、第四预测层、合并层；
[0106]
其中，从上至下，从第四卷积特征层至第一卷积特征层开始，下层的输出与对应上一层的输出经过反卷积层进行2倍的上采样并进行通道路与下层通道数匹配的输出进行相加后依次形成第三预测层、第二预测层、第一预测层；
[0107]
第四预测层与第四卷积特征层相同；
[0108]
具体地，为了是第一预测层至第四预测层能够合并，由于通道数不相同，因此，需要利用(1*1)的卷积核进行通道数的匹配；
[0109]
将第一预测层至第四预测层进行合并后形成合并层；
[0110]
合并层经过一个1*1的卷积层后进行回归出2d目标位置信息和2d目标对应的类别。
[0111]
具体地，第一神经网络模型中，损失函数定义为：
[0112]
损失函数＝分类损失定位损失置信度损失；
[0113]
分类损失函数和置信度损失分别采用用bcelogits和二进制交叉熵损失函数bceloss进行计算；
[0114]
定位损失函数的计算方式如下：传统iou loss存在较大的局限性，难以解决两种不相交的物体收敛，另外，在两种物体具备包含关系时，传统的iou也无法衡量两种物体的距离，使得收敛变慢或无法收敛的情况。
[0115]
具体地，参见图3，由于a∩b＝b＝c,令a与b的最小外接矩形c的对角线距离为c,预测框b与目标框a的中心点之间的欧氏距离r,可以求得目标框与预测框的长宽之差h和w,ch和cw分别是覆盖预测框和目标框的最小外接矩形的长和宽，h1、w1、h2、w2分别目标框与预测
框的高和宽，则定位损失loc_loss的定义如下：
[0116]
h＝|h
1-h2|，w＝|w
1-w2|
[0117][0118]
loc_loss＝2*in2-2*in(1 gloss)
[0119]
具体地，通过第一神经网络模型获取预测的2d目标位置和分类后，根据2d目标位置，映射到3d的激光点云中，获取对应位置的点云锥体，具体可以根据几何关系，如不同方向的平面方程，构建几何方程进行获取；iou为预测框与真实框的交并比，iou计算的是“预测的边框”和“真实的边框”的交叠率，即它们的交集和并集的比值。
[0120]
当获取到对应2d目标的锥体点云数据后，如果全部点云都输入至模型中，则会导致庞大的计算量，对此，针对每个目标的3d锥体，选择预设数量的点进行输入至网络中，如256个点或512个点，如果点不足，则利用0进行填充。将3d锥体的点云输入至第二神经网络获取分割出3d目标的全局特征。
[0121]
具体地，点云表示为[batchsize,num_points,features],其中，batchsize为每批次输入的目标个数，num_points为点数，features为特征数，如点的三维空间特征。
[0122]
具体地，参见图4至图8，第二神经网络包括：参见图4，第一分支全局特征提取网络、中心偏移特征提取网络、特征中心变化网络、第二分支全局特征提取网络；
[0123]
其中，第一分支全局特征提取网络提取第一全局特征后分别输入至中心偏移特征提取网络和特征中心变化网络进行相应的特征提取；
[0124]
然后将中心偏移提取网络的输出与特征中心变化网络的输出拼接变化处理后，在输入至第二分支全局特征提取网络进行第二全局特征的提取；
[0125]
具体地，参见图5，第一分支全局特征提取网络至少包括一维卷积，具体包括：多个卷积层、最大池化层、全连接层；
[0126]
每经历一个卷积层，输出通道数增加或者不变，而点云的数量保持不变，
[0127]
具体地，一种最佳的模型实例包括：三个64通道的一维卷积层，一个128通道的一维卷积层，一个512的一维卷积层，一个1024通道的一维卷积层；
[0128]
相比初始特征的feature为9维或7维，通过升级为1024维后，且经过多次高级语义特征提取，能够很完整表达目标的每个点的信息。
[0129]
然后通过最大池化层，将选择所有目标点中最大特征数值的表示3d目标；
[0130]
通过两个全连接层后对语义特征进行进一步提取；
[0131]
将预设卷积层的输出与预设全连接层的输出进行拼接获得的3d目标特征数据
[0132]
具体地，如：第三个卷积层的输出与经过二个全连接后的输出进行拼接获得的3d目标特征数据；具体的，通过此项设计，能够保留初始低级的特征以及高级的特征，二者进行合并后，有利于后面点云的分类，保证每个点中具体地初始的特征以及高级的语义特征；
[0133]
由于进行拼接，使得3d目标的每个特征点都包含有相同的全局特征点的信心，有利于后续物体的分类和分割识别点。
[0134]
通过拼接后，在经过三个卷积后输出符合中心参数特征提取网络的输入和特征中心变化网络的输入；
[0135]
具体地，第一分支全局特征提取网络包括序列分支网络，序列分支网络至少包括：3个一维卷积层，一个最大池化层、4个全连接层，然后通过reshape形成[batchsize,k,k]的u矩阵，其中，batchsize为目标数，k为维度；
[0136]
为使得u为正交矩阵，通过构造正交损失函数进行训练获得；
[0137]
具体正交损失函数:loss(u)＝min(e
–
u*u
t
)
[0138]
其中，loss(u)为正太损失函数，e为单位向量，u为正交矩阵；
[0139]
通过训练，使得loss(u)趋于0，即可得u为正太矩阵。
[0140]
通过将正交矩阵与相应卷积层的输出进行相乘获得的结果输出至下一卷积层中进行运算。
[0141]
中心偏移特征提取网络预测3d目标物体的中心偏移，由于通过第一分支全局特征提取网络对3d目标特征进行提取后，3d目标的中心可能是准确，因此需要再次对3d目标的中心进行回归，获取准备的中心偏移，通过中心偏移，精确的获取3d目标的中心；
[0142]
参见图7，中心偏移特征提取网络具体包括：多个一维的卷积层、池化层、全连接层；
[0143]
具体地，最佳的中心偏移特征提取网络的模型包括：3个一维卷积层、一个池化层，经过第一个一维卷积层，通道数变为128；经过第2个一维卷积层，通道数变为256；经过第3个一维卷积层，通道数变为512；
[0144]
经过最大池化层后，在经过全连接层，回归为3d目标物体的中心偏移(δx,δy,δz)；
[0145]
具体地，参见图8，特征中心变化网络根据中心偏移特征提取的网络的输出和第一分支全局特征提取网络的特征进行处理后相应的三个卷积层后，输入符合第二分支全局特征提取网络的输入特征向量；
[0146]
第二分支全局特征提取网络进一步精确提取更高级的语义特征，在经过第一分支全局特征提取网络后，需要回归出更精确的3d目标位置；
[0147]
第二分支全局特征提取在获取3d目标物体中心偏移后，结合第一分支全局特征提取的全局特征，再次进行提取；
[0148]
具体地，参见图6，第二分支全部特征提取网络包括：多个一维卷积层、最大池化层、全连接层；
[0149]
具体地，可以根据实际情况设置相应的卷积层、全连接层数量；
[0150]
对于全连接层，当存在多个全连接层时，为了避免过拟合，采用随机选择预设百分比数量的节点进行计算，丢弃相应比例的节点数。
[0151]
具体地，第二分支全局特征提取网络中其中一个最佳实例为：经过第一个一维卷积后，通道数变为128；经过第一个一维卷积后，通道数变为128；
[0152]
经过第2个一维卷积后，通道数变为256；
[0153]
经过第3个一维卷积后，通道数变为512；
[0154]
经过第3个一维卷积后，通道数变为1024；
[0155]
然后经过最大池化层后，最后经过全连接层后输出精准的全局特征向量；
[0156]
具体地，当获取到全局图特征向量后，输入第三神经网络进行预测。
[0157]
相比第一神经网络和第二神经网络，第三神经网络，在对3d目标进行回归时，并非
只是采用一帧数量，而是采用多帧的连续数据进行回归；
[0158]
具体地，在无人配送车行驶的过程中，现有技术中由于采用的单帧数据，若3d目标被遮挡后，在本帧目标是无法识别的，但是由于目标的真实存在，可能会导致无人配送车并未及时发现目标，而正常行驶，但当目标突然出现后，因来不及做出反应，从而引发事故，对此，本实施例针对此问题，进行了一下改进：
[0159]
参见图9，第三神经网络包括：lstm网络、全连接层；
[0160]
通过lstm网络将连续多帧的3d目标全局特征进行运算提取感兴趣目标的临时增强特征，将临时增强特征输入全连接层回归出3d目标的精确位置。
[0161]
因此对第三神经网络进行运算时，采用在一段时间内的激光雷达数据和图像数据进行回归，通过多帧数据的回归，可以在补全出在自动配送车行驶过程中出现被遮挡的物体，这样避免移动的行人，如儿童，在行走过程中被地上构筑物、障碍物遮挡而导致无人配送车并未识别的场景。
[0162]
具体地，在lstm网络中，例如连续输入5帧图像的数据进行至lstm网络，使得lstm网络能够根据5帧数据，自动补全出具有遮挡物体的特征；
[0163]
lstm网络可以包括多个；
[0164]
lstm的具体结构如下：
[0165]
首先，遗忘门决定从上一时刻的细胞状态c
t-1
中丢弃的信息；第二步决定需要向细胞状态中更新信息，此过程又分为两小步，第一小步由输入门决定旧细胞状态中需要被更新的信息，第二小步由tanh层生成候选的用于更新的信息第三步是结合前两步所做的准备去更新细胞的状态，得到新细胞状态c
t
；最后，输出门将从新细胞状态中过滤、缩放得到隐藏层的输出信息h(t)；
[0166]
隐含层均采用多层lstm单元，可以通过网格搜索方法确定合适的隐含层数、合适的神经元个数超参数取值。
[0167]
通过lstm单元进行提取特征后输入至全连接层进行回归出3d目标框的详细参数。
[0168]
具体地，对连续多帧3d目标全局特征进行相似度的损失函数计算：
[0169]
第二神经网络与第三神经网络的3d目标的损失函数如下:
[0170]
loss_3d＝lseg β(lc l
box-reg
l
h-reg
l
h-cls
l
s-reg
l
s-cls
)
[0171]
其中，lseg标识第二神经网络进行3d实例分割的损失，lc表示中心偏移特征提取网络的偏移损失；
[0172]
l
box-reg
表示3维目标的位置损失；
[0173]
l
h-reg
、l
h-cls
分别表示表航向角的回归损失和分类；
[0174]
l
s-reg
、l
s-cls
分别表示表尺寸的分类与回归损失，则size＝(h,w,l),如果求质心，则代表(cx,cy,cz)等。；
[0175]
交叉熵损失用于分类、点分割；
[0176]
中心、框大小和方向角的回归的损失函数计算如下：,
[0177][0178]
其中，y代表真值，y*代表预测值，δ表示预设阈值。
[0179]
通过多帧数据进行相似度通过构造损失函数进行计算，以提供相同对象的特征嵌入在连续帧中是相似的。损失函数是通过在连续帧中取同一对象的两个特征向量之间的相似度差来计算的，如下：在v和ω是来自连续帧的对象的特征向量，l为向量的维度。
[0180][0181]
当输入连续多帧对象连续的相似度损失超过某一阈值时，过滤本次预测，继续进行下一次预测；
[0182]
通过引入相似度损失，避免输入的连续多帧向量出现较大的波动，能够提高对部分遮挡目标的准确率。
[0183]
上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。本领域的技术人员可以清楚，该实施例中的形式不局限于此，同时可调整方式也不局限于此。可以理解，本领域技术人员在不脱离本发明的基本构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于红外热像的身份识别方法、装置、电子设备及介质与流程

一种用于无人配送车的3D目标识别方法与流程

相关文献

最热文献