一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

检测模型训练方法及装置、对象检测方法及装置与流程

2022-09-08 08:38:29 来源:中国专利 TAG:


1.本技术实施例涉及图像处理技术,尤其涉及一种检测模型训练方法及装置、对象检测方法及装置。


背景技术:

2.随着图像处理技术的不断发展,目前的环境感知已经成为了一种重要的应用,例如环境感知中的目标检测模块可以有效的检测到环境中存在的目标。
3.目前,现有技术中在进行目标检测的时候,通常是采用单独的传感器采集当前时刻的环境数据,之后基于当前时刻采集的环境数据实现目标检测,也就是说现有技术中通常都是基于单个传感器采集的单帧图像实现目标检测的。
4.然而,独立的单一传感器采集的单帧的环境数据通常缺乏数据全面性,从而会导致目标检测的准确性较低。


技术实现要素:

5.本技术实施例提供一种检测模型训练方法及装置、对象检测方法及装置,以克服目标检测的准确性较低的问题。
6.第一方面,本技术实施例提供一种检测模型训练方法,包括:
7.获取至少一组训练数据,其中,所述训练数据中包括多帧样本点云、多帧样本图像、所述样本点云和所述样本图像对应的样本对象检测结果;
8.根据检测模型中的特征提取网络对所述多帧样本点云和所述多帧样本图像进行处理,得到所述多帧样本点云和所述多帧样本图像对应的特征信息;
9.根据所述检测模型中的检测网络对所述特征信息进行处理,得到所述对象检测模型输出的第一对象检测结果;
10.根据所述第一对象检测结果和所述样本对象检测结果,更新所述检测模型的模型参数。
11.第二方面,本技术实施例提供一种对象检测方法,包括:
12.获取第一时刻采集得到的第一点云以及第一图像;
13.获取所述第一时刻之前采集得到的多帧第二点云以及多帧第二图像;
14.根据检测模型对所述第一点云、所述第一图像、所述多帧第二点云、所述多帧第二图像进行处理,得到所述第一点云和所述第一图像对应的对象检测结果,
15.其中,所述检测模型为根据上述第一方面所述的方法训练得到的模型。
16.第三方面,本技术实施例提供一种检测模型训练装置,包括:
17.获取模块,用于获取至少一组训练数据,其中,所述训练数据中包括多帧样本点云、多帧样本图像、所述样本点云和所述样本图像对应的样本对象检测结果;
18.第一处理模块,用于根据检测模型中的特征提取网络对所述多帧样本点云和所述多帧样本图像进行处理,得到所述多帧样本点云和所述多帧样本图像对应的特征信息;
19.第二处理模块,用于根据所述检测模型中的检测网络对所述特征信息进行处理,得到所述对象检测模型输出的第一对象检测结果;
20.更新模块,用于根据所述第一对象检测结果和所述样本对象检测结果,更新所述检测模型的模型参数。
21.第四方面,本技术实施例提供一种对象检测装置,包括:
22.第一获取模块,用于获取第一时刻采集得到的第一点云以及第一图像;
23.第二获取模块,用于获取所述第一时刻之前采集得到的多帧第二点云以及多帧第二图像;
24.处理模块,用于根据检测模型对所述第一点云、所述第一图像、所述多帧第二点云、所述多帧第二图像进行处理,得到所述第一点云和所述第一图像对应的对象检测结果,
25.其中,所述检测模型为根据上述第一方面所述的方法训练得到的模型。
26.第五方面,本技术实施例提供一种电子设备,包括:
27.存储器,用于存储程序;
28.处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上第一方面或者第二方面所述的方法。
29.第六方面,本技术实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一方面或者第二方面所述的方法。
30.第七方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行如上第一方面或者第二方面所述的方法。
31.本技术实施例提供一种检测模型训练方法及装置,该方法包括:获取至少一组训练数据,其中,训练数据中包括多帧样本点云、多帧样本图像、样本点云和样本图像对应的样本对象检测结果。根据检测模型中的特征提取网络对多帧样本点云和多帧样本图像进行处理,得到多帧样本点云和多帧样本图像对应的特征信息。根据检测模型中的检测网络对特征信息进行处理,得到对象检测模型输出的第一对象检测结果。根据第一对象检测结果和样本对象检测结果,更新检测模型的模型参数。通过获取至少一组训练数据,在任一组训练数据中都包括多帧样本点云和多帧样本图像,以及样本点云和样本图像所对应的样本对象检测结果,之后根据这些训练数据对检测模型进行训练。具体的,通过检测模型中的特征提取网络和检测网络依次处理,得到对象检测模型输出的第一对象检测结果,之后根据第一对象检测结果和训练数据中的样本对象检测结果,对检测模型中的模型参数进行更新,从而可以有效的实现根据多帧点云数据、多帧图像数据对检测模型进行训练,进而可以保证训练完成的检测模型可以实现针对多帧点云和多帧图像进行处理,以实现对象检测,因为有多帧多模态的数据作为支撑,从而可以有效的提升对象检测的准确性。
32.以及,本技术实施例提供一种对象检测方法及装置,该方法包括:获取第一时刻采集得到的第一点云以及第一图像。获取第一时刻之前采集得到的多帧第二点云以及多帧第二图像。根据检测模型对第一点云、第一图像、多帧第二点云、多帧第二图像进行处理,得到第一点云和第一图像对应的对象检测结果。通过依据上述训练得到的检测模型对多帧图像和多帧点云进行处理,其中多帧图像中包括第一时刻采集的第一图像,和第一时刻之前采集的多帧第二图像,以及在多帧点云中包括第一时刻采集的第一点云以及在第一时刻之前采集的多帧第二点云,从而输出对象检测结果。因为依据了多帧多模态的环境数据来确定
对象检测结果,从而可以有效的保证输出的对象检测结果所依赖的数据的全面性和丰富性,进而可以有效的提升对象检测的准确性和有效性。
附图说明
33.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
34.图1为本技术实施例提供的目标检测的场景示意图;
35.图2为本技术实施例提供的检测模型训练方法的流程图;
36.图3为本技术实施例提供的检测模型训练方法的流程图二;
37.图4为本技术实施例提供的检测模型的结构示意图;
38.图5为本技术实施例提供的多帧样本点云和多帧样本图像的对应关系示意图;
39.图6为本技术实施例提供的栅格中包括的特征点的示意图;
40.图7为本技术实施例提供的特征图的区域划分的实现示意图;
41.图8为本技术实施例提供的确定区域集合的实现示意图;
42.图9为本技术实施例提供的降采样处理的实现示意图;
43.图10为本技术实施例提供的检测模型训练方法的流程图三;
44.图11为本公开实施例提供的对象检测方法的流程图;
45.图12为本技术实施例提供的检测模型训练方法及对象检测方法的流程示意图;
46.图13为本技术实施例提供的检测模型训练装置的结构示意图;
47.图14为本技术实施例提供的对象检测装置的结构示意图;
48.图15为本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
49.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
50.为了更好的理解本技术的技术方案,下面对本技术所涉及的相关技术进行进一步的详细介绍。
51.在自动驾驶和机器人等相关领域,环境感知是算法系统的重要组成部分。以及,3d目标检测又是环境感知系统中的核心算法模块。以自动驾驶为例,其中3d目标检测可以实时地检测出自动驾驶车辆周围所存在的动态对象和静态障碍物,其中动态对象比如说人、车等等,静态障碍物比如说路牌、路桩等等,通过检测自动驾驶车辆周围存在的对象,可以为自动驾驶车辆提供安全、合理、可靠的路线规划和预测。本技术中介绍的目标检测也可以理解为对象检测,其是相同的含义。
52.因此,高精度的3d目标检测是自动驾驶自动环境感知能力的基石。其中,在自动驾驶的车辆中包括诸多的传感器,用于获取周围环境的环境信息。比如说传感器可以包括激
光雷达、图像传感器、超声波、毫米波雷达等等。其中,激光雷达和图像传感器在自动驾驶系统中得到了广泛的应用。
53.比如说现有技术中存在基于单帧激光点云的3d目标检测算法。该方法通过多线激光雷达捕获到的点云信息对三维空间中的物体进行定位和分类识别,大体上可以分为基于点的方法和基于栅格的方法。基于点的方法将原始的点云作为输入,利用典型的点云特征提取网络提取点云的表征信息,进而在点级别上对物体的类别和位置进行回归;基于栅格的方法首先将点云投影到对应的栅格坐标系例如鸟瞰图2d平面、3d体素等,然后采用2d目标检测算法例如快速区域卷积神经网络(faster region convolutional neural networks,faster-rcnn),单发多盒检测器(single shot multibox detector,ssd),yolo等或者3d稀疏卷积网络处理栅格化的点云信息,生成最终的检测结果。相比基于点的方法,基于栅格的方法需要使用的计算资源更少,整体检测精度更高,在当前自动驾驶系统中得到了广泛的应用。然而,基于单帧激光点云的检测方法仅依赖当前时刻的点云信息进行判断,丢失了大量有用的历史信息,因此在复杂城市环境下的检测准确率有限。
54.以及,现有技术中还存在基于单帧图像信息的3d目标检测算法,此处对此不再赘述。
55.也就是说,现有技术中可以基于单帧的激光点云进行目标检测,或者还可以基于单帧的图像信息进行目标检测。然而,因为激光雷达具有全天候、测距精度高、三维信息丰富等特点,但缺少重要的语义信息;图像传感器具有颜色纹理信息丰富、语义信息完整等特点,但缺少重要的深度信息。因此,仅仅独立使用单一传感器的采集的单帧环境信息进行目标检测,存在数据缺乏全面性的问题,进而会导致目标检测的准确性较低。
56.进一步的,因为目标检测的准确性较低,那么可能就会出现目标漏检、误检、估计不准等问题,在自动驾驶场景下,进而会导致自动驾驶车辆出现不合理的减速、急刹等风险问题,会导致自动驾驶车辆存在严重的安全隐患。
57.针对现有技术中的问题,本技术提出了如下技术构思:因为单一的传感器采集的信息缺乏全面性,因此可以考虑使用多个传感器采集的信息进行融合处理,以增强信息的全面性。例如可以将图像传感器采集的图像信息和激光雷达采集的点云数据进行融合,以进行目标检测。其中,图像和点云融合的方式在很大程度上能够解决多传感器信息互补的问题,但是由于图像传感器和激光雷达之间无法避免的标定误差,会导致点云图像信息混淆,进而限制了目标检测的效果。同时,因为信息融合以实现目标检测的整体设计的复杂性,对感知系统的运算能力的要求较高。
58.同时,因为单帧的环境数据提供的信息缺乏丰富性,因此还可以考虑采用多帧的环境数据进行目标检测。但是同样的,如果仅仅是采用单一的传感器采集的多帧数据进行目标检测,仍然会因为单一的传感器采集的数据缺乏全面性的问题,从而导致目标检测的准确性低下。
59.因此综合上述考虑,本技术提出了采用多帧多模态的数据进行目标检测的想法,其中多帧就是指采用当前时刻采集的数据以及历史时刻采集的数据进行目标检测,其中历史时刻采集的数据可以补足当前时刻观测不足的问题,以提升检测的精度。以及多模态就是指采用多种传感器采集的数据进行目标检测,例如可以采用图像传感器采集的图像数据、激光雷达采集的点云数据进行融合,以进行目标检测,从而可以有效的避免单个传感器
采集的数据缺乏全面性的问题,以有效提升目标检测的准确性。
60.例如可以结合图1进行理解,图1为本技术实施例提供的目标检测的场景示意图。
61.如图1所示,在进行目标检测时,可以获取多帧图像以及多帧点云,比如说图1中所示的图像1、图像2、图像3、

,点云1、点云2、点云3、

,等等。之后可以根据多帧图像和多帧点云进行对象检测,从而得到检测结果。
62.在上述介绍内容的基础上,下面结合具体的实施例对本技术提供的方法进行详细介绍。
63.可以理解的是,本技术中提供的检测模型训练方法、对象检测方法包括两部分,一部分是检测模型训练方法,这部分内容是针对检测模型的训练过程;另一部分是对象检测方法,这部分内容是针对训练完成的检测模型的应用。下面针对这两部分内容分别进行介绍。
64.在介绍具体的方法实现之前,还需要说明的是,本技术中各实施例的执行主体可以是本地服务器、云端服务器、处理器、芯片的等等具备数据处理功能的设备。其中具体的执行主体可以根据实际需求进行选择和设置,本实施例对此不做限制,凡是具备数据处理功能的设备均可以作为本实施例中的执行主体。
65.下面首先针对检测模型训练方法的部分进行介绍,也就是检测模型的训练过程。图2为本技术实施例提供的检测模型训练方法的流程图。
66.如图2所示,该方法包括:
67.s201、获取至少一组训练数据,其中,训练数据中包括多帧样本点云、多帧样本图像、样本点云和样本图像对应的样本对象检测结果。
68.在本实施例中,为了对检测模型进行模型训练,例如可以首先获取至少一组训练数据。其中,在任一组训练数据中,都可以包括多帧的样本点云,多帧的样本图像,以及这多帧样本点云和多帧样本图像所对应的样本对象检测结果。
69.可以理解的是,在训练数据中的样本对象检测结果例如可以是人工标注的,或者还可以是机器标注的,但是针对机器标注的情况,前提是可以保证其标注正确性的,也就是说在训练数据中的样本对象检测结果,是可以保证其作为训练的参考是准确的。
70.以及在一种可能的实现方式中,针对任一组训练数据,其中的多帧样本点云,比如说可以是同一个设备上的激光雷达在不同的时刻采集得到的多帧点云。以及,其中的多帧样本图像,比如说可以是同一个设备上的图像传感器在不同的时刻采集得到的多帧图像。以及,其中的图像传感器可以有多个。
71.更进一步的,比如说在多帧样本点云中可以包括在第一时刻采集得到的样本点云,以及在第一时刻之前采集得到的多帧样本点云。以及,在多帧样本图像中可以包括在第一时刻采集得到的样本图像,以及在第一时刻之前采集得到的多帧样本图像。以及,该组训练数据中的样本对象检测结果,就可以是第一时刻采集得到的样本点云和样本图像所对应的检测结果。
72.可以理解的是,第一时刻可以理解为当前需要进行对象检测的时刻,那么也就可以理解为,针对同一个设备的图像传感器和激光点云,可以获取第一时刻采集得到的样本图像和样本点云,以及获取历史时刻(第一时刻之前)拍摄的多帧样本点云和多帧样本图像,以及可以将第一时刻采集的样本图像和样本点云所对应的对象检测结果作为样本对象
检测结果,从而得到一组训练数据。
73.s202、根据检测模型中的特征提取网络对多帧样本点云和多帧样本图像进行处理,得到多帧样本点云和多帧样本图像对应的特征信息。
74.在获取训练数据之后,就可以根据训练数据对检测模型进行训练了,本实施例中的检测模型可以针对多帧点云和多帧图像进行处理,从而输出点云和图像对应的对象检测结果。
75.在一种可能的实现方式中,本实施例中的检测模型可以包括特征提取网络,其中,特征提取网络可以针对多帧样本点云和多帧样本图像进行处理,从而得到多帧样本点云和多帧样本图像对应的特征信息。
76.此处需要说明的是,特征提取网络处理之后输出的是多帧样本点云和多帧样本图像所共同对应的特征信息,而不是多帧样本点云和多帧样本图像分别对应的特征信息。
77.s203、根据检测模型中的检测网络对特征信息进行处理,得到对象检测模型输出的第一对象检测结果。
78.以及,在检测模型中还包括检测网络,在特征提取网络处理得到多帧样本点云和多帧样本图像对应的特征信息之后,检测模型中的检测网络就可以针对特征信息进行处理,从而得到对象检测模型所输出的第一对象检测结果。
79.在一种可能的实现方式中,第一对象检测结果中,可以包括多帧样本图像和多帧样本点云中,第一时刻采集得到的样本点云和样本图像中,每个对象的位置和分类信息。
80.其中,检测网络中的具体实现就是利用提取到的特征信息进行处理,从而输出第一时刻采集得到的样本点云和样本图像中的每个对象的位置和分类信息。在实际实现过程中,检测网络的具体实现可以根据实际需求进行选择和设置,只要是可以实现目标检测功能的网络结构即可。
81.s204、根据第一对象检测结果和样本对象检测结果,更新检测模型的模型参数。
82.在检测模型输出第一对象检测结果之后,就可以根据第一对象检测结果和训练数据中的样本对象检测结果,对检测模型的模型参数进行更新,从而实现对检测模型的训练。
83.可以理解的是,在针对检测模型的模型参数进行更新的时候,其中的第一对象检测结果是检测模型处理得到的,而样本对象检测结果是预先标注好的,因此样本对象检测结果是可以保证其正确性的。
84.因此在一种可能的实现方式中,比如说可以采用预设损失函数对第一对象检测结果和样本对象检测结果进行处理,从而确定损失函数值,其中预设算函数的具体实现可以根据实际需求进行选择和设置,只要损失函数值可以反映第一对象检测结果和样本对象检测结果之间的差距即可。
85.可以理解的是,本实施例中的模型优化目标是为了使得检测模型所输出的第一对象检测结果,和训练数据中的样本对象检测结果尽可能的接近。因此在确定损失函数值之后,就可以根据损失函数值对检测模型的模型参数进行更新,从而根据损失函数值对检测模型进行优化,以拉近检测模型所输出的第一对象检测结果和样本对象检测结果之间的距离,进而有效保证检测模型所输出的第一样本对象检测结果的正确性。
86.以及,本实施例中存在多组训练数据,在对检测模型进行训练和优化的时候,针对每一组训练数据都会执行相同的训练过程,从而实现对检测模型的多轮训练。在一种可能
的实现方式中,在确定检测模型的训练轮数达到预设轮数,或者在确定检测模型的检测准确性达到预设准确性时,可以确定检测模型的训练结束,从而得到训练完成的检测模型。该识别完成的训练模型后续就可以针对点云数据和图像数据进行对象检测了。
87.本技术实施例提供的检测模型训练方法,包括:获取至少一组训练数据,其中,训练数据中包括多帧样本点云、多帧样本图像、样本点云和样本图像对应的样本对象检测结果。根据检测模型中的特征提取网络对多帧样本点云和多帧样本图像进行处理,得到多帧样本点云和多帧样本图像对应的特征信息。根据检测模型中的检测网络对特征信息进行处理,得到对象检测模型输出的第一对象检测结果。根据第一对象检测结果和样本对象检测结果,更新检测模型的模型参数。通过获取至少一组训练数据,在任一组训练数据中都包括多帧样本点云和多帧样本图像,以及样本点云和样本图像所对应的样本对象检测结果,之后根据这些训练数据对检测模型进行训练。具体的,通过检测模型中的特征提取网络和检测网络依次处理,得到对象检测模型输出的第一对象检测结果,之后根据第一对象检测结果和训练数据中的样本对象检测结果,对检测模型中的模型参数进行更新,从而可以有效的实现根据多帧点云数据、多帧图像数据对检测模型进行训练,进而可以保证训练完成的检测模型可以实现针对多帧点云和多帧图像进行处理,以实现对象检测,因为有多帧多模态的数据作为支撑,从而可以有效的提升对象检测的准确性。
88.在上述介绍内容的基础上,下面结合具体的实施例对本技术中的检测模型中的具体模型结构和处理过程进行进一步的详细介绍,结合图3至图8进行说明,图3为本技术实施例提供的检测模型训练方法的流程图二,图4为本技术实施例提供的检测模型的结构示意图,图5为本技术实施例提供的多帧样本点云和多帧样本图像的对应关系示意图,图6为本技术实施例提供的栅格中包括的特征点的示意图,图7为本技术实施例提供的特征图的区域划分的实现示意图,图8为本技术实施例提供的确定区域集合的实现示意图。
89.如图3所示,该方法包括:
90.s301、获取至少一组训练数据,其中,训练数据中包括多帧样本点云、多帧样本图像、样本点云和样本图像对应的样本对象检测结果。
91.其中,s301的实现方式与上述介绍的s201的实现方式类似,此处不再赘述。
92.s302、针对任一帧样本图像,根据图像采集设备和点云采集设备之间的标定参数,将样本图像投影至对应的样本点云上,得到样本图像对应的投影后的图像信息。
93.基于上述介绍可以确定的是,在确定至少一组训练数据之后,就可以根据检测模型中的特征提取网络对多帧样本点云和多帧样本图像进行处理,以得到多帧样本点云和多帧样本图像对应的特征信息。
94.在一种可能的实现方式中,例如可以结合图4理解检测模型的模型结构,如图4所示,在检测模型中包括特征提取网络和检测网络,以及,在特征提取网络中包括特征编码单元和特征处理单元。
95.针对任一组训练数据,在将多帧样本图像和多帧样本点云输入至检测模型之后,例如可以是首先由其中的特征提取网络中的特征编码单元,对多帧样本图像和多帧样本点云进行处理。
96.其中特征编码单元针对多帧样本图像和多帧样本点云的处理存在一些差异,下面首先对多帧样本图像的处理过程进行介绍。其中,针对每一帧样本图像的处理都是类似的,
因此下面以多帧样本图像中的任一帧为例,对样本图像的处理过程进行说明,对其余的样本图像的处理不再赘述。
97.首先需要结合图5对多帧样本图像和多帧样本点云之间的关系进行介绍。基于上述介绍可以理解的是,针对任一组训练数据,其中的多帧样本图像和多帧样本点云中,都是包括在第一时刻采集的样本点云和样本图像,以及第一时刻之前采集的多帧样本点云和多帧样本图像的。
98.比如参照图5,以自动驾驶车辆为例,假设自动驾驶车辆a在时刻t1采集了图像1和点云1,以及假设当前需要针对图像1和点云1进行对象检测,那么时刻1就可以是第一时刻。
99.以及,当前还需要t1时刻之前的多帧历史点云和多帧历史图像作为训练数据,比如说可以获取图5所示的,t2时刻的图像2和点云2、t3时刻的图像3和点云3、t4时刻的图像4和点云4、t5时刻的图像5和点云5、

、tj时刻的图像j和点云j,等等,其中j可以是大于等于2的整数。
100.可以理解的是,t2、t3、t4这些时刻,都是t1时刻之前的历史时刻,以及,针对每一个时刻,都存在采集的图像数据和点云数据。因此本实施例中的每一帧样本图像,都存在各自对应的样本点云,此处的对应关系就是说是同一个时刻采集的。
101.在理解了样本图像和样本点云之间的对应关系之后,在针对样本图像进行处理的时候,在一种可能的实现方式中,例如可以根据图像采集设备和点云采集设备之间的标定参数,将样本图像投影至对应的样本点云上,从而得到样本图像所对应的投影后的图像信息。
102.其中,图像采集设备用于采集图像数据,图像采集设备例如可以是上述介绍的图像传感器。以及点云采集设备用于采集点云数据,点云采集设备例如可以是上述介绍的激光雷达。
103.可以理解的是,因为图像采集设备和点云采集设备的安装位置的不同,会导致图像采集设备所采集的图像数据和点云采集设备所采集的点云数据是处于不同的坐标系下的。因此例如可以根据点云采集设备的安装位置、图像采集设备的安装位置、自动驾驶车辆的外观设计参数、各相机的投影参数,确定图像采集设备和点云采集设备之间的标定参数。其中,标定参数可以指示图像像素和激光点云中的点之间的对应关系。确定不同的传感器之间的标定参数的具体实现可以根据实际需求进行选择和设置,本实施例对此不做限定。
104.其中,在将样本图像投影至对应的样本点云上的时候,例如可以将样本图像直接投影至对应的样本点云上,以得到样本图像对应的投影后的图像信息。或者,还可以首先利用目标检测网络对样本图像提取有效的特征信息,之后再根据标定参数将样本图像的特征信息投影至对应的样本点云上,从而得到样本图像对应的投影后的图像信息。
105.s303、针对任一帧样本图像,将样本图像对应的投影后的图像信息投影至目标图像上,得到样本图像对应的第二投影图,并对第二投影图进行特征提取,得到样本图像对应的第二特征图,其中,第二特征图中包括至少一个第二栅格。
106.在得到样本图像对应的投影后的图像信息之后,之后就可以根据投影后的图像信息,确定样本图像的特征图了。下面同样以任一帧样本图像为例进行说明,针对其余的样本图像不再赘述。
107.在一种可能的实现方式中,在确定了样本图像对应的投影后的图像信息之后,例
如可以将样本图像对应的投影后的图像信息投影至目标图像上,本实施例中的目标图像可以是2d鸟瞰图。
108.在投影之后,就可以得到该样本图像所对应的第二投影图。之后,可以针对第二投影图进行特征提取,从而得到样本图像对应的第二特征图。可以理解的是,2d鸟瞰图中包括多个栅格,因此在针对投影之后得到的第二投影图进行特征提取后,得到的第二特征图中也就可以包括至少一个第二栅格。
109.通过图像采集设备和点云采集设备之间的标定参数,将多帧样本图像均投影至对应的样本点云上,以得到各个样本图像各自对应的投影后的图像信息,之后根据投影后的图像信息确定样本图像对应的第二特征图,因为是根据多帧的样本图像进行的处理,从而可以避免因为根据单帧的图像处理的过程中,因为无法避免的标定误差所导致的点云图像信息混淆,进而可以有效的提升整体模型的效果。
110.以及,通过将多帧样本图像对应的投影后的图像信息再分别投影至2d鸟瞰图上,从而可以有效的得到各个样本图像各自对应的投影图,之后基于投影图,可以简单有效的确定各帧样本图像各自的第二特征图。
111.s304、针对任一帧样本点云,将样本点云投影至目标图像上,得到样本点云对应的第一投影图,并对第一投影图进行特征提取,得到样本点云对应的第一特征图,其中,第一特征图中包括至少一个第一栅格。
112.以及本实施例中还可以针对多帧样本点云进行投影处理,其中多帧样本点云的处理都是类似的,因此下面同样以多帧样本点云中的任一帧为例,对样本点云的处理过程进行介绍,对其余的样本点云的处理不再赘述。
113.在一种可能的实现方式中,例如可以将样本点云投影至目标图像上,此处的目标图像同样可以是2d鸟瞰图。其中,样本点云比如说可以表示为{x,y,z,intensity},其中,x,y,z为点云的三维坐标信息,intensity为点云的强度信息。
114.在投影之后,就可以得到该样本点云所对应的第一投影图。之后,可以针对第一投影图进行特征提取,从而得到样本点云对应的第一特征图。同样可以理解的是,2d鸟瞰图中包括多个栅格,因此在针对投影之后得到的第一投影图进行特征提取后,得到的第一特征图中也就可以包括至少一个第一栅格。
115.通过将多帧样本点云分别投影至2d鸟瞰图上,从而可以有效的得到各个样本点云各自对应的投影图,之后基于投影图,可以简单有效的确定各帧样本点云各自的第一特征图。
116.以及需要说明的是,在网络设计上,多帧样本点云和多帧样本图像的原始信息是独立提取的,这样可以最大程度上保留点云的三维信息和图像的语义信息,以有效提升模型训练的有效性,同时可以保证模型输出的检测结果的准确性和全面性。
117.s305、针对第一特征图中的任一个第一栅格,获取第一栅格中的多个特征点。
118.同样以任一个样本点云为例,在得到样本点云对应的第一特征图之后,其中的第一特征图可以包括多个第一栅格,以及在每个第一栅格中都可以包括多个特征点。因此本实施例中针对第一特征图中的任一个第一栅格,都可以获取该第一栅格中的多个特征点。
119.比如说可以参照图6的图示进行理解,如图6所示,示例性的,假设当前在第一特征图中包括9个第一栅格,在每个第一栅格中都可以包括多个特征点。比如说以其中的第1个
第一栅格为例,其中包括了特征点a、特征点b、特征点c、特征点d。
120.其中,图6的示意仅仅是示例性的,是为了便于理解特征图、栅格、特征点之间的关系的,在实际实现过程中,特征图、栅格、特征点之间的具体表示关系,可以根据实际需求进行选择和设置。
121.s306、确定各特征点各自对应的相关度参数,其中,相关度参数用于指示特征点和第一栅格之间的相关程度。
122.之后,针对每一个特征点,都可以确定其各自对应的相关度参数,其中相关度参数用于指示特征点和其所属的第一栅格之间的相关程度。或者可以理解为,相关度参数用于指示特征点对其所属的第一栅格的特征贡献程度。
123.在一种可能的实现方式中,比如说可以采用轻量的可学习的多层神经(multilayer perceptron,mlp)网络来对各个第一栅格中的各个特征点分别进行处理,从而得到各个特征点各自对应的相关度参数。
124.其中,采用mpl网络在确定相关度参数,既可以保证时序多模态信息的该高效动态交互,又可以避免对系统造成过多的计算负担。
125.以及,通过确定第一栅格中的各个特征点各自的相关度参数,之后将相关度参数作为特征点的权重,对各个特征点进行融合,从而可以得到第一栅格对应的栅格特征,以有效的实现对第一特征图的整体的第一栅格特征的确定。
126.s307、根据各特征点各自对应的相关度参数,得到第一栅格对应的栅格特征,其中,第一栅格特征包括第一特征图中的多个第一栅格各自的栅格特征。
127.以第一特征图中的任一个第一栅格为例,可以针对该第一栅格中的各个特征点各自对应的相关度参数,得到该第一栅格对应的栅格特征。在一种可能的实现方式中,比如说可以将该第一栅格中的各个特征点的相关度参数作为权重,然后对各个特征点进行融合,从而得到该第一栅格的栅格特征。
128.针对第一特征图中的每个第一栅格都进行上述的处理,从而可以得到各个第一栅格各自的栅格特征。进一步的,本实施例中的第一栅格特征就包括第一特征图中的多个第一栅格各自的栅格特征。
129.同时可以理解的是,本实施例中针对每一帧样本点云,都会处理得到其对应的第一特征图。那么同样的,针对每一帧样本点云的第一特征图,都会按照上述介绍的过程,得到其对应的第一栅格特征。
130.s308、针对第二特征图中的任一个第二栅格,获取第二栅格中的多个特征点。
131.上述介绍了确定第一特征图的第一栅格特征的实现过程,针对第二特征图确定第二栅格特征的实现过程类似。
132.同样以任一个样本图像为例,在得到样本图像对应的第二特征图之后,其中的第二特征图中可以包括多个第二栅格,在每个第二栅格中都可以包括多个特征点,本实施例中可以针对第二特征图中的任一个第二栅格,都获取该第二栅格中的多个特征点。
133.s309、确定各特征点各自对应的相关度参数,其中,相关度参数用于指示特征点和第二栅格之间的相关程度。
134.以及,针对每个特征点,都可以确定其各自对应的相关度参数,其中确定第二栅格中的特征点的相关度参数的实现,与上述s306介绍的确定第一栅格中的特征点的相关度参
数的实现类似,此处不再赘述。
135.s310、根据各特征点各自对应的相关度参数,得到第二栅格对应的栅格特征,其中,第二栅格特征包括第二特征图中的多个第二栅格各自的栅格特征。
136.在得到第二栅格中的各个特征点的相关度参数之后,以任一个第二栅格为例,就可以根据该第二栅格中的各个特征点的相关度参数,确定该第二栅格的栅格特征。针对第二特征图中的每一个第二栅格都确定其栅格特征,就可以得到第二特征图的第二栅格特征,其实现方式与上述s307介绍的类似,此处不再赘述。
137.同样的,本实施例中针对每一帧样本图像,都会处理得到其对应的第二特征图。那么同样的,针对每一帧样本图像的第二特征图,都会按照上述介绍的过程,得到其对应的第二栅格特征。
138.以及,通过确定第二栅格中的各个特征点各自的相关度参数,之后将相关度参数作为特征点的权重,对各个特征点进行融合,从而可以得到第二栅格对应的栅格特征,以有效的实现对第二特征图的整体的第二栅格特征的确定。
139.s311、针对任一个第一特征图,对第一特征图进行区域划分,得n
×
m个第一区域,其中,n和m为大于等于1的整数。
140.在得到各个样本点云对应的第一特征图之后,进一步的,可以针对各个第一特征图进行区域划分。其中,各个第一特征图的处理过程都是类似的,因此下面以任一个第一特征图为例,对第一特征图的处理进行介绍,对其余的第一特征图的处理则不再赘述。
141.在一种可能的实现方式中,针对第一特征图可以进行区域划分,从而得到n
×
m个第一区域,其中n和m都是大于等于1的整数。在实际实现过程中,n和m的具体取值可以根据实际需求进行选择和设置,n和m的取值就决定了具体将第一特征图划分为多少了第一区域,本实施例对n和m的具体取值不做限制。
142.比如说可以结合图7进行理解,如图7所示,假设当前针对第一特征图701进行区域划分,将第一特征图701划分为4
×
4个第一区域,也就得到了图7所示的区域1~区域16这16个第一区域。
143.s312、针对任一个第二特征图,对第二特征图进行区域划分,得到n
×
m个第二区域。
144.以及,本实施例中还可以针对样本图像的第二特征图进行区域划分,其中第二特征图的区域划分方式与上述介绍的针对第一特征图的区域划分类似,此处不再赘述。
145.需要强调的是,针对第二特征图的区域划分,划分得到的第二区域的数量同样是n
×
m个,也就是说第二特征图的划分方式和第一特征图的划分方式是一样的。
146.s313、根据各第一特征图的第一区域以及各第二特征图的第二区域,将相同位置的各第一区域和各第二区域,确定为一个区域集合。
147.在针对各个样本点云的第一特征图,以及各个样本图像的第二特征图进行区域划分之后,因为各个第一特征图的区域划分方式和各个第二特征图的区域划分方式都是相同的,比如说第一特征图划分了4
×
4个第一区域,以及第二特征图划分了4
×
4个第二区域,那么这些特征图的划分后的区域,都是可以一一对应起来的。
148.因此本实施例中可以根据各个第一特征图的第一区域以及各个第二特征图的第二区域,将相同位置的各个第一区域和各个第二区域,确定为一个区域集合。
149.比如说上述介绍的示例中,假设将各个第一特征图以及各个第二特征图都划分为了4
×
4的区域,那么就一共存在16个区域,也就是说存在16个位置的区域。之后针对这16个位置,将相同位置的各个第一区域和各个第二区域,确定为一个区域集合。
150.例如可以结合图8进行理解,如图8所示,假设当前存在样本点云1的第一特征图、样本点云2的第一特征图、样本图像1的第二特征图、样本图像2的第二特征图。假设针对这4个特征图,都将其划分为图7所示的4
×
4区域。
151.之后,将相同位置的各个第一区域和各个第二区域,确定为一个区域集合。比如说参照图8,将其中的位置4的各个区域(样本点云1的第一特征图的区域4、样本点云2的第一特征图的区域4、样本图像1的第二特征图的区域4、样本图像2的第二特征图的区域4),确定为一个区域集合,则例如可以得到图7所示的区域集合4。
152.针对各个位置都进行相同的操作,则可以得到n
×
m个区域集合,比如说图8中的示意中,就可以得到16个区域集合。
153.s314、针对任一个区域集合,将区域集合中的各第一区域各自对应的第一栅格特征,以及各第二区域各自对应的第二栅格特征,输入至自注意力网络,以使得自注意力网络输出区域集合对应的子特征信息。
154.在得到多个区域集合之后,针对各个区域集合分别进行处理,其中各个区域集合的处理过程都是类似的,因此以任一个区域集合为例进行介绍,其余的区域集合的处理都是类似的,不再赘述。
155.基于上述介绍可以确定的是,针对任一个区域集合,其中都包括多个第一区域以及多个第二区域。以及,针对第一特征图存在对应的第一栅格特征,那么在针对第一特征图进行区域划分之后,其中的第一区域就存在对应的第一栅格特征,也就是第一区域的这个区域部分,在第一特征图的整体第一栅格中所对应的部分第一栅格特征。以及类似的,针对第二特征图存在对应的第二栅格特征,因此在针对第二特征图进行区域划分之后,其中的第二区域也存在对应的第二栅格特征。
156.在一种可能的实现方式中,当前为了确定区域集合的子特征信息,可以将区域集合中的各个第一区域各自对应的第一栅格特征,以及区域集合中的各个第二区域各自对应的第二栅格特征,输入到自注意力网络中。以使得自注意力网络对上述输入的数据进行处理,从而输出区域集合所对应的子特征信息。
157.其中,自注意力网络比如说可以是transformer自注意力网络,或者还可以是其余的自注意力网络,本实施例对此不做限制。可以理解的是,自注意力网络通过多层非线性变换对不同帧、不同模态的特征相互关系进行统一建模,从而可以有效的保证得到的多个样本点云和多个样本图像共同的特征信息的有效性和准确性。
158.针对各个区域集合均进行相同的处理,从而可以得到各个区域集合各自对应的子特征信息。
159.s315、将各个区域集合的子特征信息进行拼接,得到特征信息。
160.上述是针对各个区域划分之后,第一区域和第二区域组成的区域集合分别进行了处理,从而得到了各个区域集合的子特征信息。进一步的,为了得到多个样本点云和多个样本图像对应的特征信息,就可以将各个区域集合的子特征信息进行拼接,从而得到多个样本点云和多个样本图像对应的特征信息。
161.通过对第一特征图进行区域划分,得到第一特征图划分后的多个第一区域,以及通过对第二特征图进行区域划分,得到第二特征图划分后的多个第二区域,之后将相同位置的多个第一区域和多个第二区域确定为一个区域集合,对各个区域集合分别进行处理,从而可以有效的减少单次处理的数据量,以提升处理系统的整体计算精度和效率。以及,在对各个区域集合进行处理的时候,是采用自注意力网络对各个区域集合中的各个区域的栅格特征进行融合处理从而可以有效实现对不同帧、不同模态的特征的相互关系的统一建模,进而可以有效的得到多帧多模态的环境数据的统一特征信息。
162.s316、根据检测模型中的检测网络对特征信息进行处理,得到对象检测模型输出的第一对象检测结果。
163.s317、根据第一对象检测结果和样本对象检测结果,更新检测模型的模型参数。
164.其中,s316、s317的实现方式,与上述介绍的s203、s204的实现方式类似,此处不再赘述。
165.本技术实施例提供的检测模型训练方法,通过根据多帧样本图像和多帧样本点云对检测模型进行训练,在具体的训练过程中,通过图像采集设备和点云采集设备之间的标定参数,对多帧样本图像均投影至对应的样本点云上,之后再针对样本图像进行处理,从而可以避免因为根据单帧的图像处理时,因为无法避免的标定误差所导致的点云图像信息混淆,进而可以有效的提升整体模型的效果。以及之后将多帧样本图像对应的投影后的图像信息、以及多帧点云再投影至2d鸟瞰图上,以得到各个样本图像、各个样本点云各自对应的投影图,之后再根据投影图进行特征提取,从而可以简单有效的确定各帧样本点云、各帧样本图像各自对应的特征图。之后再针对各个特征图,分别按照其中的特征图中的栅格中的多个特征点各自的相关度参数,确定各个栅格的栅格特征,进而得到各个特征图各自对应的整体的栅格特征。之后,通过对各个特征图进行区域划分,得到各个特征图划分后的多个区域,然后对相同位置的区域确定为一个区域集合,针对各个区域集合,采用自注意力网络分别进行处理,以确定各个区域集合各自的子特征信息,然后再对各个区域集合的子特征信息进行拼接,以得到多帧多模态的数据统一的特征嘻嘻,从而可以有效的提升处理系统的整体计算精度和效率。之和再根据处理后的特征信息确定对象检测的结果,之和根据模型输出的对象检测的结果和训练数据中的样本对象检测结果,实现对检测模型的训练,从而可以有效的保证训练完成的检测模型,可以有效的实现对多帧多模态的环境数据的处理,以输出对象检测结果。
166.在上述介绍内容的基础上,在另一种可能的实现方式中,在确定特征信息之后,进一步的,还可以针对当前确定的特征信息进行进一步的处理,从而得到最终的特征信息。下面结合图9对该处理过程进行理解,图9为本技术实施例提供的降采样处理的实现示意图。
167.基于上述介绍可以确定的是,针对各个第一特征图和第二特征图进行区域划分之后,可以得到n
×
m个区域集合,例如可以将这n
×
m个区域集合确定为原始层。
168.比如说可以结合图9进行理解,假设各个第一特征图和各个第二特征图都划分为了4
×
4的区域,那么就可以得到4
×
4个区域集合,这4
×
4个区域集合就可以组成图9中的901所示的原始层,其中,原始层901的尺寸为h1×
w1。
169.在确定原始层之后,可以对原始层中的n
×
m个区域集合进行t次降采样处理,得到t个降采样层,其中,第i个降采样层中包括pi×
qi个区域集合,其中,t为大于等于1的整数,
pi和qi为大于等于1的整数,并且pi小于n,qi小于m,i的取值为1至t。
170.其中,在每次降采样之后,都会得到一个降采样层。其中降采样处理可以理解为,将原始层中的多个区域集合降采样为一个区域集合,因此在第i个降采样层中就包括pi×
qi个区域集合,pi和qi为大于等于1的整数,并且p小于n,qi小于m。
171.在一种可能的实现方式中,比如说可以是依次将原始层中的4个区域集合降采样为降采样层中的1个区域集合。因此,pi比如说可以等于以及qi比如说可以等于
172.例如参照图9进行理解,假设原始层中包括4
×
4个区域集合。之后进行第一次降采样,将原始层中的4个区域集合降采样为1个区域集合。那么在进行第1次降采样之后,就可以得到图9中的902所示的第1个降采样层,其中,原始层902的尺寸为h
1/2
×w1/2
。如图9所示,得到的第1个降采样层902中就包括2
×
2个区域集合。
173.以及,还可以再继续进行第二次降采样,将第1个降采样层中的4个区域集合降采样为1个区域集合。那么在进行第2次降采样之后,就可以得到图9中的903所示的第2个降采样层,其中,原始层903的尺寸为h
1/4
×w1/4
。如图9所示,得到的第2个降采样层903中就包括1
×
1个区域集合。
174.再之后,可以针对所述t个降采样层中的第i个降采样层,确定所述降采样层中pi×
qi个区域集合各自的子特征信息。其中,确定区域集合的子特征信息的实现,与上述介绍的类似,此处不再赘述。
175.然后可以将所述pi×
qi个区域集合中各所述个区域集合的子特征信息进行拼接,得到所述第i个降采样层的中间特征信息。
176.以及进一步的,可以将所述第i个降采样层的中间特征信息映射为所述原始层的特征信息的尺寸,得到调整后的中间特征信息,其中,所述原始层的特征信息为上述确定的所述多帧样本点云和所述多帧样本图像对应的特征信息。
177.然后可以根据所述调整后的中间特征信息以及所述原始层的特征信息进行融合,得到融合后的特征信息。
178.比如说可以参照图9进行理解,如图9所示,例如可以针对第1个降采样层902确定中间特征信息,之后针对第1个降采样层902的中间特征信息的尺寸进行调整,得到第1个降采样层902对应的调整后的中间特征信息。以及,还可以针对第2个降采样层903确定中间特征信息,之后针对第2个降采样层903的中间特征信息的尺寸进行调整,得到第2个降采样层903对应的调整后的中间特征信息。
179.此时,1个降采样层902对应的调整后的中间特征信息、第2个降采样层903对应的调整后的中间特征信息、原始层901对应的特征信息就是同一尺寸的,然后针对这3个特征信息进行融合,从而得到融合后的特征信息。
180.之后将融合后的特征信息,确定为多帧样本点云和多帧样本图像对应的特征信息,然后再基于这个特征信息进行处理,以得到对象检测模型输出的第一对象检测结果。
181.可以理解的是,通过设计上述的多尺度稀疏自注意力机制(如图9所示),该机制首先对原始层进行t次降采样,得到t个降采样层,之后在每层上独立使用自注意力模块,确定每个降采样层各自对应的中间特征信息,然后根据中间特征信息和原始层的特征信息进行融合,再得到最终的特征信息,从而可以增强针对不同尺度下信息感知的能力。同时由于点
云数据在空间上的高度稀疏性,该机制因为采用了降采样的处理,因此对特征也进行了稀疏编码,避免在全稀疏区域的重复计算,极大地提升了整体系统的运算效率。因此通过上述介绍的过程,可以有效的提升模型处理的精度和效率。
182.更进一步的,在上述介绍内容的基础上,下面再对获取至少一组训练数据的实现进行说明。
183.可以理解的是,在获取训练数据的时候,可以通过网络数据,或者本地数据,首先获取至少一组原始训练数据。然而,网络数据或者本地数据可能会存在训练数据不足的情况,因此在获取原始训练数据之后,还可以进一步的根据原始训练数据再得到合成训练数据。
184.下面结合图10进行介绍,图10为本技术实施例提供的检测模型训练方法的流程图三。
185.如图10所示,该方法包括:
186.s1001、获取至少一组原始训练数据。
187.在本实施例中,可以首先获取至少一组原始训练数据。其中,原始训练数据与上述介绍的训练数据类似,原始训练数据中可以包括多帧样本点云、多帧样本图像、样本点云和样本图像对应的样本对象检测结果。
188.s1002、在原始训练数据中,确定至少一个目标对象的样本点云和样本图像。
189.在确定原始训练数据之后,可以理解的是,在原始训练数据中包括多帧点云和多帧图像,在这多帧点云和多帧图像中是包括至少一个对象的。比如说可以将其中的任一个对象确定为目标对象,之后可以在这多帧样本点云和多帧样本图像中,截取这至少一个目标对象的样本点云和样本图像。
190.s1003、获取至少一个场景点云和场景图像。
191.在本实施例中,比如说还可以预先确定有至少一个场景点云和至少一个场景图像。此处的场景点云和场景图像用于提供不同的场景,比如说室外的场景、室内的场景、雨天的场景、晴天的场景、等等,具体的场景选择可以根据实际需求进行选择和设置。
192.相应的,场景点云和场景图像,就是针对这些场景所采集的点云数据和场景数据,其可以通过网络获取,或者还可以通过本地数据获取等等,本实施例对此不做限制。
193.s1004、针对任一个目标对象,将目标对象的样本点云和场景点云进行合成处理,得到合成点云,以及,将目标对象的样本图像和场景图像进行合成处理,得到合成图像。
194.在实际实现过程中,凡是存在于样本点云和样本图像中的对象都可以理解为目标对象,针对各个目标对象的处理都是类似的,因此下面仅针对一个目标对象进行介绍,其余对象的实现方式类似。
195.具体的,可以将上述获取的目标对象的样本点云和上述介绍的场景点云进行合成处理,从而得到合成点云。以及,还可以将上述获取的目标对象的样本图像和场景图像进行合成处理,从而得到合成图像。
196.s1005、确定各合成点云各自对应的一致性参数,以及确定各合成图像各自对应的一致性参数。
197.在得到合成点云之后,为了避免合成的样本点云和场景点云存在冲突,以及图像数据的多帧遮挡关系不一致等问题,还需要进一步的确定各个合成点云的一致性参数,以
及确定各个合成图像的一致性参数。
198.其中,一致性参数就是用于指示合成后的点云数据以及合成后的图像数据的一致性的参数,其例如可以采用数据一致性网络来处理,或者还可以逐点、逐像素的进行处理,以确定一致性参数,本实施例对此不做限制,其可以根据实际需求进行选择。
199.s1006、将一致性参数满足第一预设条件的合成点云确定为目标合成点云,以及将一致性参数满足第二预设条件的合成图像确定为目标合成图像。
200.在确定一致性参数之后,可以将一致性参数满足第一预设条件的合成点云确定为目标合成点云,以及将一致性参数满足第二预设条件的合成图像确定为目标合成图像。
201.其中,一致性参数比如说可以是数值类的参数,则第一预设条件比如说可以是,一致性参数大于或等于第一阈值;或者,一致性参数比如说还可以是二元类的参数,指示合成图像是否具有一致性,则第一预设条件比如说还可以是,一致性参数指示合成点云具备一致性,本实施例对第一预设条件的具体实现不做限制,其可以根据实际需求进行选择,只要是用于限制目标合成点云需要具有一致性的条件即可。
202.以及,第二预设条件和上述介绍的第一预设条件类似,不同之处在于,第二预设条件是针对合成图像设置的条件,此处对第二预设条件的具体实现不再赘述。
203.s1007、将目标合成点云和目标合成图像确定为一组合成训练数据。
204.在确定目标合成点云和目标合成图像之后,可以将目标合成点云和目标合成图像确定为一组合成训练数据。因为目标合成点云和目标合成图像可以有多个,因此可以得到至少一组合成训练数据。
205.s1008、将至少一组原始训练数据以及至少一组合成训练数据,确定为至少一组训练数据。
206.之后,将将至少一组原始训练数据以及至少一组合成训练数据,确定为至少一组训练数据,从而得到训练检测模型所使用的训练数据。
207.可以理解的是,数据驱动的深度神经网路很大程度上依赖使用数据的数量和质量,自动驾驶的数据采集量虽然庞大,但依然无法穷尽道路交通中可能发生的所有情况。为了提高有限数据采集下的数据多样性,本实施例提供了上述介绍的时序多模态数据增强方案,可以同时保证生成的合成点云、合成图像数据在时序上的连贯性和在跨模态数据上的一致性。
208.本技术实施例提供的检测模型训练方法,首先在连续多帧的自动驾驶场景中截取某一目标对象的所有点云和图像数据;然后将该段点云图像数据经过投影变换和随机扰动处理后粘贴到新的自动驾驶场景中;粘贴完成后逐帧判断点云数据是否和原场景中产生冲突,以及图像数据的多帧遮挡关系是否一致,并最终只保留一致性的目标合成数据。因此可以理解的是,上述介绍的实现过程,可以有效的合成可用的训练数据,以提升训练数据的场景丰富性,进而有效提升了检测模型的精度和泛化性,同时该方案也可直接应用于任何自动驾驶采集数据,提供更丰富的自动驾驶场景数据。
209.上述实施例介绍的是针对检测模型的训练过程,在检测模型训练完成之后,就可以根据检测模型来对多帧点云数据和多帧图像数据进行处理,从而得到对象检测结果了。
210.因此本公开中还提供了一种对象检测方法,下面结合具体的实施例对本公开中提供的对象检测方法进行介绍。首先结合图11进行说明,图11为本公开实施例提供的对象检
测方法的流程图。
211.如图11所示,该方法包括:
212.s1101、获取第一时刻采集得到的第一点云以及第一图像。
213.在本实施例中,假设在第一时刻拍摄得到了第一点云和第一图像,其中的第一点云和第一图像的获取时刻相同,因此其是存在对应关系的。
214.其中的第一时刻可以理解为是需要进行对象检测的时刻,也就是说当前需要针对第一时刻采集得到的第一点云和第一图像进行对象检测。
215.s1102、获取第一时刻采集得到的多帧第二点云以及多帧第二图像。
216.基于上述介绍可以确定的是,本实施例中的检测模型在进行对象检测的时候,除了会依据需要进行对象检测的第一时刻所采集得到的第一点云和第一图像进行处理之外,还会依据历史的点云和历史的图像。
217.因此本实施例中还可获取第一时刻之前采集得到的多帧第二点云以及多帧第二图像。
218.在一种可能的实现方式中,比如说可以采集当前设备(比如说自动驾驶车辆)在第一时刻之前的预设时长内采集的所有点云和所有图像,从而确定多帧第二点云和多帧第二图像。或者,还可以是在采集当前设备在第一时刻之前的预设时长内,采集的部分点云和部分图像。这里的部分点云和部分图像,比如说是以第一时长为间隔进行间断的数据获取,或者还可以是随机的采集部分点云和部分图像。本实施例对获取第二点云和第二图像的具体实现不做限制。只要第二点云和第二图像是在第一时刻之前采集的,并且存在多帧即可。
219.可以理解的是,当前获取的这多帧第二点云和多帧第二图像,与上述介绍的类似,也是在时序上存在对应关系的。
220.s1103、根据检测模型对第一点云、第一图像、多帧第二点云、多帧第二图像进行处理,得到第一点云和第一图像对应的对象检测结果。
221.其中,检测模型为根据权利要求1至权利要求13任一项的方法训练得到的模型。
222.在确定上述介绍的第一点云、第一图像、多帧第二点云、多帧第二图像之后,就可以根据检测模型对这些数据进行处理。其中检测模型是依据上述介绍的实施例训练得到的,因此可以有效的实现对多帧点云和多帧图像的处理,从而输出第一点云和第一图像对应的对象检测结果。其中输出的对象检测结果,可以包括第一点云和第一图像中每个对象的位置和分类信息。
223.需要说明的是,检测模型在应用的过程中,内部的处理过程与上述介绍的训练检测模型时的处理过程是类似的,唯一不同的地方时,在检测模型的应用过程中,无需再额外的合成训练数据。
224.本技术实施例提供的对象检测方法,包括:获取第一时刻采集得到的第一点云以及第一图像。获取第一时刻之前采集得到的多帧第二点云以及多帧第二图像。根据检测模型对第一点云、第一图像、多帧第二点云、多帧第二图像进行处理,得到第一点云和第一图像对应的对象检测结果。通过依据上述训练得到的检测模型对多帧图像和多帧点云进行处理,其中多帧图像中包括第一时刻采集的第一图像,和第一时刻之前采集的多帧第二图像,以及在多帧点云中包括第一时刻采集的第一点云以及在第一时刻之前采集的多帧第二点云,从而输出对象检测结果。因为依据了多帧多模态的环境数据来确定对象检测结果,从而
可以有效的保证输出的对象检测结果所依赖的数据的全面性和丰富性,进而可以有效的提升对象检测的准确性和有效性。
225.在上述介绍的各个实施例的基础上,下面再结合图12对本技术实施例提供的方法进行一个系统的完整的说明。图12为本技术实施例提供的检测模型训练方法及对象检测方法的流程示意图。
226.如图12所示,可以首先获取多帧激光点云,其中单帧激光点云可以通过多线旋转式激光雷达或者固态激光雷达获得,多帧激光点云则通过历史观测过的点云累积。
227.以及还可以获取多帧相机图像,其中单帧相机图像可以通过车载摄像头获得,主要包括前后视相机、环视相机、其他补充相机等,多帧相机图像通过历史观测过的图像累积。
228.之后,可以通过相机标定投影单元,获取图像采集设备和点云采集设备之间的标定参数。
229.在模型训练过程中,其中的多帧激光点云和多帧相机图像就可以作为原始训练数据。以及,还可以通过数据合成单元,根据原始训练数据得到至少一组合成训练数据,其具体实现可以参照上的介绍,从而得到至少一组训练数据。其中,通过将已有训练数据中目标投影转换到不同场景下,得到合成训练数据,从而极大地丰富了数据场景的多样性,提升检测网络训练的速度和精度。
230.然后将原始训练数据、合成训练数据以及上述获取的标定参数,输入至特征提取网络中,确定多帧激光点云和多帧相机图像对应的特征信息。之后,再将特征信息输入至检测网络,以得到检测模型输出的检测结果。
231.上述介绍的过程可以理解为是模型训练的过程中,检测模型的处理过程。在检测模型训练完成之后,检测模型的具体应用过程中,检测模型的处理过程是类似的,只是没有上述介绍的合成训练数据的步骤。更为详细的实现方式可以参照上述介绍,此处不再赘述。
232.综上所述,本技术实施例提供的检测模型训练方法及对象检测方法,提供了一种高效的深度学习架构,实现了对多帧点云及多帧图像信息的充分、高效融合,进而提升感知目标检测的整体精度。以及,还提供了一种有效的数据增强机制,针对多帧多模态的数据特性,提高了网络的训练效率及测试精度。
233.图13为本技术实施例提供的检测模型训练装置的结构示意图。如图13所示,该装置130包括:获取模块1301、第一处理模块1302、第二处理模块1303、更新模块1304。
234.获取模块1301,用于获取至少一组训练数据,其中,所述训练数据中包括多帧样本点云、多帧样本图像、所述样本点云和所述样本图像对应的样本对象检测结果;
235.第一处理模块1302,用于根据检测模型中的特征提取网络对所述多帧样本点云和所述多帧样本图像进行处理,得到所述多帧样本点云和所述多帧样本图像对应的特征信息;
236.第二处理模块1303,用于根据所述检测模型中的检测网络对所述特征信息进行处理,得到所述对象检测模型输出的第一对象检测结果;
237.更新模块1304,用于根据所述第一对象检测结果和所述样本对象检测结果,更新所述检测模型的模型参数。
238.在一种可能的设计中,所述特征提取网络中包括特征编码单元和特征处理单元;
239.所述第一处理模块1302具体用于:
240.根据所述特征编码单元对所述多帧样本点云和所述多帧样本图像进行处理,得到各所述样本点云各自对应的第一栅格特征,以及各所述样本图像各自对应的第二栅格特征;
241.根据所述特征处理单元对各所述第一栅格特征和各所述第二栅格特征进行处理,得到所述特征信息。
242.在一种可能的设计中,所述第一处理模块1302具体用于:
243.针对任一帧所述样本图像,根据图像采集设备和点云采集设备之间的标定参数,将所述样本图像投影至对应的样本点云上,得到所述样本图像对应的投影后的图像信息;
244.根据所述多帧样本点云以及所述多帧样本图像各自对应的投影后的图像信息,得到各所述样本点云各自对应的第一特征图,以及各所述样本图像各自对应的第二特征图;
245.根据所述第一特征图,得到各所述样本点云各自对应的第一栅格特征;
246.根据所述第二特征图,得到各所述样本图像各自对应的第二栅格特征。
247.在一种可能的设计中,所述第一处理模块1302具体用于:
248.针对任一帧所述样本点云,将所述样本点云投影至目标图像上,得到所述样本点云对应的第一投影图,其中,所述第一特征图中包括至少一个第一栅格;
249.对所述第一投影图进行特征提取,得到所述样本点云对应的第一特征图;
250.针对任一帧所述样本图像,将所述样本图像对应的投影后的图像信息投影至所述目标图像上,得到所述样本图像对应的第二投影图,其中,所述第二特征图中包括至少一个第二栅格;
251.对所述第二投影图进行特征提取,得到所述样本图像对应的第二特征图。
252.在一种可能的设计中,所述第一处理模块1302具体用于:
253.针对所述第一特征图中的任一个所述第一栅格,获取所述第一栅格中的多个特征点;
254.确定各所述特征点各自对应的相关度参数,其中,所述相关度参数用于指示所述特征点和所述第一栅格之间的相关程度;
255.根据各所述特征点各自对应的相关度参数,得到所述第一栅格对应的栅格特征,其中,所述第一栅格特征包括所述第一特征图中的多个第一栅格各自的栅格特征。
256.在一种可能的设计中,所述第一处理模块1302具体用于:
257.针对所述第二特征图中的任一个所述第二栅格,获取所述第二栅格中的多个特征点;
258.确定各所述特征点各自对应的相关度参数,其中,所述相关度参数用于指示所述特征点和所述第二栅格之间的相关程度;
259.根据各所述特征点各自对应的相关度参数,得到所述第二栅格对应的栅格特征,其中,所述第二栅格特征包括所述第二特征图中的多个第二栅格各自的栅格特征。
260.在一种可能的设计中,所述第二处理模块1303具体用于:
261.针对任一个所述第一特征图,对所述第一特征图进行区域划分,得n
×
m个第一区域,其中,所述n和所述m为大于等于1的整数;
262.针对任一个所述第二特征图,对所述第二特征图进行区域划分,得到n
×
m个第二
区域;
263.根据各所述第一特征图的第一区域、各所述第二特征图的第二区域、各所述第一栅格特征、各所述第二栅格特征,得到所述特征信息。
264.在一种可能的设计中,所述第二处理模块1303具体用于:
265.根据各所述第一特征图的第一区域以及各所述第二特征图的第二区域,将相同位置的各所述第一区域和各所述第二区域,确定为一个区域集合;
266.针对任一个所述区域集合,将所述区域集合中的各所述第一区域各自对应的第一栅格特征,以及各所述第二区域各自对应的第二栅格特征,输入至自注意力网络,以使得所述自注意力网络输出所述区域集合对应的子特征信息;
267.将各个区域集合的子特征信息进行拼接,得到所述特征信息。
268.在一种可能的设计中,所述第二处理模还体用于:
269.在所述根据各所述第一特征图的第一区域以及各所述第二特征图的第二区域,将相同位置的各所述第一区域和各所述第二区域,确定为一个区域集合之后,将所述n
×
m个区域集合确定为原始层;
270.对所述原始层中的n
×
m个区域集合进行t次降采样处理,得到t个降采样层,其中,第i个所述降采样层中包括pi×
qi个区域集合,其中,所述t为大于等于1的整数,所述pi和所述qi为大于等于1的整数,并且所述pi小于所述n,所述qi小于所述m,所述i的取值为1至t。
271.在一种可能的设计中,所述第二处理模块1303还用于:
272.在所述将各个区域集合的子特征信息进行拼接,得到所述特征信息之后,针对所述t个降采样层中的第i个降采样层,确定所述降采样层中pi×
qi个区域集合各自的子特征信息;
273.将所述pi×
qi个区域集合中各所述个区域集合的子特征信息进行拼接,得到所述第i个降采样层的中间特征信息;
274.将所述第i个降采样层的中间特征信息映射为所述原始层的特征信息的尺寸,得到调整后的中间特征信息,其中,所述原始层的特征信息为所述多帧样本点云和所述多帧样本图像对应的特征信息;
275.根据所述调整后的中间特征信息以及所述原始层的特征信息进行融合,得到融合后的特征信息。
276.在一种可能的设计中,所述获取模块1301具体用于:
277.获取至少一组原始训练数据;
278.在所述原始训练数据中,确定至少一个目标对象的样本点云和样本图像;
279.获取至少一个场景点云和场景图像;
280.根据所述至少一组原始训练数据、所述至少一个目标的样本点云和样本图像、所述场景点云、所述场景图像,确定所述至少一组训练数据。
281.在一种可能的设计中,所述获取模块1301具体用于:
282.针对任一个所述目标对象,将所述目标对象的样本点云和所述场景点云进行合成处理,得到合成点云,以及,将所述目标对象的样本图像和所述场景图像进行合成处理,得到合成图像;
283.确定各所述合成点云各自对应的一致性参数,以及确定各所述合成图像各自对应
的一致性参数;
284.将所述一致性参数满足第一预设条件的合成点云确定为目标合成点云,以及将所述一致性参数满足第二预设条件的合成图像确定为目标合成图像;
285.将所述目标合成点云和所述目标合成图像确定为一组合成训练数据;
286.将所述至少一组原始训练数据以及所述至少一组合成训练数据,确定为所述至少一组训练数据。
287.在一种可能的设计中,所述多帧样本点云中包括第一时刻采集得到的样本点云、以及所述第一时刻之前采集得到的多帧样本点云,所述多帧样本图像中包括第一时刻采集得到的样本图像、以及所述第一时刻之前采集得到的多帧样本图像,所述样本对象检测结果为所述第一时刻采集得到的样本点云以及样本图像所对应的检测结果。
288.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
289.图14为本技术实施例提供的对象检测装置的结构示意图。如图14所示,该装置140包括:第一获取模块1401、第二获取模块1402、处理模块1403。
290.第一获取模块1401,用于获取第一时刻采集得到的第一点云以及第一图像;
291.第二获取模块1402,用于获取所述第一时刻之前采集得到的多帧第二点云以及多帧第二图像;
292.处理模块1403,用于根据检测模型对所述第一点云、所述第一图像、所述多帧第二点云、所述多帧第二图像进行处理,得到所述第一点云和所述第一图像对应的对象检测结果,
293.其中,所述检测模型为根据上述实施例所述的检测模型训练方法所训练得到的模型。
294.本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
295.图15为本技术实施例提供的电子设备的硬件结构示意图,如图15所示,本实施例的电子设备150包括:处理器1501以及存储器1502;其中
296.存储器1502,用于存储计算机执行指令;
297.处理器1501,用于执行存储器存储的计算机执行指令,以实现上述实施例中电子方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
298.可选地,存储器1502既可以是独立的,也可以跟处理器1501集成在一起。
299.当存储器1502独立设置时,该电子设备还包括总线1503,用于连接所述存储器1502和处理器1501。
300.本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上电子设备所执行的检测模型训练方法或者对象检测方法。
301.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之
间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
302.上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本技术各个实施例所述方法的部分步骤。
303.应理解,上述处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
304.存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
305.总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
306.上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
307.本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
308.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献