一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

自动驾驶车辆的仿真测试方法、模型训练方法和设备与流程

2022-10-22 06:42:31 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,尤其涉及自动驾驶、辅助驾驶和深度学习技术领域。更具体地,本公开提供了一种自动驾驶车辆的仿真测试方法、深度学习模型的训练方法、装置、电子设备和存储介质。


背景技术:

2.随着人工智能技术的发展,自动驾驶和辅助驾驶的应用场景不断增加。在仿真场景中,可以验证自动驾驶模式的有效性或准确性。


技术实现要素:

3.本公开提供了一种自动驾驶车辆的仿真测试方法、深度学习模型的训练方法、方法、装置、设备以及存储介质。
4.根据本公开的一方面,提供了一种自动驾驶车辆的仿真测试方法,该方法包括:响应于确定待测车辆与障碍物之间存在预设交互行为,根据预设交互行为的类型,确定目标深度学习模型,其中,障碍物是基于预设状态信息在仿真场景中移动的,待测车辆是基于自动驾驶模式在仿真场景中移动的;利用目标深度学习模型处理环境信息和障碍物的预设状态信息,得到目标状态信息;以及利用目标状态信息控制障碍物移动。
5.根据本公开的另一方面,提供了一种深度学习模型的训练方法,该方法包括:将样本数据的第一样本子数据输入初始深度学习模型,得到输出样本状态信息,其中,样本数据为一个样本时段内环境信息和障碍物的状态信息,样本数据来自于与一个预设交互行为的类型对应的路测子数据;根据输出样本状态信息和样本数据的第二样本子数据,确定损失值;以及利用损失值调整初始深度学习模型的参数,得到目标深度学习模型,其中,目标深度学习模型与一个预设交互行为的类型对应。
6.根据本公开的另一方面,提供了一种自动驾驶车辆的仿真测试装置,该装置包括:第一确定模块,用于响应于确定待测车辆与障碍物之间存在预设交互行为,根据预设交互行为的类型,确定目标深度学习模型,其中,障碍物是基于预设状态信息在仿真场景中移动的,待测车辆是基于自动驾驶模式在仿真场景中移动的;处理模块,用于利用目标深度学习模型处理环境信息和障碍物的预设状态信息,得到目标状态信息;以及控制模块,用于利用目标状态信息控制障碍物移动。
7.根据本公开的另一方面,提供了一种深度学习模型的训练装置,该装置包括:获得模块,用于将样本数据的第一样本子数据输入初始深度学习模型,得到输出样本状态信息,其中,样本数据为一个样本时段内环境信息和障碍物的状态信息,样本数据来自于与一个预设交互行为的类型对应的路测子数据;第五确定模块,用于根据输出样本状态信息和样本数据的第二样本子数据,确定损失值;以及调整模块,用于利用损失值调整初始深度学习模型的参数,得到目标深度学习模型,其中,目标深度学习模型与一个预设交互行为的类型对应。
8.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
9.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
10.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开提供的方法。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1是根据本公开的一个实施例的可以应用自动驾驶车辆的仿真测试方法和装置的示例性系统架构示意图;
14.图2是根据本公开的一个实施例的自动驾驶车辆的仿真测试方法的流程图;
15.图3a至图3c是根据本公开的一个实施例的自动驾驶车辆的仿真测试方法的原理图。
16.图4是根据本公开的另一个实施例的自动驾驶车辆的仿真测试方法的流程图;
17.图5是根据本公开的另一个实施例的自动驾驶车辆的仿真测试方法的原理图;
18.图6是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
19.图7是根据本公开的一个实施例的深度学习模型的训练方法的原理图;
20.图8是根据本公开的一个实施例的自动驾驶车辆的仿真测试装置的框图;
21.图9是根据本公开的一个实施例的深度学习模型的训练装置的框图;以及
22.图10是根据本公开的一个实施例的可以应用自动驾驶车辆的仿真测试方法和/或深度学习模型的训练方法的电子设备的框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
24.自动驾驶仿真技术是一种测试自动驾驶算法的手段。自动驾驶仿真技术的成本较低、测试效率较高,对自动驾驶算法的迭代发展至关重要。自动驾驶仿真技术面临的一个问题为:真实性不足。例如,在自动驾驶仿真过程中,障碍物无法与自动驾驶车辆形成有效的、复杂的交互,导致自动驾驶仿真的置信度不足。例如,在自动驾驶仿真过程中,障碍物的行为固定,仿真场景的结构简单,测试能力不足。又例如,在自动驾驶仿真过程中,障碍物难以针对自动驾驶车辆的行为作出合理的反应,导致出现大量的在真实场景中很少出现的或不合理的交互行为,导致测试结果出现误差。
25.在一些实施例中,可以根据路测数据,建立仿真场景。在该仿真场景中,障碍物的
速度、位置和形状是确定的。可以实现路测车辆所处场景的重现。在该仿真场景中,障碍物的行为固定,障碍物的行为可以反应障碍物与路测车辆之间的交互。在该仿真场景中,障碍物难以根据自动驾驶车辆的行为变化而作出合理的反应,进而出现大量的在真实场景中很少出现或不合理的交互行为,导致测试结果出现误差。
26.在一些实施例中,也可以人工设计仿真场景。基于人工经验设计的场景,可以用于特定目标的测试。在该仿真场景中,障碍物的行为也是固定的。例如,在满足特定条件的情况下,可以触发特定的行为。该仿真场景的表达方式可以为参数化的表达方式。该仿真场景的结构和行为相对较为简单。在该仿真场景中,障碍物的行为较为单一,多样性较差,难以实现其他的测试目标。
27.图1是根据本公开一个实施例的可以应用自动驾驶车辆的仿真测试方法和装置的示例性系统架构示意图。
28.需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
29.如图1所示,根据该实施例的系统架构100可以包括传感器101、102、103,网络120、服务器130和路侧单元(road side unit,rsu)140。网络120用以在传感器101、102、103和服务器130之间提供通信链路的介质。网络120可以包括各种连接类型,例如有线和/或无线通信链路等等。
30.传感器101、102、103可以通过网络120与服务器130交互,以接收或发送消息等。
31.传感器101、102、103可以是集成在车辆110上的功能元件,例如红外传感器、超声波传感器、毫米波雷达、信息采集装置等等。传感器101、102、103可以用于采集车辆110周围的感知对象(例如行人、车辆、障碍物等)的状态数据以及周围道路数据。
32.车辆110可以同路侧单元140通信,从路侧单元140接收信息,或者向路侧单元发送信息。
33.路侧单元140例如可以部署于信号灯上,以便对信号灯的时长或频率进行调整。
34.服务器130可以设置在能够与车载终端建立通信的远端,可以具体实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。
35.服务器130可以是提供各种服务的服务器。在服务器130上可以安装有例如地图类应用、数据处理类应用等。以服务器130在运行该数据处理类应用为例:通过网络120接收来自传感器101、102、103传输的障碍物的状态数据、道路数据。可以将障碍物的状态数据、道路数据中的一种或多种作为待处理数据。并对待处理数据进行处理,得到目标数据。
36.需要说明的是,本公开实施例所提供的自动驾驶车辆的仿真测试方法一般可以由服务器130执行。相应地,本公开实施例所提供的自动驾驶车辆的仿真测试装置也可以设置于服务器130中。
37.可以理解,图1中的传感器、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的传感器、网络和服务器。
38.应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
39.图2是根据本公开的一个实施例的自动驾驶车辆的仿真测试方法的流程图。
40.如图2所示,该方法200可以包括操作s210至操作s230。
41.在操作s210,响应于确定待测车辆与障碍物之间存在预设交互行为,根据预设交互行为的类型,确定目标深度学习模型。
42.在本公开实施例中,障碍物是基于预设状态信息在仿真场景中移动的。
43.例如,障碍物可以是行人、机动车、非机动车等道路上的各种对象。
44.在本公开实施例中,待测车辆是基于自动驾驶模式在仿真场景中移动的。
45.例如,待测车辆可以是上文所述的自动驾驶车辆。
46.在本公开实施例中,每个类型的预设交互行为与一个目标深度学习模型对应。
47.例如,可以有多个类型的预设交互行为,相应的,可以有多个目标深度学习模型。
48.例如,多个深度学习模型可以包括长短时记忆(long short-term memory,lstm)模型、矢量网络(vectornet)模型等等。
49.在本公开实施例中,预设交互行为可以是:在待测车辆执行自动驾驶行为的过程中,障碍物执行预设行为。
50.例如,一个预设交互行为可以是:在待测车辆直行的情况下,障碍物作出变向行为。
51.在操作s220,利用目标深度学习模型处理环境信息和障碍物的预设状态信息,得到目标状态信息。
52.在本公开实施例中,可以将环境信息和障碍物的预设状态信息输入目标深度学习模型,得到目标状态信息。
53.例如,环境信息可以包括车道线信息、交通指示信息。交通指示信息可以是交通信号灯的信息。
54.例如,预设状态信息可以是根据路测数据得到的。路测数据可以是由路测车辆在真实场景中采集的。
55.在操作s230,利用目标状态信息控制障碍物移动。
56.例如,可以控制障碍物切换至目标状态信息指示的状态。
57.通过本公开实施例,利用与一个预设交互行为的类型对应的深度学习模型确定障碍物的状态,提高了障碍物的智能化水平,确保了仿真测试的合理性。
58.在一些实施例中,上文所述的方法200还可以包括:根据待测车辆和由目标行为信息控制的障碍物,确定待测车辆的测试结果。
59.例如,可以设置待测车辆在仿真场景中的终点位置。在待测车辆移动至仿真场景中的终点位置的过程中,若障碍物与待测车辆之间产生了预设交互行为,可以利用目标状态信息控制障碍物移动。在待测车辆移动至终点位置之后,可以确定待测车辆的测试结果。可以理解,对障碍物进行了调整,障碍物的行为不再完全固定,障碍物与待测车辆之间产生的交互行为基本都是合理的交互行为,由此待测车辆的测试结果更加合理、准确。在本公开实施例中,可以将待测车辆的自动驾驶控制器输出各种指令、待测车辆的轨迹信息、位置信息、速度信息等各种信息作为测试结果。
60.在一些实施例中,预设交互行为的类型包括以下至少之一:在待测车辆直行的情况下,障碍物转向;在待测车辆转向的情况下,障碍物直行;在待测车辆直行的情况下,障碍
物进入待测车辆所处的车道;以及障碍物跟随待测车辆。
61.例如,在待测车辆直行的情况下,障碍物转向可以包括:在仿真场景中,车道1处于车道2的左侧。待测车辆在车道1上移动,障碍物在车道2上移动,障碍物左转进入车道1且在待测车辆的后方移动。
62.例如,在待测车辆转向的情况下,障碍物直行包括:在仿真场景中,车道1处于车道2的左侧。待测车辆在车道2上移动,障碍物在车道1上移动。在待测车辆左转进入车道1时,障碍物在车道1上继续直行,且在待测车辆的后方移动。
63.例如,在待测车辆直行的情况下,障碍物进入待测车辆所处的车道包括:在仿真场景中,车道1处于车道2的左侧。待测车辆在车道1上移动,障碍物在车道2上移动,障碍物左转进入车道1,且在待测车辆的前方移动。
64.例如,障碍物跟随待测车辆包括:障碍物和待测车辆的轨迹高度一致。在仿真场景中,车道1处于车道2的左侧。待测车辆在车道2上移动,障碍物在车道2上移动。待测车辆左转进入车道1之后,障碍物也左转进入车道1。
65.在一些实施例中,预设交互行为的类型还包括其他预设交互行为。
66.例如,其他预设交互行为可以是其他的异常交互行为。
67.又例如,对于其他预设交互行为,可以利用一个泛化的目标深度学习模型来处理环境信息和相关障碍物的预设状态信息,得到目标状态信息。
68.在一些实施例中,障碍物的预设状态信息包括以下至少之一:障碍物的位置信息、障碍物的速度信息、障碍物的加速度信息、障碍物的形状信息和障碍物的类型信息。
69.例如,障碍物的位置信息可以指示障碍物在仿真场景中所处的位置,障碍物的位置信息可以为障碍物的坐标。
70.例如,障碍物的速度信息可以指示障碍物在仿真场景中的移动速度。在仿真场景中,障碍物可以匀速移动,也可以变速移动。
71.例如,障碍物的加速度信息可以指示障碍物的加速度。在仿真场景中,障碍物可以匀加速移动,也可以变加速移动。
72.例如,障碍物的形状信息可以指示障碍物的尺寸。障碍物的尺寸例如可以包括长、宽、高等。
73.例如,障碍物的类型信息可以指示障碍物的类型。障碍物的类型可以包括行人、非机动车和机动车等等。
74.在一些实施例中,环境信息包括以下至少之一:车道线信息、交通指示信息、路网拓扑信息和规则信息。
75.例如,车道线信息可以指示车道线的位置和类型。车道线的类型可以包括长实线、虚线等等。
76.例如,交通指示信息可以是交通信号灯的信息。基于交通指示信息,可以确定是否进行左转、右转、直行等操作。
77.例如,路网拓扑信息可以是指示仿真场景内道路及道路交汇点的拓扑关系。
78.例如,规则信息与交通规则相关。规则信息可以包括:移动的最高速度、移动的最低速度等等。
79.在本公开实施例中,环境信息还包括人行道信息。例如,人行道信息可以指示人行
道的位置。
80.通过本公开实施例,根据路网拓扑信息和规则信息等确定了目标状态信息,使得障碍物的行为更加合理,并符合相关交通规则的规定。也有助于获得更加准确、合理的测试结果。
81.在一些实施例中,在操作s230的一些实施方式中,目标状态信息包括目标速度信息,利用目标状态信息控制障碍物移动包括:控制障碍物按照目标速度信息指示的速度进行移动。下面将结合图3a至图3c进行详细描述。
82.图3a至图3c是根据本公开的一个实施例的自动驾驶车辆的仿真测试方法的原理图。
83.如图3a所示,在真实场景中,车辆301’行驶于车道310’上,路测车辆302’行驶于车道320’上。在行驶过程中,路测车辆302’可以利用各种传感器采集路测数据。在真实场景中,车辆301’在车道310’上直行。路测车辆302’在车道320’上直行。路测车辆302’的速度可以和车辆301’的速度相同。路测车辆302’的加速度也可以和车辆301’的加速度相同。
84.如图3b所示,在仿真场景中,在时刻t1,车辆301在车道310上移动,待测车辆303在车道320上移动。车辆301的速度可以小于待测车辆303的速度。待测车辆303的加速度可以小于车辆301的加速度。待测车辆303的状态信息是由自动驾驶控制器确定的。
85.如图3c所示,在仿真场景中,在时刻t1的下一个时刻t2,待测车辆303左转欲进入车道310,且车辆301仍在车道310上移动。若车辆301和待测车辆303仍保持原有的速度和加速度进行移动,则待测车辆303与车辆301将会碰撞(或追尾),产生不合理的交互行为。在这种情况下,可以根据交互行为的类型(在待测车辆转向的情况下,障碍物直行),确定一个目标深度学习模型。该深度学习模型例如是基于长短时记忆模型构建的。利用目标深度学习模型处理车辆301的状态信息和环境信息,得到目标状态信息。例如,目标状态信息包括目标速度信息。可以控制车辆301按照目标速度信息指示的速度进行移动(例如减速移动),以避免同待测车辆303碰撞。由此,减少了不合理的交互行为,使得待测车辆的测试结果更加准确。
86.在一些实施例中,目标状态信息包括目标位置信息和目标速度信息,利用目标状态信息控制障碍物移动包括:控制障碍物按照目标速度信息指示的速度移动至目标位置信息指示的位置。
87.例如,在仿真场景中,车道1位于车道2的左侧。在时刻t1,障碍物在车道1上移动,待测车辆在车道2上移动。障碍物的速度可以小于待测车辆的速度。障碍物的加速度可以大于待测车辆的加速度。待测车辆的状态信息是由自动驾驶控制器确定的。
88.在仿真场景中,在时刻t1的下一个时刻t2,待测车辆左转欲进入车道1,且障碍物仍在车道1上行驶。若障碍物和待测车辆仍保持原有的速度和加速度进行移动,则待测车辆与障碍物将会碰撞,产生不合理的交互行为。在这种情况下,可以根据交互行为的类型(在待测车辆转向的情况下,障碍物直行),确定一个目标深度学习模型。该目标深度学习模块例如是基于矢量网络模型构建的。利用目标深度学习模型处理障碍物的预设状态信息和环境信息,得到目标状态信息。例如,目标状态信息包括目标速度信息和目标位置信息。可以控制障碍物按照目标速度信息指示的速度进行移动(例如减速移动),并移动至目标位置(例如车道2),以避免同待测车辆碰撞。由此,充分减少了不合理的交互行为,使得待测车辆
的测试结果更加准确。
89.可以理解,上文所述的不合理的交互行为仅为示例。自动驾驶控制器可以产生各种各样的指令控制待测车辆。
90.图4是根据本公开的另一个实施例的自动驾驶车辆的仿真测试方法的流程图。
91.如图4所示,该方法400可以包括操作s401至操作s404。可以理解,s401至操作s404可以在上文的操作s210之前执行。
92.在操作s401,根据路测数据,确定环境信息和多个障碍物的预设状态信息。
93.例如,可以从路测数据中提取环境信息和多个障碍物的预设状态信息。
94.在操作s402,根据环境信息和多个障碍物的预设状态信息,建立仿真场景。
95.例如,可以利用各种仿真工具,根据环境信息和障碍物的预设状态信息,在时间和空间上进行场景重建,得到仿真场景。
96.在操作s403,将待测车辆添加至仿真场景中。
97.例如,可以设置待测车辆在仿真场景中的速度、加速度、起始位置、终点位置等参数。基于自动驾驶模式,在仿真场景中,待测车辆按照设置的速度和加速度,由起始位置移动至终点位置。该加速度可以是平均加速度,该速度可以是平均速度。在移动过程中,待测车辆的自动驾驶控制器可以根据障碍物的位置等信息,调整待测车辆的速度、加速度以及位置。
98.在操作s404,确定待测车辆与障碍物之间的交互行为的类型。
99.在本公开实施例中,根据障碍物的预设状态信息,确定障碍物的轨迹信息。
100.例如,预设状态信息包括位置信息和速度信息,由此可以确定障碍物的轨迹信息。
101.在本公开实施例中,根据待测车辆的轨迹信息和障碍物的轨迹信息,确定待测车辆与障碍物之间的交互行为的类型。
102.例如,在自动驾驶模式下,待测车辆的自动驾驶控制器可以确定待测车辆的速度和位置,由此可以确定待测车辆的轨迹。根据待测车辆的轨迹信息和障碍物的轨迹信息,可以确定待测车辆与障碍物之间的交互行为的类型。
103.例如,交互行为可以包括预设交互行为和非预设交互行为。
104.可以理解,上文对本公开的自动驾驶车辆的仿真测试方法进行了详细描述,下面将结合相关实施例对本公开提供的自动驾驶车辆的仿真测试方法的原理进行详细描述。
105.图5是根据本公开的另一个实施例的自动驾驶车辆的仿真测试方法的原理图。
106.如图5所示,根据路测数据5001,可以确定环境信息和多个障碍物的预设状态信息。根据环境信息和预设状态信息,可以建立仿真场境5002。将待测车辆添加至仿真场境5002之后,可以利用监控模块5003实时监控障碍物与待测车辆之间的交互行为,以便确定待测车辆与障碍物之间的交互行为的类型。
107.在确定待测车辆与障碍物之间存在预设交互行为之后,根据预设交互行为的类型,从目标深度学习模型model_1 5004、......、目标深度学习模型model_n 5005、目标深度学习模型model_all 5006中确定一个目标深度学习模型。n为大于1的整数。在本实施例中,确定出的目标深度学习模型可以为目标深度学习模型model_1 5004。利用目标深度学习模型model_1 5004处理环境信息和障碍物的预设状态信息,可以得到目标状态信息5007。利用目标状态信息5007控制仿真场景中障碍物移动。
108.可以理解,目标深度学习模型model_all 5006可以为上文所述的泛化的目标深度学习模型。
109.可以理解,上文对自动驾驶车辆的仿真测试方法进行了详细说明。下面将结合相关实施例对获取目标深度学习模型的方式进行详细说明。
110.图6是根据本公开的一个实施例的深度学习模型的训练方法的流程图。
111.如图6所示,方法600可以包括操作s610至操作s630。
112.在操作s610,将样本数据的第一样本子数据输入初始深度学习模型,得到输出样本状态信息。
113.在本公开实施例中,样本数据为一个样本时段内环境信息和障碍物的状态信息。
114.例如,样本时段的长度可以为6秒。
115.在本公开实施例中,第一样本子数据与样本时段的第一样本子时段对应。
116.例如,第一样本子时段可以是样本时段中第1秒至第3秒对应的时段。
117.例如,障碍物可以是行人、机动车、非机动车等道路上的各种对象。
118.在本公开实施例中,样本数据来自于与一个预设交互行为的类型对应的路测子数据。
119.例如,路测子数据来自于路测车辆采集的路测数据。路测车辆可以部署有各种传感器,以便采集路测数据。
120.例如,深度学习模型可以是长短时记忆模型和矢量网络模型中的至少一个。
121.在本公开实施例中,每个类型的预设交互行为与一个路测子数据对应。
122.例如,可以有多个类型的预设交互行为,相应的,可以有多个路测子数据。
123.在本公开实施例中,预设交互行为可以是:在路测车辆执行一个驾驶行为的过程中,障碍物执行预设行为。
124.例如,一个预设交互行为可以是:在路测车辆直行的情况下,障碍物作出变向行为。
125.在操作s620,根据输出样本状态信息和样本数据的第二样本子数据,确定损失值。
126.在本公开实施例中,第二样本子数据与样本时段的第二样本子时段对应。
127.例如,第二样本子时段可以是样本时段中第4秒至第6秒对应的时段。
128.在本公开实施例中,可以利用各种损失函数确定输出样本状态信息和第二样本子数据之间的损失值。
129.例如,各种损失函数例如可以包括l1损失函数。
130.例如,输出样本状态信息包括输出样本位置信息和输出样本速度信息。第二样本子数据包括障碍物的位置信息和速度信息。第二样本子数据可以作为第一样本子数据的标签。标签也可以被称为真值。输出样本状态信息可以为模型的输出值。由此,根据输出样本状态信息和第二样本子数据之间的差异,可以利用各种损失函数确定损失值。
131.在操作s630,利用损失值调整初始深度学习模型的参数,得到目标深度学习模型。
132.在本公开实施例中,目标深度学习模型与一个预设交互行为的类型对应。
133.例如,可以有多个类型的预设交互行为,相应的,可以有多个目标深度学习模型。
134.例如,根据损失值,可以利用梯度下降等方式,调整初始深度学习模型的参数,得到目标深度学习模型。
135.在一些实施例中,预设交互行为的类型包括以下至少之一:在路测车辆直行的情况下,障碍物转向;在路测车辆转向的情况下,障碍物直行;在路测车辆直行的情况下,障碍物进入路测车辆所处的车道;以及障碍物跟随路测车辆。
136.例如,在路测车辆直行的情况下,障碍物转向可以包括:在真实场景中,车道1处于车道2的左侧。路测车辆在车道1上移动,障碍物在车道2上移动,障碍物左转进入车道1且在路测车辆的后方移动。
137.例如,在路测车辆转向的情况下,障碍物直行可以包括:在真实场景中,车道1处于车道2的左侧。路测车辆在车道2上移动,障碍物在车道1上移动。在路测车辆左转进入车道1时,障碍物在车道1上继续直行,且位于路测车辆的后方。
138.例如,在路测车辆直行的情况下,障碍物进入路测车辆所处的车道可以包括:在真实场景中,车道1处于车道2的左侧。路测车辆在车道1上移动,障碍物在车道2上移动,障碍物左转进入车道1且在路测车辆的前方移动。
139.例如,障碍物跟随路测车辆可以包括:障碍物和路测车辆的轨迹高度一致。在真实场景中,车道1处于车道2的左侧。路测车辆在车道2上移动,障碍物在车道2上移动。路测车辆左转进入车道1之后,障碍物也左转进入车道1。
140.可以理解,在待测车辆和障碍物之间的预设交互行为的类型为“在待测车辆直行的情况下,障碍物转向”的情况下,由预设交互行为的类型为“在路测车辆直行的情况下,障碍物转向”的路测子数据训练出的目标深度学习模型可以用于处理环境信息和障碍物的状态信息。
141.可以理解,在真实场景中,障碍物与路测车辆之间产生预设交互行为时,障碍物为了避免发生交通事件,采取了相应的动作,调整了自身的状态信息。由此,利用相关路测子数据训练出的目标深度学习模型,可以高效地调整障碍物的状态(例如速度、位置等)。
142.在一些实施例中,预设交互行为的类型还包括其他预设交互行为。
143.例如,其他预设交互行为可以是其他的异常交互行为。
144.又例如,可以利用与其他预设交互行为相关的路侧子数据,训练一个泛化的目标深度学习模型。
145.在一些实施例中,障碍物的状态信息包括以下至少之一:障碍物的位置信息、障碍物的速度信息、障碍物的加速度信息、障碍物的形状信息和障碍物的类型信息。
146.例如,障碍物的位置信息可以指示障碍物在真实场景中所处的位置,障碍物的位置信息可以为障碍物的坐标。
147.例如,障碍物的速度信息可以指示障碍物在真实场景中的移动速度。在真实场景中,障碍物可以匀速移动,也可以变速移动。
148.例如,障碍物的加速度信息可以指示障碍物的加速度。在真实场景中,障碍物可以匀加速移动,也可以变加速移动。
149.例如,障碍物的形状信息可以指示障碍物的尺寸。障碍物的尺寸例如可以包括长、宽、高等。
150.例如,障碍物的类型信息可以指示障碍物的类型。障碍物的类型可以包括行人、非机动车和机动车等等。
151.在一些实施例中,环境信息包括以下至少之一:车道线信息、交通指示信息、路网
拓扑信息和规则信息。
152.例如,车道线信息可以指示车道线的位置和类型。车道线的类型可以包括长实线、虚线等等。
153.例如,交通指示信息可以是交通信号灯的信息。基于交通指示信息,可以确定是否进行左转、右转、直行等操作。
154.例如,路网拓扑信息可以是指示真实场景内道路及道路交汇点的拓扑关系。
155.例如,规则信息与交通规则相关。规则信息可以包括:移动的最高速度、移动的最低速度等等。
156.在本公开实施例中,环境信息还包括人行道信息。例如,人行道信息可以指示人行道的位置。
157.通过本公开实施例,根据路网拓扑信息和规则信息等确定了输出样本状态信息,可以高效地训练深度学习模型。可以使得深度学习模型确定的状态信息更加准确、合理,并符合相关交通规则的规定。
158.在一些实施例中,将样本数据的第一样本子数据输入初始深度学习模型,得到输出样本状态信息包括:对路测数据进行分类,得到多个路测子数据。
159.在本公开实施例中,路测子数据与一个预设交互行为的类型对应。
160.例如,可以利用一个分类模型对路测数据进行分类,得到与每个预设交互行为的类型对应的路测子数据。
161.在一些实施例中,可以根据路测数据的语义标签,对路测数据进行分类。
162.在本公开实施例中,路测数据的语义标签包括:路测车辆的行为语义标签、路网的结构语义标签、障碍物的行为语义标签和障碍物的类型语义标签。
163.例如,路测车辆的行为语义标签包括:直行、左转、右转、调头、汇入等。
164.例如,路网的结构语义标签包括:直道、弯道、路口等。
165.例如,障碍物的行为语义标签包括:切车、跟随、左转、右转等。
166.例如,障碍物的类型语义标签包括:机动车、行人、非机动车等。
167.在本公开实施例中,可以将一个时段内的路测数据的语义标签输入分类模型,得到输出交互行为类型。根据输出交互行为类型与交互行为类型标签之间的差异,训练分类模型。
168.例如,交互行为类型标签可以是人工确定的。可以人工标注多个时段的路测数据,得到多个交互行为类型标签,以便训练分类模型。利用经训练的分类模型对路测数据进行分类,可以得到路测子数据。
169.在一些实施例中,将样本数据的第一样本子数据输入初始深度学习模型,得到输出样本状态信息包括:对路测子数据进行划分,得到多个样本数据;对样本数据进行划分,得到第一样本子数据和第二样本子数据;以及将第一样本子数据输入初始深度学习模型,得到输出样本状态信息。
170.例如,路测子数据对应的时长例如可以为600秒。对路测子数据进行划分,可以得到100个样本数据。每个样本数据对应的样本时段的长度可以为6秒。
171.又例如,样本数据对应的样本时段的长度为6秒。第一样本子数据对应的第一样本子时段可以是样本时段的第1秒至第3秒。第二样本子数据对应的第二样本子时段可以是样
本时段的第4秒至第6秒。
172.下面将结合具体实施例对本公开的深度学习模型的训练方法的原理进行详细说明。
173.图7是根据本公开的一个实施例的深度学习模型的训练方法的原理图。
174.如图7所示,可以利用分类模型对路测数据sample_total 7008进行分类,得到多个路测子数据。多个路测子数据包括路测子数据sample_1 7009、......、路测子数据sample_n 7010、路测子数据sample_all 7011。
175.可以对路测子数据进行划分,得到多个样本数据。利用样本数据训练初始深度学习模型,得到目标深度学习模型。多个路测子数据与多个目标深度学习模型对应。多个目标深度学习模型包括:目标深度学习模型model_1 7004、......、目标深度学习模型model_n 7005、目标深度学习模型model_all 7006。
176.图8是根据本公开的一个实施例的自动驾驶车辆的仿真测试装置的框图。
177.如图8所示,该装置800可以包括第一确定模块810、处理模块820和控制模块830。
178.第一确定模块810,用于响应于确定待测车辆与障碍物之间存在预设交互行为,根据预设交互行为的类型,确定目标深度学习模型。例如,障碍物是基于预设状态信息在仿真场景中移动的,待测车辆是基于自动驾驶模式在仿真场景中移动的。
179.处理模块820,用于利用目标深度学习模型处理环境信息和障碍物的预设状态信息,得到目标状态信息。
180.控制模块830,用于利用目标状态信息控制障碍物移动。
181.在一些实施例中,预设交互行为的类型包括以下至少之一:在待测车辆直行的情况下,障碍物转向;在待测车辆转向的情况下,障碍物直行;在待测车辆直行的情况下,障碍物进入待测车辆所处的车道;以及障碍物跟随待测车辆。
182.在一些实施例中,障碍物的预设状态信息包括以下至少之一:障碍物的位置信息、障碍物的速度信息、障碍物的加速度信息、障碍物的形状信息和障碍物的类型信息,环境信息包括以下至少之一:车道线信息、交通指示信息、路网拓扑信息和规则信息。
183.在一些实施例中,目标状态信息包括目标速度信息,控制模块包括:第一控制子模块,用于控制障碍物按照目标速度信息指示的速度进行移动。
184.在一些实施例中,目标状态信息包括目标位置信息和目标速度信息,控制模块包括:第二控制子模块,用于控制障碍物按照目标速度信息指示的速度移动至目标位置信息指示的位置。
185.在一些实施例中,装置800还可以包括:第二确定模块,用于根据路测数据,确定环境信息和多个障碍物的预设状态信息;建立模块,用于根据环境信息和多个障碍物的预设状态信息,建立仿真场景;添加模块,用于将待测车辆添加至仿真场景中;以及第三确定模块,用于确定待测车辆与障碍物之间的交互行为的类型。
186.在一些实施例中,第三确定模块包括:第一确定子模块,用于根据障碍物的预设状态信息,确定障碍物的轨迹信息;以及第二确定子模块,用于根据待测车辆的轨迹信息和障碍物的轨迹信息,确定待测车辆与障碍物之间的交互行为的类型。
187.在一些实施例中,装置800还可以包括:第四确定模块,用于根据待测车辆和由目标行为信息控制的障碍物,确定待测车辆的测试结果。
188.图9是根据本公开的另一个实施例的深度学习模型的训练装置的框图。
189.如图9所示,该装置900可以包括获得模块910、第五确定模块920和调整模块930。
190.获得模块910,用于将样本数据的第一样本子数据输入初始深度学习模型,得到输出样本状态信息。例如,样本数据为一个样本时段内环境信息和障碍物的状态信息,样本数据来自于与一个预设交互行为的类型对应的路测子数据;
191.第五确定模块920,用于根据输出样本状态信息和样本数据的第二样本子数据,确定损失值。
192.调整模块930,用于利用损失值调整初始深度学习模型的参数,得到目标深度学习模型,其中,目标深度学习模型与一个预设交互行为的类型对应。
193.在一些实施例中,获得模块包括:分类子模块,用于对路测数据进行分类,得到多个路测子数据,其中,路测子数据与一个预设交互行为的类型对应;第一划分子模块,用于对路测子数据进行划分,得到多个样本数据;第二划分子模块,用于对样本数据进行划分,得到第一样本子数据和第二样本子数据,其中,第一样本子数据与样本时段的第一样本子时段对应,第二样本子数据与样本时段的第二样本子时段对应;以及获得子模块,用于将第一样本子数据输入初始深度学习模型,得到输出样本状态信息。
194.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
195.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
196.图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
197.如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序,来执行各种适当的动作和处理。在ram 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
198.设备1000中的多个部件连接至i/o接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
199.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如自动驾驶车辆的仿真测试方法和/或深度学习模型的训练方法。例如,在一些实
施例中,自动驾驶车辆的仿真测试方法和/或深度学习模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram 1003并由计算单元1001执行时,可以执行上文描述的自动驾驶车辆的仿真测试方法和/或深度学习模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行自动驾驶车辆的仿真测试方法和/或深度学习模型的训练方法。
200.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
201.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
202.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
203.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)显示器或者lcd(液晶显示器));以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
204.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
205.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
206.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
207.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献