一种自动驾驶方法、装置及电子设备和存储介质与流程

2022-03-19 20:26:44 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，更具体地说，涉及一种自动驾驶方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术：

2.自动驾驶是一个集环境感知、决策规划、控制执行等功能于一体的复杂系统，随着人工智能、信息技术的发展，自动驾驶已得到了学术界、工业界和国防军事领域的极大关注。
3.端到端驱动方法将传感器测得的感知信息(如激光雷达点云、rgb图像等)作为神经网络的输入，神经网络直接输出控制信号，如转向指令和加速。该框架的主要优点是易于实现，并且可以通过在自动驾驶平台上记录人类驾驶过程，获取标记的训练数据。近年来，计算硬件的技术进步大大促进了端到端学习模型的使用，用于深度神经网络(deep neural network，dnn)梯度估计的反向传播算法可以在图形处理单元(graphics processing unit，gpu)上并行实现。这种处理方式有助于训练大型自动驾驶网络架构，但也依赖于大量的训练样本。同时，自动驾驶控制的本质是一个顺序决策问题，端到端驱动方法通常需要基于大量数据进行归纳，因此在实际的工程实践中会受到混合错误的影响。
4.端到端驱动方法的另一种技术路线是基于深度强化学习(deep reinforcement learning，drl)来探索不同的驾驶策略。通常，研究者们会在模拟平台中在线训练和评估drl系统，也有研究将模拟训练的drl模型移植到真实驾驶环境，甚至直接基于现实世界图像数据训练drl系统。然而，现有的基于drl的端到端驾驶方法主要关注在动态参与者有限的驾驶场景，并假定场景中的其他参与者的行为接近理想，难以将现实世界中的各类复杂问题考虑进去。此外，该类方法多专注于单一输入模式，即获取的感知信息仅仅基于图像或者基于雷达，当场景中参与者的对抗性增加，会因为缺乏关键的感知信息导致系统失效。
5.因此，如何在自动驾驶过程中，为防止因驾驶场景复杂性与对抗性增加所引起的关键感知信息丢失是本领域技术人员需要解决的技术问题。

技术实现要素：

6.本技术的目的在于提供一种自动驾驶方法、装置及一种电子设备和一种计算机可读存储介质，防止因驾驶场景复杂性与对抗性增加所引起的关键感知信息丢失，保证自动驾驶感知数据的可靠性。同时，充分利用真实驾驶场景中的复杂先验知识学习驾驶策略模型，提升自动驾驶过程中决策规划的合理性。
7.为实现上述目的，本技术提供了一种自动驾驶方法，包括：
8.获取驾驶环境的多模态感知信息和驾驶行为数据；
9.利用卷积神经网络提取所述多模态感知信息的多尺度特征，利用transformer对所述多尺度特征进行融合得到融合特征数据；
10.将所述融合特征数据和所述驾驶行为数据结合为专家演示数据，并将自动驾驶过
程建模为马尔可夫决策过程；
11.利用所述专家演示数据采用最大熵逆强化学习获取自动驾驶过程的奖励函数，并利用深度强化学习优化驾驶策略模型；
12.将优化后的驾驶策略模型输出至客户端，以便所述客户端利用所述优化后的驾驶策略模型根据环境感知信息实现自动驾驶。
13.其中，所述获取驾驶环境的多模态感知信息和驾驶行为数据，包括：
14.通过多个车载传感器设备获取驾驶状态作为驾驶环境的多模态感知信息；
15.获取驾驶过程中针对不同驾驶场景所执行的操作或命令作为驾驶行为数据；其中，所述驾驶行为数据包括时间戳、速度数据、急加急减速数据和车道偏离数据中的任一项或任几项的组合；
16.根据时间戳对所述多模态感知信息和所述驾驶行为数据在时序上进行对齐。
17.其中，所述利用卷积神经网络提取所述多模态感知信息的多尺度特征，利用transformer对所述多尺度特征进行融合得到融合特征数据，包括：
18.利用卷积神经网络在不同网络层对所述多模态感知信息进行编码，以提取中间特征图；
19.利用transformer对所述中间特征图进行融合得到融合特征图；
20.将所述融合特征图的元素求和返回至每个模态分支中，得到多模态特征向量；
21.将所述多模态特征向量进行逐个元素的求和得到融合特征数据。
22.其中，所述利用所述专家演示数据采用最大熵逆强化学习获取自动驾驶过程的奖励函数，并利用深度强化学习优化驾驶策略模型，包括：
23.利用深度神经网络初始化奖励函数和基于所述奖励函数的驾驶策略模型；
24.利用所述专家演示数据估计驾驶策略模型的状态分布概率密度，并基于所述状态分布概率密度利用深度强化学习更新驾驶策略模型；
25.迭代计算驾驶状态-驾驶行为的访问计数的期望，利用所述期望计算最大熵梯度，并基于所述最大熵梯度更新所述深度神经网络的权重；
26.判断更新后的驾驶策略模型是否满足收敛条件；若是，则记录所述深度神经网络的权重，得到优化后的驾驶策略模型；若否，则重新进入所述利用所述专家演示数据估计驾驶策略的状态分布概率密度的步骤。
27.其中，所述利用深度神经网络初始化奖励函数，包括：
28.将所述专家演示数据定义为驾驶状态-驾驶行为的数据对的集合；
29.利用深度神经网络初始化驾驶状态-驾驶行为-奖励值的形式的奖励函数。
30.其中，所述深度神经网络的输入为驾驶状态和驾驶行为，输出为奖励值；
31.或，所述深度神经网络的输入为驾驶状态，所述深度神经网络包括多个输出通道，每个输出通道对应一个驾驶行为对应的奖励值。
32.其中，所述收敛条件包括迭代次数达到预设迭代次数，或，所述深度神经网络的权重的梯度的模达到预设阈值。
33.为实现上述目的，本技术提供了一种自动驾驶装置，包括：
34.数据采集模块，用于获取驾驶环境的多模态感知信息和驾驶行为数据；
35.特征融合模块，用于利用卷积神经网络提取所述多模态感知信息的多尺度特征，
利用transformer对所述多尺度特征进行融合得到融合特征数据；
36.建模模块，用于将所述融合特征数据和所述驾驶行为数据结合为专家演示数据，并将自动驾驶过程建模为马尔可夫决策过程；
37.优化模块，用于利用所述专家演示数据采用最大熵逆强化学习获取自动驾驶过程的奖励函数，并利用深度强化学习优化驾驶策略模型；
38.输出模块，用于将优化后的驾驶策略模型输出至客户端，以便所述客户端利用所述优化后的驾驶策略模型根据环境感知信息实现自动驾驶。
39.为实现上述目的，本技术提供了一种电子设备，包括：
40.存储器，用于存储计算机程序；
41.处理器，用于执行所述计算机程序时实现如上述自动驾驶方法的步骤。
42.为实现上述目的，本技术提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述自动驾驶方法的步骤。
43.通过以上方案可知，本技术提供的一种自动驾驶方法，包括：获取驾驶环境的多模态感知信息和驾驶行为数据；利用卷积神经网络提取所述多模态感知信息的多尺度特征，利用transformer对所述多尺度特征进行融合得到融合特征数据；将所述融合特征数据和所述驾驶行为数据结合为专家演示数据，并将自动驾驶过程建模为马尔可夫决策过程；利用所述专家演示数据采用最大熵逆强化学习获取自动驾驶过程的奖励函数，并利用深度强化学习优化驾驶策略模型；将优化后的驾驶策略模型输出至客户端，以便所述客户端利用所述优化后的驾驶策略模型根据环境感知信息实现自动驾驶。
44.本技术提供的自动驾驶方法，同步采集驾驶环境的多模态感知信息和驾驶行为数据，并采用transformer融合多模态感知数据得到3d驾驶场景的融合特征表示，提高所获取感知数据对驾驶场景的全局表达能力，防止因驾驶场景复杂性与对抗性增加所引起的关键感知信息丢失，保证自动驾驶感知数据的可靠性。进一步，本技术将融合感知数据与驾驶行为相结合作为专家演示数据，对自动驾驶过程进行mdp(markov decision processes，马尔可夫决策过程)建模，基于最大熵逆强化学习获取奖励函数，并结合drl优化策略模型，充分利用真实驾驶场景中的复杂先验知识学习驾驶策略模型，提升自动驾驶过程中决策规划的合理性。本技术还公开了一种自动驾驶装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。
45.应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本技术。
附图说明
46.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：
47.图1为根据一示例性实施例示出的一种自动驾驶方法的流程图；
48.图2为根据一示例性实施例示出的一种自动驾驶技术的结构图；
49.图3为根据一示例性实施例示出的一种数据采集系统的结构图；
50.图4为根据一示例性实施例示出的一种基于transformer的多模态感知数据特征融合示意图
51.图5为根据一示例性实施例示出的另一种自动驾驶方法的流程图；
52.图6为根据一示例性实施例示出的一种最大熵逆强化学习获取驾驶策略流程图；
53.图7为根据一示例性实施例示出的一种自动驾驶装置的结构图；
54.图8为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
55.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。另外，在本技术实施例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
56.本技术实施例公开了一种自动驾驶方法，防止因驾驶场景复杂性与对抗性增加所引起的关键感知信息丢失，保证自动驾驶感知数据的可靠性。同时，充分利用真实驾驶场景中的复杂先验知识学习驾驶策略模型，提升自动驾驶过程中决策规划的合理性。
57.参见图1和图2，图1为根据一示例性实施例示出的一种自动驾驶方法的流程图，图2为根据一示例性实施例示出的一种自动驾驶技术的结构图。如图1所示，包括：
58.s101：获取驾驶环境的多模态感知信息和驾驶行为数据；
59.在具体实施中，数据采集系统采集驾驶环境的多模态感知信息和驾驶行为数据。作为一种可行的实施方式，本步骤可以包括：通过多个车载传感器设备获取驾驶状态作为驾驶环境的多模态感知信息；获取驾驶过程中针对不同驾驶场景所执行的操作或命令作为驾驶行为数据；其中，所述驾驶行为数据包括时间戳、速度数据、急加急减速数据和车道偏离数据中的任一项或任几项的组合；根据时间戳对所述多模态感知信息和所述驾驶行为数据在时序上进行对齐。
60.如图3所示，数据采集系统包括数据采集模块1、数据采集模块2和数据存储模块，其中，数据采集模块1采集驾驶环境的多模态感知信息，数据采集模块2同步记录驾驶行为数据，数据存储模块负责存储已采集的驾驶数据，即多模态感知信息和驾驶行为数据。
61.在车辆行驶过程中，数据采集模块1通过相机与雷达等车载传感器设备采集驾驶环境信息，即驾驶状态s，从而获取到多模态的感知信息。数据采集模块2则负责记录驾驶过程中驾驶员或车辆控制中心针对不同驾驶场景所执行的操作或命令，即驾驶行为a，该部分可通过车辆内置驾驶行为采集装置来获取，驾驶行为数据可以包括时间戳、速度数据、急加急减速数据、车道偏离数据等。
62.数据采集模块2获取的驾驶行为数据直接存入数据存储模块中，数据采集模块1获取的rgb图像、雷达点云等多模态感知信息送入数据处理系统，经由特征提取、特征融合等一系列数据操作后可得到处理后的多模态融合数据，这时再将其存入数据存储模块。根据
前期记录的时间戳，将多模态融合数据与驾驶行为数据时序上进行对齐，从而得到一系列驾驶状态-驾驶行为的数据对(s,a)的数据集合以备后续使用。
63.s102：利用卷积神经网络提取所述多模态感知信息的多尺度特征，利用transformer对所述多尺度特征进行融合得到融合特征数据；
64.在本步骤中，数据处理系统对多模态感知信息采用cnn(convolutional neural networks，卷积神经网络)分别提取多尺度特征，并结合transformer获取融合特征数据。作为一种可行的实施方式，本步骤可以包括：利用卷积神经网络在不同网络层对所述多模态感知信息进行编码，以提取中间特征图；利用transformer对所述中间特征图进行融合得到融合特征图；将所述融合特征图的元素求和返回至每个模态分支中，得到多模态特征向量；将所述多模态特征向量进行逐个元素的求和得到融合特征数据。
65.针对包含激光雷达点云和rgb图像的多模态感知信息，其关键在于这些不同类型模态的信息融合。常用的融合方法是基于后期融合架构，即对每种信息输入在单独的流中编码，然后综合在一起。由于无法解释场景中多个智能体的行为，这种融合机制在复杂场景中会出现较大误差。为更好地描述车辆驾驶行为，本技术的数据处理系统中利用多模态融合transformer来处理单视图图像和激光雷达点云等多种模态的环境感知信息。该方法的关键思想是利用transformer的注意力机制，将rgb图像和雷达点云数据中关于3d场景的全局信息结合起来，并直接集成到不同模态的特征提取层中，以便在特征编码期间的多个阶段有效地整合来自不同模态的感知信息。
66.如图4所示，图4为基于transformer的多模态感知数据特征融合示意图。transformer模型基于编码-解码架构，其中编码模块包含一个自注意力层和一个前馈神经网络，可帮助不同特征提取层获取到不同模态感知信息的多尺度特征，解码模块相比于编码模块多了一层编解码注意力层，用于帮助获取多模态感知信息融合后的关键特征。与transformer传统的符号输入结构不同，借助transformer处理多模态驾驶数据时，需要对特征图进行操作，因此可以将每种模态信息的中间特征图视为一个集合，并将集合中的每种元素当作一个符号来进行处理。整个处理过程中，本实施例利用cnn对输入图像和雷达点云信息在不同网络层对场景的不同方面进行编码，即提取中间特征图，cnn包括多个卷积 pooling(池化)层和全连接 softmax，然后对这些中间特征图采用transformer的注意力层完成多尺度融合，得到多模态感知信息的融合特征图，进一步将融合特征图的元素求和反馈到每个单独的模态分支。完成一系列多尺度特征融合操作后，将多模态特征向量进行逐元素求和，经过mlp(多层感知器，multi-layerperceptron)得到处理后的3d场景表示，即融合特征。
67.s103：将所述融合特征数据和所述驾驶行为数据结合为专家演示数据，并将自动驾驶过程建模为马尔可夫决策过程；
68.在本步骤中，将融合特征数据与同步记录的驾驶行为相结合作为专家演示数据，将自动驾驶过程建模为马尔可夫决策过程。mdp定义为一个五元组(s，a，t，r，γ)，其中s为自动驾驶车辆所处状态空间，a为自动驾驶车辆的行为决策空间，t为状态转移函数，r为奖励函数，γ∈(0，1)为奖励的衰减因子。根据上述定义，可以将自动驾驶过程描述为在每一时刻为汽车寻找一个最优的驾驶策略π：s
→
a，一旦策略被确定，则给定状态下车辆采取行动的效果仅取决于当前的驾驶策略，因此整个驾驶过程可以被视为一个马尔科夫链。策略
的选取目标通常是优化当前状态至未来的累计奖励，假设车辆状态为s，该状态下每个策略所产生的行为表示为a，累计奖励可表示为：
[0069][0070]
其中，t为时刻，ra(s
t
，s
t 1
)为驾驶状态s
t
下采取驾驶行为a转移到驾驶状态s
t 1
的奖励值，最优策略π
*
的选取过程为：
[0071][0072][0073]
其中，pa(s
t
，s
t 1
)为驾驶状态s
t
下采取驾驶行为a转移到驾驶状态s
t 1
的概率值，v(s
t
)表示未来衰减叠加的累计奖励。具体求解最优策略时，通常表现为所有可能的状态s与s
′
间的迭代收敛过程，即
[0074]vi 1
(s)＝max{∑s′
pa(s，s
′
)(ra(s，s
′
) γvi(s
′
))}；
[0075]
其中i为迭代次数，当v(s)逐渐趋于稳定，则迭代结束，并输出最优策略。
[0076]
s104：利用所述专家演示数据采用最大熵逆强化学习获取自动驾驶过程的奖励函数，并利用深度强化学习优化驾驶策略模型；
[0077]
在本步骤中，利用专家演示数据采用最大熵逆强化学习获取奖励函数，结合drl学习驾驶策略模型，优化驾驶策略模型。在具体实施中，初始化dnn奖励函数模型，利用专家演示数据样本估计专家驾驶策略的状态分布概率密度，基于专家演示数据的策略状态分布概率密度，采用drl更新驾驶策略，并迭代计算驾驶状态-驾驶行为访问计数的期望，利用状态-动作访问计数的期望计算最大熵梯度，进一步更新dnn权重，判断收敛条件，此处的收敛条件包括迭代次数达到预设迭代次数，或，所述深度神经网络的权重的梯度的模达到预设阈值。若未收敛则重复迭代上述更新操作，否则更新过程结束，保留dnn模型参数，并输出最优策略模型π
*
。
[0078]
s105：将优化后的驾驶策略模型输出至客户端，以便所述客户端利用所述优化后的驾驶策略模型根据环境感知信息实现自动驾驶。
[0079]
在本步骤中，将优化后的驾驶策略模型输出至自动驾驶客户端，根据环境感知信息实施自动驾驶。
[0080]
本技术实施例提供的自动驾驶方法，同步采集驾驶环境的多模态感知信息和驾驶行为数据，并采用transformer融合多模态感知数据得到3d驾驶场景的融合特征表示，提高所获取感知数据对驾驶场景的全局表达能力，防止因驾驶场景复杂性与对抗性增加所引起的关键感知信息丢失，保证自动驾驶感知数据的可靠性。进一步，本技术实施例将融合感知数据与驾驶行为相结合作为专家演示数据，对自动驾驶过程进行mdp建模，基于最大熵逆强化学习获取奖励函数，并结合drl优化策略模型，充分利用真实驾驶场景中的复杂先验知识学习驾驶策略模型，提升自动驾驶过程中决策规划的合理性。
[0081]
本技术实施例公开了一种自动驾驶方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：
[0082]
参见图5，根据一示例性实施例示出的另一种自动驾驶方法的流程图，如图5所示，包括：
[0083]
s201：获取驾驶环境的多模态感知信息和驾驶行为数据；
[0084]
s202：利用卷积神经网络提取所述多模态感知信息的多尺度特征，利用transformer对所述多尺度特征进行融合得到融合特征数据；
[0085]
s203：将所述融合特征数据和所述驾驶行为数据结合为专家演示数据，并将自动驾驶过程建模为马尔可夫决策过程；
[0086]
s204：利用深度神经网络初始化奖励函数和基于所述奖励函数的驾驶策略模型；
[0087]
在利用mdp建模进行自动驾驶的处理过程中，其关键在于奖励函数r的设计，这需要尽可能考虑多种影响因素，包括路线完成度、驾驶安全性、乘坐舒适性等。然而，车辆行驶时通常无法准确得到所有环境状态，并且传感器输入与输出动作间的映射可能非常复杂。因此，在一些现实任务中，人为设置环境的奖励函数是一项艰巨而费力的任务。因此，本技术基于处理后得到的专家演示数据，采用最大熵逆强化学习来帮助建立环境的奖励函数模型。结合dnn参数化奖励函数，训练基于drl算法的自动驾驶策略。
[0088]
如图6所示，图6为最大熵逆强化学习获取驾驶策略流程图。在本步骤中，定义奖励函数，由于此时mdp过程中的奖励函数r是未知的，需要从一组专家演示数据中推断出来，这里采用dnn作为参数化奖励函数，并基于最大熵原理来解决逆强化学习驾驶策略的问题。
[0089]
首先，将专家演示数据定义为一系列驾驶状态-驾驶行为对的集合{(s1，a1)，(s2，a2)，...，(sn，an)}，其中si代表一个驾驶状态，ai代表专家在状态si下选择的驾驶行为。然后，将奖励函数定义为驾驶状态-驾驶行为-奖励值的形式，即r：s
×a→
r，奖励函数表示为r(s，a)。这种形式的定义将动作考虑在内，可以体现专家数据中对特定动作的偏好，因此便于重现对可用动作具有不同偏好的驾驶行为。
[0090]
作为一种可行的实施方式，所述利用深度神经网络初始化奖励函数，包括：将所述专家演示数据定义为驾驶状态-驾驶行为的数据对的集合；利用深度神经网络初始化驾驶状态-驾驶行为-奖励值的形式的奖励函数。在具体实施中，基于以上定义，在采用dnn学习奖励函数时，有两种网络结构可选，一种是同时输入驾驶状态的向量与驾驶行为的向量，输出为奖励值；另一种是仅输入状态向量，输出多个通道，代表多个驾驶行为分别对应的奖励值。两种dnn均可作为驾驶行为-驾驶状态-奖励函数的近似模型，在实际应用过程中可以选取其中便于实现的任意一种结构。也即，所述深度神经网络的输入为驾驶状态和驾驶行为，输出为奖励值；或，所述深度神经网络的输入为驾驶状态，所述深度神经网络包括多个输出通道，每个输出通道对应一个驾驶行为对应的奖励值。
[0091]
s205：利用所述专家演示数据估计驾驶策略模型的状态分布概率密度，并基于所述状态分布概率密度利用深度强化学习更新驾驶策略模型；
[0092]
s206：迭代计算驾驶状态-驾驶行为的访问计数的期望，利用所述期望计算最大熵梯度，并基于所述最大熵梯度更新所述深度神经网络的权重；
[0093]
s205-s206的目的为更新基于奖励函数模型的驾驶策略π，首先初始化dnn奖励函数模型。在具体实施中，利用专家演示数据样本估计专家驾驶策略的状态分布概率密度。考虑到概率模型pa(s，s
′
)未知，分析每个驾驶状态-驾驶行为-驾驶状态三元组(s，a，s
′
)的次数来计算每个可能结果的状态转移概率，可表示为
[0094]
[0095]
其中c(s，a，s
′
)为采取驾驶行为a从驾驶状态s转移到驾驶状态s
′
的累积次数。随着策略模型与驾驶环境的不断交互，状态访问次数接近无穷大，概率值pa(s，s
′
)将逐渐接近于真实概率分布。
[0096]
基于所得到的专家演示数据的策略状态分布概率密度，本技术发明采用带模型学习的ppo更新当前驾驶策略π，并引入下列迭代公式计算驾驶状态-驾驶行为访问计数的期望：
[0097]ei 1
[μ(s)]＝∑s′
∈s
∑
a∈a
pa(s，s
′
)π(s
′
，a)ei[μ(s
′
)]；
[0098]ei 1
[μ(s，a)]＝π(s，a)e
i 1
[μ(s)]；
[0099]
本实施例可以采用超参数性能较好的ppo(proximal policy optimization，近端策略优化)算法作为说明，当然也可以选择其他drl算法，如ddpg(deep deterministic policy gradient，深度确定性策略梯度)、sac(softactor-critic，柔性致动-评价)、td3(twin delayed deep deterministic policy gradient，双延迟深度确定性策略梯度)等。
[0100]
进一步的，更新dnn奖励函数模型参数。在具体实施中，当驾驶状态s达到最终状态或目标状态s
final
后，将不会发生未来的状态转移。这时可确定最大熵梯度：
[0101][0102]
其中，为专家演示数据的似然函数，θ为dnn的网络权重。进一步计算关于θ的偏导数，
[0103][0104]
其中，通过dnn反向传播得到，下面可利用更新dnn权重其中，λ是学习率，β为权重衰减系数。
[0105]
s207：判断更新后的驾驶策略模型是否满足收敛条件；若是，则进入s208；若否，则重新进入s205；
[0106]
s208：记录所述深度神经网络的权重，得到优化后的驾驶策略模型；
[0107]
s209：将优化后的驾驶策略模型输出至客户端，以便所述客户端利用所述优化后的驾驶策略模型根据环境感知信息实现自动驾驶。
[0108]
在具体实施中，通过判断策略模型是否收敛来决定该过程是否结束，收敛条件可以为更新迭代数达到初始设定的迭代上限，也可以为权重θ的梯度的模达到初始设定的阈值，在实际应用时可根据任务需求设置特定的收敛条件。若算法未达收敛条件则重复迭代上述更新操作，而当满足所设定的收敛条件，则学习过程结束，保留dnn模型参数，并输出ppo获取的最优策略模型π
*
。
[0109]
下面对本技术实施例提供的一种自动驾驶装置进行介绍，下文描述的一种自动驾驶装置与上文描述的一种自动驾驶方法可以相互参照。
[0110]
参见图7，根据一示例性实施例示出的一种自动驾驶装置的结构图，如图7所示，包括：
[0111]
数据采集模块701，用于获取驾驶环境的多模态感知信息和驾驶行为数据；
[0112]
特征融合模块702，用于利用卷积神经网络提取所述多模态感知信息的多尺度特征，利用transformer对所述多尺度特征进行融合得到融合特征数据；
[0113]
建模模块703，用于将所述融合特征数据和所述驾驶行为数据结合为专家演示数据，并将自动驾驶过程建模为马尔可夫决策过程；
[0114]
优化模块704，用于利用所述专家演示数据采用最大熵逆强化学习获取自动驾驶过程的奖励函数，并利用深度强化学习优化驾驶策略模型；
[0115]
输出模块705，用于将优化后的驾驶策略模型输出至客户端，以便所述客户端利用所述优化后的驾驶策略模型根据环境感知信息实现自动驾驶。
[0116]
本技术实施例提供的自动驾驶装置，同步采集驾驶环境的多模态感知信息和驾驶行为数据，并采用transformer融合多模态感知数据得到3d驾驶场景的融合特征表示，提高所获取感知数据对驾驶场景的全局表达能力，防止因驾驶场景复杂性与对抗性增加所引起的关键感知信息丢失，保证自动驾驶感知数据的可靠性。进一步，本技术实施例将融合感知数据与驾驶行为相结合作为专家演示数据，对自动驾驶过程进行mdp建模，基于最大熵逆强化学习获取奖励函数，并结合drl优化策略模型，充分利用真实驾驶场景中的复杂先验知识学习驾驶策略模型，提升自动驾驶过程中决策规划的合理性。
[0117]
在上述实施例的基础上，作为一种优选实施方式，所述数据采集模块701包括：
[0118]
第一获取单元，用于通过多个车载传感器设备获取驾驶状态作为驾驶环境的多模态感知信息；
[0119]
第二获取单元，用于获取驾驶过程中针对不同驾驶场景所执行的操作或命令作为驾驶行为数据；其中，所述驾驶行为数据包括时间戳、速度数据、急加急减速数据和车道偏离数据中的任一项或任几项的组合；
[0120]
对齐单元，用于根据时间戳对所述多模态感知信息和所述驾驶行为数据在时序上进行对齐。
[0121]
在上述实施例的基础上，作为一种优选实施方式，所述特征融合模块702包括：
[0122]
提取单元，用于利用卷积神经网络在不同网络层对所述多模态感知信息进行编码，以提取中间特征图；
[0123]
融合单元，用于利用transformer对所述中间特征图进行融合得到融合特征图；
[0124]
第一求和单元，用于将所述融合特征图的元素求和返回至每个模态分支中，得到多模态特征向量；
[0125]
第二求和单元，用于将所述多模态特征向量进行逐个元素的求和得到融合特征数据。
[0126]
在上述实施例的基础上，作为一种优选实施方式，所述优化模块704包括：
[0127]
初始化单元，用于利用深度神经网络初始化奖励函数和基于所述奖励函数的驾驶策略模型；
[0128]
第一更新单元，用于利用所述专家演示数据估计驾驶策略模型的状态分布概率密度，并基于所述状态分布概率密度利用深度强化学习更新驾驶策略模型；
[0129]
第二更新单元，用于迭代计算驾驶状态-驾驶行为的访问计数的期望，利用所述期望计算最大熵梯度，并基于所述最大熵梯度更新所述深度神经网络的权重；
[0130]
判断单元，用于判断更新后的驾驶策略模型是否满足收敛条件；若是，则记录所述
深度神经网络的权重，得到优化后的驾驶策略模型；若否，则重新启动第一更新单元的工作流程。
[0131]
在上述实施例的基础上，作为一种优选实施方式，所述初始化单元具体用于：
[0132]
将所述专家演示数据定义为驾驶状态-驾驶行为的数据对的集合；
[0133]
利用深度神经网络初始化驾驶状态-驾驶行为-奖励值的形式的奖励函数。
[0134]
在上述实施例的基础上，作为一种优选实施方式，所述深度神经网络的输入为驾驶状态和驾驶行为，输出为奖励值；或，所述深度神经网络的输入为驾驶状态，所述深度神经网络包括多个输出通道，每个输出通道对应一个驾驶行为对应的奖励值。
[0135]
在上述实施例的基础上，作为一种优选实施方式，所述收敛条件包括迭代次数达到预设迭代次数，或，所述深度神经网络的权重的梯度的模达到预设阈值。
[0136]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0137]
基于上述程序模块的硬件实现，且为了实现本技术实施例的方法，本技术实施例还提供了一种电子设备，图8为根据一示例性实施例示出的一种电子设备的结构图，如图8所示，电子设备包括：
[0138]
通信接口1，能够与其它设备比如网络设备等进行信息交互；
[0139]
处理器2，与通信接口1连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的自动驾驶方法。而所述计算机程序存储在存储器3上。
[0140]
当然，实际应用时，电子设备中的各个组件通过总线系统4耦合在一起。可理解，总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统4。
[0141]
本技术实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。
[0142]
可以理解，存储器3可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、磁性随机存取存储器(fram，ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram，random access memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(sram，static random access memory)、同步静态随机存取存储器(ssram，synchronous static random access memory)、动态随机存取存储器(dram，dynamic random access memory)、同步动态随机存取存储器(sdram，synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram，double data rate synchronous dynamic random access memory)、增强型同步动态随机
存取存储器(esdram，enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram，synclink dynamic random access memory)、直接内存总线随机存取存储器(drram，direct rambus random access memory)。本技术实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
[0143]
上述本技术实施例揭示的方法可以应用于处理器2中，或者由处理器2实现。处理器2可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、dsp，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器3，处理器2读取存储器3中的程序，结合其硬件完成前述方法的步骤。
[0144]
处理器2执行所述程序时实现本技术实施例的各个方法中的相应流程，为了简洁，在此不再赘述。
[0145]
在示例性实施例中，本技术实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器3，上述计算机程序可由处理器2执行，以完成前述方法所述步骤。计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、flash memory、磁表面存储器、光盘、或cd-rom等存储器。
[0146]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0147]
或者，本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0148]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种自动驾驶方法、装置及电子设备和存储介质与流程

相关文献

最热文献