基于元强化学习的智能车辆交叉口决策方法、设备及介质与流程

2022-06-01 03:00:02 来源：中国专利 TAG：

1.本技术涉及智能车辆技术领域，尤其涉及基于元强化学习的智能车辆交叉口决策方法、设备及介质。

背景技术：

2.智能车辆在安全、效率、舒适性等方面具有巨大潜力，已逐步成为未来交通的核心。但要实现在在高密度、混杂交通流环境下的自主驾驶，智能车辆行为决策能力仍面临严峻的挑战。
3.现有的决策方法主要有三种，一是基于规则的行为决策，二是基于概率模型的行为决策，三是基于学习的决策模型。虽然这些决策系统具有执行力强、执行简单的优点，但忽略了环境中动态交通因素的复杂性和不确定性。在针对交叉口左转的情况下，车辆行为决策能力的研究均依赖于固定的转弯路径，而在实际交叉口场景中，车辆的转弯路径会根据周围车流速度、车流量和驾驶员风格改变，不确定性较大。并且，现有的基于学习的决策模型虽考虑了环境中动态交通因素的复杂性和不确定性，但不能满足复杂环境下的实时性和自适应性要求。例如在某一交叉口训练收敛良好的算法，在其他交叉口表现欠佳，或是同一个交叉口内的车辆数量和运动状态变化时，决策模型表现效果欠佳，不能够给出相对合理的决策。

技术实现要素：

4.本技术实施例提供了基于元强化学习的智能车辆交叉口决策方法、设备及介质，用以解决现有的车辆行为决策方法未考虑交叉口场景的复杂性和不确定性，且自适应性欠佳，易出现针对当前场景所做出的行为策略在场景变化时不再适用的技术问题。
5.本技术实施例提供了基于元强化学习的智能车辆交叉口决策方法，方法包括：确定各第一交叉口场景中目标车辆对应的各环境车辆的第一观测状态；基于预先训练好的决策模型，获取各所述第一观测状态对应的第二观测状态、随机动作以及奖励值；其中，所述第二观测状态为各所述环境车辆在第一观测状态下一时刻所对应的观测状态；将所述各所述第一观测状态对应的第二观测状态、随机动作、奖励值，以及各所述第一观测状态，作为第一样本数据，对所述预先训练好的决策模型进行再训练，得到基于时序的决策模型；根据基于时序的决策模型，确定各第二交叉口场景中目标车辆的各环境车辆的第三观测状态；根据各所述第三观测状态以及随机梯度下降法，分别确定各所述第二交叉口场景对应的下降梯度，以确定相应的元目标；根据所述元目标，确定所述基于时序的决策模型的敏感参数；基于所述敏感参数，更新所述基于时序的决策模型，以使所述更新后的基于时序的决策模型能够根据当前观测状态确定相应的目标车辆的行为策略。
6.在本技术的一种实现方式中，对所述预先训练好的决策模型进行再训练，得到基于时序的决策模型，具体包括：确定所述预先训练好的决策模型对应的估计网络和目标网络；其中，所述估计网络和所述目标网络的结构相同；确定所述估计网络对应的第一动作价
值函数值、所述目标网络对应的第二动作价值函数值，以更新所述估计网络的敏感参数；其中，所述第一动作价值函数值和所述第二动作价值函数值分别表示所述目标车辆在所述第一观测状态和所述第二观测状态下执行相应动作所获得的动作价值；基于更新后的估计网络的敏感参数，更新对应的目标网络的敏感参数，以得到基于时序的决策模型。
7.在本技术的一种实现方式中，确定所述估计网络对应的第一动作价值函数值、所述目标网络对应的第二动作价值函数值，具体包括：所述估计网络包括动作估计网络和状态估计网络，所述目标网络包括动作目标网络和状态目标网络；根据所述第一样本数据，确定由所述目标车辆的第一观测状态和对应的随机动作所组成的状态动作对，并将所述状态动作对输入至所述状态估计网络中，以确定所述估计网络对应的第一动作价值函数值；以及基于贝尔曼方程，确定所述目标网络对应的第二动作价值函数值。
8.在本技术的一种实现方式中，根据各所述第三观测状态，分别确定各所述第二交叉口场景对应的下降梯度，以确定相应的元目标函数，具体包括：确定各所述第三观测状态对应的第二样本数据，以及各所述第二样本数据的批次；针对各所述批次对应的第二样本数据，分别确定各所述第二交叉口场景对应的下降梯度；对各所述第二交叉口场景对应的下降梯度进行加和，以得到总下降梯度；确定所述总下降梯度为所述元目标。
9.在本技术的一种实现方式中，确定各第一交叉口场景中目标车辆对应的各环境车辆的第一观测状态之前，所述方法还包括：确定多个随机交叉口场景下的环境车辆，以及所述环境车辆的观测状态信息；其中，所述观测状态信息至少包括所述环境车辆相对于所述目标车辆的相对位置和相对速度；根据所述环境车辆的观测状态信息，训练得到相应的决策模型。
10.在本技术的一种实现方式中，根据所述基于时序的决策模型，确定各所述第二交叉口场景中目标车辆的各环境车辆的第三观测状态之前，所述方法还包括：将第一样本数据放入所述预先训练好的决策模型的经验池中进行再训练，得到所述基于时序的决策模型；在所述基于时序的决策模型完成训练的情况下，清空所述基于时序的决策模型的经验池。
11.本技术实施例还提供了基于元强化学习的智能车辆交叉口决策设备，设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器能够：确定各第一交叉口场景中目标车辆对应的各环境车辆的第一观测状态；基于预先训练好的决策模型，获取各所述第一观测状态对应的第二观测状态、随机动作以及奖励值；其中，所述第二观测状态为各所述环境车辆在第一观测状态下一时刻所对应的观测状态；将各所述第一观测状态对应的第二观测状态、随机动作、奖励值，以及各所述第一观测状态，作为第一样本数据，对所述预先训练好的决策模型进行再训练，得到基于时序的决策模型；根据所述基于时序的决策模型，确定各第二交叉口场景中目标车辆的各环境车辆的第三观测状态；根据各所述第三观测状态，分别确定各所述第二交叉口场景对应的下降梯度，以确定相应的元目标；根据所述元目标，确定所述基于时序的决策模型的敏感参数；基于所述敏感参数，更新所述基于时序的决策模型，以使所述更新后的基于时序的决策模型能够根据当前观测状态确定相应的目标车辆的行为策略。
12.在本技术的一种实现方式中，至少一个处理器还能够：确定各所述第三观测状态对应的第二样本数据，以及各所述第二样本数据的批次；针对各所述批次对应的第二样本
数据，分别确定各所述第二交叉口场景对应的下降梯度；对各所述第二交叉口场景对应的下降梯度进行加和，以得到总下降梯度；并确定所述总下降梯度值为所述元目标。。
13.本技术实施例还提供了一种非易失性计算机存储介质，其特征在于，其上存储有计算机指令，计算机指令在被执行时实现：确定各第一交叉口场景中目标车辆对应的各环境车辆的第一观测状态；基于预先训练好的决策模型，获取各所述第一观测状态对应的第二观测状态、随机动作以及奖励值；其中，所述第二观测状态为各所述环境车辆在第一观测状态下一时刻所对应的观测状态；将各所述第一观测状态对应的第二观测状态、随机动作、奖励值，以及各所述第一观测状态，作为第一样本数据，对所述预先训练好的决策模型进行再训练，得到基于时序的决策模型；根据所述基于时序的决策模型，确定各第二交叉口场景中目标车辆的各环境车辆的第三观测状态；根据各所述第三观测状态，分别确定各所述第二交叉口场景对应的下降梯度，以确定相应的元目标；根据所述元目标，确定所述基于时序的决策模型的敏感参数；基于所述敏感参数，更新所述基于时序的决策模型，以使所述更新后的基于时序的决策模型能够根据当前观测状态确定相应的目标车辆的行为策略。
14.本技术实施例提供的基于元强化学习的智能车辆交叉口决策方法、设备及介质，针对复杂交叉口场景中的不确定因素，对目标车辆周围的环境车辆进行观测时，不再是根据不同时刻下的单帧观测状态去预测目标车辆的行为策略，而是将观测状态改成连续帧的集合，从而提出了基于时序的决策模型算法，通过设置随机环境的训练方式使决策模型能够应对随机状态的交叉口场景。并且，在通过再训练得到的基于时序的决策模型的基础上，进一步融入进元学习思想，从而对基于时序的决策模型进行二次梯度更新，能够使决策模型快速适应复杂交叉口场景的新环境，提高决策效率和准确性。
附图说明
15.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
16.图1为本技术实施例提供的基于元强化学习的智能车辆交叉口决策方法方法流程图；
17.图2为本技术实施例提供的基于二次梯度的深度强化学习决策流程图；
18.图3为本技术实施例提供的测试场景1示意图；
19.图4为本技术实施例提供的测试场景1中各车辆的速度变化曲线图；
20.图5为本技术实施例提供的测试场景1中目标车辆的加速度变化曲线图；
21.图6为本技术实施例提供的测试场景2示意图；
22.图7为本技术实施例提供的测试场景2中各车辆的速度变化曲线图；
23.图8为本技术实施例提供的测试场景2中目标车辆的加速度变化曲线图；
24.图9为本技术实施例提供的测试场景3示意图；
25.图10为本技术实施例提供的测试场景3中各车辆的速度变化曲线图；
26.图11为本技术实施例提供的测试场景3中目标车辆的加速度变化曲线图；
27.图12为本技术实施例提供的测试场景4示意图；
28.图13为本技术实施例提供的测试场景4中各车辆的速度变化曲线图；
29.图14为本技术实施例提供的测试场景4中目标车辆的加速度变化曲线图；
30.图15为本技术实施例提供的t-maml-ddpg决策模型和t-ddpg决策模型对比图；
31.图16为本技术实施例提供的基于元强化学习的智能车辆交叉口决策设备结构示意图。
具体实施方式
32.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
33.下面通过附图对本技术实施例提出的技术方案进行详细的说明。
34.图1为本技术实施例提供的基于元强化学习的智能车辆交叉口决策方法流程图。如图1所示，本技术实施例提供的基于元强化学习的智能车辆交叉口决策方法主要包括以下步骤：
35.s101、服务器确定各第一交叉口场景中目标车辆对应各环境车辆的第一观测状态。
36.在复杂交叉口场景中，车辆的行为决策过程是一个连续的时序过程，因此，服务器针对多个第一交叉口场景，需确定出该第一交叉口场景中的目标车辆的第一观测状态，以通过第一观测状态进行决策模型的再训练，从而根据当前时刻执行的动作条件准确预测出其他时刻对应的执行动作。
37.其中，多个第一交叉口场景均不相同，其表示同一交叉口在不同时刻的场景，也可以表示不同交叉口在同一时刻的场景。不同的交叉口场景之间可以是环境车辆数量不同，也可以是环境车辆的初始位置或速度状态不同。其中，环境车辆为各交叉口场景中目标车辆周围的车辆。第一观测状态表示目标车辆在对应的第一交叉口场景中当前时刻的观测状态，至少包括环境车辆相对于目标车辆的相对位置和相对速度。
38.在一个实施例中，服务器在对决策模型进行再训练之前，需基于预设的多个随机交叉口场景，确定多个随机交叉口场景下的环境车辆及其对应的观测状态信息。其中，观测状态信息至少包括环境车辆相对于目标车辆的相对位置和相对速度。进而，服务器根据观测状态信息训练得到相应的决策模型。在本技术实施例中，可采用强化学习(deep deterministic policy gradient，ddpg)决策模型作为车辆行为决策模型。
39.在交叉口场景下，环境车辆与环境之间不断交互，从而改变自己的动作和环境的状态，并且得到惩罚或奖励，这一过程可以被抽象表示成一个四元组(s,a,p,r)，其中s是一个有限的状态集，a是一组有限的控制动作，p是一个状态在执行一个动作时转换到一个新状态的概率，r是预期的即时奖励。通过迭代，最终目标是为车辆找到一个最优行为策略π∶s
→
a，通过该策略，车辆需要知道在每个状态下需要采取何种最佳行动，从而最大化奖励。值函数由v
π
(s)表示，表示从状态开始并遵循策略π得到的奖励的期望值。
40.而ddpg决策模型是一种改进的行动者-评论家(actor-critic)方法。在行动者-评论家算法中，行动者中的策略函数根据给定的当前状态s给出一个动作a。评论家基于行动者输出值a和当前状态s评估出相应的动作价值函数。通过预先训练好的ddpg决策模型可根据目标车辆的当前状态输出对应的随机动作，从而确定出目标车辆在当前观测状态下所要
采取的行为策略。然而，预先训练好的ddpg决策模型遵循目标车辆当前时刻的状态仅与上一时刻相关的特性，在复杂交叉口场景中，车辆的行为决策过程实质上是一个连续的时序过程，而车辆在下一时刻的状态是不确定的，因此，ddpg模型在复杂场景下很难训练至收敛，也无法针对不同时刻的目标车辆状态得到准确的动作。
41.因此，服务器需在ddpg决策模型的基础上，结合对未来状态的估计来评判策略的优良。
42.s102、服务器基于预先训练好的决策模型，获取各第一观测状态对应的第二观测状态、随机动作以及奖励值。
43.其中，第二观测状态为各环境车辆在第一观测状态的下一时刻所对应的观测状态。服务器在确定目标车辆当前时刻的第一观测状态后，需根据预先训练好的ddpg决策模型，确定第一观测状态对应的执行动作，以及在第一观测状态执行完相应动作后对应的第二观测状态，并确定相应的奖励值。之后，据此进行ddpg决策模型的再训练，以得到结合时序性的决策模型即t-ddpg决策模型。
44.s103、将所述各第一观测状态对应的第二观测状态、随机动作、奖励值，以及各所述第一观测状态，作为第一样本数据，对所述预先训练好的决策模型进行再训练，得到基于时序的决策模型。
45.服务器将第一观测状态，以及第一观测状态对应的随机动作、奖励值、第二观测状态作为第一样本数据，将其输入至预先训练好的ddpg决策模型的经验池中进行再训练。具体地，设当前时刻下目标车辆的第一观测状态为s，下一时刻对应的第二观测状态为s
′
，a为第一观测状态所对应的随机动作，r为即时奖励值，则第一样本数据表示为《s,a,r,s
′
》。
46.在一个实施例中，ddpg决策模型中包括actor网络(动作网络)和critic网络(状态网络)两个网络。并且，ddpg模型为双网络结构，actor网络(动作估计网络)和critic网络(状态估计网络)为估计网络，它们均具有对应的目标网络即target-actor网络(动作目标网络)和target-critic网络(状态目标网络)。在对ddpg决策模型进行训练时，只需要训练actor网络和critic网络的敏感参数，而target-actor网络和target-critic网络中的敏感参数是在模型迭代训练过程中根据估计网络的敏感参数复制得到的。因此，根据第一样本数据再训练ddpg决策模型，实质上就是更新敏感参数从而使输出的行为策略对应的奖励值最大化的过程，具体通过以下方式实现：
47.首先，服务器确定预先训练好的ddpg决策模型对应的估计网络和目标网络；其中，估计网络和目标网络的结构相同。在迭代训练过程中首先更新估计网络的敏感参数。
48.其次，在ddpg算法中，critic网络会基于当前状态s和输出的行动a评估出相应的第一动作价值函数值，相应的，也会基于下一时刻的状态s
′
和对应的行动a
′
评估出第二动作价值函数值。服务器会先根据估计网络对应的第一动作价值函数值、目标网络对应的第二动作价值函数值，更新估计网络。
49.具体地，服务器可根据第一样本数据确定由第一观测状态s以及第一观测状态对应的随机动作a组成的状态动作对《s,a》，然后将状态动作对输入至状态估计网络中去，得到对应的第一动作价值函数值。
50.以及，服务器根据贝尔曼方程，可得出相应的第二动作价值函数：
[0051][0052]
其中，p(s,π,s
′
)为执行策略π后从状态s开始到状态s
′
结束的状态转移概率，r(s,π,s
′
)是按照策略π从s过渡到s
′
后所期望得到的奖励值，γ是折现因子。进而服务器能够根据奖励值r和s
′
、a
′
，得到第二动作价值函数值。
[0053]
其中，第一动作价值函数值和第二动作价值函数值分别表示所述目标车辆在第一观测状态和第二观测状态下执行相应动作所获得的动作价值，即q值。需要说明的是，第一动作价值函数值对应的是估计网络的q值，第二动作价值函数值对应的是目标网络的q值。
[0054]
进一步地，服务器在确定估计网络和目标网络的q值后，会进一步根据二者之间差值的平方，确定相应的损失函数，并根据损失函数，更新critic网络的梯度。具体通过以下公式实现：
[0055][0056]
其中，q(s,a|θq)表示估计网络的q值，yi表示目标网络的q值，n表示批次总数。
[0057]
进一步地，服务器更新critic网络之后，可得到确定性策略，进而可通过策略梯度来更新actor网络。服务器基于更新后的状态估计网络，确定目标车辆从第一观测状态到相应执行动作所对应的策略，并针对更新后的策略，计算策略的梯度；根据策略的梯度，通过以下公式，对actor网络进行更新：
[0058][0059]
其中，n表示第一样本数据的批次总数，q(s,a|θq)表示第一动作价值函数值，表示q值的梯度，表示策略π的梯度。
[0060]
至此，便完成了critic网络和actor网络的训练和相应敏感参数的更新。
[0061]
最终，服务器根据更新后的估计网络，更新对应的目标网络，至此便得到了t-ddpg决策模型。在t-ddpg决策模型中，通过经验回放和异步更新的方法解决连续动作空间问题。目标网络敏感参数根据如下方程更新：
[0062]
θq′
←
τθq (1-τ)θq′
[0063]
θ
μ
′
←
τθ
μ
(1-τ)θ
μ
′
[0064]
其中，θq表示critic网络的敏感参数，θ
μ
表示actor网络的敏感参数。
[0065]
建立t-ddpg决策模型可将车辆行为策略的采取扩展到当前及过去一段时间的观测状态，这样，基于第一观测状态训练得到的决策模型在第二观测状态所对应的时刻内仍具能够输出准确的随机动作，在面对实时性较高的交叉口场景时，可以根据环境状态及时得到相应的策略，灵活性和准确性较高。
[0066]
s104、服务器根据基于时序的决策模型，确定各第二交叉口场景中目标车辆的各环境车辆的第三观测状态。
[0067]
服务器在对决策模型进行敏感参数的一次更新的基础上，当适应新的交叉口场景
时会采样新的任务并对已经更新的敏感参数进行二次训练，使在更新后的敏感参数下的所有任务的损失函数的总和最小，从而使奖励有较大的提升，决策模型的适应性更强。其中，一个新任务可能包括在一个新交叉口环境中实现一个新目标或成功实现一个以前训练过的目标，使策略能够快速适应复杂多变的场景。
[0068]
在一个实施例中，在对ddpg决策模型进行再训练时，服务器将第一样本数据放入了经验池中，而在t-ddpg决策模型完成训练的情况下，当适应新任务时，服务器需清空经验池，这样可以使决策模型适用于周围车辆的数量随机的场景，减小误差，提高决策的适用性。
[0069]
在一个实施例中，当清空经验池后，服务器需根据t-ddpg决策模型，获取各第二交叉口场景中目标车辆的各环境车辆的第三观测状态，以通过第三观测状态在第二交叉口场景下对t-ddpg决策模型的敏感参数进行更新，使t-ddpg决策模型可适应第二交叉口场景输出相应策略。
[0070]
s105、服务器根据各第三观测状态，分别确定各第二交叉口场景对应的下降梯度，以确定相应的元目标。
[0071]
在一个实施例中，服务器在对t-ddpg决策模型的敏感参数进行二次更新时，是利用更新后的策略去采样第二样本数据对已经更新的敏感参数进行二次更新。通过采集多个交叉口场景下的样本数据并对其进行训练，能够使t-ddpg决策模型广泛学习所有场景的内部特征，根据各场景的总梯度去进行参数更新，实现了跨任务的参数优化。
[0072]
本技术实施例采用了模型无关的元学习(model-agnostic meta-learning，maml)，是一种根据元学习思想来学习任何标准模型的参数的方法，以使模型为快速适应新场景做好准备，旨在面向新的场景时优化模型参数，使得通过一个或少量梯度计算就能够产生最大效率的行为策略。设一个参数化的函数模型用f
θ
表示，模型的初始参数为θ，更新后变为θ
′i。通过对各第二交叉口场景进行一个或多个梯度计算，并将各第二交叉口场景的梯度进行加和，便得到决策模型学习过程中的元目标，元目标可使模型在θ
′i下所有任务的损失函数总和最小。
[0073]
具体地，服务器确定第三观测状态对应的第二样本数据，以及第二样本数据的批次即min-batch。之后，针对各min-batch对应的第二样本数据，确定各第二交叉口场景对应的下降梯度；然后，对各第二交叉口场景对应的下降梯度进行加和，以得到总下降梯度；最后，将总下降梯度作为元目标。元目标旨在使各第二交叉口场景下的损失函数的总和最小，通过以下公式，可得到元目标：
[0074][0075]
其中，表示损失函数，α为步长，θ表示t-ddpg决策模型的敏感参数，q(s,a'|θ)表示动作价值函数值。
[0076]
s106、服务器根据元目标，确定基于时序的决策模型的敏感参数。
[0077]
服务器在得到元目标后，可通过以下公式，更新t-ddpg决策模型的敏感参数：
[0078]
本技术实施例将maml的思想融入到t-ddpg决策模型中，目的是使目标车辆使用之前通过与环境交互获取的少量经验来快速获得一个针对新的场景任务的行为策略，提高了t-ddpg决策模型对新环境的适应性，加快了模型收敛速度。在本技术实施例中，元目标为actor网络的梯度，通过对actor网络的梯度进行加和，能够使t-ddpg模型快速适应新的交叉口场景，从而输出相应的行为策略。
[0079]
图2为本技术实施例提供的基于二次梯度的深度强化学习决策流程图。如图2所示，本技术实施例提供的智能车辆交叉口决策方法采用了二次梯度更新的方法。首先，服务器基于预先训练好的ddpg决策模型，初始化模型参数θ，然后设置随机交叉口场景即多个第一交叉口场景中的训练任务。之后，将第一样本数据放入经验池中进行ddpg决策模型的再训练，更新相应的actor网络和critic网络，得到t-ddpg决策模型，至此便完成了基于随机交叉口场景的决策模型的一次梯度更新。之后，在各第二交叉口场景下，基于t-ddpg决策模型，确定相应的第二样本数据，并据此进行多场景下的梯度计算，根据各场景梯度的总和进行参数优化，从而更新初始参数θ。至此，便完成了智能车辆交叉口决策模型的二次梯度更新。基于更新后的t-ddpg决策模型，目标车辆能够快速适应随机场景时，得到较优的行为策略。
[0080]
s107、服务器基于敏感参数，更新基于时序的决策模型，以使更新后的t基于时序的决策模型能够根据当前观测状态确定相应的行为策略。
[0081]
更新后的t-ddpg决策模型(t-maml-ddpg决策模型)能够快速适应新场景，并根据当前环境车辆的观测状态确定目标车辆的行为策略，提高了模型的泛化能力。
[0082]
下面基于不同交叉口场景，采用训练2000轮之后的对t-maml-ddpg决策模型进行随机场景测试。测试结果如下：
[0083]
场景1：3辆环境车，本车注重效率，趋于先行。
[0084]
图3为本技术实施例提供的测试场景1示意图。该场景中3辆环境车即环境车1、环境车2和环境车3在同一车道。本车在环境车1左转之后采取先行策略。图4描述了各车的速度变化，可以看出前3.5秒内，各个车辆加速前行，随后本车保持加速先行通过冲突点，此时环境车2减速让行，等待本车通过冲突点之后加速前行，环境车3在后方基本一直保持着车速前行。图5中描述了此场景下的决策算法的输出策略，加速度曲线以先急后缓的趋势上升。
[0085]
场景2：4辆环境车，本车注重效率，趋于先行。
[0086]
图6为本技术实施例提供的测试场景2示意图。环境车1右转，但右转路线不影响本车的左转路线，本车选择加速先行，在环境车2、3和4到达冲突区域之前通过冲突区域，然后到达目标车道。图7、8中描述了各个车辆的速度变化和加速度变化，环境车2先是加速，环境车4速度较慢，在4s后才加速到6m/s，而本车根据周围车的位置和速度状态选择先行，保持加速，率先通过冲突点驶向目标车道，环境车2因为本车的加速策略选择让行，在5.5s时减速，随后加速前行，环境车4和3因离冲突点的距离较远，基本保持速度前行。
[0087]
场景3：5辆环境车，本车注重效率，趋于先行。
[0088]
图9为本技术实施例提供的测试场景3示意图。环境车1左转，从图10、11中可以看出，环境车4和5加速，环境车2要右转所以减速等待4和5离开冲突区域，环境车3因为环境车2的减速而减速保持一定距离，本车选择让行环境车4和5，然后在环境车3到达冲突点之前
和环境车2一起驶向目标车道。本车在此场景的左转通行过程中因为周围车辆数量较多而处于试探状态，速度曲线呈现反复加速减速的趋势，环境车辆4和5的速度在3s后几乎保持不变，环境车2在右转过程速度曲线较波动，本车考虑到环境车4和5的位置和2的右转趋势，选择减速让行环境车4、5，在环境车3到达冲突区域前先行通过。
[0089]
场景4：有5辆环境车，本车注重安全，趋于让行。
[0090]
图12为本技术实施例提供的测试场景4示意图。从图13、14中可以看出，环境车4和5加速，本车首先选择让行4和5，在4和5离开冲突区域时，环境车2到达冲突区域，且5和3也将要到达，此时本车选择继续让行，等所有环境车离开冲突区域后再左转驶向目标车道。5辆环境车均几乎以恒定的速度驶向交叉口，而从(a)中看出5辆车的间距较均匀，本车无法从任何两辆车中间穿过，最后采取减速策略，在12s后加速通过，此时环境车5已经通过冲突区域。
[0091]
对t-maml-ddpg决策模型和t-ddpg决策模型做对比测试，分别将两种决策模型在随机复杂交叉口场景中训练，随机设置周围车辆的数量、周围车辆运动状态以及本车的初始位置，每训练20轮以后进行一次测试回合。如图15所示，为t-maml-ddpg和t-ddpg的测试结果对比。
[0092]
从图15中可以看出，两种方法在80次测试后均以区域收敛，t-ddpg算法在前20次的测试中，回合奖励值均在-1000左右或以下，在30次测试之后回合奖励值才到达-500左右，回合奖励值在-1000左右表明此时车辆会发生碰撞，在600轮训练之后t-ddpg策略才学会避免碰撞。而t-maml-ddpg在前几次测试的回合奖励值就比较高，回合奖励值达到-500左右，相当远t-ddpg在第30次测试时的效果，相比于t-ddpg前几次测试的奖励值，t-maml-ddpg提高了66.7％，说明基于t-maml-ddpg决策算法的本车车辆很快适应了复杂场景，并在满足安全通行的基础上，寻找兼顾效率通行的策略。从收敛速度上来看，t-ddpg在第60次测试时收敛，而t-maml-ddpg在30次测试后已经趋于收敛，收敛速度相对t-ddpg来说提高约50％。从图中可以看出，t-maml-ddpg和t-ddpg算法在第50次测试之后回合奖励值区域一致，表明基于maml的t-ddpg决策算法在最终表现能力上与t-ddpg算法相差不多，但是能够帮助目标车辆较快地适应复杂多变的交叉口环境，提高适应能力，快速的适应性能够使算法尽早具备自适应处理随机任务的能力，即提升泛化性。
[0093]
以上为本技术提出的方法实施例。基于同样的思路，本技术的一些实施例还提供了上述方法对应的设备和非易失性计算机存储介质。图16为本技术实施例提供的基于元强化学习的智能车辆交叉口决策设备结构示意图。如图16所示，设备包括：处理器1601；及存储器1602，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器1601能够执行如上的基于元强化学习的智能车辆交叉口决策方法。
[0094]
本技术的一些实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，计算机可执行指令设置为：如上的基于元强化学习的智能车辆交叉口决策方法。
[0095]
本技术中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0096]
本技术实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有
与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。
[0097]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0098]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0099]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0100]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0101]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0102]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0103]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0104]
以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员
来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。
[0105]
本技术中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0106]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0107]
以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种组合仪表版本信息的新型查阅方法及系统与流程

基于元强化学习的智能车辆交叉口决策方法、设备及介质与流程

相关文献

最热文献