一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的自动驾驶车辆换道决策系统及方法与流程

2022-07-31 07:37:56 来源:中国专利 TAG:


1.本发明涉及自动驾驶控制技术领域,具体涉及一种基于深度强化学习的自动驾驶车辆换道决策系统及方法。


背景技术:

2.近年来,世界范围内对自动驾驶格外关注,被认为是缓解交通拥堵,减少交通事故和环境污染的重要技术,目前一些自动驾驶已经进行了大规模的道路测试,比如谷歌自动驾驶和苹果自动驾驶。据研究,在当前的交通事故中,有超过30%的道路事故是不合理的换道行为引起的,因此,针对智能辅助驾驶技术中的变道辅助技术的研究显得尤为重要,而现阶段主流的基于规则算法都面临着数据量不足导致模型无法完全应对自动驾驶车辆在换道过程中的场景无限化问题,造成换道失败或者影响换道过程中的安全性。
3.现有技术中,有一种基于分层强化学习的自动驾驶车辆换道决策控制方法,属于自动驾驶控制技术领域。解决了现有自动驾驶过程中存在安全性差/效率低的问题。本发明利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合q估值函数,获取q估值最大的动作;利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰或换道动作对应的奖励函数,建立深度q学习的加速度决策模型,获得换道或跟驰加速度信息,当换道时,采用5次多项式曲线生成一条参考换道轨迹。本发明适用于自动驾驶换道决策及控制。
4.虽然该方案能够针对换道进行模拟训练,并且针对场景和周边环境进行奖励函数的确定,保证对自动驾驶换道的训练成果,但是其针对具体的换道场景仍然存在数据量不足、换道场景受限的问题,最终导致其换道的准确率和安全性过低。


技术实现要素:

5.本发明意在提供一种基于深度强化学习的自动驾驶车辆换道决策系统及方法,以提高自动驾驶车辆换道策略的准确率,保证换道安全。
6.为达到上述目的,本发明采用如下技术方案:基于深度强化学习的自动驾驶车辆换道决策系统,包括处理器模块,以及分别与处理器模块连接的数据采集模块、数据分析模块和换道策略模块;
7.数据采集模块,用于采集目标车辆的数据信息,以及采集目标车辆附近的干扰车辆的运行数据,然后形成第一数据集合并将第一数据集合发送至数据分析模块;
8.数据分析模块,用于对第一数据集合进行分析处理,并得到自动驾驶车辆的换道场景以及换道数据;
9.换道策略模块,用于根据得到的换道场景和换道数据生成第一换道策略,并将第一换道策略发送至处理器模块;
10.处理器模块,包括数据存储单元和换道执行单元,所述数据存储单元,用于存储第
一换道策略;所述换道执行单元,用于根据所述第一换道策略得到基于规则的换道轨迹执行模型并控制自动驾驶车辆进行车道变更。
11.本方案的原理及优点是:实际应用时,基于规则换道模型的基础上使用深度强化学习方法对换道模型进行训练和尝试,利用actor-critic算法对自动驾驶车辆的换道策略进行不断优化,使自动驾驶汽车能够准确应对换道过程中的场景无限化问题,从而提高自动驾驶车辆自动换道策略的准确性,保证车辆在换道过程中的安全性,减少道路拥挤情况和碰撞事故的发生。相比于现有技术,本发明的优点在于建立的深度学习模型能够对自动驾驶技术的换道策略进行更全面准确的测试,指导自动驾驶车辆快速安全地完成车道变更,得到的换道轨迹能够适用于自动驾驶车辆换道的场景,使车辆可以在有限的数据量条件下对新的交通场景做出正确合理的反应,保障驾驶安全。
12.优选的,作为一种改进,第一数据集合包括当前时刻周边车辆信息、当前时刻周边道路信息、下一时刻周边道路信息、下一时刻周边车辆信息和本车车辆信息。
13.有益效果:通过采集周边的车辆信息和道路信息,能够准确提供换道所要参考的数据,从而进行换道安全判断,避免换道过程中目标车辆与周边干扰车辆发生碰撞安全事故,同时也能够极大程度上提高本换道模型的换道策略的准确性。
14.优选的,作为一种改进,对第一数据集合进行分析处理为,利用预设的分析算法对有限的第一数据集合进行无限场景探索分析,并在得到对应的换道场景前,对分析过程进行深度强化学习。
15.有益效果:通过此过程对采集到的数据进行分析处理,能够有效地克服当前数据量不足的缺陷,在有限的数据量上对换道模型和换道策略进行无限场景的分析,能够极大程度提高换道场景的多样性以及换道策略的准确性,为自动驾驶车辆的自动安全换道行为提供可靠保障,从而保证行车安全。
16.优选的,作为一种改进,预设的分析算法为actor-critic算法;所述深度强化学习为,利用马尔可夫决策过程对分析过程进行描述,形成一个六次元组m=(s,a,p,r,ρ,γ),其中s为状态空间,所述状态空间为所有状态的集合;a为动作空间,所述动作空间为所有动作的集合;p为状态转移概率;r为状态转移过程的奖励函数;γ为状态转移过程中的折扣系数。
17.有益效果:通过利用actor-critic算法强化学习的数据与环境的交互,并且学习不是片面得到单步决策的最优策略,而是追求与环境交互获得的长期累积奖励,使对自动驾驶车辆的换道策略训练结果更准确,保证换道的安全性。
18.优选的,作为一种改进,奖励函数为式中,v为车辆实时速度,v
min
为车辆训练过程中采用的最小速度,v
max
为车辆训练过程中采用的最大速度,a为对于换道过程中速度奖励值,b是对车辆发生碰撞的碰撞惩罚值,collision为仿真环境对于车辆发生碰撞的反馈结果。
19.有益效果:在对换道模型训练过程中,利用奖励函数对训练过程进行累积奖励,对换道模型的参数数据进行修正,从而提高换道模型的准确度。
20.优选的,作为一种改进,数据分析模块在基于规则换道模型的基础上使用深度强化学习方法对换道模型进行训练和尝试,最后对模型进行验证。
21.有益效果:对于多次强化学习后得到的换道模型,为保证精准度,利用深度强化学习的方法进行训练和尝试,从而完成对换道模型的修正,保证换道模型参数的正确性,为自动驾驶车辆提供更精准的换道策略服务。
22.优选的,作为一种改进,换道策略模块在生成换道策略时利用基于规则的轨迹规划算法来辅助计算,所述基于规则的轨迹规划算法表达式为其中θi为规划步长起点的航向角,为终点横向坐标,xn为车辆n的纵向位置,yn为车辆n的横向位置。
23.有益效果:通过此方式规划换道轨迹,从而保证自动驾驶车辆在换道过程中的安全性,不与其他车辆发生碰撞,并且能够有效减少车辆的换道时间,提高道路车辆通行效率,有效减缓道路拥挤情况。
24.优选的,作为一种改进,利用马尔可夫决策过程对分析过程进行描述时,状态值函数定义如下,其中a
t
,r
t
,s
t 1
,a
t 1
,r
t 1
,...~π表示轨迹来自策略π与环境的交互。
25.有益效果:通过不断更新道路环境数据,从而提供新的换道决策数据,保证新数据的不断更新,从而提高换道模型的实时性和准确性,保障自动驾驶车辆的换道安全。
26.本发明还提供了一种基于深度强化学习的自动驾驶车辆换道决策方法,包括以下步骤:
27.步骤s1,采集目标车辆的数据信息和目标车辆附近的干扰车辆的运行数据;
28.步骤s2,利用actor-critic算法对采集到的数据进行分析处理,并结合马尔可夫决策过程来描述强化学习问题,得到自动驾驶车辆的换道场景以及换道数据;
29.步骤s3,利用基于规则的轨迹规划算法计算得到换道轨迹并利用奖励函数对测试过程进行校正,最终得到换道策略;
30.步骤s4,利用自动驾驶仿真环境highway_env和基于动力学的仿真软件carsim对本模型的输出结果进行验证。
31.有益效果:利用本方法实现自动驾驶车辆的自动换道模型的测试以及换道策略的生成,保证车辆的换道安全,提高换道的效率,减少道路拥挤情况,同时也能够极大程度上提高道路交通安全性。
32.优选的,作为一种改进,对本模型的输出结果进行验证为,利用自动驾驶仿真环境使用高速公路场景对车辆换道策略进行测试,并用平均绝对误差和平均绝对相对误差这两个统计量对模型进行误差统计。
33.有益效果:通过对模型的输出结果进行验证,能够最大程度保证模型对于变道策略的决策准确性,从而避免换道车辆和周边车辆发生碰撞,提高换道的安全性和效率,另一方面也提高了道路交通的通行效率,减缓了拥堵的情况。
附图说明
34.图1为本发明基于深度强化学习的自动驾驶车辆换道决策系统实施例一的系统示意图。
35.图2为本发明基于深度强化学习的自动驾驶车辆换道决策系统实施例一的lstm神经网络示意图。
36.图3为本发明基于深度强化学习的自动驾驶车辆换道决策系统实施例一的lstm神经网络构成示意图。
37.图4为本发明基于深度强化学习的自动驾驶车辆换道决策方法实施例一的流程示意图。
38.图5为本发明基于深度强化学习的自动驾驶车辆换道决策方法实施例一的收益变化示意图。
具体实施方式
39.下面通过具体实施方式进一步详细说明:
40.说明书附图中的标记包括:处理器模块1、数据采集模块2、数据分析模块3、换道策略模块4、数据存储单元5、换道执行单元6。
41.实施例一:
42.本实施例基本如附图1所示:基于深度强化学习的自动驾驶车辆换道决策系统,包括处理器模块1,以及分别与处理器模块1连接的数据采集模块2、数据分析模块3和换道策略模块4;
43.数据采集模块2,用于采集目标车辆的数据信息,以及采集目标车辆附近的干扰车辆的运行数据,然后形成第一数据集合并将第一数据集合发送至数据分析模块3;
44.数据分析模块3,用于对第一数据集合进行分析处理,并得到自动驾驶车辆的换道场景以及换道数据;
45.换道策略模块4,用于根据得到的换道场景和换道数据生成第一换道策略,并将第一换道策略发送至处理器模块1;
46.处理器模块1,包括数据存储单元5和换道执行单元6,数据存储单元5,用于存储第一换道策略;换道执行单元6,用于根据所述第一换道策略得到基于规则的换道轨迹执行模型并控制自动驾驶车辆进行车道变更。
47.数据采集模块2采集的数据包括当前时刻周边车辆信息、当前时刻周边道路信息、下一时刻周边道路信息、下一时刻周边车辆信息和本车车辆信息;
48.如附图2所示,利用actor-critic算法对第一数据集合进行处理,使用马尔可夫决策过程来描述强化学习问题,形成一个六次元组m=(s,a,p,r,ρ,γ),其中s为状态空间,即所有状态的集合;a为动作空间,即所有动作的集合;p为状态转移概率;r为状态转移过程的奖励函数;γ为状态转移过程中的折扣系数。马尔科夫决策过程m和策略π条件下,状态值函数定义如下,
49.50.其中,a
t
,r
t
,s
t 1
,a
t 1
,r
t 1
,...~π表示轨迹来自策略π与环境的交互,上式表示从状态st=s出发,智能体使用策略π与环境交互得到的期望累积奖励,类似地,也可以定义状态动作值函数:
[0051][0052]
表示从状态st出发,执行动作at后,智能体使用策略π与交互得到的期望累积奖励,并且状态值函数和状态动作值函数可以互相转换,当策略π是概率性策略时,
[0053][0054][0055]
对于任意概率性策略π而言,有以下的贝尔曼期望方程,
[0056][0057][0058]
当智能体采取策略π,从状态st执行动作at转移到状态st 1并获得奖励rt后,直接进行如下的动态规划更新,
[0059]vπ
(s
t
)=v
π
(s
t
) α(r
t
γv(s
t 1
)-v(s
t
))
[0060]
令r
t
γv(s
t 1
)-v(s
t
)=td-error
[0061]
得到以后神经网络会进行反向传播,actor基于策略梯度,策略被参数化为神经网络,用θ表示,θ迭代的方向是最大化周期奖励的期望,目标函数表示为:
[0062][0063]
其中,τ表示一个采样周期,π
θ
(τ)表示序列出现的概率,求j(θ)的梯度可得:
[0064][0065]
则:
[0066][0067]
最后更新神经网络参数:
[0068][0069]
如附图3所示,lstm神经网络主要由输入层、隐藏层、输出层神经元构成,其中隐藏层神经元主要有三个门结构以及一个状态构成:遗忘门、输入门、输出门、细胞状态。后期对
于换道策略的训练和修正,首先在新数据传入长短期记忆网络时要决定哪些旧数据需要从细胞状态中扔掉,而此部分则是由遗忘门决定的,它是一个sigmoid函数层,
[0070][0071]
式中,wf是遗忘门的权重矩阵,h
t-1
是t-1时刻的细胞状态,x
t
是环境输入数据,bf是遗忘门的偏置项。
[0072]
然后再经过一个sigmoid函数层,即输入门会决定哪些值需要被更新,然后一个tanh函数层会创建一个向量,作为加入到细胞状态的候选值:
[0073][0074][0075]
式中,bi是输入门的偏置项,是准备用以更新的数据矩阵,wc是准备用以更新的数据的权重矩阵。
[0076]
然后再更新上一时刻细胞状态,首先从细胞状态移除掉我们在忘记门决定的信息,再以决定对每一个状态值更新的比例来加入输入门计算出的候选值:
[0077][0078]
最后决定将要输出的部分,输出是在细胞状态的基础上进行适当的处理,即通过一个sigmoid函数层来决定中有哪些部分需要被更新,然后将经过一个tanh函数处理,并将遗忘门里sigmoid层的输出相乘,从而决定输出:
[0079]ot
=σ(wo[h
t-1
,x
t
] bo)
[0080]
式中,wo是输出门的权重矩阵,bo是输出门的偏置项。
[0081]
改进前细胞状态为:
[0082]st
=tanh(wg[h
t-1
,x
t
] bg)
·
σ(wi[h
t-1
,x
t
] bi) s
t-1
·
σ(wf[h
t-1
,x
t
]bf))
[0083]
输出为:
[0084]ht
=tanh(s
t
)
·
σ(wo[h
t-1
,x
t
] bo)
[0085]
则第p个输出的值和真实值之间的误差是:
[0086][0087]
选择形式较为简单的三次多项式作为基于规则的轨迹规划算法,其表达式如下:
[0088][0089]
式中,θi为规划步长起点的航向角,为终点横向坐标,xn为车辆n的纵向位置,yn为车辆n的横向位置。
[0090]
如附图4所示,本发明还提供了一种应用于上述系统中的基于深度强化学习的自动驾驶车辆换道决策方法,包括以下步骤:
[0091]
步骤s1,采集目标车辆的数据信息和目标车辆附近的干扰车辆的运行数据;
[0092]
步骤s2,利用actor-critic算法对采集到的数据进行分析处理,并结合马尔可夫决策过程来描述强化学习问题,得到自动驾驶车辆的换道场景以及换道数据;
[0093]
步骤s3,利用基于规则的轨迹规划算法计算得到换道轨迹并利用奖励函数对测试过程进行校正,最终得到换道策略;
[0094]
步骤s4,根据换道策略得到基于规则的换道轨迹执行模型,并利用自动驾驶仿真环境highway_env和基于动力学的仿真软件carsim对本模型的输出结果进行验证。
[0095]
在强化学习过程中,利用自动驾驶仿真环境使用高速公路场景对车辆换道策略进行测试,并用平均绝对误差和平均绝对相对误差这两个统计量对模型进行误差统计,
[0096][0097]
式中,n表示测试数据样本数,d
r,i
表示第i辆车的名义值,d
s,i
表示第i辆车的预测值。
[0098]
如附图5所示,本模型收益随着训练次数增加而变化的趋势,可知训练收益随着训练次数增加而快速上升,训练超过2000次时,收益值稳定并且趋于收敛。
[0099]
利用本系统,能够基于现在实际数据的基础上,完成对车辆换道策略的更新,从而为自动驾驶车辆提供自动换道策略和方法,从而保证换道过程的顺利进行,避免与周边车辆发生碰撞,提高了换道的安全性和效率,进一步保障了道路交通的通畅,减少了城市交通拥挤情况。
[0100]
本实施例具体实施过程如下:
[0101]
第一步,利用数据采集模块2采集目标车辆的数据信息和目标车辆附近的干扰车辆的运行数据,包括当前时刻周边车辆信息、当前时刻周边道路信息、下一时刻周边道路信息、下一时刻周边车辆信息和本车车辆信息,然后形成第一数据集合并将第一数据集合发送至数据分析模块3。
[0102]
第二步,数据分析模块3接收到第一数据集合后,对第一数据集合进行分析处理,利用actor-critic算法对第一数据集合进行处理,使用马尔可夫决策过程来描述强化学习问题,形成一个六次元组m=(s,a,p,r,ρ,γ),然后得到自动驾驶车辆的换道场景和换道数据。
[0103]
第三步,换道策略模块4根据得到的换道场景和换道数据生成第一换道策略,并将第一换道策略发送至处理器模块1,处理器模块1的数据存储单元5接收并存储第一换道策略,并由换道执行单元6根据第一换道策略得到基于规则的换道轨迹执行模型,并控制自动驾驶车辆进行车道变更。
[0104]
第四步,对换道轨迹执行模型进行训练和尝试,最后利用自动驾驶仿真环境highway_env和基于动力学的仿真软件carsim对本模型的输出结果进行验证,利用自动驾驶仿真环境使用高速公路场景对车辆换道策略进行测试,并用平均绝对误差和平均绝对相对误差这两个统计量对模型进行误差统计,最终得到的换道轨迹和速度在动力学仿真中变
化平稳,可以和目标轨迹保持较小误差的条件下被跟踪,车辆行驶稳定性良好。
[0105]
近年来,世界范围内对自动驾驶格外关注,被认为是缓解交通拥堵,减少交通事故和环境污染的重要技术,目前一些自动驾驶已经进行了大规模的道路测试,比如谷歌自动驾驶和苹果自动驾驶。据研究,在当前的交通事故中,有超过30%的道路事故是不合理的换道行为引起的,因此,针对智能辅助驾驶技术中的变道辅助技术的研究显得尤为重要,而现阶段主流的基于规则算法都面临着数据量不足导致模型无法完全应对自动驾驶车辆在换道过程中的场景无限化问题,造成换道失败或者影响换道过程中的安全性。
[0106]
本方案中,建立了深度强化学习模型,并综合考虑了目前主流换道模型的不足,从而引入基于规则的训练模型,对于有限数据下神经网络如何能适应和学习到更多驾驶技巧的问题提出了解决思路,利用采集到的目标车辆的数据信息,以及采集目标车辆附近的干扰车辆的运行数据来进行统计分析处理,利用actor-critic算法对第一数据集合进行处理,使用马尔可夫决策过程来描述强化学习问题,形成一个六次元组m=(s,a,p,r,ρ,γ),并对换道模型利用深度强化学习方法来进行训练和尝试,最后利用自动驾驶仿真环境highway_env和基于动力学的仿真软件carsim对本模型的输出结果进行验证,整个验证过程中相较于以往,因为本模型的换道场景以及换道策略数据选择量多,且本方案提供的换道策略更加精准,因此相比于以往的模式,本方案中的换道行程时间反而更少,对比发现行程时间减少50%以上,碰撞的概率减少75%以上,进而有效地保证了本模型换道策略的真实性和准确性,指导自动驾驶车辆快速安全地完成车道变更,得到的换道轨迹能够适用于自动驾驶车辆换道的场景,使车辆可以在有限的数据量条件下对新的交通场景做出合理的反应,不仅可提供的备用换道策略数据量大,同时对换道过程中的周围环境监控数据也实时在反馈至本模型中,从而对换道过程中的换道策略进行及时干扰跟进,提高自动驾驶车辆换道的安全性,有效降低了道路交通拥挤情况和事故发生率,保障了驾乘人员生命安全。
[0107]
实施例二:
[0108]
本实施例基本与实施例一相同,区别在于:本系统还包括显示模块,在进行换道模型分析建立过程中,利用显示模块实时显示自动驾驶车辆的换道轨迹和车辆运行数据,能够更直观准确地得知车辆换道的具体情况。
[0109]
本实施例的具体实施过程与实施例一相同,区别在于:
[0110]
第四步,对换道轨迹执行模型进行训练和尝试,最后利用自动驾驶仿真环境highway_env和基于动力学的仿真软件carsim对本模型的输出结果进行验证,利用自动驾驶仿真环境使用高速公路场景对车辆换道策略进行测试,并用平均绝对误差和平均绝对相对误差这两个统计量对模型进行误差统计,最后得到准确的自动驾驶换道策略,整个训练以及验证过程中,利用显示模块实时显示自动驾驶车辆的换道轨迹和车辆运行数据。
[0111]
提供显示换道轨迹和换道数据的功能,从而使自动驾驶车辆的换道测试更准确,也使操作人员能更直观地了解到整个测试过程,便于对不合格的地方进行更正,提高换道测试的测试效率。
[0112]
实施例三:
[0113]
本实施例基本与实施例一相同,区别在于:所述系统还包括换道轨迹修正模块,用于在换道过程中因为路况信息变化导致根据当前换道轨迹不能安全完成换道时,对自动驾驶车辆的换道轨迹进行修正,从而使自动驾驶车辆顺利完成换道,提高换道的安全保障,同
时也能够极大程度上保障驾乘安全。
[0114]
本实施例的具体实施过程与实施例一相同,区别在于:
[0115]
第三步,换道策略模块4根据得到的换道场景和换道数据生成第一换道策略,并将第一换道策略发送至处理器模块1,处理器模块1的数据存储单元5接收并存储第一换道策略,并由换道执行单元6根据第一换道策略得到基于规则的换道轨迹执行模型,并控制自动驾驶车辆进行车道变更;在换道过程中,若因一下意外情况导致路况信息变化,从而导致根据当前换道轨迹不能安全完成换道时,换道轨迹修正模块对自动驾驶车辆的换道轨迹进行实时修正,从而使自动驾驶车辆顺利完成换道。
[0116]
考虑到自动驾驶车辆周边道路环境的无规则变化以及周边车辆的紧急刹车或者突然加速等情况,在自动驾驶车辆按照当前换道策略进行车道变更过程中,若道路信息发送变化,由换道轨迹修正模块介入对换道轨迹进行实时修正,从而保证换道的安全顺利进行,不仅保障了换道的安全性,同时也能够保障驾乘人员的安全,减少交通事故的发生,改善交通情况。
[0117]
以上所述的仅是本发明的实施例,方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明技术方案的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献