一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习的自动驾驶行为一体化决策方法

2022-11-14 13:18:26 来源:中国专利 TAG:


1.本发明涉及一种基于深度强化学习的自动驾驶行为一体化决策方法,属于智能驾驶决策开发技术领域。


背景技术:

2.智能车辆决策系统可以更安全有效地完成驾驶意图。车辆在复杂交通场景中运行的关键技术在于决策控制的准确、快速响应和执行。决策控制的任务是为复杂的车辆动作(如跟驰、避障、换道和超车)发出指令,并将其传递给车辆的动作执行模块。从微观角度看,车辆控制分为纵向控制和横向控制。跟驰和换道的结合可以实现大多数驾驶意图,如跟驰、超车和避障。
3.然而,鉴于车道变更行为的随机性和复杂性,对车道变更模型的开发相对较少,且车道变换行为与车辆纵向行驶相互作用。因此,综合研究车道变换行为和车辆跟驰行为的对智能驾驶控制至关重要。


技术实现要素:

4.本发明所要解决的技术问题是:提供一种基于深度强化学习的自动驾驶行为一体化决策方法,使用深度强化学习算法将车道变换和车辆跟驰行为整合到综合决策控制模型中,可以简化综合模型的复杂性,并以无模型的方式更有效地探索最优决策。
5.本发明为解决上述技术问题采用以下技术方案:
6.一种基于深度强化学习的自动驾驶行为一体化决策方法,包括如下步骤:
7.步骤1,构建车辆换道行为模型,作为智能驾驶决策集成模型的上层部分,引入车道优势函数与危险动作屏蔽机制,采用d3qn算法训练所述车辆换道行为模型,区分环境的潜在价值和做出换道决策时选择换道动作的价值;
8.步骤2,构建车辆跟驰行为模型,作为智能驾驶决策集成模型的下层部分,采用ddpg算法训练所述车辆跟驰行为模型,处理跟驰决策并输出连续车速控制;
9.步骤3,选取混合标准驾驶工况下的训练环境,对上层部分和下层部分的模型进行耦合训练,实现上层部分和下层部分模型的集成。
10.作为本发明的一种优选方案,所述步骤1的具体过程如下:
11.1.1,定义马尔科夫决策过程的动作action:
12.action={-1,0,1}
13.当交通场景为3车道时,-1表示选择右侧车道,0表示选择中间车道,1表示选择左侧车道;
14.1.2,定义马尔科夫决策过程的奖励reward:
15.reward=α*vr β*lc γ*c
16.其中,α和β分别表示主车在换道时对新的车速状态的奖励系数和换道频繁惩罚参数,vr表示主车车速,lc表示在执行当前动作的这一秒中是否发生了车道变更,γ表示用于
减少碰撞次数的惩罚系数,c表示跟驰过程中发生碰撞的次数;
17.1.3,定义马尔科夫决策过程的状态:
[0018][0019]
其中,ar表示主车加速度,lane_index表示主车当前所在车道的车道序号,hi分别表示前一辆车的速度、前一辆车的加速度以及第i条车道中的车头间距,pvi表示车道优势函数值,n表示车道总数;
[0020]
1.4,设定主车希望寻求最快追上前车,理想情况下,在跟驰前车的过程中主车经历三个阶段:加速到最高车速、保持最高车速以及降至前车车速;引入以下车道优势函数:
[0021][0022]
其中,表示第i条车道上前车的速度,分别表示第i个车道上的主车在跟驰前车的过程中经历的三个阶段的持续时间,h表示主车与前车的车头间距,lcf为当前车道的换道可行性,使用主车在第i条车道上依据最快追上前车原则获得的未来平均速度作为车道优势函数值pvi;
[0023]
1.5,计算主车从当前速度加速到最大速度的时间ta、主车从最大速度减速到前车速度的时间td,以及主车在加速和减速期间分别行驶的距离sa、sd:
[0024][0025][0026][0027][0028]
其中,v
max
、a
max
、a
min
分别表示主车的最大速度、最大加速度、最小加速度,vf表示前车车速;
[0029]
1.6,计算加速和减速期间主车与前面车辆之间的距离s
error

[0030]serror
=(ta td)*vf h-(sa sd)
[0031]
1.7,定义各个持续时间:
[0032][0033][0034][0035]
当s
error
小于0时,车辆所能行驶的最高车速小于道路限制最高车速;
[0036]
1.8,若车辆行驶最高车速小于道路限制最高车速时,最高车速v

max
的计算如下:
[0037][0038][0039][0040]
其中,t
′1为主车车速vr加速到最大可行速度v

max
时的时间,t
′3为从最大可行速度v

max
减速到前车车速vf的时间;
[0041]
求解t
′1,t
′3,并代入1.4的公式中得到第i条车道的优势函数值;
[0042]
1.9,基于优势函数,设置危险动作屏蔽机制,若某车道无法满足换道条件,则优势函数值为0,当模型输出换至该车道的动作时,说明动作是危险的;
[0043]
1.10,设定换道可行性判定条件:
[0044]v′
en
>a
safe
且v

fn
>a
safe
[0045]
其中,v

en
表示主车应采取的减速度,v

fn
表示新的跟随车在换道后应采取的减速度,a
safe
表示车辆在道路上的最大安全减速度绝对值;当采取换道动作后,主车和新的跟随车的减速度绝对值大于最大安全减速度绝对值时,说明此换道过程存在危险;
[0046]
1.11,设定危险动作屏蔽机制为最小化d3qn网络中dueling部分结构中危险动作对应的q值。
[0047]
作为本发明的一种优选方案,所述步骤2中,设定车辆跟驰行为模型的目标与上层的车辆换道行为模型的效益目标一致;
[0048]
对于车辆跟驰行为模型,定义动作action:
[0049]
action={a∈[-3,3]}
[0050]
其中,a表示动作;
[0051]
定义奖励reward:
[0052][0053]
其中,α

表示车辆跟驰状态的速度奖励系数,β

表示下一秒发生碰撞的惩罚系数,γ

表示用于提升驾驶舒适度的奖励系数,vr表示主车车速,c

表示在执行当前动作的这一秒内是否发生危险的跟驰行为,表示加速度的平方值;
[0054]
定义状态:
[0055]
{vr,vf,h,af}
[0056]
其中,vf表示前车车速,h表示主车与前车的车头间距,af表示前车加速度。
[0057]
作为本发明的一种优选方案,所述步骤3中,选择多种标准工况进行组合,将组合工况作为车流行驶的参考工况,组合工况要求涵盖车辆的加速、减速以及怠速不同汽车行驶场景,其中包括城市道路低速运行特征、高速段运行特征、瞬时速度变化较大特征以及变化较平缓特征;
[0058]
让车流的头部车辆按照组合工况进行加减速,其余车辆按照idm模型和mobil模型自由行驶,当主车不断超车成为车流的领先者时,将训练对象更换为车流的最后一辆车,循
环此过程以获得更多的训练样本。
[0059]
作为本发明的一种优选方案,所述步骤3中,针对智能驾驶决策集成模型,采用耦合训练的方式进行训练,耦合训练过程中智能驾驶决策集成模型的上、下层部分共享智能体的速度奖励和碰撞惩罚,下层的车辆跟驰行为模型根据上层的换道选择调整智能体的速度,最终实现上层部分和下层部分模型的集成。
[0060]
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
[0061]
1、本发明采用分层强化学习方法使模型更加全面,上层和下层采用不同的强化学习算法设计,考虑了两个任务之间影响因素和输出行为的差异;构建了共享状态空间,将分层体系结构的集成模型与训练相耦合,保证了复合驾驶操作过程的连续性,解决了协同协作差的问题。
[0062]
2、本发明为决策模型建立了车道优势函数和危险动作屏蔽机制,用于车道变更,从而消除碰撞,有效地保障驾驶安全性。
[0063]
3、本发明使用多个标准工况下的车流环境搭建多车道训练场景,结合sumo软件进行了交通仿真,提升了训练环境的真实性与复杂度,增强了模型的泛化能力;根据ngsim数据进行轨迹重构后的结果,其有效性得以验证。
附图说明
[0064]
图1是本发明一种基于深度强化学习的自动驾驶行为一体化决策方法的架构图;
[0065]
图2是本发明换道场景示意图;其中,(a)和(d)表示当前车间距足够时,主车加速到最高车速、保持最高车速、降至前车车速所持续的时间分别为t1,t2,t3;(b)、(c)、(e)、(f)表示在完成加速后,主车突然刹车以防止碰撞,即t1到t3期间的减速过程;
[0066]
图3是本发明危险动作屏蔽机制示意图;
[0067]
图4是本发明一种基于深度强化学习的自动驾驶行为一体化决策方法的总体思路流程图。
具体实施方式
[0068]
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0069]
本发明提出一种基于深度强化学习的车辆自主变速与换道决策集成模型的开发方法,大体框架如图1所示,将决策过程分为车道选择和纵向车速控制过程。
[0070]
本发明利用交通模拟器模拟驾驶环境及车辆的动态特性。当没有发生碰撞时,假设车辆的加速和减速性能可以确保安全。
[0071][0072]
跟驰模型控制的动作是当前时间步下主车所需要采取的速度变化,它是一个一维变量,最大值为正的加速度上限值,最低为负的减速度上限值。
[0073]
本发明使用分层强化学习建立了一个车道变更和跟驰的综合决策模型,并将驾驶任务分解为具有时间和逻辑优先级的车道变更决策和车辆纵向速度控制决策。如图4所示,具体步骤如下:
[0074]
步骤一、构建车辆换道行为模型,作为智能驾驶决策集成模型的上层部分。采用
d3qn(dueling double deep q network)算法进行训练,区分环境的潜在价值和做出换道决策时选择换道动作的价值,并创新性地引入车道优势函数与危险动作屏蔽机制;
[0075]
步骤二、构建车辆跟驰行为模型,作为智能驾驶决策集成模型的下层部分。采用ddpg(deep deterministic policy gradient)算法进行训练,处理跟驰决策并输出连续车速控制,保障车辆驾驶的高效性和平稳性;
[0076]
步骤三、选择混合标准驾驶工况构建高度复杂的训练环境,提升模型对真实驾驶场景的适应性,将上下两层模型进行耦合训练,实现双层模型的有效集成。
[0077]
步骤一具体包括以下步骤:
[0078]
具有优先经验回放机制的d3qn通过添加竞争网络来调整每个动作的价值。该算法的策略适用于换道过程。在选择车道时,每个车道都有其优势。此外,在该算法中,这种优势可以表示为状态的值。通过动作值进行最优选择的方法可以与本发明提出的车道优势函数结合使用。
[0079]
本发明主要考虑策略变道和强制变道,追求更大的整体速度效益,而不考虑路径选择和保证变道安全性,并将车道选择模型定义如下:
[0080]
定义动作:
[0081]
action={-1,0,1}
[0082]
以3车道的交通场景为例:公式中的-1表示选择右侧车道,0表示选择中间车道,1表示选择最左侧车道。
[0083]
定义奖励:
[0084]
reward=α*vr β*lc γ*c
[0085]
其中,α和β分别代表了主车在换道时对新的车速状态的奖励系数和换道频繁惩罚参数,γ指的是用于减少碰撞次数的惩罚系数,vr表示主车车速,lc表示在执行当前动作的这一秒中是否发生了车道变更,c表示换道引发的碰撞。经过多次测试后,本发明将α设置为0.9,β设置为-0.1,γ设置为-20。
[0086]
定义状态:
[0087][0088]
其中,vr表示主车的速度,ar表示加速度,lane_index表示主车当前所在车道的车道序号,hi分别表示前一辆车的速度、前一辆车的加速度以及车道i中的车头间距,pvi指的是车道优势函数值,n指的是车道总数。
[0089]
本发明引入了车道优势函数。如图2所示,根据主车车速与前车车速的关系和前车车间距离的大小,将跟驰过程分为六种状态,v_f,v_r,v_max分别表示前车车速、主车车速和道路最大限速。本发明假设主车希望寻求最快追上前车,理想情况下,在跟驰前车的过程中主车将经历三个阶段:加速到最高车速、保持最高车速、降至前车车速。他们持续的时间分别为t1,t2,t3。如图2中的(a)和(d)所示,当前车间距足够时,主车将具备以上所述的三个过程。当间距减少时,主车只能先加速到某个速度,再进行急刹车防止与前车碰撞,即图2中的(b)和(e)中的v_max,或图2中的(c)和(f)中的v_max。在完成加速后,主车会突然刹车以防止碰撞,即图2中的(b)、(c)、(e)、(f)中所示的t1到t3期间的减速过程。
[0090]
[0091][0092]
其中,指的是第i条车道上前车的速度,指的是第i个车道上的主车在跟驰前车的过程中将经历的三个阶段的持续时间,h指的是当前车道的车头间距,lcf为当前车道的换道可行性。使用主车在第i条车道上依据最快追上前车原则获得的未来平均速度为优势值pvi。
[0093]
计算换道后为防止碰撞主车和新的追随者需要采取的加速度v

_ego_new
,v

_follow_new
,与最大加速度和最大减速度比较,判断是否上述加减速度是否安全,并进行如下计算:
[0094][0095][0096][0097][0098]
其中,v
max
、a
max
、a
min
分别代表主车的最大速度、最大加速度、最小加速度,ta是主车从当前速度加速到最大速度的时间,td是主车从最大速度减速到前车速度的时间,sa、sd分别指的是加速和减速期间行驶的距离。
[0099]
计算加速和减速期间主车与前面车辆之间的距离s
error

[0100]serror
=(ta td)*vf h-(sa sd)
[0101]
其中,h表示实际车头时距。
[0102]
定义各个时间段:
[0103][0104][0105][0106]
其中,当s
error
小于0时,主车已经追上前车。此时主车无法满足完整的加速到最高车速和减速到前车车速的过程。保持最高车速的过程不存在。车辆所能行驶的最高车速将小于道路限制最高车速。
[0107]
若车辆行驶最高车速小于道路限制最高车速时,计算最高车速v

max
的步骤如下:
[0108][0109]
[0110][0111]
其中,t
′1是主车车速vr加速到最大可行速度v

max
所需的时间,t
′3是从最大可行速度v

max
减速到前车车速vf所需的时间,h是车头间距。
[0112]
将t
′1,t
′3带入优势函数的公式中得到特定车道i的优势函数。
[0113]
基于车道优势函数,本发明为决策模型引入危险动作屏蔽机制。如图3所示,其设置为:当某车道无法满足换道条件,优势值为0,当模型输出换至该车道的动作时,说明动作是危险的。当检测到当前状态的危险动作时,将d3qn网络中动作值网络的对应值最小化。这种危险的行动将不会被选中。
[0114]
设定简单的换道可行性判定条件:
[0115]v′
en
,v

fn
>a
safe
[0116]
式中,v

en
表示主车应采取的减速度,v

fn
表示新跟随者在换道后应采取的减速度。a
safe
表示车辆在道路上的最大绝对值安全减速度;当采取换道动作后主车和新的后车的减速度绝对值大于安全减速度绝对值时说明此换道过程存在危险。
[0117]
设定危险动作屏蔽机制为最小化d3qn网络中dueling部分结构中危险动作对应的q值。
[0118]
步骤二具体包括以下步骤:
[0119]
在进行分层强化学习的设置时,考虑到上层与下层的算法需要进行耦合训练,将跟驰模型的目标设定与上层的换道模型目标保持一致。本发明研究的跟驰模型主要是在保证安全的前提下追求更大的速度效益。
[0120]
定义跟驰模型如下:
[0121]
定义动作:
[0122]
action={a∈[-3,3]}
[0123]
定义奖励:
[0124][0125]
其中,α

表示车辆跟驰状态的速度奖励系数,β

表示下一秒发生碰撞的惩罚系数,γ

指的是用于提升驾驶舒适度的奖励系数,旨在通过更小的加速度值提升舒适度。vr是主车的速度,c

表示在执行当前动作的这一秒内是否发生危险的跟驰行为,表示加速度的平方值,值越大,舒适性越差。经过多次测试后,α

为0.9,β

为-20,γ

为-2.25。
[0126]
定义状态:
[0127]
{vr,vf,h,af}
[0128]
其中vr表示主车车速,af表示前车加速度,h表示主车与前车的车头间距。
[0129]
对于不同的决策任务,本发明分别使用d3n算法和ddpg算法作为分层决策的上下层,共享两种算法在效率提高和安全性方面的奖励值,然后进行耦合训练。算法的伪代码如表1。
[0130]
表1双层强化学习算法框架伪代码
[0131]
[0132][0133]
步骤三具体包括以下步骤:
[0134]
sumo仿真环境构建:
[0135]
为了提高模型的真实性,本发明采用sumo软件作为交通仿真平台。计算机配置和环境配置为windows10、python3.6,tensorflow1。cpu为amd r7-5800h,gpu为rtx3060,本发明使用python中的traci接口来操控智能体的跟驰和换道过程。交通仿真环境的路网配置参数如表2所示。
[0136]
表2交通仿真环境的配置参数
[0137]
[0138][0139]
本发明选择china_city工况、hwfet工况、udds工况、us06_2标准工况进行组合,将组合工况作为车流行驶的参考工况,工况描述如下:
[0140]
组合工况全长45153.53米,运行时间为3961秒,涵盖车辆的加速、减速、怠速等多种汽车行驶场景,其中包括了城市道路低速运行特征以及高速段运行特征、瞬时速度变化较大特征以及变化较平缓特征。
[0141]
为了增强环境的复杂度,本发明将车流的头部车辆按照组合工况进行加减速,其余车辆按照idm模型和mobil模型自由行驶。当主车不断超车成为车流的领导者时,将训练对象更换为车流的最后一辆车,循环此过程以获得更多的训练样本。
[0142]
针对本发明的双层决策控制器,本发明采取耦合训练的方式训练双层强化学习模型。耦合训练过程双层控制器共享智能体的速度奖励和碰撞惩罚。下层的跟驰模型将根据上层的换道选择不断地调整智能体的速度,最终实现双层决策控制器的良好耦合优化。
[0143]
由于耦合训练具有较大的难度,本发明使用idm跟驰模型搭配上层换道模型训练4000公里,最终进行状态共享的跟驰与换道耦合训练6000公里,其中参与训练的跟驰模型为已经过773000时间步训练的深度强化学习跟驰模型。总体网络结构配置如表3所示。
[0144]
表3总体网络结构配置
[0145][0146][0147]
在sumo中的仿真结果表明,双层模型可以将原始数据的驱动速度提高23.99%,比
其他模型具有更高的效率。
[0148]
本发明体现了采用耦合训练的双层模型的优越性。当双层模型和使用d3qn和idm的模型都可以达到最佳速度,但双层模型可以减少车道变换次数。可见,优化双层模型可以使变道和跟驰更好地协同工作。
[0149]
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献