一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的车辆换道行为决策方法及系统与流程

2022-02-24 12:33:42 来源:中国专利 TAG:

态信息决策应采取的动作,决策动作经过安全评估纠错后下发执行,获取更新的 状态信息及对应奖励值,将决策经历《原状态,决策动作,更新状态,奖励值, 交互结束标志》存储在车端经历缓存中,定期将车端经历缓存中的经历上传到云 端动态经历库,车端决策完成,等待下一车端决策周期开始。
12.本发明决策动作支持有限离散或连续动作,能满足不同应用场景的不同决策精度需 求;车端决策网络附加安全评估纠错机制,在纯强化学习基础上引入先验驾驶知识,可 以约束低效策略随机探索,提高策略探索效率。
13.步骤1)中,所述云端决策网络包括:
14.当前策略网络:云端策略学习更新时,调用历史策略网络及评估网络,从云端动态 经历库批采样经历样本,正向传播计算剪裁代理损失,将剪裁代理损失进行策略梯度反 向传播更新当前策略网络参数,从而优化主动换道策略,完成当前策略网络学习;
15.历史策略网络:用于存储历史策略,供当前策略网络调用以计算剪裁代理损失;
16.评估网络:用于评估预测状态价值,供当前策略网络调用以计算剪裁代理损失;在 云端策略学习时,基于云端动态经历库采样经历样本,正向传播计算时间差分误差损失, 损失梯度反向传播更新评估网络参数。
17.云端决策网络从云端动态经历库中重要度批采样经历样本,可以重点加强对异常 经历的学习,从而加速策略优化。
18.本发明车端决策网络包括:
19.当前策略网络:根据输入状态信息计算决策动作概率分布,据此选择车端决策动 作;
20.历史策略网络:与云端结构相同,在车端仅起到占位作用;
21.评估网络:与云端结构相同,车端不进行学习更新,仅起到占位作用。
22.本发明的车端实际上只使用到了当前决策网络,根据输入信息产生决策动作、收集 经历上传,历史策略网络和评估网络仅起占位作用使云端车端网络结构相同,从而便于 云端策略学习更新后的网络参数下发。
23.为进一步优化换道策略和提升鲁棒性,当前策略网络优化主动换道策略的具体实现 过程包括:记车辆主动换道策略为π,则最优策略π
*
为无穷控制时域范围内折扣奖励总 和期望最大时对应的策略:
[0024][0025]
其中,τ(π)为策略π下的决策轨迹;r
t
为时间步t时按照奖励函数算得的奖励值; γ∈(0,1)为折扣因子,为策略π在无穷控制时域范围内折扣奖励总和的期 望值。
[0026]
所述奖励函数r=w1rs w2rv w3ra;wi为各项对应权值,i=1,2,3;安全性奖 励其中th_f为当前车距离所在车道最近前车的车头时距,th_r 为所在车道最近后车距自车车头时距,th_b为设定的车头时距阈值,t1、t2为权重系数; 通行效率奖励其中v为自车当前车速,v
l
为当前路段限速下界,v
t
为当 前路段目标车
速;平顺性奖励其中t0为决策动作 开始执行时对应时间,t为执行决策动作所需时间,δa
long
为主车纵向加速度变化量, δa
lat
为主车横向加速度变化量,w1和w2为权重系数。附加w1和w2,以避免车辆因微 量奖励提升而选择变速换道频繁的策略,体现对车辆行驶稳定性及乘客乘坐舒适性的要 求。
[0027]
为了对策略更新幅度进行限制,避免过大的策略更新导致策略学习失稳,本发明当 前策略网络计算的剪裁代理损失l
clip
的表达式为:
[0028][0029]
其中clip()表示剪裁操作,表示根据设定的剪裁系数c将值限幅在[1-c,1 c]区 间内:若取值为1 c;若取值为1-c;;若c;;若取值为
[0030]at*
为新策略相较历史策略的相对优势,为新策略相较历史策略的相对优势,式中γ为折扣因子,为样本状态输入策略 网络按策略π前推t
forward
时间步记录经历算得的累积衰减奖励和,v
φ
为样本状态输入 评估网络计算得到的预测状态价值,两者差值为策略π的评估优势;所以式中 项为样本状态输入当前策略网络和评估网络算得的当前策 略的评估优势,项为样本状态输入历史策略网络和评估 网络算得的历史策略的评估优势,二者差值即为新策略相较历史策略的相对优势; 为新旧策略差异,其中π
θ
(a
t*
|s
t*
)为当前策略网络根据样本状态计算出的决 策动作概率分布p中最大项,记该项对应动作为a
t*
;为历史策略网络根据 样本状态算出的决策动作概率分布p’中对应于动作a
t*
的项;两项相除即算出新旧策略 差异。
[0031]
评估网络的时间差分误差td_error的计算公式为:
[0032][0033]
其中m为采样经历样本数,v
φ
(sm)为第m个样本状态输入评估网络输出的预测状态价 值,为第m个样本的衰减奖励和。时间差分误差 td_error越小,即损失越小。
[0034]
车端决策的具体实现过程包括:
[0035]
1)输入自车及周边最邻近三辆车的运动状态信息;
[0036]
2)将运动状态信息输入车端决策网络中的当前策略网络,计算得到原始决策动
作;
[0037]
3)基于预设规则对原始决策动作进行安全评估;若安全评估不通过,使用备用安全 决策动作替换原始决策动作;若通过,则直接进入步骤4);
[0038]
4)输出经步骤3)处理后的决策动作,下发给下层规划控制模块执行,获取决策动 作并执行决策动作后更新状态及奖励值;
[0039]
5)将本次交互经历《状态,决策动作,更新状态,奖励值,轮次结束标志》存入车 端经历缓存;车端经历缓存存满或到达预设经历上传周期时,将车端经历缓存中 的经历上传至云端,更新云端动态经历库。
[0040][0041]
云端策略学习下发的具体实现过程包括:
[0042]
1)从云端动态经历库中重要度批采样设定数量经历样本;
[0043]
2)将经历样本输入云端决策网络的评估网络,计算经历样本的时间差分误差损失, 将误差损失进行梯度反向传播更新评估网络参数,完成评估网络学习;
[0044]
3)将经历样本输入云端决策网络的当前策略网络和历史策略网络,调用评估网络计 算剪裁代理损失,剪裁代理损失进行策略梯度反向传播更新当前策略网络参数, 完成当前策略网络学习;若到达设定的策略存储周期,将当前策略网络参数同步 给历史策略网络存储;
[0045]
4)提取云端决策网络参数,将所述云端决策网络参数下发给车端决策网络,同步更 新车端决策网络参数,使车端获得最新的优化主动换道策略用于决策。
[0046]
本发明还提供了一种基于深度强化学习的车辆换道行为决策系统,包括:
[0047]
云端决策网络,用于每隔设定周期,从云端动态经历库中批采样经历样本用于策略 学习,更新网络参数,更新完成后将最新策略,即更新后的云端决策网络参数下发给车 端决策网络,云端策略学习更新下发完成,等待下一云端策略学习下发周期开始;
[0048]
车端决策网络,用于根据自车运动状态信息及周边车运动状态信息决策应采取的动 作,决策动作经过安全评估纠错后下发执行,获取更新的状态信息及对应奖励值,将决 策经历《原状态,决策动作,更新状态,奖励值,交互结束标志》存储在车端经历缓存中, 定期将车端经历缓存中的经历上传到云端动态经历库,车端决策完成,等待下一车端决 策周期开始。
[0049]
优选地,所述云端决策网络包括:
[0050]
当前策略网络:用于云端策略学习更新时,调用历史策略网络及评估网络,从云端 动态经历库批采样经历样本,正向传播计算剪裁代理损失,将剪裁代理损失进行策略梯 度反向传播更新当前策略网络参数,从而优化主动换道策略,完成当前策略网络学习;
[0051]
历史策略网络:用于存储历史策略,供当前策略网络调用以计算剪裁代理损失;
[0052]
评估网络:用于评估预测状态价值,供当前策略网络调用以计算剪裁代理损失;基 于云端动态经历库采样经历样本,正向传播计算时间差分误差损失,损失梯度反向传播 更新评估网络参数;
[0053]
作为一个发明构思,本发明还提供了一种基于深度强化学习的车辆换道行为决策 系统,包括部署于云端的云端控制器,以及部署于各车端的车端控制器;所述云端控制 器与各车端控制器通信;所述云端控制器与各车端控制器被配置为用于执行本发明上述 方
法的步骤。
[0054]
与现有技术相比,本发明所具有的有益效果为:
[0055]
1、本发明决策动作支持有限离散或连续动作,能满足不同应用场景的不同决策精 度需求。
[0056]
2、车端决策网络附加短时域决策安全评估纠错机制,在纯强化学习基础上引入先 验驾驶知识,可以约束低效策略随机探索,提高策略探索效率;云端策略学习时从云端 动态经历库中重要度批采样经历样本,可以重点加强对异常经历的学习,从而加速策略 优化。
[0057]
3、采用经历上传、策略下发机制,利用多车丰富的交互经历学习优化主动换道策 略下发给各车端使用,有利于策略优化和鲁棒性提升;将算力需求大的策略学习集中在 云端高性能计算机集群进行,能有效降低车端算力占用和电能消耗,有利于在车载嵌入 式计算平台实施。
附图说明
[0058]
图1为自动驾驶系统框架图;
[0059]
图2为模仿学习决策示意图;
[0060]
图3为马尔可夫决策过程;
[0061]
图4为本发明整体架构图;
[0062]
图5为剪裁近端策略优化网络结构图;
[0063]
图6为车端决策流程图;
[0064]
图7为云端策略学习下发流程图;
[0065]
图8为经历重要度存储数据结构;
[0066]
图9为实际工程应用示意图;
[0067]
图10为本发明实施流程图;
[0068]
图11为本发明实施例轮次平均奖励值随学习轮次变化曲线图;
[0069]
图12为本发明方法与ddqn方法的轮次平均奖励值变化曲线对比图。
具体实施方式
[0070]
本发明的整体架构如图4所示,本发明提出的车辆主动换道行为决策方法由车端决 策和云端策略学习下发两部分组成,基于经历上传、策略下发分布式在线学习机制进行 主动换道决策及最优策略学习,整体实施过程为:
[0071]
1)云端及多车端部署相同结构的剪裁近端策略优化决策网络,车端决策网络用于 实际决策及经历收集上传,云端决策网络定期利用多车端上传的经历进行策略学习、更 新及下发;
[0072]
2)每一车端决策周期开始时,车端决策网络根据自车运动状态信息(通过车载传 感器测得)及周边车运动状态信息(通过车车通信获取)决策应采取的动作,决策动作 经过短时域决策安全评估纠错后下发执行,获取更新状态信息及对应奖励值,将决策经 历《原状态,决策动作,更新状态,奖励值,交互结束标志》存储在车端经历缓存中,定 期将车端经历缓存中的经历通过车联网上传到云端动态经历库,车端决策完成,等待下 一车端决策周
期开始;
[0073]
3)每隔设定周期,云端决策网络从云端动态经历库中重要度批采样经历样本用于 策略学习,更新云端决策网络参数,完成后将最新策略(即云端决策网络参数)下发给 车端决策网络,使车端使用最新的主动换道策略进行决策,云端策略学习更新下发完成, 等待下一云端策略学习下发周期开始。
[0074]
分为以下五部分分别予以阐述:
[0075]
一.马尔可夫决策过程构建:将车辆主动换道行为决策问题转化为马尔可夫决策过程 进行求解;
[0076]
二.剪裁近端策略优化决策网络介绍:分别介绍剪裁近端策略优化决策网络所包含的 当前策略网络、历史策略网络及评估网络三个子网络的结构并定义各自学习损失函数;
[0077]
三.车端决策详细实现过程:介绍车端决策的具体流程。
[0078]
四.云端策略学习下发详细实现过程:介绍云端策略学习下发的具体流程。
[0079]
五.实际工程应用:阐述如何在实际工程应用中实施本发明方案。
[0080]
一:马尔可夫决策过程构建
[0081]
车辆主动换道行为决策需考虑自车及周边车辆运动状态,由于周边车辆运动不可控 且随机性大,为便于求解需适当简化问题。本发明假定车辆主动换道行为决策满足马尔 可夫性(即主动换道决策只考虑当前状态,不受历史状态影响)且状态动作转移概率未 知,将车辆主动换道行为决策问题转化为无模型马尔可夫决策过程进行求解。对应马尔 可夫决策过程描述如下:
[0082]
1.马尔可夫决策过程输入
[0083]
马尔可夫决策过程输入为自车所在车道laneh、速度vh、加速度ah以及离自车最近 的三辆环境车所在车道lanei、相对位置rsi、相对速度rvi、相对加速度rai等运动状态信 息,i=1,2,3。假定自车运动状态信息可通过车载传感器测量,周边车运动状态信息可通 过车车通信(v2v)获取,周边车运动状态信息使用车辆匀速模型(cv model)基于预估通 信时滞进行修正。
[0084]
2.马尔可夫决策过程决策输出
[0085]
马尔可夫决策过程的决策输出为16个有限离散动作(action1,action2,

,action16),由 横向动作{当前车道保持,向左换道,向右换道}与纵向动作{加速,少量加速,速度保持, 减速,少量减速}复合而成,同时附加紧急制动动作以应对突发紧急情况;决策输出可 根据具体应用场景决策精度需求设置为有限离散动作或连续动作。
[0086]
3.最优车辆主动换道策略求解
[0087]
记车辆主动换道策略为π,则最优策略π
*
为无穷控制时域范围内折扣奖励总和期望 最大时对应的策略
[0088][0089]
式中γ∈(0,1)为折扣因子,体现对短期奖励和长期奖励的权衡,越接近于1越重视 长期奖励,本发明参考相关文献取为0.9;τ(π)为策略π下的决策轨迹,为
策 略π在无穷控制时域范围内折扣奖励总和的期望值;r
t
为时间步t时按照奖励函数算得 的奖励值,奖励函数r=w1rs w2rv w3ra,(wi为各项对应权值,i=1,2,3),式中:
[0090]
(1)安全性奖励其中th_f为自车距所在车道最近前车车 头时距,th_r为所在车道最近后车距自车车头时距(若所在车道无对应车则设为基线 值),th_b为人为设定的车头时距阈值,t1、t2为权重系数,考虑到前向空间对自车行 车安全影响更大,取t1=0.6,t2=0.4,安全奖励综合表征自车前后可通行空间的大小,体 现了对决策安全性的要求。(2)通行效率奖励其中v为自车当前车速,v
l
为当前路段限速下界,v
t
为当前路段目标车速,期望速度奖励为自车当前车速和目标 车速间落差,体现了对通行效率的要求。(3)平顺性奖励通行效率的要求。(3)平顺性奖励为主车执行决策动作过程中纵横向加速度变化量在时间上加权积分,式中t0 为决策动作开始执行对应时间,t为执行决策动作所需时间,δa
long
为主车纵向加速度 变化量,δa
lat
为主车横向加速度变化量,w1和w2为对应权重系数,考虑到横向加速度 变化相较纵向加速度变化对平顺性影响更大,取w1=0.3,w2=0.7,附加此项以避免车辆因 微量奖励提升而选择变速换道频繁的策略,体现对车辆行驶稳定性及乘客乘坐舒适性的 要求。
[0091]
由于车辆主动换道马尔可夫决策过程较为复杂且状态动作转移概率未知,因此无法 使用贝尔曼方程迭代等传统数值方法直接求解最优策略,需通过策略探索等间接方法求 解求解最优策略。本发明则采用深度强化学习方法,通过与环境动态交互时主动策略探 索来学习优化主动换道行为决策策略。
[0092]
二:剪裁近端策略优化决策网络结构
[0093]
云端和车端的决策网络结构相同,均为如图5所示剪裁近端策略优化(cppo)网络, 由当前策略网络、历史策略网络、评估网络三个子网络组成,三个子网络的功能与结构 说明如下:
[0094]
1.当前策略网络
[0095]
当前策略网络用于实际决策,由5层激活函数为relu的全连接层和一个softmax 函数层组成。
[0096]
(1)网络输入:运动状态信息
[0097]
(2)网络输出:决策动作概率分布
[0098]
其中5层激活函数为relu的全连接层输出关于各决策动作的特征分向量out= (o1,o2,

,o
16
),通过softmax函数层将向量out转化为关于各决策动作的概率分布 p=(p1,p2,p3,

,p
16
),通过softmax函数得到概率分布p的表达式为:
[0099][0100]
其中oi为全连接层输出out中关于第i种决策动作的分向量,pi是该观测状态应采取 第i种决策动作的概率。
[0101]
决策动作选取采用ε贪婪算法:以1-ε概率取概率分布p中最大项对应的决策动作 作为决策输出,以ε概率随机选取决策动作作为决策输出,策略学习开始阶段设置较大 ε初值以鼓励策略探索,学习过程中逐渐缩小ε值以增强策略利用保证策略学习收敛, 从而在
策略探索与利用间取得平衡。
[0102]
(3)网络学习损失函数:
[0103]
当前策略网络基于采样经历样本进行学习时,损失函数为剪裁代理损失:
[0104][0105]
式中:
[0106]

clip()表示剪裁操作,表示根据设定的剪裁系数c将值限幅在[1-c,1 c]区 间内(若取值为1 c;若取值为1-c;若c;若取值)。剪裁的目的是对策略更新幅度进行限制,避免过大的策略更新导 致策略学习失稳。
[0107]
②at
为新策略相较历史策略的相对优势,决定策略学习时的策略更新方向和幅度。 式中γ为折扣因 子,为样本按策略π前推t
forward
时间步的累积衰减奖励和,v
φ
(s
t
)为样本状 态输入评估网络计算得到的预测状态价值,两者差值为策略π评估优势;故 为当前策略评估优势,为历史策 略评估优势,二者差值即为新策略相较历史策略的相对优势。
[0108]

为新旧策略差异,用于调节策略更新幅度;其中π
θ
(a
t
|s
t
)为当前策略网 络根据样本状态算出的决策动作的概率分布p中最大项,记该项对应动作为a
t
; 为历史策略网络根据样本状态算出的决策动作的概率分布p’对应动作a
t
的 项;两项相除结果即为新旧策略差异。

根据以上各项即可计算剪裁代理损失l
clip

[0109]
当前策略网络学习时,基于采样经历样本正向传播计算剪裁代理损失,将损失进行 策略梯度反向传播更新当前策略网络参数,完成当前策略网络学习。
[0110]
2.历史策略网络
[0111]
历史策略网络用于存储历史策略,用于策略学习时新旧策略相对优势及新旧策略差 异计算,其网络结构与当前策略网络相同。
[0112]
(1)网络输入:与当前策略网络相同
[0113]
(2)网络输出:与当前策略网络相同
[0114]
(3)网络学习:历史策略网络仅用于存储历史策略,不进行学习,当前策略网络每隔 设定周期将其网络参数同步给历史策略网络进行存储。
[0115]
3.评估网络
[0116]
评估网络用于评估状态价值,策略学习时当前策略网络和历史策略网络通过调用评 估网络计算新旧策略相对优势。评估网络由6层激活函数为relu的全连接层组成。
[0117]
(1)网络输入:运动状态信息
[0118]
(2)网络输出:预测状态价值
[0119]
(3)网络学习损失函数:
[0120]
策略学习时,评估网络会基于采样经历样本进行学习以更加准确估计状态价值,其 学习损失函数为时间差分误差
[0121][0122]
其中m为采样经历样本数,v
φ
(sm)为第m个样本状态输入评估网络输出的预测状 态价值,为第m个样本的衰减奖励和(表征真实状态价值), 预测状态价值与真实状态价值越接近,时间差分误差td_error越小,即损失越小。
[0123]
评估网络学习时,基于采样经历样本正向传播计算其时间差分误差损失,将损失进 行梯度反向传播更新评估网络参数,完成评估网络学习。
[0124]
三:车端决策详细实现过程
[0125]
车端决策流程如图5所示。
[0126]
主要步骤:
[0127]
1.状态输入:输入自车及周边最邻近三辆车的运动状态信息(即本节第一部分定义的 马尔可夫决策过程的输入);
[0128]
2.原始决策生成:运动状态信息输入车端剪裁近端策略优化决策网络的当前策略子 网络,计算输出原始决策动作;
[0129]
3.短时域决策安全评估:原始决策动作输入短时域决策安全评估模块,基于预设规 则对原始决策进行短时域决策安全评估,评估内容可以包括:
[0130]
(1)基于车辆简化运动学模型预测执行决策动作是否会导致车辆驶离可通行区域: loc
next
∈loc
legal
(loc
next
为预估自车执行决策动作后位置,loc
legal
为道路可通行区域 范围)。
[0131]
(2)基于当前车头时距和执行决策动作所需最低车头时距阈值,判断是否有足够 空间供车辆安全执行决策动作:th
now
≥th
nded
(th
now
为自车和目标车道纵向距离最 近车辆间的车头时距值,th
need
为安全执行决策动作所需最小车头时距值)。
[0132]
4.决策替换:短时域决策安全评估不通过,使用备用安全决策动作替换原始决策动 作;
[0133]
5.决策输出:输出决策动作,下发给下层规划控制器执行,获取决策动作执行后更 新状态及奖励值;
[0134]
6.经历存储及上传:将本次交互经历《状态,决策动作,更新状态,奖励值,轮次结 束标志》存入车端经历缓存(正常经历存入正常经历缓存,异常经历存入异常经历缓存); 车端经历缓存存满或者到达预设经历上传周期时,通过车联网将缓存中经历上传以更新 云端动态经历库。
[0135]
四:云端策略学习下发详细实现过程
[0136]
云端策略学习下发流程图如图6所示。
[0137]
主要步骤:
[0138]
1.重要度经历采样:从云端动态经历库中重要度批采样设定数量经历样本用于策略 学习。
[0139]
云端经历库中经历采用队列(先进先出)数据结构进行动态存储,经历对应重要度 (正常经历重要度设为1,异常经历重要度设为2),使用如图7所示sum二叉树存储 经历重要度,经历重要度存储在sum二叉树叶子节点上。重要度批采样时,从sum二 叉树根节点开始进行随机数搜索批采样经历,异常经历相较正常经历被采样概率更高, 从而重点加强对异常经历的学习,加速策略优化。
[0140]
2.评估网络学习:经历样本输入云端剪裁近端策略优化决策网络的评估网络,计算 时间差分误差损失,损失进行梯度反向传播更新评估网络参数,完成评估网络学习。
[0141]
3.当前策略网络学习存储:经历样本输入云端剪裁近端策略优化决策网络的当前策 略网络和历史策略网络,调用评估网络计算剪裁代理损失,损失进行策略梯度反向传播 更新当前策略网络参数,完成当前策略网络学习。
[0142]
若到达设定的策略存储周期,将当前策略网络参数同步给历史策略网络存储。
[0143]
4.策略下发:提取云端决策网络参数,通过车联网下发给车端,同步更新车端决策 网络参数,使车端获得最新的主动换道策略用于决策。
[0144]
实际工程应用本发明方案时,基于经历上传、策略下发分布式在线学习机制进行主 动换道决策及最优策略学习:
[0145]
1.在多辆联网车辆的车载嵌入式计算平台上部署本发明车端模块,各车端执行车端 决策过程,进行主动换道行为决策并记录决策经历,定期通过车联网经由路侧基站上传 经历至云端动态经历库;
[0146]
2.本发明云端模块部署在云计算中心的高性能计算机集群上,定期执行云端策略学 习下发过程,从云端动态经历库中重要度批采样多车端上传的交互经历进行策略学习, 更新云端决策网络参数,通过车联网经由通信网络及路侧基站下发最新策略给各车端, 车端使用基于多车经历学习的最新策略进行主动换道行为决策。
[0147]
实施例
[0148]
使用tensorflow深度学习框架实现本发明所述分布式深度强化学习车辆主动换道行 为决策方法。使用pygame搭建虚拟仿真道路环境。使用python threading多线程工具模 拟分布式在线策略学习:设置一个主线程及4个子线程,主线程和子线程中均运行本发 明决策模块:子线程模拟车端决策模块,仅运行决策阶段,分别与不同初始化设置的虚 拟仿真道路环境交互,收集经历并定期上传;主线程模拟云端决策模块,定期执行策略 学习阶段,利用多车端收集的交互经历进行策略学习更新并下发最新策略给车端决策模 块。经历上传、策略下发均通过主线程及子线程间的数据通信实现。
[0149]
网络学习超参数设置如表1所示。
[0150]
表1网络学习超参数设置
[0151][0152]
策略学习及测试
[0153]
决策模块与虚拟仿真道路环境交互,进行500轮次策略学习,每轮次车辆需完成1000 次主动换道行为决策,每完成30次决策后重新随机初始化虚拟仿真道路环境,记录各 轮次的平均奖励值。绘制轮次平均奖励值随学习轮次变化曲线如图11所示,由图11可 看出,轮次平均奖励值从低位快速爬升,说明主动换道行为决策策略不断优化,约250 训练轮次后轮次平均奖励值逐渐稳定在高位,策略学习收敛。
[0154]
策略学习完成后,进行100轮随机初始化测试以验证决策模块性能,测试环境为1.2 公里长直道,决策模块在测试过程中仍会以训练时1/10的学习率继续保持策略学习更新。 每轮当车辆行驶到达道路终点时结束,车辆与环境车发生碰撞后可以继续行驶但附加罚 时3秒。统计单轮测试平均耗时及测试过程中出现的总碰撞次数,结果如表2所示
[0155]
表2本发明决策模块测试结果
[0156][0157]
本发明方法与现有方法效果比对分析如下:
[0158]
将本发明方法与现有双深度q网络(ddqn)方法进行比对,ddqn为基于动作价值 的脱策纯强化学习方法,不使用先验知识及专家示范,使用本地经历进行策略学习, ddqn训练超参数设置如表3所示。
[0159]
表3基线ddqn决策器参数设置
[0160][0161]
ddqn也进行与本发明方法相同的500轮次策略学习,记录学习过程中的轮次平均 奖励值变化。本发明方法与ddqn方法的轮次平均奖励值变化曲线对比如图12所示。 由图12可看出本发明方法策略学习过程中轮次奖励值提升较快且波动较小,说明其策 略学习速度及稳定性均优于ddqn。
[0162]
ddqn策略学习完成后进行与本发明方法相同设置的100轮随机初始化测试,统计 单轮测试平均耗时及测试过程中出现的总碰撞次数。本发明方法与ddqn方法的测试 结果比对如表4所示。由表4可看出本发明方法完成单轮测试平均耗时低于ddqn,测 试过程中出现的总碰撞次数也显著降低,说明其策略优化及决策安全性优于基线。这一 方面是由于本发明方法的策略学习能力更强、学习到的策略更优;另一方面是由于本发 明方法中的附加纠错机制(即决策动作下发给下层规划控制模块执行,获取决策动作并 执行决策动作后更新状态及奖励值)在决策器实装决策时,起到了额外安全保障作用, 避免了纯强化学习概率决策机制对安全性及鲁棒性造成的不利影响,能充分保障智能汽 车行驶安全。
[0163]
表4本发明与基线测试结果对比
[0164]
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献