一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种智能网联车的多交叉口旅行时间协同优化方法

2022-10-13 06:03:59 来源:中国专利 TAG:


1.本发明属于人工智能领域,具体涉及一种智能网联车的多交叉口旅行时间协同优化方法。


背景技术:

2.车联网将物联网概念充分体现在交通领域。车联网借助现代电子传感、无线电通信及控制技术,将人、车、环境三个信息主题以网络相联,在大数据的支撑下,实现车辆智能化控制。智能网联车就是车联网技术发展至成熟阶段对所有联网汽车的统称。在我国,特斯拉汽车的产生证明了智能网联车与人工车辆将保持长期共存的事实。这种现象增加了智能网联车协同的难度。智能网联车的出现,使得车辆可以获得周围车辆的位置、速度、加速度等基本状态信息,甚至可以通过集中处理器来获取信息对自身状态进行调整。目前在智能网联车与人工车辆的混合交通场景下一般采用多智能体强化学习方法解决交通系统中出现的问题。
3.利用深度强化学习方法在虚拟场景中让机器学习人类行为,最终产生了一种能够学习在各种具有挑战性的任务中表现出色的人工智能体,但是不能解决dqn(深度强化学习方法)方法训练效率低,时间长等缺陷。在交通系统中,交通拥堵导致大量时间浪费和交通缓慢,是交通管理机构和交通参与者必须克服的主要挑战之一。在众多交通拥堵问题中,解决交叉口堵塞问题是重中之重。由此看来,利用多智能体的强化学习方法来解决在混行交通流中的交叉口堵塞问题是十分必要的。
4.早期的解决交叉口堵塞问题中一般有集中式处理方法和分布式处理方法两类。集中式处理方法的思想是考虑一个合作式的环境,直接将单智能体算法扩展,让其直接学习一个联合动作的输出,但是并不好给出单个智能体该如何进行决策,从而导致车辆加速度频繁变换的情况。分布式处理方法是每个智能体独立学习自己的奖励函数,对于每个智能体来说,其它智能体就是环境的一部分,因此往往需要去考虑环境的非平稳态。现有技术介绍了车辆可利用先进先出策略逐个向中央处理器发送通行路口的请求,再由中央处理器集中处理,再向车辆发送确认请求,最后车辆收到确认信息排队通过路口。在续篇中将该方案扩展到相互连接的交叉口网络,旨在探索最佳路线,以引导车辆到达交叉口,以最大限度地减少其通过网络的延迟。进一步发展了基于预留的无信号交叉口方案的想法,并放宽了fifo(先进先出)排队策略。通过放宽fifo,与之前基于fifo的基于预留的方案相比,具有更好的性能。由fifo排队策略衍生的模糊控制模型,该模型是当车辆进入交叉口(或者某个路口),车辆将给集中处理器发出通过请求,集中器也会根据该路口的车辆信息(位置,车辆大小等)将车辆进行分组,集中器根据模糊规则进行对每组车辆的平均等待时间进行计算,随后根据每个组的评分等级进行分组顺序安排。根据模糊规则进行分组,车辆向集中控制器发送请求,请求通过方可通行,但是此类模型实际上仿照信号灯指挥交通的模式,使得车辆可以有序的通行,不能完全体现icv的对于削弱车辆加速度频繁变换的问题,并且同时也削弱了跟驰模型对车辆的作用。


技术实现要素:

5.针对现有技术的不足,本发明设计一种智能网联车的多交叉口旅行时间协同优化方法。
6.一种智能网联车的多交叉口旅行时间协同优化方法,具体包括以下步骤:
7.步骤1:在sumo中建立主车道为三车道,汇入、汇出车道均为两车道的交通交叉口场景,并且制定车辆限制速度和车道流向,使其模拟现实交通交叉口情况,在汇出车道时增加不稳定参数,允许在最右侧车在接近左转路口时突然左转的情况;
8.步骤2:需设定一个交通流参数用来控制每小时车辆涌入车道的数量,在模拟交通交叉口场景过程中:加入跟驰模型和变道模型,来模拟现实世界中人类驾驶车辆,使得车辆根据前方车辆的状态判断自身车辆是否需要加速、减速、变道;
9.步骤2.1:使用idm跟驰模型,该模型以当前车辆预期速度和与前导车间距为变量来计算当前车辆所需的最优加速度,具体为:
[0010][0011][0012]
其中,期望速度v0,期望距离s
*
,时间间隔t,最小间隙s0,加速指数δ,加速项α,自身速度v,以及舒适度b,车辆行进距离即与前方车辆的距离s和自身车辆与前方车辆相比的速度差δv;a为当前车辆加速度;
[0013]
并且为了提升乘客乘坐车辆的舒适度增加舒适度变量b;不同的b,使得产生不同的期望距离s
*
,当超过安全车距后越大的期望距离将影响整个交通系统的效率;由此为了最大化实现车辆最优加速度,选择对舒适度b进行改进,公式如下:
[0014]
f=vρ
[0015][0016]
其中,f为车流量,v为车流速度,ρ为车流密度,h为车道长度,h为车身长度,舒适度为b;舒适度根据车流量和车流速度进行改进;
[0017]
步骤2.2:通过变道模型来判断当前车辆是否进行变道;变道模型中明确定义了四种不同的换道动机:strategic change战略变道、cooperative change协同变道、tactical change战术变道,obligatory change义务变道;
[0018]
能否发生变道动作是通过车辆速度、期望速度来计算变道需求,以及根据车辆速度、期望速度、与前导车辆距离和车道占用率来计算变道紧急度来决定;
[0019]
根据自身车辆变道需求选择优先备选车道;计算在当前车道的安全速度,并结合备选变道的速度要求;根据自身车辆变道需求与变道紧急度的大小,决定是否进行变道;
[0020]
步骤3:将车辆作为多智能体与强化学习方法ppo结合,即智能网联车;
[0021]
将车辆速度,位置,加速度,期望速度作为状态空间,将加速度作为动作空间;在ppo奖励函数中进行设计;将每辆车的平均速度之和作为奖励价值,设定舒适度作为条件,若车辆减速度小于舒适度,将对奖励函数增加惩罚;具体公式如下:
[0022][0023]
奖励函数re由三方面组成:平均速度v
averge
,瞬时刹车减速度a
real
,碰撞惩罚z;w1,w2,w3代表着平均速度,两车发生碰撞和过快减速的权重,a
max
为设置的最大加速度;;正常车辆行驶情况下,当车辆减速时,减速度会在某一区域内进行缓慢增幅,但前方前导车突然停车,自身车辆将强制刹车,此时将加速度设为瞬时刹车减速度;随着智能网联车的不断汇入,得到整体平均速度的提高。
[0024]
本发明有益技术效果:
[0025]
随着城市化率的增加,使得交通堵塞情况集中体现在交叉口,为提高交通流率和提升交通稳定性,解决智能网联车与非网联车辆构成的混行交通流在多交叉路口中产生的交通堵塞问题,本发明提出一种智能网联车的多交叉口旅行时间协同优化方法。将智能网联车与强化学习方法结合,提出一个新的奖励函数,奖励函数将交通系统车辆的平均速度作为奖励值,对交通系统中出现车辆行驶的减速度低于舒适度参数的情况进行惩罚。并且利用sumo软件将车辆配置idm跟驰模型模拟人工车辆,对idm跟驰模型中舒适度参数计算进行改进,根据当前的车流量,车道长度,车辆期望速度计算idm跟驰模型的舒适度参数。本发明证明通过强化学习方法与icv结合,有效的提高交通流率和提升交通稳定性。并且验证了经过强化学习后的icv可以有效的减少车辆加速度频繁变换情况。
附图说明
[0026]
图1本发明实施例一种智能网联车的多交叉口旅行时间协同优化方法模拟交叉口环境结构示意图:
[0027]
图2本发明实施例一种智能网联车的多交叉口旅行时间协同优化方法流程图。
[0028]
图3本发明实施例连续t型交叉口交通场景;
[0029]
图4本发明实施例为跟驰模型和变道模型模拟的人工驾驶车辆实验结果;
[0030]
图5本发明实施例为将车辆作为多智能体与强化学习方法ppo结合后的实验结果;
[0031]
图6本发明实施例车流量与速度之间关系示意图。
具体实施方式
[0032]
下面结合附图和实施例对本发明做进一步说明;
[0033]
本发明方法通过sumo软件结合flow框架利用rllab强化学习算法实现。
[0034]
实验通过sumo仿真软件与flow二次开源框架进行模拟,实验运行架构如图1,模拟场景采用了连续t型交叉口交通场景如图3,并且允许车辆在将要通过交叉路口时可以临时改变行车路线。介绍仿真环境和参数设置,同时进行算法分析。
[0035]
一种智能网联车的多交叉口旅行时间协同优化方法,如附图2所示,具体包括以下步骤:
[0036]
步骤1:在sumo中建立主车道为三车道,汇入、汇出车道均为两车道的交通交叉口场景,并且制定车辆限制速度和车道流向,使其模拟现实交通交叉口情况,例"from":"edge_{}".format(i),"to":"edge_{}".format(i 1)。在汇出车道时增加不稳定参数,允许在最右侧车在接近左转路口时突然左转的情况;
[0037]
仿真环境和参数设置:
[0038]
实验中通过flow框架中公共接口与sumo仿真软件中traci接口连接后生成所需的交通场景,在汇出车道时增加不稳定参数0.1,允许在最右侧车在接近左转路口时突然左转的情况;然后利用强化学习为icv生成控制策略,训练迭代100次,一个回合200个时隙,每个时隙长为0.2秒,期间利用优化器进行优化。并记录迭代相关指标。
[0039]
实验设置的超参数如表1所示。同一类数据的有效数字需保持一致。
[0040]
表1实验设置的超参数;
[0041][0042][0043]
步骤2:需设定一个交通流参数用来控制每小时车辆涌入车道的数量,在模拟交通交叉口场景过程中:加入跟驰模型和变道模型,来模拟现实世界中人类驾驶车辆,使得车辆根据前方车辆的状态判断自身车辆是否需要加速、减速、变道;
[0044]
步骤2.1:使用idm跟驰模型,该模型以当前车辆预期速度和与前导车间距为变量来计算当前车辆所需的最优加速度,具体为:
[0045][0046][0047]
其中,期望速度v0,期望距离s
*
,时间间隔t,最小间隙s0,加速指数δ,加速项α,自身速度v,以及舒适度b,车辆行进距离即与前方车辆的距离s和自身车辆与前方车辆相比的速度差δv;a为当前车辆加速度;
[0048]
并且为了提升乘客乘坐车辆的舒适度增加舒适度变量b;不同的b,使得产生不同的期望距离s
*
,当超过安全车距后越大的期望距离将影响整个交通系统的效率;由此为了最大化实现车辆最优加速度,选择对舒适度b进行改进,公式如下:
[0049]
f=vρ
[0050][0051]
其中,f为车流量,v为车流速度,ρ为车流密度,h为车道长度,h为车身长度,舒适度为b;舒适度根据车流量和车流速度进行改进;
[0052]
舒适度的出现一定程度上增加了交通系统的稳定性。但是过大的舒适度,对交通系统来说增大了资源消耗。对于交通系统来说,车流量与车流速度符合线性关系如图6,最初车辆流入交通系统中,随着车流速度的增加,车流密度随之增大,当增加的车流量趋于稳定时,车流速度增大使得将减小交通系统的所承受的车流量。由此改进计算舒适度将根据交通系统的中车流量以及车流速度计算出符合该车流量的最优舒适度。
[0053]
步骤2.2:通过变道模型来判断当前车辆是否进行变道;变道模型中明确定义了四种不同的换道动机:strategic change战略变道、cooperative change协同变道、tactical change战术变道,obligatory change义务变道;
[0054]
车辆的控制分为纵向控制和横向控制,纵向控制选择idm跟驰模型,横向控制选用sumo中自身带有lc2013变道模型。在复杂的多车道路网中,车辆行驶中大多数需要在同方向车道中进行变道处理,这样不仅提升整个交通系统的效率,也能削弱车辆加速度频繁变换的产生。车辆的速度主要由前导车道所决定,当前车辆若要变道时,为了防止与目标车道的前方和后方车辆发生碰撞只会在目标车道拥有足够的物理空间的时候执行变道动作。在仿真过程中,
[0055]
能否发生变道动作是通过车辆速度、期望速度来计算变道需求,以及根据车辆速度、期望速度、与前导车辆距离和车道占用率来计算变道紧急度来决定;
[0056]
根据自身车辆变道需求选择优先备选车道;计算在当前车道的安全速度,并结合备选变道的速度要求;根据自身车辆变道需求与变道紧急度的大小,决定是否进行变道;
[0057]
当车辆必须变道使得其行驶路径的下一条路,称之为战略变道,例如交通系统为三车道,此时车辆在第二车道,但是单位时间后车辆需转弯,则此时车辆即便停车也需等待变道。当自身车辆由其他车辆告知前面堵塞情况而产生的变道,称之为协同变道,例如自身车辆的前导车辆需执行战略变道以致停车,自身车辆根据获取的前导速度变化而产生变道需求,从而变道。战术变道动机的是自身车辆由于想要避免跟随的前导车辆速度缓慢而产生。义务变道动机的产生是自身车辆不影响其他速度更快的车辆而发生的变道。
[0058]
在不超过交通量阈值的情况下,发生变道的情况更加明显,在一定方面上变道模型的产生减慢了堵塞的产生,减少了堵塞周期。在自此模拟中所有的车辆变道的前提是不影响变道后的车辆状态。并且对于研究所计算的跟驰模型舒适度参数来说,增大了舒适度的兼容性。
[0059]
步骤3:将车辆作为多智能体与强化学习方法ppo结合,即智能网联车;
[0060]
将车辆速度,位置,加速度,期望速度作为状态空间,将加速度作为动作空间;在ppo奖励函数中进行设计;将每辆车的平均速度之和作为奖励价值,设定舒适度作为条件,若车辆减速度小于舒适度,将对奖励函数增加惩罚;具体公式如下:
[0061][0062]
奖励函数re由三方面组成:平均速度v
averge
,瞬时刹车减速度a
rea
l,碰撞惩罚z;w1,w2,w3代表着平均速度,两车发生碰撞和过快减速的权重,a
max
为设置的最大加速度;;正常车辆行驶情况下,当车辆减速时,减速度会在某一区域内进行缓慢增幅,但前方前导车突然停车,自身车辆将强制刹车,此时将加速度设为瞬时刹车减速度;随着智能网联车的不断汇入,得到整体平均速度的提高。
[0063]
实验中通过在交通系统中加入不同比例的具有强化学习算法的车辆,具有强化学习算法的车辆可以明显的减弱车辆频繁变换车速问题。并且对比了不同的奖励函数。
[0064]
实验结果如图4车辆不结合强化学习方法,图5车辆结合强化学习方法,首先比对有无强化学习算法对交通系统的影响,如图4,图5。图像数据统计了每辆车在交通系统中从开始到结束整个行驶过程的平均速度,很明显图5效果优于图4,车辆在与强化学习方法结合后整体平均速度提升了2.5倍。图4,无强化学习方法的时,车辆行驶速度较慢,并且交通拥堵情况严重,在通过结合强化学习方法后,如图5,车辆可以有效的增加车辆在交通系统中的通行效率。
[0065]
实验利用sumo仿真软件模拟真实场景下的交通状态,研究了在混行交通流中利用深度强化学习ppo算法解决交叉口堵塞问题,高效的提升交通系统的稳定性和交通流。并且实验将不同比例的智能网联车加入到交通系统中,证明了智能网联车的发展对智慧城市的积极作用。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献