一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的交通信号控制方法

2023-02-19 10:43:01 来源:中国专利 TAG:


1.本发明涉及的是一种交通控制领域的技术,具体是一种基于强化学习的交通信号控制方法。


背景技术:

2.随着私家车的保有量也在逐年上升,城市交通拥堵问题也日趋严重,现有缓解城市交通运输压力的方法是在热点路段不断的修建新的道路或对交通信号等的控制算法进行优化。现有的交通信号控制主要基于定时控制的方法,但这种方法不能随着道路实时车况而智能调节信号灯的不同状态,因此极大限制了城市道路的吞吐能力。现有改进技术通过建立路口拥堵畅通状态模型,将交通信号灯控制问题建模为一个马尔可夫决策过程,建立回报值函数模型,利用dqn深度强化学习算法求解最优策略,利用最优策略控制各个路口的交通信号灯。但这类技术仅使用单纯的强化学习模型,并未结合实际的基本交通理论模型,因此学习的结果可解释性交叉;目前本领域一般采用的中心化的学习方式,当交叉路口较少时具有良好的学习速度,而当交叉路口到达一定规模的时候,学习时间和学习效率将会大大降低,因此只能针对路网中交叉路口较少的情况。


技术实现要素:

3.本发明针对现有技术存在的上述不足,提出一种基于强化学习的交通信号控制方法,采用强化学习的方法进行信号控制从而充分考虑路况的实时变化的特点,从而提升路网的吞吐率的同时,引入交通流模型,同时严格选取冒险因子,从而有效避免因为强化学习固有缺陷而带来的问题。
4.本发明是通过以下技术方案实现的:
5.本发明涉及一种基于强化学习的交通信号控制方法,通过路网观测当前道路状况生成训练样本,对包含状态空间s、动作空间a和激励函数r的深度强化学习(dqn)网络进行训练,最终采用训练后的dqn网络生成信号灯预测值对实际交通信号进行控制。
6.所述的训练样本,具体通过以下方式得到:采用单个的两车道的道路作为道路环境,每个交叉路口设置成双向的,其中每条路段长度均为500米,同时设置每分钟车辆数目为100,速度遵循方差为0.4的正态分布;根据真实世界中的统计数据结果,设置交叉点处的转弯比例为:左转15%,右转25%,直行60%,在数据集中,每个车辆用(s,d,t)表示,其中s为起始位置,d为终点位置,t为运行时间。
7.所述的训练,以使得激励函数r最小时采用的动作作为下一步的控制信号即红/黄/绿,具体为:将信号控制问题转化为基本的马尔可夫决策过程《s,a,p,r,γ》,描述通过控制信号灯下一个状态的相位使得信号灯发出一个动作并引起道路以及车辆状态的变化从而引起激励函数的奖励的改变的过程,其中:s、a、p、r、γ分别代表状态集合、行为集合、状态转移概率、激励函数和贴现因子;采用dqn网络作为本发明的基本强化学习模型,基于上述训练样本针对单个路口训练轮数(episode)为3轮,每轮训练时长为10分钟。
8.所述的训练,采用压强的相反数作为激励函数,即r=-p,通过最大化激励函数r的值最终实现路网吞吐量的最大值。
9.所述的压强p是指:交叉路口进入车道的车辆排队数目总数目和离开车道的交叉道口排队总数目,即p(i,t)=n
in
(i,t) n
out
(i,t),其中:p(i,t)为在t时刻交叉路口i的压强,n
in
(i,t)为t时刻进入i交叉道口车道的车辆排队数目,n
out
(i,t)为t时刻出交叉道口的车辆排队数目。技术效果
10.本发明采用强化学习方法作为本发明的信号控制器,因此可以随着路网状态动态变化,可以良好的适应道路车辆动态变化的特点。本发明采用去中心化的方式,每个交叉道口都设置了独立的信号控制,不会随着交通规模的扩大而对效率产生显著影响,因此具有更好的扩展性。本发明引入了”压强”作为本发明的激励函数,旨在解决最大吞吐量的问题,比人工随机选择的各种指标更具有合理性的同时,引入交通流模型,当检测到有连续的交通流时,本发明并非直接利用强化学习模型进行决策,而是适当延长当前绿灯状态的时间,这样更加符合实际情况。
附图说明
11.图1为dqn网络生成过程;
12.图2为实施例执行过程示意图;
13.图3为压强的示意图;
14.图4为8种信号控制相位示意图。
具体实施方式
15.如图1所示,为本实施例涉及一种基于强化学习的交通信号控制方法,包括以下步骤:
16.步骤1)数据的选择与特征选取:利用simulation ofurban mobility(sumo)交通网络仿真软件随机生成道路车辆数据,具体为:每分钟生成车辆数目为100辆,速度遵循方差为0.4的正态分布;根据真实世界中的统计数据结果,本实施例设置交叉点处车辆的转弯比例为:左转15%,右转25%,直行60%,同时,每个车辆用一个三元组(s,d,t)表示,其中s为起始位置,d为终点位置,t为运行时间。
17.所述的随机生成数据,使用单个十字路口的双向交通流,动作设置为红灯或者绿灯,引入交通理论中的最大压强作为激励函数,同时,通过实验严格选取冒险因子,最终本方法确定冒险因子为0.04为最优值。通过dqn网络训练确定红/绿动作最终达到优化交通的目的。
18.所述的交大道口的压强具体为:该交叉路口进入车道的车辆排队数目总数目和离开车道的交叉道口排队总数目,即p(i,t)=n
in
(i,t) n
out
(i,t),其中:p(i,t)为在t时刻交叉路口i的压强,n
in
(i,t)为t时刻进入i交叉道口车道的车辆排队数目,n
out
(i,t)为t时刻出交叉道口的车辆排队数目。
19.步骤2)通过马尔可夫决策过程《s,a,p,r,γ》描述通过控制信号灯下一个状态的相位使得信号灯发出一个动作并引起道路以及车辆状态的变化从而引起激励函数的奖励
的改变的过程,其中:s、a、p、r、γ分别代表状态集合、行为集合、状态转移概率、激励函数和贴现因子。
20.步骤3)使用交叉路口的压强、排队长度和交通流模拟真实道路环境,定义交叉路口的压强为所有进入车道上的排队车辆总和与所有离开车道上排队车辆的总和。
21.如图3所示,交叉道口为i,则路口i的压强为p(i)=3 2-1=4,其中:排队长度即等待在红灯路口的排队车辆数,交通流为当道路观测单元检测到连续的车辆时促使智能体/信号控制器适当延长当前相位的时间。
22.步骤4)构建单个红绿灯的动作集合,具体为:东西方向直行,南北方向直行,南北方向左转,东西方向左转,即[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1],其中:数字1表示绿灯可以通行1秒,数字0表示不可通行。
[0023]
比如数组[1,0,0,0]表示东西方向直行1秒。
[0024]
步骤5)定义交叉路口i的激励函数为r(i)=-p(i),智能体/信号控制器的目标就是通过最大化激励函数r(i)从而使得方法最终达到稳定状态。
[0025]
步骤6)通过学习网络把交通流和当前状态特征作为输入,并预测每个候选动作即相位的得分(即q值),因此训练的过程,即q(s
t
,a
t
)=r(s
t
,a
t
) γmax q(s
t 1
,a
t 1
),其中:q(s
t
,a
t
)为在t时刻状态值为s采取动作为a时的q值,r(s
t
,a
t
)为t时刻状态值为s采取动作为a时激励函数值,γ为贴现因子。
[0026]
本方法在单个十字路口的双向道路网络进行模拟,动作间隔设置为20秒,每轮训练10分钟,共训练30分钟,平均总吞吐量为2580。
[0027]
和现有的传统的基于定时的信号控制方法比,本方法更好的适应了路网车辆的动态变化的需求,有效提升了路网的吞吐率,理论上可以更加充分利用城市交通道路。
[0028]
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献