一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法与流程

2021-10-08 23:56:00 来源:中国专利 TAG:扰动 梯度 交叉口 信息安全 交叉

技术特征:
1.一种基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述方法包括以下步骤:步骤1:在单交叉口道路网格上训练强化学习智能体模型,训练完成后模型的网络参数不再发生变化,且具有较高的迁移性,在单交叉口测试过程中体现出高流畅度且无拥堵发生;步骤2:在交通路口获取各个路口输入端的车辆数量及其所处位置即输入,将当前车辆数与位置输入到模型中,会生成对应的交通信号灯即输出动作,利用fgsm攻击算法,对各个时刻的输入逐一进行攻击,得到相应的对抗扰动;步骤3:对生成的对抗扰动进行离散化处理,再将生成的对抗扰动与原始采集到的交通流量相结合得到最终的扰动状态即此时输入到模型中去的交通路口车辆数量及其位置;步骤4:在当前构建的扰动状态中,对扰动的大小进行限制,当扰动量小于扰动限制时将扰动状态输入模型中;当扰动量大于扰动限制时将原始状态输入模型;步骤5:对生成的对抗扰动进行性能的测试,将状态输入模型后,智能体会根据当前状态选取交通信号灯的相位,来控制单交叉口的车流量,最后在sumo上对不同输入状态的交通流量得到的红绿灯相位对交通路口的流畅度进行对比。2.如权利要求1所述的基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述步骤1中,所述单交叉口为十字交叉路口,首先在单交叉口道路网格上训练强化学习智能体模型,对进入单交叉口的所有道路上的交通状态进行离散编码,将单交叉口从路段入口到停车线之间长度为l的道路k(k=1,2,3,4)等距离划分为c个离散单元,将t时刻单交叉口的道路k的车辆位置表示为车辆位置矩阵s
k
(t),当车辆头部位于某个离散单元上时,则车辆位置矩阵s
k
(t)对应第i(i=1,2,

,c)个位置的值为0.5,否则值为

0.5,公式表示为:其中表示车辆位置矩阵s
k
(t)第i个位置的值,将t时刻四个路口输入端的车辆位置矩阵s
k
(t)按行首尾拼接构成s
t
,公式表示为:s
t
=[s1(t),s2(t),s3(t),s4(t)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)再把s
t
作为环境状态输入到智能体模型中训练,智能体输出相应的动作即红绿灯将要执行的相位;定义交通灯的相位作为动作空间a={a1,a2,a3,a4},其中a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯,在运行时设a
i
的相位的初始时长为m,黄灯相位时长为n,在t时刻将当前状态s
t
输入到智能交通灯模型中,智能交通灯选择相位a
i
(i=1,2,3,4),当a
i
相位执行完后,智能交通灯从环境中采集t 1时刻的状态s
t 1
,然后选择相位a
j
(j=1,2,3,4),若a
i
≠a
j
则a
i
相位执行时间不再延长,即a
i
相位结束,在a
i
相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行a
j
相位;若a
i
=a
j
,则a
i
相位执行时间延长m;将奖励r
t
设置为两个连续动作之间路口车辆的等待时间之差,公式表示为:r
t
=w
t

w
t 1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中w
t
,w
t 1
分别为t时刻和t 1时刻的进入单交叉口所有车道的等待时间,根据执行的
动作再按照环境奖励对动作进行评判,从而不断更新网络的参数,所使用的强化学习模型为dqn,结构包含卷积层、全连接层;参数包含卷积核大小、全连接层神经元的数量,用一个深度神经网络作为q值网络,初始化网络参数,网络的输出就是q值,隐含层采用relu非线性激活函数,其中输出层的神经元个数与单交叉口的动作空间大小相等,公式表示为:q=h(ws
t
b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中w代表神经网络的权重,s
t
为网络的输入,b为偏置,h(.)表示relu激活函数,dqn的损失函数为:l
t
=(y
t

q(s
t
,a
i
;θ

))2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中y
t
代表目标值,a
i
,a
j
∈a表示智能体输出的动作即红绿灯相位,r
t
代表t时刻的奖励,γ为学习率,θ和θ

分别代表dqn中目标网络的参数w、b和估计网络的参数w’、b’,估计网络的参数是随着时间步长逐步更新的,目标网络的参数更新是每隔时间t从估计网络直接复制网络的参数,公式表示为:为:3.如权利要求1或2所述的基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述步骤2的过程如下:2.1:获取t时刻输入模型的输入值s
t
,其中s
t
代表t时刻从sumo获取的单交叉口输入端车辆数量及其所处位置;2.2:输入原始状态s
t
,经过已经训练好的dqn智能体模型,选择出动作值函数q最大的动作a
m
(m=1,2,3,4)即此时最优的红绿灯相位,公式表示为:其中θ代表训练好的智能体模型网络的参数,a
m
表示输出的动作即红绿灯将要执行的相位;2.3:采用fgsm攻击算法,沿着梯度方向并根据符号函数进行赋值生成t时刻相对应的对抗扰动η
t
,公式表示为:其中ε代表扰动系数,s
t
代表输入值即车辆所处位置,a
m
代表此时红绿灯执行的最优相位,sign代表符号函数,l
t
(θ,s
t
,a
m
)代表t时刻模型的损失函数。4.如权利要求1或2所述的基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述步骤3的过程如下:3.1:其中c为交通路口输入端划分的离散单元数量,
代表t时刻第i个离散单元的对抗扰动,计算出t时刻的对抗扰动η
t
后,对t时刻的扰动取绝对值并找出其中最大值和最小值并按照大小顺序对η进行排序得到新的排序数组最后通过c对扰动进行离散化处理,使其具有实际物理意义;3.2:在η
t

中按顺序读取扰动并与原始数据进行比较,若原始状态与对抗扰动不一致,则将对应扰动赋给对应的原始状态;若原始状态与对抗扰动是一致的,则再取η
t

中下一个对抗扰动按上述方式赋值,直到所选的扰动是有效的,最终得到扰动状态s
t

。5.如权利要求1或2所述的基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述步骤4的过程如下:计算t时刻扰动状态添加的扰动量μ
t
,公式表示为:其中len(.)表示计算s
t
和s
t

中车辆状态为0.5的个数,当扰动量μ
t
≤δ时,将扰动状态s
t

输入智能体模型中,否则将原始状态s
t
输入到智能体模型中。6.如权利要求1或2所述的基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,其特征在于,所述步骤5的过程如下:5.1:各个时刻的原始状态s
t
输入到模型中模型会选择最优动作控制路口车流量,并计算出交通路口的等待时间之差,即奖励r
t
=w
t

w
t 1
;5.2:对添加有效扰动后的最终扰动s
t

计算扰动量μ
t
,对满足要求(μ
t
≤δ)的输入状态输入到智能体模型中输出动作即红绿灯相位,此时同样计算交通路口的等待时间之差(奖励r
t
=w
t

w
t 1
)。

技术总结
一种基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法,根据已有的强化学习DQN算法训练的交通路口信号灯控制模型,利用基于FGSM攻击并结合梯度值大小对对抗扰动进行离散化处理生成对抗样本,将对抗扰动与原始状态相结合得到最终的扰动状态输入到智能体模型中,最后在sumo上对单交叉路口的流畅或拥堵程度检验效果。本发明可以在使输出的扰动具有物理意义的情况下限制扰动的大小,从而高效的生成对抗状态,增加路口的排队长度和等待时间,大幅降低模型的性能,使交通路口流通度大大降低。通度大大降低。通度大大降低。


技术研发人员:徐东伟 王达 李呈斌 周磊
受保护的技术使用者:浙江工业大学
技术研发日:2021.07.19
技术公布日:2021/10/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜