一种基于强化学习的网联车辆信号灯控路口经济通行方法与流程

2021-08-17 13:38:00 来源：中国专利 TAG：网联车辆信号灯路口强化

技术特征：

1.一种基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，包括以下步骤：

获取车辆以及路侧环境状态信息；

搭建路口通行生态驾驶模型：包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型；

利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗最小通行时间最短的多目标优化问题，得出最优通行速度谱。

2.根据权利要求1所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，所述利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗与通行效率多目标优化问题，包括：

s1：根据所述获取车辆以及路侧环境状态信息、以及所述路口通行生态驾驶模型，确定当前驾驶环境状态st，下标t代表t时刻；

s2：根据所述当前驾驶环境状态st，由深度确定性策略梯度算法的actor-critic架构中动作估计网络，实时输出策略动作at＝μ(st|θμ)，其中，θμ为动作估计网络参数，θ是每层网络的权重，μ为动作估计网络输出的加速度策略；车辆执行at，获得奖励值rt，并进入下一时刻，产生新的驾驶环境状态st 1，并将st，at，rt，st 1信息记录至经验缓存池中；

s3：所述动作估计网络由所述经验缓存池中采样状态数据si，计算出由actor-critic架构中动作目标网络输出的策略动作μ′(si|θμ′)，其中，θμ′为动作估计网络参数，μ′为动作目标网络输出的加速度策略；

s4：actor-critic架构中的价值目标网络利用所述策略动作μ′(si|θμ′)和从步骤s2所述经验缓存池中采样的状态数据集(si，ai，ri，si 1)，输出价值函数目标值yi；

yi＝ri q′(si 1，μ′(si 1|θμ′)|θq′)，其中q′为所述价值目标网络计算的行为-动作函数值，θq′为价值目标网络参数；

s5：actor-critic架构中的价值估计网络利用所述动作估计网络输出的所述策略动作at、以及所述当前驾驶环境状态st，计算当前动作下的状态-动作累计期望价值qπ(s，a)，表示为：

其中，π是当前采取的加速度，即为μ(st|θμ)，e为期望，γ为折扣率；

通过所述价值函数目标值yi计算损失函数值l(θq)：

计算策略动作的at梯度更新价值估计网络参数θq：

其中α为学习率；

s6：利用所述价值估计网络计算的梯度gt更新动作估计网络的参数θμ；

s7：更新所述动作估计网络参数θμ′＝τθμ (1-τ)θμ′和所述价值目标网络参数θq′＝τθq (1-τ)θq′，τ为更新权重；

s8：当车辆进入路口时，交通环境被初始化，同时初始化各个网络参数，并在第一个步长内选取随机策略，经过循环步骤s1至s7，直至车辆走完当前路口，获得一次训练的回报值其中t为车辆从路口初始位置到通过路口时所花费的时间；

s9：重复步骤s8，经过若干次训练后，将最大化回报值maxreturni，并不断更新网络参数，直至每次通过路口时获得的回报值收敛，完成整个车辆在灯控信号灯路口下经济通行学习过程。

3.根据权利要求2所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，所述奖励值α，β，γ，a，b为权重系数，jt为在单位步长内车辆运动所消耗的瞬时能量，ve为当前车速与当前路口信号灯周期内最大通行车速的误差，at-1为上一步长智能体输出的加速度，mv，mred为阶跃函数，分别为当车速误差在0.5m/s内可获得奖励与车辆到达路口时闯红灯需得到的惩罚；

式中“ ”表示奖励，“-”表示惩罚。

4.根据权利要求2所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，所述当前驾驶环境状态st＝{δjenb，δs，ssignal，tleft，verror，vego}；其中，δjenb为当前时刻步长内电池消耗的能量，δs为单步长内车辆的位移，ssignal为信号灯的当前状态，tleft为当前信号灯状态下剩余的时间，vego为当前车速，verror为当前路口下可以通行最大的速度与当前车速的差值。

5.根据权利要求1所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，所述获取车辆以及路侧环境状态信息，包括：

基于无线短波通讯或5g/lte通讯与路侧设施信息交互，获取信号灯当前状态信息，结合定位系统对车辆实时精准定位；

通过车载传感器检测车辆状态信息，将所述车辆状态信息上传至车载控制单元。

6.根据权利要求5所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，根据车辆纵向动力学分析得出纯电动汽车在行驶过程中所受到的加速阻力、坡道阻力、滚动阻力以及空气阻力，搭建所述整车纵向动力学模型：

其中，m为车辆的质量；δ为汽车旋转换算系数，v为车速；t为进入路口开始所用时间；tp为电机驱动转矩；i0为主减速器传动比；ηt为传动效率；rd为车轮滚动半径；ρ为车辆周围空气密度；a为车辆迎风面积；cd为空气阻力系数；g为重力加速度；α为地面的倾斜角。

7.根据权利要求5所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，所述路侧信号灯状态交通环境模型对信号灯的相位周期进行描述，表达式如下：

tr，tg，ty分别表示红灯、绿灯和黄灯的相位时间。

技术总结
本发明涉及一种基于强化学习的网联车辆信号灯控路口经济通行方法，包括以下步骤：获取车辆以及路侧环境状态信息；搭建路口通行生态驾驶模型：包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型；利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗最小通行时间最短的多目标优化问题，得出最优通行速度谱，从而得出通过路口的最优能耗水平。本发明将深度强化学习算法应用于实际车辆路口通行控制中，针对信号灯剩余时间动态变化场景具有良好的泛化性能与优化效果。

技术研发人员：殷国栋;丁昊楠;董昊轩
受保护的技术使用者：东南大学
技术研发日：2021.05.20
技术公布日：2021.08.17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于强化学习的网联车辆信号灯控路口经济通行方法与流程

相关文献

最热文献