农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种基于多智能体协作的多模式交通干线信号协调控制方法及装置与流程

2021-08-24 16:07:00 来源：中国专利 TAG：信号体协控制城市交通干线

本发明涉及城市交通信号控制领域，具体涉及一种基于多智能体协作的多模式交通干线信号协调控制方法及装置。

背景技术：

近年来，由于交通需求量的迅猛增长，致使道路拥挤堵塞、空气污染加重、运输效率下降，严重影响了城市的经济发展和市民的日常生活。为缓解交通问题，交通干线信号协调控制是城市交通管控中优选的方式，合理的干线控制方法可以有效提升车辆速度、通行效率，减少油耗和尾气排放。

传统的交通干线信号协调控制以绿波模型为主，设置干线各交叉口使用公共周期时长，以车辆停车次数、绿波带宽度、车辆延误等为优化指标，计算每个交叉口的相序和相位差。然而此类方法很大程度上限制了单个交叉口的效率，使其为干线车辆利益让步。已有研究中，中国专利已有研究中，中国专利202010793652.0通过对潮汐交通状态干线目标路段建模，以加权吞吐量为优化目标，构建了干线双向优化的模型，实现在系统通行能力最大化的基础上，车均延误最低的目标；同样的，中国专利201910092239.9根据公交车的运行轨迹，在公交优先的策略基础上，建立模型优化周期、相位差，实现社会车辆和公交的干线绿波。总体来说，现有研究偏向于干线车辆及公交的利益最大化，模型中牺牲了支路以及单点交叉口的效率，缺乏公交、行人及非机动车等多模式交通在干线的综合考量，鲜有干线的单点交叉口在多模式交通自适应控制的基础上进行协作，以实现多模式干线整体最优的微观研究。

技术实现要素：

发明目的：为了克服上述现有技术的不足，本发明目的在于提出一种基于多智能体协作的多模式交通干线信号协调控制方法及装置，对目标干线进行多模式交通仿真标定与流量生成；设计干线各交叉口的信号控制智能体；构建协作式值分解的多智能体强化学习框架；训练输出多模式交通干线各交叉口的智能体；在单点多模式交通自适应控制基础上，考虑交通干线各交叉口的协作，实现交通干线整体最优的目标。

技术方案：为解决上述技术问题，本发明采用的技术方案为：一种基于多智能体协作的多模式交通干线信号协调控制方法，包括如下步骤：

(1)获取交通干线交叉口信息和多模式交通流量模式，根据以上数据使用仿真软件对多模式交通干线进行仿真标定，还原多模式交通流量到达率。

(2)对干线中的每个交叉口生成一个信号控制智能体，交通干线n个交叉口对应n个智能体，智能体i读取时刻tk该交叉口包含多模式交通位置、排队长度、速度信息的状态将状态输入智能体i在时刻tk时参数为的神经网络，输出交叉口智能体i在时刻tk的动作相位其中，表示在神经网络参数下，选用动作相位ai且状态为的情况下的价值函数，简称q值，ai表示在本交叉口i可以放行的动作相位集和，ai表示ai中的一个动作相位；

(3)初始化干线内所有智能体的神经网络参数和经验回放池，设定训练轮数nepisode；

(4)初始化仿真的多模式交通干线流量到达率，设定初始仿真时间t0，总仿真时间t；

(5)获取各智能体的多模式交通状态，以智能体i为例，获取其对应交叉口i在时刻tk的多模式交通局部观察状态其中分别表示交叉口i在时刻tk的社会车辆状态、公交状态、行人及非机动车状态，状态包括其位置、排队长度、速度等信息，表示与交叉口i相邻交叉口在时刻tk的相位状态；

(6)将各智能体的局部观察状态输入其神经网络，对于智能体i，将输入神经网络后返回时刻tk的动作相位同时返回动作相位对应的q值其中，ai表示交叉口i可以放行的动作相位集和，表示智能体i在时刻tk时神经网络的参数，ai表示ai中的一个动作相位，qi(·)表示智能体i对应的神经网络q值函数，表示智能体i的神经网络在时刻tk的参数；

(7)将各智能体返回的动作相位在交通干线仿真的各对应交叉口信号灯中执行δt秒，时刻tk 1＝tk δt，返回多模式交通干线多智能体在时刻tk的团队奖励值其中kd、kf、kl分别表示人均延误变化量权衡系数、人流通过量权衡系数和排队长度变化量权衡系数，表示人均延误变化量，其中和分别表示在时刻tk和时刻tk 1的干线多模式人均延误，表示人流通过量，即在δt期间通过交通干线的总人数，表示排队长度变化量，其中和分别表示在时刻tk和时刻tk 1的交通干线排队人数；

(8)重复步骤(5)获取时刻tk 1各智能体的多模式交通状态将保存至经验回放池，其中，表示多智能体在时刻tk的团队奖励值，和分别时刻tk和时刻tk 1的全局状态列表，其中表示第n个智能体在时刻tk执行的状态，其中表示第n个智能体在时刻tk 1执行的状态，表示在时刻tk所有智能体选择的动作列表，其中表示第n个智能体在时刻tk执行的动作；

(9)判断是否达到预设仿真时间，若tk 1≥t，进入步骤(10)，否则返回步骤(5)迭代。

(10)从经验回放池中随机采样n对数据，根据损失函数使用梯度下降更新各智能体神经网络参数，其中，θall表示所有智能体的神经网络参数，表示多智能体协作的全局奖励函数，其中，kb表示交叉口b的权衡系数，n表示智能体的个数，θb表示智能体b的神经网络参数，目标奖励值其中，γ表示衰减系数，uall表示所有智能体的动作列表；

(11)判断更新次数否达到预设训练轮数nepisode，如果未达到预设训练轮数nepisode，返回步骤(4)循环迭代，如果达到预设训练轮数nepisode，输出基于多智能体协作训练的多模式交通干线各交叉口的智能体。

本发明还提出一种基于多智能体协作的多模式交通干线信号协调控制装置，包括：

多模式交通干线感知模块，包括交通干线数据感知单元、交通干线状态感知单元，交通干线数据感知单元用于获取目标干线各交叉口的渠化设计、进口道数量、路段长度、公交站位置、非机动车道及人行道位置，交通干线状态感知单元用于获取干线上公交的班次及路线、发车间隔、停靠时间、乘客数量和速度，社会车辆、行人及非机动车的乘客数量、速度、在交叉口前的排队长度等；

数据存储模块，包括交通干线交叉口数据单元和交通干线交通流数据单元，分别用于存储多模式交通干线感知模块、交通干线状态感知单元获取的数据；

协作式多模式交通干线信号协调控制智能体计算模块，包括智能体计算和存储单元，分别用于上述方法中迭代训练协作式干线交叉口智能体的计算和存储，并输出保存多智能体协作训练的多模式交通干线各交叉口的智能体。

此外，本发明还提出一种计算机设备，该计算机设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的一种基于多智能体协作的多模式交通干线信号协调控制方法的步骤。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种基于多智能体协作的多模式交通干线信号协调控制方法的步骤。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

本发明提出的一种基于多智能体协作的多模式交通干线信号协调控制方法及装置，仿真建模多模式交通干线与流量生成；干线各交叉口的信号控制多智能体设计；构建协作式值分解的多智能体强化学习框架；训练输出多模式交通干线各交叉口的智能体。本发明将每个交叉口的多模式交通信号控制设计为一个智能体，同时综合考虑交通干线各交叉口的协作，以干线整体的人流量和延误为目标优化训练交通信号控制智能体，为道路交通管理者提供管控依据，实现交通干线整体最优的目标，提升城市道路交通服务水平。

附图说明

图1是本发明实施例的方法流程图；

图2是本发明实施例的多智能体协作强化学习框架的流程图；

图3是本发明实施例的多模式交通干线仿真示意图；

图4是本发明实施例的装置结构示意图。

具体实施方式

为了使本发明的内容更容易被清楚的理解，下面结合附图和具体实施例对本发明作进一步详细的说明。

如图1所示，本发明实施例公开的一种基于多智能体协作的多模式交通干线信号协调控制方法，包括如下步骤：

(1)获取交通干线交叉口信息和多模式交通流量模式，根据以上数据使用仿真软件对多模式交通干线进行仿真标定，还原多模式交通流量到达率；

具体的，交通干线交叉口信息和多模式交通流量模式数据可以由现场感知装置获取，也可以现场采集数据，仿真软件可以选用sumo、vissim等；

(2)本实施例中，对干线中的每个交叉口生成一个信号控制智能体，交通干线n个交叉口对应n个智能体，智能体i读取时刻tk该交叉口包含多模式交通位置、排队长度、速度信息的状态将状态输入智能体i在时刻tk时参数为的神经网络，输出交叉口智能体i在时刻tk的动作相位其中，表示在神经网络参数下，选用动作相位ai且状态为的情况下的价值函数，简称q值，ai表示在本交叉口i可以放行的动作相位集和，ai表示ai中的一个动作相位；

(3)本实施例中，初始化干线内所有智能体的神经网络参数和经验回放池，设定训练轮数nepisode；

(4)具体的，初始化仿真的多模式交通干线流量到达率，设定初始仿真时间t0，总仿真时间t；

(5)本实施例中，获取各智能体的多模式交通状态，以智能体i为例，获取其对应交叉口i在时刻tk的多模式交通局部观察状态其中分别表示交叉口i在时刻tk的社会车辆状态、公交状态、行人及非机动车状态，状态包括其位置、排队长度、速度等信息，表示与交叉口i相邻交叉口在时刻tk的相位状态；

(6)本实施例中，将各智能体的局部观察状态输入其神经网络，对于智能体i，将输入神经网络后返回时刻tk的动作相位同时返回动作相位对应的q值其中，ai表示交叉口i可以放行的动作相位集和，表示智能体i在时刻tk时神经网络的参数，ai表示ai中的一个动作相位，qi(·)表示智能体i对应的神经网络q值函数，表示智能体i的神经网络在时刻tk的参数；

(7)本实施例中，将各智能体返回的动作相位在交通干线仿真的各对应交叉口信号灯中执行δt秒，时刻tk 1＝tk δt，返回多模式交通干线多智能体在时刻tk的团队奖励值其中kd、kf、kl分别表示人均延误变化量权衡系数、人流通过量权衡系数和排队长度变化量权衡系数，表示人均延误变化量，其中和分别表示在时刻tk和时刻tk 1的干线多模式人均延误，表示人流通过量，即在δt期间通过交通干线的总人数，表示排队长度变化量，其中和分别表示在时刻tk和时刻tk 1的交通干线排队人数；

(8)本实施例中，重复步骤(5)获取时刻tk 1各智能体的多模式交通状态将保存至经验回放池，其中，表示多智能体在时刻tk的团队奖励值，和分别时刻tk和时刻tk 1的全局状态列表，其中表示第n个智能体在时刻tk执行的状态，其中表示第n个智能体在时刻tk 1执行的状态，表示在时刻tk所有智能体选择的动作列表，其中表示第n个智能体在时刻tk执行的动作；

(9)具体的，判断是否达到预设仿真时间，若tk 1≥t，进入步骤(10)，否则返回步骤(5)迭代。

(10)本实施例中，从经验回放池中随机采样n对数据，根据损失函数使用梯度下降更新各智能体神经网络参数，其中，θall表示所有智能体的神经网络参数，表示多智能体协作的全局奖励函数，其中，kb表示交叉口b的权衡系数，n表示智能体的个数，θb表示智能体b的神经网络参数，目标奖励值其中，γ表示衰减系数，uall表示所有智能体的动作列表；

(11)本实施例中，判断更新次数否达到预设训练轮数nepisode，如果未达到预设训练轮数nepisode，返回步骤(4)循环迭代，如果达到预设训练轮数nepisode，输出基于多智能体协作训练的多模式交通干线各交叉口的智能体。

下面根据某交通干线状况示例对本发明作进一步阐述。

交通示例：某一交通干线有4个交叉口，从西向东依次为交叉口1、交叉口2、交叉口3、交叉口4，他们之间的距离依次为160m，140m，180m，其中交叉口1和交叉口4为干线与干线交叉口，各进口道均为双向8车道，交叉口2和交叉口3为干线与支路交叉口，其干线方向进口为双向8车道，支路进口道为双向2车道，所有机动车道侧均有一条行人及非机动车道。

以下将采用本发明提出的一种基于多智能体协作的多模式交通干线信号协调控制方法：

(1)如图3所示，获取交通干线交叉口信息和多模式交通流量模式，根据以上数据使用仿真软件sumo对多模式交通干线进行仿真标定，同时还原多模式交通流量到达率。

(2)对干线中的每个交叉口生成一个信号控制智能体，交通干线4个交叉口对应4个智能体，以智能体2为例，智能体2读取时刻tk该交叉口包含多模式交通位置、排队长度、速度信息的状态将状态输入智能体2在时刻tk时参数为的神经网络，输出交叉口智能体2在时刻tk的动作相位其中，表示在神经网络参数下，选用动作相位a2且状态为的情况下的价值函数，a2表示在本交叉口2可以放行的动作相位集和，a2表示a2中的一个动作相位；

(3)初始化干线内所有智能体的神经网络参数和经验回放池，设定训练轮数nepisode＝1000；

(4)初始化仿真的多模式交通干线流量到达率，设定初始仿真时间t0＝0，总仿真时间t＝10800；

(5)获取各智能体的多模式交通状态，以智能体2为例，获取其对应交叉口2在时刻t0的多模式交通局部观察状态其中分别表示交叉口2在时刻t0的社会车辆状态、公交状态、行人及非机动车状态，状态包括其位置、排队长度、速度等信息，表示与交叉口2相邻的交叉口1和交叉口3在时刻t0的相位状态；

(6)将各智能体的局部观察状态输入其神经网络，以智能体2为例，将输入神经网络后返回时刻t0的动作相位同时返回动作相位对应的q值其中a2表示交叉口2可以放行的动作相位集和，表示智能体2在时刻tk时神经网络的参数，a2表示中a2的一个动作相位，q2(·)表示智能体2对应的神经网络q值函数，表示智能体2的神经网络在时刻t0的参数；

(7)将各智能体返回的动作相位在交通干线仿真的各对应交叉口信号灯中执行δt＝5秒，时刻t1＝t0 δt＝5，返回多模式交通干线多智能体在时刻t0的团队奖励值其中kd、kf、kl分别表示人均延误变化量权衡系数、人流通过量权衡系数和排队长度变化量权衡系数，表示人均延误变化量，其中和分别表示在时刻t0和时刻t1的干线多模式人均延误，表示人流通过量，即在δt期间通过交通干线的总人数，表示排队长度变化量，其中和分别表示在时刻t0和时刻t1的交通干线排队人数；

(8)重复步骤(5)获取时刻t1各智能体的多模式交通状态将保存至经验回放池，其中表示多智能体在时刻t0的团队奖励值，和分别时刻t0和时刻t1的全局状态列表，以为例，其中表示第1个智能体在时刻t0获取的状态，表示在时刻t0所有智能体选择的动作列表，其中表示第1个智能体在时刻t0执行的动作；

(9)判断是否达到预设仿真时间，t1＝5＜t＝10800，返回步骤(5)迭代，迭代至满足tk 1≥t进入步骤(10)。

(10)从经验回放池中随机采样n＝64对数据，根据损失函数使用梯度下降更新各智能体神经网络参数，其中，θall表示所有智能体的神经网络参数，表示4个智能体协作的全局奖励函数，其中kb表示交叉口b的重要性权衡系数，本例中均取为1，θb表示智能体b的神经网络参数，目标奖励值其中γ表示衰减系数，本例中取为0.85，uall表示所有智能体的动作列表；(11)每进行一次步骤(10)代表1轮训练，判断更新次数否达到预设训练轮数nepisode＝1000，如果未达到预设训练轮数nepisode，返回步骤(4)循环迭代，如果达到预设训练轮数nepisode，输出基于多智能体协作训练的多模式交通干线4个交叉口的智能体。

如图4所示，本发明实施例公开的一种基于多智能体协作的多模式交通干线信号协调控制装置，包括：多模式交通干线感知模块、数据存储模块、协作式多模式交通干线信号协调控制智能体计算模块；其中，多模式交通干线感知模块，用于获取目标干线各交叉口的渠化设计、进口道数量、路段长度、公交站位置、非机动车道及人行道位置，获取干线上公交的班次及路线、发车间隔、停靠时间、乘客数量和速度，社会车辆、行人及非机动车的乘客数量、速度、在交叉口前的排队长度等；数据存储模块，用于存储多模式交通干线感知模块、交通干线状态感知单元获取的数据；协作式多模式交通干线信号协调控制智能体计算模块，用于根据如权利要求1中迭代训练协作式干线交叉口智能体的计算和存储，并输出保存多智能体协作训练的多模式交通干线各交叉口的智能体。

其中，多模式交通干线感知模块：包括交通干线数据感知单元、交通干线状态感知单元；数据存储模块包括：交通干线交叉口数据单元、交通干线交通流数据单元；协作式多模式交通干线信号协调控制智能体计算模块包括：智能体计算、存储单元。

本实施例公开的一种基于多智能体协作的多模式交通干线信号协调控制装置与一种基于多智能体协作的多模式交通干线信号协调控制方法实施例属于同一构思，具体实现过程详见方法实施例，此处不再赘述。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种智能化校园IT运维及安全预警一体化平台的操作方法与流程

一种基于多智能体协作的多模式交通干线信号协调控制方法及装置与流程

相关文献

最热文献