一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件与流程

2022-12-31 14:41:30 来源：中国专利 TAG：

1.本技术涉及智能交通技术领域，尤其涉及一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件。

背景技术：

2.交通信号控制是在路口渠化的基础上，把路权依次分配给不同方向的交通流。从时间上分离交通流，通过先进的交通模型和算法对交通信号控制参数，比如绿信比进行自动优化调整，从而使一组路口或一个区域的路口交通信号实现最佳协调控制，并最终达到安全，有效地组织交通流通过路口的目的。交通信号控制技术大体经历了四个主要发展阶段：
3.第一阶段是机械式交通信号控制技术；
4.第二阶段是固定配时交通信号控制技术。主要靠经验和历史交通数据确定单台信号机的信号周期和绿信比，由计算机实现自动定周期控制和多时段控制；
5.第三阶段是感应式交通信号控制技术。主要根据车辆检测器测得的交通流数据来调节单台信号机的信号显示时间的控制方式，分为半感应控制(交叉路口仅部分相位有感应请求)和全感应控制(交叉路口所有相位均有感应请求)；
6.第四阶段是线控技术(一条道路上多个相邻交叉路口的交通信号协调控制)和面控技术(一个区域内所有交通信号协调控制)。包括固定配时协调控制系统、方案实时选择协调控制系统和实时自适应协调控制系统共三种。
7.目前成熟的线控系统主要有美国的passer-hl、maxband等。passer-ii是一种把勃洛克斯的相互影响法和立脱尔的“不等宽优化模型”结合起来，可处理多相位配时的线控系统协调软件。通过确定各路口交通需求-通行能力的最优比，并以此确定各个信号的绿信比，然后改变各试算周期时长、相位、时差以确定最宽通过带的最佳信号配时方案。maxband是在给定周期时长、绿信比、路口间距和连续通行车速条件下，根据立脱尔的“混合整数规划模型”优化信号时差，达到根据不同的交通条件确定不同的最佳带宽的效果。
8.最早的面控系统是transyt，其后较具有代表性的有：scoot、scats、actra、utcs等。这些面控的方案多数通过检测器定时采集和分析交通信息，交通模型和优化程序配合生成最佳配时方案，最后送入路口信号机实施。其优化程序采用小步长渐近寻优方法，连续实时地调整绿信比、周期和时差三个参数，不但降低了计算量且容易跟踪和把握实时交通趋势。
9.然而，发明人发现相关技术中至少存在如下技术问题：
10.传统线控技术、面控技术中提供的交通信号的控制方法中，控制规则固化，时效性差，无法适应满足当下交通流复杂多变的情况；另外，尽管我国在ht-utcs城市交通信号控制系统后，又出现了nats、hicon、smooth等一批有代表性的交通信号控制系统，具备对不同城市、不同区域、不同时段交通流特性的适应性和实时性，实现通行效率、安全、秩序等协同
优化的方案，在一定程度上满足了实时性的要求，但效果却并不是很理想。

技术实现要素：

11.本技术的一个目的是提供一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件，至少用以解决现有的交通信号的控制方法中，时效性差，无法适应满足当下交通流复杂多变的情况的技术问题。
12.为实现上述目的，本技术的一些实施例提供了一种交通信号的控制方法，所述方法包括：获取目标道路路口的实时交通流数据；根据所述实时交通流数据，通过基于马尔科夫决策过程构建的交通信号控制模型，预测所述目标道路路口下一时刻的交通流状况，得到预测结果；根据所述预测结果，对所述交通信号执行控制策略；其中，所述交通信号控制模型的构建因素包括状态空间和动作空间；所述状态空间用于表征所述目标道路路口各时段车辆流量的状态；所述动作空间用于表征所述目标道路路口各时段处于不同状态下的信号控制策略。
13.本技术的一些实施例还提供了一种交通信号的控制设备，所述设备包括：一个或多个处理器；以及存储有计算机程序指令的存储器，所述计算机程序指令在被执行时使所述处理器执行如上所述的方法。
14.本技术的一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现所述的交通信号的控制方法。
15.相较于现有技术，本技术实施例提供的交通信号的控制方案中，通过获取目标道路路口的实时交通流数据，然后可以根据所述实时交通流数据，通过基于马尔科夫决策过程构建的交通信号控制模型，预测所述目标道路路口下一时刻的交通流状况，得到预测结果；最后再根据所述预测结果，对所述交通信号执行控制策略；其中，所述交通信号控制模型的构建因素包括状态空间和动作空间；所述状态空间用于表征所述目标道路路口各时段车辆流量的状态；所述动作空间用于表征所述目标道路路口各时段处于不同状态下的信号控制策略。由于在基于马尔科夫决策过程构建的交通信号控制模型中增加了状态空间和动作空间的定义。因此，一方面，可以对目标道路路口各时段车辆流量的状态中的每一种状态进行穷尽，同时，对交通流状态的描述中，可以在选定的特征信息的基础上，增加该选定的特征信息与其他特征信息的相关性描述，从而可以使得数据维度更高，对状态的描述更精细；另一方面，由于增加了动作空间，因此在基于马尔科夫决策过程构建的交通信号控制模型对交通流状况进行预测的同时，可以实现对控制策略的动态调整。可见，本技术实施例提供的方案与实际的交通流状况有更高的适配性和较优的时效性，有利于提供更加精细化的信号控制策略。
附图说明
16.图1为本技术实施例提供的一种交通信号的控制方法的流程图；
17.图2为本技术实施例提供的另一种交通信号的控制方法的流程图；
18.图3为本技术实施例提供的另一种交通信号的控制方法的流程图；
19.图4为采用本技术实施例提供的一种交通信号的控制方法的实例示意图；
20.图5为本技术实施例提供的一种基于马尔科夫决策过程构建的交通信号控制模型
的示意图；
21.图6为本技术实施例提供的一种对基于马尔科夫决策过程构建的交通信号控制模型进行训练的示意图；
22.图7为本技术实施例提供的一种设备的结构示意图。
具体实施方式
23.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
24.在本文中使用以下术语。
25.马尔科夫决策过程：英文全称markov decision process，简称“mdp”，用于在系统状态具有马尔科夫性质的环境中模拟智能体可实现的随机性策略与回报。
26.deep rl：深度强化学习，指将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。
27.绿信比：是指交通灯一个周期内可用于车辆通行的比例时间。即某相位有效绿灯时间和周期时长的比值。
28.路网：指在一定区域内，由各种道路组成的相互联络、交织成网状分布的道路系统。
29.相关技术中，传统线控模型、面控模型中关于定时控制、车辆驱动的信号控制的方法，定义的控制规则固化，不适合现在交通流复杂多变的情况(不同突发交通事件对复杂路口通行造成的交通流“异常”，不同的时间交通流的变化异常，如：节假日、早晚高峰、重大事件等)，路口的复杂度越高，表达较为固化的信号控制规则与实际物理世界的交通流模型拟合度较低。在高维的状态空间，传统的rl算法不能有效地为每一个状态计算价值函数和策略函数，虽然rl中有一些线性函数逼近的方法被提出来解决的状态空间问题，但它们的能力还是有限，在高维和复杂系统中，传统的rl方法无法学习环境的特征信息来进行高效的函数逼近。而实际交通流的状况复杂且变化快，交通流的特征信息种类较多，传统算法在交通流状态空间的描述上受限。
30.以往智能交通信号控制系统得到的配时方案大多基于假定的状态以及依靠历史经验相对固定的配置方式。例如基于特定状态下，假定相序或周期时长不变，仅调整绿信比等方式，方案单一且无法根据实时交通情况灵活调整。同时缺少对方案执行效果的长期数据监测、效果评估反馈，不具备自主学习和动态优化的能力。
31.本技术实施例提供了一种交通信号的控制方法，通过获取目标道路路口的实时交通流数据，然后可以根据所述实时交通流数据，通过基于马尔科夫决策过程构建的交通信号控制模型，预测所述目标道路路口下一时刻的交通流状况，得到预测结果；最后再根据所述预测结果，对所述交通信号执行控制策略；其中，所述交通信号控制模型的构建因素包括状态空间和动作空间；所述状态空间用于表征所述目标道路路口各时段车辆流量的状态；所述动作空间用于表征所述目标道路路口各时段处于不同状态下的信号控制策略。
32.本技术实施例中，由于在基于马尔科夫决策过程构建的交通信号控制模型中增加
了状态空间和动作空间的定义。因此，一方面，可以对目标道路路口各时段车辆流量的状态中的每一种状态进行穷尽，同时，对交通流状态的描述中，可以在选定的特征信息的基础上，增加该选定的特征信息与其他特征信息的相关性描述，从而可以使得数据维度更高，对状态的描述更精细；另一方面，由于增加了动作空间，因此在基于马尔科夫决策过程构建的交通信号控制模型对交通流状况进行预测的同时，可以实现对控制策略的动态调整。综上，本技术实施例提供的方案与实际的交通流状况有更高的适配性和较优的时效性，有利于提供更加精细化的信号控制策略。
33.如图1所示，本技术实施例提供的一种交通信号的控制方法，可以包括如下步骤：
34.步骤s101，获取目标道路路口的实时交通流数据。
35.步骤s102，根据所述实时交通流数据，通过基于马尔科夫决策过程构建的交通信号控制模型，预测所述目标道路路口下一时刻的交通流状况，得到预测结果。
36.步骤s103，根据所述预测结果，对所述交通信号执行控制策略。
37.其中，所述交通信号控制模型的构建因素包括状态空间和动作空间；所述状态空间用于表征所述目标道路路口各时段车辆流量的状态；所述动作空间用于表征所述目标道路路口各时段处于不同状态下的信号控制策略。
38.针对步骤s101，具体地说，可以通过云控基础平台获取城市的道路路目标道路路口的实时交通流数据。其中，这里所说的目标道路路口的实时交通流数据，可以是目标道路路口的车道级的实时交通流数据。
39.针对步骤s102，具体地说，在基于马尔科夫决策过程构建的交通信号控制模型对交通流状况进行预测的时，所使用的交通信号控制模型的构建因素可以包括状态空间和动作空间；所述状态空间用于表征所述目标道路路口各时段车辆流量的状态；所述动作空间用于表征所述目标道路路口各时段处于不同状态下的信号控制策略。
40.其中，可以理解将这里所说的状态可以理解为用于反映目标道路路口各时段车辆的流量状态变化的信息，比如目标道路路口车辆的速度、目标道路路口车辆的密度等等；当然，也可以根据实际需求对用于表征状态的信息进行选定并灵活设置，此处不作具体限定。这里所说的动作，可以是目标道路路口中，车辆处于某一状态下，所有可能采取的对应于所述状态的信号控制配时方案。
41.在一些例子中，可以提取用于体现道路路口的交通流数据的特征的特征信息，然后根据该特征信息，对目标道路路口各时段车辆流量的状态进行描述。
42.针对步骤s103，具体地说，根据基于马尔科夫决策过程构建的交通信号控制模型输出的预测结果，对所述交通信号执行控制策略。
43.不难发现，与相关技术相比，本技术实施例中，由于在基于马尔科夫决策过程构建的交通信号控制模型中增加了状态空间和动作空间的定义。因此，一方面，可以对目标道路路口各时段车辆流量的状态中的每一种状态进行穷尽，同时，对交通流状态的描述中，可以在选定的特征信息的基础上，增加该选定的特征信息与其他特征信息的相关性描述，从而可以使得数据维度更高，对状态的描述更精细；另一方面，由于增加了动作空间，因此在基于马尔科夫决策过程构建的交通信号控制模型对交通流状况进行预测的同时，可以实现对控制策略的动态调整。综上，本技术实施例提供的方案与实际的交通流状况有更高的适配性和较优的时效性，有利于提供更加精细化的信号控制策略。
44.在本技术一些实施例中，所述状态空间，根据所述目标道路路口中车辆的速度特征和车辆的密度特征确定；所述动作空间，根据所述目标道路路口的交通信号的相序，以及不同相序下对应的信号灯的周期时长和绿信比确定。
45.具体地说，可以通过马尔科夫链构建所述速度特征、密度特征的相关性以校准目标道路路口中车辆流量，并以此作为状态空间。
46.其中，这里所说的交通信号的相序即信号灯的相序，指不同方向的各股交通流放行的顺序。这样，在一些例子中，基于马尔科夫决策过程构建的交通信号控制模型而输出的信号控制配时方案可以包括：可变的相序、周期时长以及绿信比三维数组。
47.不难发现，与相关技术相比，本技术提供的交通信号的控制方法，通过构建速度特征、密度特征的相关性以校准目标道路路口中车辆流量，使得本实施例中对于状态空间中状态的描述更精细；通过根据标道路路口的交通信号的相序，以及不同相序下对应的信号灯的周期时长和绿信比确定动作空间，使得可以动态调整路口信号的配时方案，得到的优化配时方案更具灵活性，与交通状况契合度更好。
48.在本技术一些实施例中，所述状态空间的确定方法可以包括根据所述实时交通流数据，确定所述速度特征和所述密度特征；根据所述速度特征和所述密度特征，确定车辆的流量特征；根据所述车辆的流量特征，确定所述状态空间。
49.具体地说，参见图2，本技术实施例的方法可以包括如下步骤：
50.步骤s201，根据所述实时交通流数据，确定所述速度特征和所述密度特征；
51.步骤s202，根据所述速度特征和所述密度特征，确定车辆的流量特征；
52.步骤s203，根据所述车辆的流量特征，确定所述状态空间。
53.针对步骤s201而言，可以通过对云控基础平台获取的实时交通流数据进行分析，提取车辆的速度特征和密度特征。
54.针对步骤s202而言，可以通过获取的大量的实时交通流数据，建立车辆的速度特征、车辆的密度特征和车辆的流量特征三者之间的相关性。
55.在一些例子中，可以通过如下公式建立所述相关性：
56.q＝kv
57.其中，k表示车辆的密度特征，v表示车辆的速度特征，q表示车辆的流量特征。
58.针对步骤s203而言，则可以将根据步骤s202确定的流量特征记录下来，得到所述状态空间。
59.不难发现，与相关技术相比，本技术实施例提供的方案中，通过在确定状态空间的过程中，在车辆的流量特征的信息的基础上，增加其与车辆的速度特征的信息、车辆的密度特征的信息的相关性描述，从而可以使得数据维度更高，从而可以使得对状态的描述更加精细。也就是说，在对交通流的状态的描述中，通过在选定的特征信息的基础上，增加该选定的特征信息与其他特征信息的相关性描述，从而增加了数据维度，达到了对状态的描述更精细的目的。
60.在本技术一些实施例中，所述根据所车辆的流量特征，确定所述状态空间，可以包括：根据所述目标道路路口各时段车辆流量的状态，对所述车辆的流量特征进行划分；根据各划分后的车辆的流量特征，得到所述状态空间。
61.参见图3，本技术实施例的方法可以包括如下步骤：
62.步骤s301，根据所述目标道路路口各时段车辆流量的状态，对所述车辆的流量特征进行划分。
63.步骤s302，根据各划分后的车辆的流量特征，得到所述状态空间。
64.具体地说，可以根据所述车辆的流量特征分成若干小间隔，每个流量间隔分别代表目标道路路口各时段车辆流量的状态中的其中一个状态。
65.在一些例子中，可以建立如下序列：
[0066][0067]
其中，k为路口编号，t为连续时刻。每个序列可以分为n种状态，为n阶多元马尔科夫链。比如说，假设该序列中包括10个状态，则将流量从0到x进行10等分，n的取值是10；这里，n为大于或者等于1的整数，n的取值具体可以根据实际数据情况确定。
[0068]
本技术实施例中所建立的序列，即可以为所述状态空间的表现形式。
[0069]
不难发现，与相关技术相比，本技术实施例提供了一种确定所述状态空间的具体实现方式，通过将复杂无序的状态值通过序列的方式变成相对有序的数组，有利于提升数据的处理效率。
[0070]
在本技术一些实施例中，所述根据所述预测结果，对所述交通信号执行控制策略，可以包括：在所述根据所述预测结果，对所述交通信号执行控制策略后，接收所述交通信号控制模型发出的反馈信息；根据所述反馈信息，调整对所述交通信号执行的控制策略。
[0071]
具体地说，本技术实施例中，根据基于马尔科夫决策过程构建的交通信号控制模型是经过测试，并且测试效果达到实际使用要求的正确率后，才可以投入到智能交通信号控制系统中进行使用的。在投入使用后，还可以接收在实际的动态环境中的运行数据，根据所述交通信号控制模型发出的反馈信息，根据所述反馈信息进行相关计算，并进行训练、测试，从而，使得该交通信号控制模型在基于实时变化的交通状况下，可以执行最优的控制策略。
[0072]
与相关技术相比，本技术实施例提供的方案中，通过在所述根据所述预测结果，对所述交通信号执行控制策略后，接收所述交通信号控制模型发出的反馈信息；根据所述反馈信息，调整对所述交通信号执行的控制策略，有利于更好的适应复杂多变的交通状况。
[0073]
在本技术一些实施例中，所述交通信号控制模型的构建因素还可以包括：路口服务等级水平与车辆的平均延误时长的映射关系；所述平均延误时长用于表征所述车辆在所述路口等候红灯所损失的时间；所述接收所述交通信号控制模型发出的反馈信息，可以包括：在所述交通信号控制模型根据所述路口服务等级水平与车辆的平均延误时长的映射关系，确定所述车辆的平均延误时长后，接收所述交通信号控制模型根据所述车辆的平均延误时长发出的反馈信息。
[0074]
在一些例子中，可以建立平均延误时长与路口服务水平映射关系，如表1所示：
[0075][0076]
表1
[0077]
该例子中，将路口服务水平等级划分为6个等级。
[0078]
与相关技术相比，本技术实施例提供的方法，通过将平均延误时长考虑在内，以在所述交通信号执行控制策略后，对所述控制策略的控制结果进行评价，进而便于对控制策略进行优化。
[0079]
在本技术一些实施例中，所述根据所述反馈信息，调整对所述交通信号执行的控制策略，可以包括：通过深度强化学习算法，根据所述反馈信息，调整对所述交通信号执行的控制策略。
[0080]
具体地说，可以通过深度强化学习的神经网络模型作为非线性函数逼近器，来求得实施本实施例提供的交通信号的控制方法的最优解。同时，还可以通过深度强化学习算法，结合反馈信息进行实际采样来获取数据集和测试集，有利于对数据集和测试集进行自主优化，从而对控制策略进行优化迭代。
[0081]
其中，deep rl是目前最成功的人工智能模型之一，也是最接近人类学习模式的机器学习范式。它结合了深层神经网络和强化学习，使得函数逼近更为有效和稳定，特别是对于高维和无限状态问题，具体表现为：对于高维状态空间，deep rl方法优于传统rl方法，通过训练一个深层神经网络来学习最优策略或价值函数，可以有效地为每一个状态计算价值函数和策略函数；在行动空间方面，基于策略的deep rl方法比基于值的deep rl方法更适合于连续行动空间；对于离散行动空间，其控制器通常使用dqn及其变体，因为与基于策略的方法相比，它们的结构更简单；在大的状态空间，不同的神经网络结构，例如卷积神经网络(cnn)和循环神经网络(rnn)都可以被用来训练强化学习算法。
[0082]
与相关技术相比，本技术实施例提供了一种根据反馈信息，调整对交通信号执行的控制策略的一种具体实现方式，有利于本技术实施例的调整控制策略的方式灵活多变地实现。
[0083]
在本技术一些实施例中，所述通过深度强化学习算法，根据所述反馈信息，调整对所述交通信号执行的控制策略，可以包括：通过所述深度强化学习算法，对未来时刻的交通状态进行评估，得到评估结果；结合所述评估结果和所述反馈信息，调整对所述交通信号执行的控制策略。
[0084]
具体地说，所述反馈信息可以包括即时奖励。其中，基于交通信号控制模型输出的控制策略，在执行一个动作之后输出的反馈信息为即时奖励；输出的对车辆流量的将来所产生影响的反馈信息，即对未来时刻的交通状态进行评估，得到评估结果。该评估结果也可以理解为额外奖励。然后结合该评估结果和所述反馈信息，调整对所述交通信号执行的控制策略。
[0085]
其中，额外奖励又可以称为未来奖励。
[0086]
与相关技术相比，本技术实施例提供的方法中，通过在调整对所述交通信号执行的控制策略前，考虑到了当前的即时奖励和对未来产生影响的额外奖励，从而有利于使得调整后的控制策略进一步适应复杂多变的交通状况。
[0087]
综上，本技术实施例提供的一种交通信号的控制方法，通过获取目标道路路口的实时交通流数据，然后可以根据所述实时交通流数据，通过基于马尔科夫决策过程构建的交通信号控制模型，预测所述目标道路路口下一时刻的交通流状况，得到预测结果；最后再根据所述预测结果，对所述交通信号执行控制策略；其中，所述交通信号控制模型的构建因
素包括状态空间和动作空间；所述状态空间用于表征所述目标道路路口各时段车辆流量的状态；所述动作空间用于表征所述目标道路路口各时段处于不同状态下的信号控制策略。由于在基于马尔科夫决策过程构建的交通信号控制模型中增加了状态空间和动作空间的定义。因此，一方面，可以对目标道路路口各时段车辆流量的状态中的每一种状态进行穷尽，同时，对交通流状态的描述中，可以在选定的特征信息的基础上，增加该选定的特征信息与其他特征信息的相关性描述，从而可以使得数据维度更高，对状态的描述更精细；另一方面，由于增加了动作空间，因此在基于马尔科夫决策过程构建的交通信号控制模型对交通流状况进行预测的同时，可以实现对控制策略的动态调整。可见，本技术实施例提供的方案与实际的交通流状况有更高的适配性和较优的时效性，有利于提供更加精细化的信号控制策略。
[0088]
简单地说，参见图4所示，本技术实施例中，基于马尔科夫决策过程进行城市道路路口智能交通信号控制(
①
)，通过云端基础平台对交通流特征信息进行提取，将流量、速度、密度定义为模型状态空间，将可变的相序、周期长、绿信比定义为动作空间，并基于交通流大数据进行状态间转移关系的定义从而对路口下一时刻的交通状况进行预测(
②
)。建立路口服务等级水平与平均延误时长的映射关系来获得执行策略后实际环境反馈的即时奖励，以及基于对未来时刻的交通状况预测评估策略带来的额外奖励(
②
)，并以此建立奖励函数。利用深度强化学习的神经网络模型，即基于马尔科夫决策过程构建的交通信号控制模型(
④
)，在系统不断与环境交互的过程中基于回报值进行策略优化(
⑤
)，并通过长期的数据集收集对模型最优解进行测试，并对方案优化效果进行验证。
[0089]
此外，为了方便大家理解本方案，此处还提供了一种基于马尔科夫决策过程构建的交通信号控制模型的实例，以下对该交通信号控制模型进行详细介绍。
[0090]
在一些例子中，基于马尔科夫决策过程构建的交通信号控制模型可以表示成一个五元组，比如可以表示为：
[0091]
mdp＝《s，a，r，p，γ》
[0092]
其中，s代表状态空间，用于表征目标道路路口中车辆所有可能产生的状态的非空有限集合；
[0093]
a代表动作空间，用于表征在某时刻t下处于状态s∈s时可以执行的动作的非空有限行为集合；
[0094]
r代表奖励函数，用于表征在状态s
t
下执行a
t
动作后，状态s
t
转移到s
t 1
状态时所获得的奖励；
[0095]
p代表转移函数，用于表征在状态为si下执行了动作a时转移到状态sj的转移概率为定义某一时刻的状态行动映射为下一个状态s
t 1
的分布矩阵p(s
t 1
|s
t
,a
t
)为状态转移函数；
[0096]
γ代表折扣因子，用于表征即时奖励和额外奖励的重要程度。
[0097]
以下分别对所述五元组涉及的五个方面分别阐述：
[0098]
一、状态空间s
[0099]
状态空间s表征目标道路路口中车辆所有可能产生的状态的非空有限集合。可以通过对云控基础平台的交通流数据进行特性分析，提取速度特征和密度特征的相关信息，建立车辆速度、车辆密度与车辆流量的相关性关系，将路口的流量特征以时序数据的形式
记录下来，以此定义为模型的状态空间。
[0100]
具体地说，可以基于云控基础平台的大量交通流数据建立速度、密度与流量间的相关性。
[0101]
q＝kv
[0102]
式中k为车辆的密度特征信息，v为车辆的速度特征信息，q为车辆的流量特征信息。
[0103]
进一步地，可以将流量分成小间隔，每个流量间隔分别代表一个状态，建立如下序列：
[0104][0105]
其中，k为路网中的路口编号，t为连续时刻。每个序列可以分为n种状态，为n阶多元马尔科夫链。比如说，假设将流量从0到x进行10等分，则该序列中包括10个状态，n的取值是10；这里，n为大于或者等于1的整数，n的取值具体可以根据实际数据情况确定。
[0106]
二、动作空间a
[0107]
动作空间a表征在某时刻t下处于状态s∈s时可以执行的动作非空有限行为集合。即，基于马尔科夫模型，我们对路网多个路口采取的控制策略，即信号控制配时方案定义为动作集合。其中：
[0108]
假设k表示路网中的路口编号，agentk代表第k个路口的交通信号控制器。在有n个路口的路网中，路口的信号控制器的集合为：
[0109]
k＝{agent0，agent1，
…
agentk，
…
agentn}
[0110]
一般来说，各路口的交通信号控制器在同一时刻只能执行一组信号控制配时方案。假设ak为第k个路口的信号控制器agentk的信号控制配时方案，ak为第k个路口的交通信号控制器agentk执行的动作，则ak∈ak。
[0111]
基于本技术实施例中基于马尔科夫决策过程构建的交通信号控制模型，将交通信号的相序以及不同相序下对应的绿灯相位增减时长定义为动作，即包括不同相序策略下的绿灯增减时长的高维数组，可以表示为：
[0112]
a＝{bk(tm ck)，m＝1，2，3，4；k＝1,2
……
}
[0113]
其中，m是交通信号的相序，t是信号灯的周期时长，bk是绿信比，ck是增减时长参数。
[0114]
在该例子中，基于马尔科夫决策过程构建的交通信号控制模型主要考虑以下四种绿灯相位：
[0115]
north-south green(nsg)；
[0116]
east-west green(ewg)；
[0117]
north-south advance left green(nslg)；
[0118]
east-west advance left green(ewlg)。
[0119]
其中，绿信比和增减时长参数的具体取值可根据交通信号控制经验值进行设置。
[0120]
在实际应用中，a应满足以下条件：
[0121]
1)信号灯的周期时长、不同相序下对应的绿灯相位增减时长的数值均是整数。可以理解，一般信号灯的周期时长、绿灯时长没有小数。
[0122]
2)信号灯的周期时长的取值应在预设范围内。比如，根据经验值设置，信号灯的周
期时长的取值可以在60s至180s之间。
[0123]
3)增减时长需小于预设值。比如，根据经验值设置，增减时长的取值应小于或者等于120s。
[0124]
三、转移函数p
[0125]
转移函数p表征在状态为si下执行了动作a时转移到状态sj的转移概率为定义某一时刻的状态行动映射为下一个状态s
t 1
的分布矩阵p(s
t 1
|s
t
,a
t
)为状态转移函数。
[0126]
具体地，路网不同时刻下、不同路口的交通流存在着一定的时间、空间相关性，当前时刻某一路口流量受前一时间步长中的多个因素影响，包括上游路口流量情况、上一时刻路口交通信号控制调解情况等。在本模型中应用高阶多元马尔科夫链来确定状态转换关系并构建状态转换矩阵。
[0127]
路口的流量序列可以表示为此处，把每个路口、每个时段的车辆流量变化情况视为一种状态，第j个序列在时刻r 1的状态概率分布取决于所有序列在时刻r，r-1，
……
，r-n 1的概率分布，可以表示为：
[0128][0129]
其中，以及是从第j个序列在时刻r-h 1的状态到第r个序列在时刻r 1的状态的h步转移概率矩阵。
[0130]
令其中，则高阶多元markov链可用如下矩阵表示：
[0131][0132]
其中，
[0133][0134]
[0135]
接下来估计参数q应满足x＝xq，需要寻求使||x-xq||最小的方法来求解考虑最优化问题：
[0136][0137]
由于其中，则对每个k取向量首位预测向量则t 1时刻状态的预测值：其中，
[0138]
接下来对参数p
ij
以及状态转移矩阵进行定义：
[0139][0140]
式中，为在n阶划分中若干时段内的某一时段路口k的流量。
[0141]
基于现实路网的道路有向连接图，定义加权转移概率k
ij
，表示在执行策略时，状态从s转移至s'的概率等于执行该状态下所有行为的概率与对应行为能使状态从s转移至s'的概率的乘积之和：
[0142]kij
＝p
ij
·cij
·
α
ij
[0143]
其中，α
ij
表示在i路口与j路口之间的流量变化权重。
[0144]
本领域技术人员可以理解，在马尔科夫模型中，历史状态距离现在时刻越近，则对下一时刻状态的决策影响越大。即，距离流量预测时刻越近的位置访问点具有越高的权重，反之，则对应的权重越低。由此，在一些例子中，可假设αi为路口i的权重，αj为路口j的权重。那么，当i＜j时，有αi＞αj。因此对于αi＞0，1≤i≤k，αi为非严格递减函数。
[0145]
可以基于云端基础平台进行数据分析统计，i路口与j路口之间的流量时间序列选取经验值。则在包含m个路口的路网范围内，其转移矩阵xm×n矩阵为:
[0146][0147]
通过状态转移矩阵，可得到在状态s
t
下根据决策执行动作a后在下一时刻的状态s
t 1
。即，通过t时刻路口状态s
kt
，经历决策a
kt
得到在t 1时刻路网中路口状态的序列矩阵。
[0148]
四、奖励函数r
[0149]
具体地说，奖励函数r(s
t
，a
t
，s
t 1
)代表在状态s
t
下采取a
t
行动后，系统转移到s
t 1
状态时所获得的奖励。
[0150]
比如，可以如表1所示，将路口服务水平等级划分为6个等级。
[0151]
假设平均延误时长为d，d＝d1 d2，其中：
[0152][0153][0154]
d1——均匀延误时长，即车辆均匀到达所产生的延误时长，单位为s/pcu；
[0155]
d2——随机附加延误，即车辆随机到达并引起过饱和周期所产生的附加延误时长，单位为s/pcu；
[0156]
c——周期时长；
[0157]
λ——所计算车道的绿信比；
[0158]
x——所计算车道的饱和度；
[0159]
cap——所计算车道的通行能力(pcu/h)；
[0160]
t——分析时段持续时长。在一些例子中，可以取0.25h；
[0161]
e——单个路口信号控制类型校正系数。在一些例子中，定时控制宜取0.5；感应控制e随饱和度与绿灯延长时间而变，取值范围宜为0.04～0.5。
[0162]
其中，上述式子中的各项数据均可由云端平台实时提供。
[0163]
在一些例子中，在执行一个动作之后的奖励可以包括即时奖励和对将来产生影响的额外奖励，对于路网中k个路口在时刻t下按照策略执行动作后获得的即时奖励r
t
表示为：
[0164]rt
＝r(s
t
，π(s
t
))
[0165]
1)调控后服务水平等级上升，则令返回回报值r
t
＝1。
[0166]
2)调控后服务水平等级下降，则令返回回报值r
t
＝-1。
[0167]
3)调控后服务水平等级基本维持不变，则令返回回报值r
t
＝0。
[0168]
4)其他情况下表明调控效果不明显，不足以判断优劣，返回回报值r
t
＝0。
[0169]
基于上述规则，累积回报值r
t
可通过下式表示：
[0170][0171]
mdp的目标是寻找最佳策略π*，最大化累计奖励期望e(r
t
|s,π)，其中累积奖励r
t
为：
[0172][0173]
五、折扣因子γ，
[0174]
折扣因子γ控制着即时奖励和未来奖励的重要程度，取值可以为0到1之间，即γ∈(0，1)。选择小的γ则代表智能体的行动更关心实时的奖励。
[0175]
之后，可以利用深度强化学习的神经网络模型作为非线性函数逼近器求解智能交通信号控制最优解。
[0176]
具体地说，在强化学习中，agent的目标是学习一个动作选择策略π来指导agent的
动作选择以最大化期望，即选择一系列动作来获取最多的平均奖励，意味着此时系统对路网所有路口执行的agent集合为最佳决策序列。系统从时刻t开始，根据状态s
t
进行决策执行a
t
，并得到下一时刻状态s
t 1
以及下一次决策执行动作a
t 1
，最终遍历路网各个路口所有决策时刻的动作得到一个决策序列，每个决策序列可以看作mdp的一个回合。
[0177]
系统在状态s下，依据策略执行动作a的可能通过策略π(s，a)表示：
[0178]
π(sa)＝p[s
t
＝sa
t
＝a]
[0179]
定义动作-状态价值函数q
π
(s，a)评估策略的期望奖励，表示系统在状态为s的初始条件下，按照按策略函数π序列决策所得回报的数学期望，即表达为：
[0180][0181]
根据贝尔曼方程，第t次决策的动作-状态价值函数仅与第t-1次决策的动作-状态价值函数有关，因此动作-状态价值函数可简化为：
[0182][0183]
通过贪心策略最大化动作-状态价值函数q(s,a)来找到最优解，即系统从任意状态s开始的决策行为能满足动作-状态价值函数q
π
(s,a)取得最大值：
[0184][0185]
在一些例子中，可以采用基于协作式q-learning的强化学习算法来获取最佳策略π，通过将q值转移策略集成到深度学习中来考虑邻接路口的影响，构建mlp评估网络，自动从原始状态中提取特征并近似最佳q值。
[0186]
在一些例子中，还可以在模型中引入目标网络辅助路口评估网络根据如下公式进行计算：
[0187][0188]
可以将目标q值定义为：
[0189]
其中agent的动作不仅取决于自身的q值，还取决于邻接路口的q值。
[0190]
转移邻接路口agents的q值后，每个路口i的q值可以按照如下公式进行更新：
[0191][0192]
其中，θi和分别是评估网络和目标网络的参数，n为路口i的邻接路口数，ω
i,j
为来自路口j的q值的权重。在实际应用中，可以根据邻接路口j对路口i的影响来设置不同的权重。
[0193]
在一些例子中，可以通过如下公式确定ω
i,j
的值：
[0194]
[0195]
其中，c1、c2均为比例系数，d
ij
表示第i个路口到第j个路口的距离，t
ij
表示第i个路口到第j个路口的车流量。具体地，到邻接路口越近、车流量越大，影响越大。
[0196]
另外，每个agent的损失函数可以根据如下公式确定：
[0197][0198]
其中，m为批次大小，为状态下所有动作的最佳目标q值，为评估网络的输出。
[0199]
参见图5，图5所示为上述流程的示意图：
[0200]
具体地说，在每个时间步长t，agent观察到的状态s(即当前时刻下的流量序列)被输入到评估网络中。agent根据评估网络的输出的q值使用贪心策略选择一个要执行的动作a(即路口信号控制的配时方案，可以根据当前时刻下路口流量情况所选择的相序、周期时长和绿灯时长来确定)，agent获得奖励r并进入下一状态s’；
[0201]
将当前路口agent在每个时间步长与环境交互得到的信息{s，a，r，s’}存储在经验池m中，在训练过程中，每次从m中随机选取一定批次大小的样本，通过双q网络对样本进行训练，两个网络结果相同但是两套参数不同，将动作选择与策略评估分开；
[0202]
在计算当前q值和目标q值的奖励函数时，从上游路口agents的经验池中采样相应的经验，利用上游路口agents的评估网络计算得到下游路口agents的最优q值，将q值转移到当前网络来计算损失函数，使用梯度下降算法来更新配时方案各项参数。
[0203]
然后，可以以云端平台路侧收集的一定周期的数据进行评估模型的训练，一个月收集的历史交通数据构建训练集、验证集、测试集，逐月进行迭代。
[0204]
同样地，为了方便大家理解本方案，此处还提供了一种对基于马尔科夫决策过程构建交通信号控制模型进行训练的流程实例。
[0205]
具体地说，如图6所示，对任意一个路口，假设当前路口agent的邻接路口有四个，分别为n1，n2，n3，n4。则，在t时刻当前路口agent拥有自身的全部历史数据，可以表示为：
[0206]
(s1,a1；s2,a2；
…
st,at)
[0207]
t时刻需要获取到的四个邻接路口的状态动作数据集为：
[0208]
(sn1,an1；sn2,an2；
…
snt,ant)
[0209]
在t时刻对当前agent的观察s表示为以上两个集合的合集：
[0210]
s＝(s1,a1；s2,a2
…
st,at；sn1,an1；sn2,an2；sn3,an3；sn4,an4；)
[0211]
对于任意一个多路口交通网络，基于马尔科夫决策过程的深度强化学习算法训练步骤如下：
[0212]
步骤1：初始化路网路口agenti的状态矩阵、评估网络参数θi和目标网络参数折扣因子γ、经验池max_size及min_size、目标网络更新步长c，初始化每个agent的即时奖励值r，迭代次数上限iter
max
。
[0213]
步骤2：将观察到的实时数据输入到评估网络中，agenti根据评估网络的输出值利用贪心策略选择一个相位动作基于实时数据中路口平均延误时长的计算得到服务水平等级变化情况，获得奖励并进入下一个状态之后，根据t＝t 1进行赋值。
[0214]
步骤3：将经验存储在经验池mi中，如果经验池溢出，则删除旧经验的数据，当经验池数量大于min_size时，训练开始，进入步骤4，否则转步骤2。
[0215]
步骤4：将当前经验池mi中采样的数据作为当前评估网络和目标网络的输入数据，计算当前值函数和目标值函数；从邻接路口的经验池采样相应的历史交通数据，输入邻接路口的评估网络，获取邻接路口的转移q值，根据公式计算损失函数。
[0216]
步骤5：更新当前路口的网络权值θi和并对每一个路口agents重复上述计算。
[0217]
步骤6：若t《iter
max
并且s
t
≠terminal(终止状态)，转步骤2。
[0218]
之后，可以根据训练好的模型的参数构建的测试集，并获取测试效果。
[0219]
进一步地，如果训练测试效果达到实际使用要求的正确率，则将模型算法集成到智能交通信号控制系统中，通过智能信号控制系统在实际的动态环境中进行计算和反馈训练，使系统能在基于实时变化的交通状况下获得最大累积回报的序列决策。
[0220]
与相关技术相比，本技术实施例中，通过结合深度强化学习将状态、动作值存入以s和a为索引的深度神经网络中，通过从不断的与环境交互并得到回报函数反馈更新神经网络，最终能使神经网络中存储的状态动作值能正确指导智能体在环境中执行回报值最高的序列决策。同时构建的智能交通信号控制模型能够根据实时的交通流信息动态调整路口信号配时的相序以及各相位的时长，具有较强的适应性。
[0221]
此外，本技术实施例还提供了一种设备，该设备的结构如图7所示，包括用于存储计算机可读指令的存储器11和用于执行计算机可读指令的处理器12，其中，当该计算机可读指令被该处理器执行时，触发所述处理器执行所述交通信号的控制方法。
[0222]
在一些例子中，该设备可以为自动驾驶控制器。
[0223]
本技术实施例中的方法和/或实施例可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被处理单元执行时，执行本技术的方法中限定的上述功能。
[0224]
需要说明的是，本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0225]
而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0226]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0227]
附图中的流程图或框图示出了按照本技术各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的针对硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0228]
作为另一方面，本技术实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个计算机可读指令，所述计算机可读指令可被处理器执行以实现前述本技术的多个实施例的方法和/或技术方案的步骤。
[0229]
在本技术一个典型的配置中，终端、服务网络的设备均包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0230]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0231]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0232]
此外，本技术实施例还提供了一种计算机程序，所述计算机程序存储于计算机设备，使得计算机设备执行所述控制代码执行的方法。
[0233]
需要注意的是，本技术可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中，本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地，本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，ram存储器，磁或
光驱动器或软磁盘及类似设备。另外，本技术的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。
[0234]
对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其他的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件与流程

相关文献

最热文献