一种基于时空注意力机制的卷积网络交通流预测方法与流程

2021-09-28 23:33:00 来源：中国专利 TAG：通流卷积注意力机制时空

1.本发明涉及技术领域，具体是基于时空注意力机制的卷积网络交通流预测技术。

背景技术：

2.交通流预测是智能交通系统(intelligent traffic system,its)的重要组成部分，可以为城市交通系统的管理和规划提供科学依据。根据历史观测结果进行准确、及时的交通流预测，有助于道路使用者制定更好的出行计划，缓解交通拥堵，提高交通运行效率。
3.交通流预测是一个被广泛研究的问题，早期的交通流预测方法通常是基于时间序列的统计方法或简单的机器学习方法。在实践中，这些方法难以处理非线性的交通流数据，很难同时考虑高维交通流数据的时空相关性。近年来，基于深度学习的交通流预测方法得到了广泛的研究。一些研究人员将交通网络建模为网格，并使用卷积神经网络(cnn)来捕捉空间相关性。然而，由于道路的不规则性，使用网格进行建模会丢失交通网络中的拓扑信息。针对这一问题，研究人员将能够有效捕获非欧氏距离的图神经网络(gnn)集成到递归神经网络(rnn)或cnn中，通过聚集相邻节点的信息来捕获交通流的时空特征。
4.尽管在交通流预测中使用深度学习方法考虑了空间相关性和时间依赖性，但是现有的方法存在两个主要的局限性。一方面，不同位置之间的空间相关性仅依赖于历史交通流的相似性和方法学习的静态空间相关性。然而，不同位置之间的时间依赖性会随着时间的推移而变化。另一方面，许多现有的研究忽略了长期周期性的依赖关系。交通流数据表现出很强的周期性，并且这种周期特性对预测具有很大的作用。然而，交通流数据并不是严格周期性的。例如，工作日的高峰时间通常发生在下午，但在不同的日期，高峰时间可能从下午到晚上不等。尽管已有研究考虑了周期性，但是他们没有考虑到序列的动态随机性。
5.准确的交通流预测是实现智能交通的前提保障，但因交通流复杂的时空特性，其预测一直是个难题。

技术实现要素：

6.本发明的目的是提供一种基于时空注意力机制的卷积网络交通流预测方法。
7.本发明是一种基于时空注意力机制的卷积网络交通流预测方法，所述的交通流组合预测方法主要由时空注意力sta
‑
block，图卷积网络gcn和标准卷积网络cn三个组成，分别对交通流的周期性，空间相关性和时间依赖性进行建模；sta
‑
block通过时空注意力机制和门控融合机制对不同时间步长之间的时空相关性进行建模，使用gcn和cn分别捕获交通流的空间特征和时间特征；最后，将三个分量的输出通过门控融合机制进行预测；其具体步骤为：
8.步骤(1)设在交通网络g中每个节点上的第f个时间序列是交通流序列，其中，f∈(1，...，f)。表示节点i在t时刻的第c个特征值，表示节点i在t时刻的所有特征值；表示所有节点在t时刻的所有特征值；d＝(x1，x2，...，x
τ
)
t
∈r
n
×
f
×
τ
表示所有节点的所有特征在τ个时间片上的值；设表示节点i在t时刻的
交通流；
9.通过交通路网上所有节点在过去τ个时间片上的历史测量值，可预测下一个t
p
时间片上整个交通网络上所有节点的未来交通流序列其中表示从τ 1到节点i的交通流；
10.假设检测器每天的采样频率是q次，当前时间和预测窗口大小分别为t0和t
p
，按时间顺序分别截取三个长度为t
h
，t
d
和t
w
的时间序列段，分别作为邻近，每日周期和每周周期分量的输入，其中t
h
，t
d
和t
w
均为t
p
的整数倍；三个时间序列段如下：
11.(1)邻近部分：
12.邻近部分是直接与预测时段相邻的一段历史时间序列；由于交通拥堵的形成是一个渐进的过程，历史交通流不可避免地会对未来的交通流产生影响；
[0013][0014]
(2)每日周期部分：
[0015]
由历史时间序列中与预测时段相同的时间段组成；由于日常生活规律，交通数据可能会显示出重复的模式，例如每天的早高峰和晚高峰；每日时间段部分是对交通流数据的日周期性进行建模；
[0016][0017]
(3)每周周期部分：
[0018]
由过去的几个周的时间段组成，它们具有与预测周期相同的周周期属性和时间间隔；
[0019][0020][0021]
这三个部分具有相同的网络结构，每一部分都是由多个sta
‑
block、gcn、cn和一个全连接层共同堆叠而成；每个sta
‑
block中有一个空间注意力机制、时间注意力机制和一个门控融合机制；
[0022]
步骤(2)预设了一种空间注意力机制来自适应地捕捉道路网络中不同地理位置之间的相关性；空间注意力机制旨在不同的时间点为不同顶点动态分配不同的权重；
[0023]
以邻近部分的空间注意力机制为例：
[0024][0025][0026]
其中，是第r个时空块的输入，c
r
‑1是第r层中输入数据的通道；当r＝1，c0＝f时，t
r
‑1是第r层中时间序列的长度；当r＝1时，在邻近部分中t0＝t
h
，v
s
，b
s
∈r
n
×
n
，是可学习的参数，使用softmax
函数来约束节点的注意力权重总和为1；空间注意力矩阵s由该层的当前输入动态计算；在空间注意力矩阵s中，s
i，j
表示节点i和节点j之间的相关性强度；
[0027]
步骤(3)预设了一种时间注意力机制来自适应地对不同时间点之间的非线性相关性进行建模；
[0028]
以邻近部分的时间注意力机制为例：
[0029][0030][0031]
其中，v
e
，u1∈r
n
，是可学习参数；时间注意力矩阵e由输入确定；在时间注意力矩阵s中，s
i，j
表示时间i和j之间的依赖性强度；通过softmax函数对注意力矩阵e进行归一化处理；并将归一化的时间注意力矩阵e作为输入，得到通过融合相关信息来动态地调整输入；
[0032]
步骤(4)预设了一种门控融合机制来自适应地融合空间注意力机制和时间注意力机制；在第l个sta
‑
block中，空间注意力机制和时间注意力机制的输出分别表示为和和和通过等式(8)进行融合：
[0033][0034][0035]
其中，w
z，1
∈r
d
×
d
，w
z，2
∈r
d
×
d
，b
z
∈r
d
是可学习的参数，z是门控机制；门控融合机制自适应地控制每个节点和时间步中交通流的空间相关性和时间依赖性；
[0036]
步骤(5)在每个时间片上采用基于频谱图理论的图卷积网络直接处理信号，频谱方法将交通网络图转换为代数形式，以分析图的拓扑属性；图卷积是通过使用线性运算符实现的卷积运算，该线性运算符在傅立叶域中通过对角化来替换经典卷积运算符；图g上的信号x由内核gθ滤波：
[0037]
gθ*gx＝gθ(l)x＝gθ(uλu
t
)x＝ugθ(λ)u
t
x
ꢀꢀꢀ
(10)
[0038]
其中，*g是图卷积运算，其中图傅立叶基u∈r
n
×
n
是归一化图拉普拉斯持征向量的矩阵，i
n
是一个单位矩阵，d∈r
n
×
n
是对角度矩阵，其中d
ii
＝∑
j
w
ij
；λ∈r
n
×
n
是l的特征值的对角矩阵，滤波gθ(λ)也是一个对角矩阵；
[0039]
当图的比例较大时，直接在拉普拉斯矩阵上执行特征值分解是很困难的；使用采用chebyshev多项式近似有效地解决了这个问题：
[0040][0041]
其中，参数θ∈r
k
是多项式系数的向量，λ
max
是拉普拉斯矩阵的最大特征值；chebyshev多项式的递归定义是t
k
(x)＝2xt
k
‑1(x)
‑
t
k
‑2(x)，其中t0(x)＝1，t1(x)＝x；图卷积使用修正线性单元(relu)作为最终的激活函数，即relu(gθ*gx)；
[0042]
为了动态调整节点之间的相关性，对于chebyshev多项式的每个项，将与空间
注意力矩阵s
′
∈r
n
×
n
相乘，然后得到其中*表示hadamard乘积；等式(11)可以重写为等式(12)：
[0043][0044]
图卷积运算捕获了图上每个节点的邻近信息之后，进一步堆叠标准卷积层，以通过融合相邻时间片上的信息来更新节点的信息；以最近组成部分中第r层上的运算为例：
[0045][0046]
其中，μ是标准卷积核的参数，relu是激活函数；
[0047]
当融合不同组成部分的输出时，每个节点这三个组成部分的影响权重是不同的，为了提高预测的准确性，应该从历史数据中学习它们；融合后的最终预测结果为：
[0048][0049]
其中，w
h
，w
d
和w
w
是可学习的参数，反映三个时间维度分量对预测目标的影响程度。
[0050]
本发明的有益之处是：1.本发明提出了一种新颖的空间注意力机制和时间注意力机制来分别学习交通流数据中动态的空间相关性和非线性时间依赖性。此外，本发明的门控融合机制以自适应地融合通过时空注意力机制提取的信息，以减小预测过程中误差的传播。
[0051]
2.本发明提出了一种新颖的时空卷积网络，用于捕获交通流的时空相关性。该网络由图卷积网络和标准卷积网络组成，图卷积网络用于捕获空间相关性，标准卷积网络用于捕获时间依赖性。
[0052]
3.本发明在两组交通数据集上分别进行了大量的对比实验，实验结果表明，与现有的基线方法相比，本发明在不同的数据集上均取得了卓越的预测性能。
附图说明
[0053]
图1是本发明中交通数据的时空结构，其中每个时间片上的数据形成一个图，图2是时空网络中黑色节点的影响，图3是本发明的stagcn方法框架图。sta
‑
block：时空注意力块；gcn：图卷积网络；cn：标准卷积网络；fc：全连接层，图4是本发明的sta
‑
block结构图：sta
‑
block通过门控融合机制将空间注意力机制和时间注意力机制融合在一起，图5是本发明在pemsd04数据集中60分钟的性能指标mae训练性能比较，图6是本发明在pemsd04数据集中60分钟的性能指标mape训练性能比较，图7是本发明在pemsd04数据集中60分钟的性能指标rmse训练性能比较，图8是本发明在pemsd08数据集中60分钟的性能指标mae训练性能比较，图9是本发明在pemsd08数据集中60分钟的性能指标mape训练性能比较，图10是本发明在pemsd08数据集中60分钟的性能指标rmse训练性能比较。
具体实施方式
[0054]
深度学习可以从大量的交通流数据中学习到交通流的深层时空特征，本发明建立了一种新颖的基于时空注意力机制卷积网络的交通流预测方法stagcn，以有效的捕获交通流的时空特征。stagcn方法主要由时空注意力(sta
‑
block)，图卷积网络(gcn)和标准卷积网络(cn)组成，分别对交通流的周期性，空间相关性和时间依赖性进行建模。sta
‑
block通
过时空注意力机制和门控融合机制对不同时间步长之间的时空相关性进行建模，使用gcn和cn分别捕获交通流的空间特征和时间特征。最后，将三个分量的输出通过门控融合机制进行预测。
[0055]
本发明是一种基于时空注意力机制的卷积网络交通流预测方法，所述的交通流组合预测方法主要由时空注意力sta
‑
block，图卷积网络gcn和标准卷积网络cn三个组成，分别对交通流的周期性，空间相关性和时间依赖性进行建模；sta
‑
block通过时空注意力机制和门控融合机制对不同时间步长之间的时空相关性进行建模，使用gcn和cn分别捕获交通流的空间特征和时间特征；最后，将三个分量的输出通过门控融合机制进行预测；其具体步骤为：
[0056]
步骤(1)设在交通网络g中每个节点上的第f个时间序列是交通流序列，其中，f∈((1，...，f)。表示节点i在t时刻的第c个特征值，表示节点i在t时刻的所有特征值；表示所有节点在t时刻的所有特征值；d＝(x1，x2，...，x
τ
)
t
∈r
n
×
f
×
τ
表示所有节点的所有特征在τ个时间片上的值；设表示节点i在t时刻的交通流；
[0057]
通过交通路网上所有节点在过去τ个时间片上的历史测量值，可预测下一个t
p
时间片上整个交通网络上所有节点的未来交通流序列其中表示从τ 1到节点i的交通流；
[0058]
假设检测器每天的采样频率是q次，当前时间和预测窗口大小分别为t0和t
p
，按时间顺序分别截取三个长度为t
h
，t
d
和t
w
的时间序列段，分别作为邻近，每日周期和每周周期分量的输入，其中t
h
，t
d
和t
w
均为t
p
的整数倍；三个时间序列段的详细信息如下：
[0059]
(1)邻近部分：
[0060]
邻近部分是直接与预测时段相邻的一段历史时间序列；由于交通拥堵的形成是一个渐进的过程，历史交通流不可避免地会对未来的交通流产生影响；
[0061][0062]
(2)每日周期部分：
[0063]
由历史时间序列中与预测时段相同的时间段组成；由于日常生活规律，交通数据可能会显示出重复的模式，例如每天的早高峰和晚高峰；每日时间段部分是对交通流数据的日周期性进行建模；
[0064][0065]
(3)每周周期部分：
[0066]
由过去的几个周的时间段组成，它们具有与预测周期相同的周周期属性和时间间隔；
[0067][0068]
这三个部分具有相同的网络结构，每一部分都是由多个sta
‑
block、gcn、cn和一个全连接层共同堆叠而成；每个sta
‑
block中有一个空间注意力机制、时间注意力机制和一个门控融合机制；
[0069]
步骤(2)预设了一种空间注意力机制来自适应地捕捉道路网络中不同地理位置之间的相关性；空间注意力机制旨在不同的时间点为不同顶点动态分配不同的权重；
[0070]
以邻近部分的空间注意力机制为例：
[0071][0072][0073]
其中，是第r个时空块的输入，c
r
‑1是第r层中输入数据的通道；当r＝1，c0＝f时，t
r
‑1是第r层中时间序列的长度；当r＝1时，在邻近部分中t0＝t
h
，v
s
，b
s
∈r
n
×
n
，是可学习的参数，使用softmax函数来约束节点的注意力权重总和为1；空间注意力矩阵s由该层的当前输入动态计算；在空间注意力矩阵s中，s
i，j
表示节点i和节点j之间的相关性强度；
[0074]
步骤(3)预设了一种时间注意力机制来自适应地对不同时间点之间的非线性相关性进行建模；
[0075]
以邻近部分的时间注意力机制为例：
[0076][0077][0078]
其中，v
e
，u1∈r
n
，是可学习参数；时间注意力矩阵e由输入确定；在时间注意力矩阵s中，s
i，j
表示时间i和j之间的依赖性强度；通过softmax函数对注意力矩阵e进行归一化处理；并将归一化的时间注意力矩阵e作为输入，得到通过融合相关信息来动态地调整输入；
[0079]
步骤(4)预设了一种门控融合机制来自适应地融合空间注意力机制和时间注意力机制；在第l个sta
‑
block中，空间注意力机制和时间注意力机制的输出分别表示为和和和通过等式(8)进行融合：
[0080][0081][0082]
其中，w
z，1
∈r
d
×
d
，w
z，2
∈r
d
×
d
，b
z
∈r
d
是可学习的参数，z是门控机制；门控融合机制自适应地控制每个节点和时间步中交通流的空间相关性和时间依赖性；
[0083]
步骤(5)在每个时间片上采用基于频谱图理论的图卷积网络直接处理信号，频谱方法将交通网络图转换为代数形式，以分析图的拓扑属性；图卷积是通过使用线性运算符实现的卷积运算，该线性运算符在傅立叶域中通过对角化来替换经典卷积运算符；图g上的信号x由内核gθ滤波：
[0084]
gθ*gx＝gθ(l)x＝gθ(uλu
t
)x＝ugθ(λ)u
t
x
ꢀꢀꢀ
(10)
[0085]
其中，*g是图卷积运算，其中图傅立叶基u∈r
n
×
n
是归一化图拉普拉斯持征向量的矩阵，i
n
是一个单位矩阵，d∈r
n
×
n
是对角度矩阵，其中d
ii
＝∑
j
w
ij
；λ∈r
n
×
n
是l的特征值的对角矩阵，滤波gθ(λ)也是一个对角矩阵；
[0086]
当图的比例较大时，直接在拉普拉斯矩阵上执行特征值分解是很困难的；使用采用chebyshev多项式近似有效地解决了这个问题：
[0087][0088]
其中，参数θ∈r
k
是多项式系数的向量，λ
max
是拉普拉斯矩阵的最大特征值；chebyshev多项式的递归定义是t
k
(x)＝2xt
k
‑1(x)
‑
t
k
‑2(x)，其中t0(x)＝1，t1(x)＝x；图卷积使用修正线性单元(relu)作为最终的激活函数，即relu(gθ*gx)；
[0089]
为了动态调整节点之间的相关性，对于chebyshev多项式的每个项，将与空间注意力矩阵s
′
∈r
n
×
n
相乘，然后得到其中*表示hadamard乘积；等式(11)可以重写为等式(12)：
[0090][0091]
图卷积运算捕获了图上每个节点的邻近信息之后，进一步堆叠标准卷积层，以通过融合相邻时间片上的信息来更新节点的信息；以最近组成部分中第r层上的运算为例：
[0092][0093]
其中，μ是标准卷积核的参数，relu是激活函数；
[0094]
当融合不同组成部分的输出时，每个节点这三个组成部分的影响权重是不同的，为了提高预测的准确性，应该从历史数据中学习它们；融合后的最终预测结果为：
[0095][0096]
其中，w
h
，w
d
和w
w
是可学习的参数，反映三个时间维度分量对预测目标的影响程度。
[0097]
下面结合实施例对本发明做进一步的详细说明。
[0098]
1、方法
[0099]
stagcn方法主要由时空注意力(sta
‑
block)，图卷积网络(gcn)和标准卷积网络(cn)组成，分别对交通流的周期性，空间相关性和时间依赖性进行建模。sta
‑
block通过时空注意力机制和门控融合机制对不同时间步长之间的时空相关性进行建模，使用gcn和cn分别捕获交通流的空间特征和时间特征。最后，将三个分量的输出通过门控融合机制进行预测。图2表示本发明提出的stagcn方法的总体框架。该方法由三个具有相同结构的独立部分组成，分别对交通流历史数据的邻近，每日周期和每周周期依赖关系进行建模。
[0100]
2、问题定义
[0101]
在本研究中，将交通网络定义为无向图g＝(v，e，a)，其中v是一组道路节点，v＝
{v1，v2，...，v
n
}，n是节点数，e是一组边的集合，a∈r
n
×
n
表示图g的邻接矩阵。交通网络g上的每个节点都以相同的采样频率检测f个测量值，即每个节点在每个时间片上生成长度为f的特征向量，如图1所示。
[0102]
设在交通网络g中每个节点上的第f个时间序列是交通流序列，其中，f∈(1，...，f)。表示节点i在t时刻的第c个特征值，表示节点i在t时刻的所有特征值。表示所有节点在t时刻的所有特征值。d＝(x1，x2，...，x
τ
)
t
∈r
n
×
f
×
τ
表示所有节点的所有特征在τ个时间片上的值。设表示节点i在t时刻的交通流。
[0103]
通过交通路网上所有节点在过去t个时间片上的历史测量值，可预测下一个t
p
时间片上整个交通网络上所有节点的未来交通流序列其中表示从τ 1到节点i的交通流。
[0104]
假设检测器每天的采样频率是q次，当前时间和预测窗口大小分别为t0和t
p
。本发明按时间顺序分别截取三个长度为t
h
，t
d
和t
w
的时间序列段，分别作为邻近，每日周期和每周周期分量的输入，其中t
h
，t
d
和t
w
均为t
p
的整数倍。三个时间序列段的详细信息如下：
[0105]
(1)邻近部分：
[0106]
邻近部分是直接与预测时段相邻的一段历史时间序列。由于交通拥堵的形成是一个渐进的过程，历史交通流不可避免地会对未来的交通流产生影响。
[0107][0108]
(2)日周期部分：
[0109]
由历史时间序列中与预测时段相同的时间段组成。由于日常生活规律，交通数据可能会显示出重复的模式，例如每天的早高峰和晚高峰。每日时间段部分是对交通流数据的日周期性进行建模。
[0110][0111]
(3)周周期部分：
[0112]
由过去的几个周的时间段组成，它们具有与预测周期相同的周周期属性和时间间隔。
[0113][0114]
这三个部分具有相同的网络结构，每一部分都是由多个sta
‑
block、gcn、cn和一个全连接层共同堆叠而成。每个sta
‑
block中有一个空间注意力机制、时间注意力机制和一个门控融合机制。其中，将时空注意力机制动态分配不同权重后的数据输入到gcn和cn用于捕获交通流的时空特征，将gcn和cn的输出输入到fc以确保每个输出与预测目标具有相同大小的尺寸和形状。最后，基于参数矩阵对三个部分分量的输出通过门控融合机制进行融合，
得到最终的预测结果。
[0115]
3.1、空间注意力机制
[0116]
在空间维度上，一条道路上的交通状况会受到其他不同道路的影响，这种影响具有很强的动态性。为了对这些属性进行建模，本发明设计了一种空间注意力机制来自适应地捕捉道路网络中不同地理位置之间的相关性。空间注意力机制旨在不同的时间点为不同顶点(例如传感器)动态分配不同的权重。
[0117]
以邻近部分的空间注意力机制为例：：
[0118][0119][0120]
其中，是第r个时空块的输入，c
r
‑1是第r层中输入数据的通道。当r＝1，c0＝f时，t
r
‑1是第r层中时间序列的长度。当r＝1时，在邻近部分中t0＝t
h
，v
s
，b
s
∈r
n
×
n
，是可学习的参数，使用softmax函数来约束节点的注意力权重总和为1。空间注意力矩阵s由该层的当前输入动态计算。在空间注意力矩阵s中，s
i，j
表示节点i和节点j之间的相关性强度。
[0121]
3.2、时间注意力机制
[0122]
某一时间的交通状况与其先前的交通状况具有相关性，并且这种相关性随着时间步长的增加呈现非线性变化。为了对这些属性进行建模，本发明的时间注意力机制来自适应地对不同时间点之间的非线性相关性进行建模。
[0123]
以邻近部分的时间注意力机制为例：
[0124][0125][0126]
其中，v
e
，u1∈r
n
，是可学习参数。时间注意力矩阵e由输入确定。在时间注意力矩阵s中，s
i，j
表示时间i和j之间的依赖性强度。通过softmax函数对注意力矩阵e进行归一化处理。并将归一化的时间注意力矩阵e作为输入，得到通过融合相关信息来动态调整输入。
[0127]
3.3、门控融合机制
[0128]
一条道路在特定时间点的交通状况与其先前的测量值以及其他道路的交通状况都具有相关性。如图3所示，本发明的门控融合机制来自适应地融合空间注意力机制和时间注意力机制。在第l个sta
‑
block中，空间注意力机制和时间注意力机制的输出分别表示为和和和通过等式(8)进行融合：
[0129][0130][0131]
其中，w
z，1
∈r
d
×
d
，w
z，2
∈r
d
×
d
，b
z
∈r
d
是可学习的参数，z is the gate.门控融合机
制自适应地控制每个节点和时间步中交通流的空间相关性和时间依赖性。
[0132]
3.4、图卷积网络和卷积网络
[0133]
sta
‑
block使网络自适应地对有价值的信息给予更多的关注，通过门控融合机制融合后的输出输入到gcn和cn，通过gcn捕获邻域的空间相关性，cn捕获邻近时间的时间依赖性。
[0134]
为了充分利用交通网络的拓扑特性，本发明在每个时间片上采用基于频谱图理论的图卷积网络直接处理信号，频谱方法将交通网络图转换为代数形式，以分析图的拓扑属性。图卷积是通过使用线性运算符实现的卷积运算，该线性运算符在傅立叶域中通过对角化来替换经典卷积运算符。因此，图g上的信号x由内核gθ滤波：
[0135]
gθ*gx＝gθ(l)x＝gθ(uλu
t
)x＝ugθ(λ)u
t
x
ꢀꢀꢀ
(10)
[0136]
其中，*g是图卷积运算，其中图傅立叶基u∈r
n
×
n
是归一化图拉普拉斯特征向量的矩阵(i
n
是一个单位矩阵，d∈r
n
×
n
是对角度矩阵，其中d
ii
＝∑
j
w
ij
)；λ∈r
n
×
n
是l的特征值的对角矩阵，滤波gθ(λ)也是一个对角矩阵。
[0137]
然而，当图的比例较大时，直接在拉普拉斯矩阵上执行特征值分解是很困难的。因此，本发明使用采用chebyshev多项式近似有效地解决了这个问题：
[0138][0139]
其中，参数θ∈r
k
是多项式系数的向量，λ
max
是拉普拉斯矩阵的最大特征值。chebyshev多项式的递归定义是t
k
(x)＝2xt
k
‑1(x)
‑
t
k
‑2(x)，其中t0(x)＝1，t1(x)＝x。图卷积网络使用修正线性单元(relu)作为最终的激活函数，即relu(gθ*gx)。
[0140]
为了动态调整节点之间的相关性，对于chebyshev多项式的每个项，本发明将与空间注意力矩阵s
′
∈r
n
×
n
相乘，然后得到其中*表示hadamard乘积。因此，等式(11)可以重写为等式(12)：
[0141][0142]
图卷积运算捕获了图上每个节点的邻近信息之后，进一步堆叠标准卷积层，以通过融合相邻时间片上的信息来更新节点的信息。以最近组成部分中第r层上的运算为例：
[0143][0144]
其中，μ是标准卷积核的参数，relu是激活函数。
[0145]
当融合不同组成部分的输出时，每个节点这三个组成部分的影响权重是不同的，为了提高预测的准确性，应该从历史数据中学习它们。因此，融合后的最终预测结果为：
[0146][0147]
其中，w
h
，w
d
和w
w
是可学习的参数，反映三个时间维度分量对预测目标的影响程度。
[0148]
综上所述，时空注意力机制和门控融合机制组成了sta
‑
block，gcn和cn能够很好地捕捉交通流数据中的空间特征和时间特征。通过多个sta
‑
block，gcn和cn进行叠加，以进一步提取更大范围的动态时空相关性。最后，通过fc，并使用relu作为激活函数，以确保每个分量的输出与预测目标具有相同大小的尺寸和形状。
[0149]
3.5、损失函数
[0150]
训练的目的是最小化道路网络中实际的交通速度和预测的交通速度之间的误差。本发明使用均方误差(mse)作为损失函数，不同路段实际的交通速度和预测的交通速度分别用y
i
和表示，n为样本的个数。因此，stagcn方法的损失函数如等式(15)所示：
[0151][0152]
4、实验
[0153]
4.1、数据描述
[0154]
本发明在加利福尼亚的两个高速公路交通数据集pemsd04和pemsd08上验证了本发明提出的stagcn方法的预测性能，该数据集由caltrans性能测量系统(pems)每30秒实时收集一次。实验的交通数据集包含不同的属性，例如位置，日期，时间段，速度和流量等。实验数据集的详细信息如表1所示：
[0155]
表1.实验数据集描述
[0156][0157]
pemsd04：该数据集包含29条道路上的3848个检测器。该数据集的时间跨度为2018年1月至2月。本发明选择前50天的数据作为训练集，其余的作为测试集。
[0158]
pemsd08：该数据集包含8条道路上的1979个检测器。该数据集的时间跨度为2016年7月至8月。本发明选择前50天的数据作为训练集，最后12天的数据作为测试集。
[0159]
本发明删除了部分冗余检测器，其中，pemsd04中有307个检测器，pemsd08中有170个检测器。交通数据每5分钟汇总一次，因此每个检测器每天包含288个数据点。数据集中丢失的数据，本发明使用线性插值方法来填充缺失值。在将数据输入预测方法之前，本发明使用z
‑
score标准化方法对数据进行处理，使平均值为0。标准化公式为
[0160][0161]
其中μ表示所有样本数据的均值，σ表示所有样本数据的标准差，z表示标准化后的输入数据。
[0162]
4.2、实验环境及参数设置
[0163]
本实验是在linux服务器上进行编译和运行的(cpu:intel(r)xeon(r)cpu e5
‑
2620 v4@2.10ghz,gpu:nvidia geforce gtx 1080)，基于mxnet深度学习框架，在pycharm开发环境中完成交通流预测方法的训练。
[0164]
在本发明的方法中，使用adam优化器来训练方法，在训练阶段，手动设置初始学习率为0.001，批量大小为64。所有的图卷积层和标准卷积层均使用64个卷积核，预测窗口t
p
的大小为12，本发明使用一个小时的历史数据来预测下一个小时的交通流，即使用过去的12个连续时间步长来预测未来的12个连续时间步长。
[0165]
4.3、方法评价
[0166]
为了更好地分析实验结果，评估方法的预测性能，本发明基于以下指标评估实际交通流速度和预测结果之间的误差：
[0167]
(1)平均绝对误差(mae):
[0168][0169]
(2)根均方误差(rmse):
[0170][0171]
(3)平均绝对百分比误差(mape):
[0172][0173]
式中，y
i
和分别表示实际交通速度和预测交通速度。n是观测次数。使用mae，rmse以及mape来衡量预测误差，预测值越小，则说明预测效果越好。
[0174]
4.4、实验结果与分析
[0175]
本发明将stagcn方法在pemsd04和pemsd08数据集上进行实验，同时与八种基线方法进行比较，表2显示了stagcn方法和不同基线方法在pemsd04和pemsd08数据集上的预测性能。从表2中可以看出，本发明的stagcn方法在两组数据集上表现出了最佳的预测性能。
[0176]
例如，在pemsd08数据集上，与svr方法相比，stagcn方法，dcrnn，stgcn，stsgcn和graph wavenet方法的mae分别降低了约33.76％，30.01％，28.08％，33.52％，21.08％，rmse分别降低了约30.28％，29.77％，29.07％，29.31％，16.25％。与lstm方法相比，stagcn方法，dcrnn，stgcn，stsgcn和graph wavenet方法的mape分别降低了约3.01％，3.31％，3.29％，3.76％，1.54％。由于ha，svr，var和lstm方法仅考虑时间依赖性，忽略了交通网络的空间相关性。stgcn，dcrnn，graph wavenet，stsgcn和本发明的stagcn方法都考虑了空间相关性，因此与仅用于时间序列预测的方法相比，它们具有更好的预测性能。
[0177]
在pemsd04数据集上，与stgcn，dcrnn，graph wavenet和stsgcn方法相比，本发明的stagcn方法的mae分别降低了约10.77％，18.27％，20.93％，1.04％。rmse分别降低了约7.97％，14.16％，18.20％，0.68％。由于dcrnn，stgcn和graph wavenet分别使用两个部分对空间相关性和时间依赖性进行建模，而忽略了交通流数据中时间依赖性和周期性的变化。本发明的方法同时捕获了交通流数据中的时空相关性，并且考虑了时间依赖性和周期性变化，因此本发明的方法与基线方法相比具有更好的预测性能。
[0178]
表2：不同交通流预测方法在pemsd04和pemsd08数据集上的性能比较
[0179][0180]
为了进一步研究stagcn不同的性能，本发明设计了stagcn方法的两个变体，研究
了注意力机制与门控融合机制对方法性能的影响，并将这两个变体与stagcn方法在pemsd04和pemsd08数据集上进行比较，进行了15分钟，30分钟和60分钟的交通流预测，如表3所示。这两种变体方法与stagcn方法的差异为：
[0181]
without attention：该方法没有注意力机制和门控融合机制。
[0182]
without gated fusion：该方法具有注意力机制，没有门控融合机制。
[0183]
表3：stagcn方法与两个变体方法在不同时间点的预测性能
[0184][0185]
在15分钟下，stagcn方法相比without attention和without gated fusion方法在pemsd08数据集上的mae分别降低了约39.38％，9.14％，rmse分别降低了约28.13％，6.74％。在30分钟下，mae分别降低了约34.65％，9.35％，rmse分别降低了约25.62％，5.01％。在60分钟下，mae分别降低了约33.41％，8.45％，rmse分别降低了约25.28％，5.08％。同理，stagcn方法在pemsd08数据集上同样取得了较好的预测性能。此外，通过表3可得，在不同的时间点下，stagcn方法均取得了最佳的预测性能。
[0186]
总体而言，随着预测时间步长的增加，相应的预测难度越来越大，因此预测误差也会增加。从图4和图5可以看出，without attention方法相比without gated fusion方法和本发明的stagcn方法，无论时间步长多少，均没有表现出良好的预测性能，随着预测时间步长的增加，without gated fusion方法的mape，mae，rmse均变得越来越大，这是由于without attention方法并没有同时考虑交通流的时空相关性。随着预测时间步长的增加，without gated fusion方法的mape，mae，rmse增加的较为缓慢。相比之下，本发明所提出的stagcn方法几乎在所有时间步中都取得了较好的预测性能，说明时空注意力机制和门控融合机制相结合的策略可以更好地挖掘交通流数据中的时空相关性。
[0187]
虽然，以上所述已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于时空注意力机制的卷积网络交通流预测方法与流程

相关文献

最热文献