基于下采样交互时空注意力网络的交通流量预测

期刊菜单

基于下采样交互时空注意力网络的交通流量预测
Traffic Flow Prediction Based on Downsampled Interactive Spatio-Temporal Attention Network

DOI: 10.12677/mos.2024.134371, PDF, HTML, XML, 下载: 15 浏览: 23 科研立项经费支持
作者: 季熙来^*, 黄雨彤, 张爱华：南京邮电大学理学院，江苏南京；冷爽：南京邮电大学计算机学院，江苏南京
关键词: 交通流量预测；下采样交互；注意力机制；节点嵌入；Traffic Flow Prediction； Down-Sampling Interaction； Attention Mechanism； Node Embedding

摘要: 准确预测交通流量对于缓解城市交通和线路规划具有至关重要意义。为了解决现有交通流量预测模型在处理时间序列相关性及长期依赖捕获方面的不足，提出了一种基于下采样交互时空注意力网络(Downsampled Interactive Spatio-Temporal Attention Network, DISTAN)的交通流量预测模型。该模型首先结合静态道路空间拓扑结构和时间信息，通过节点嵌入和独热编码构建时空嵌入。然后，在编码层采用下采样交互式学习结构以及注意力机制，以综合局部和全局信息。在解码层，增加过去和当前预测偏差的正则化损失函数，以防止过拟合。最后，通过在四个真实世界数据集上的性能测试，证明了提出的DISTAN的有效性和优越性。

Abstract: To address the limitations of existing traffic flow prediction models in handling time series correlations and long-term dependencies, we propose a downsampled interactive spatiotemporal attention network (DISTAN) to predict traffic flow. It begins with node embedding and one-hot encoding based on static spatial topology and temporal information to construct spatiotemporal embeddings. The encoded sequences are then processed with a downsampled interactive learning structure and attention mechanism to capture local and global information. To prevent overfitting, the decoding layer includes a regularization of the loss function using the deviation between past and current predictions. Test on four real-world datasets, the effectiveness and superiority of the proposed DISTAN is confirmed.

文章引用：季熙来, 黄雨彤, 冷爽, 张爱华. 基于下采样交互时空注意力网络的交通流量预测[J]. 建模与仿真, 2024, 13(4): 4090-4103. https://doi.org/10.12677/mos.2024.134371

1. 引言

近年来，随着城市化加速和居民生活水平提升，车辆保有量呈现快速增长趋势，交通拥堵问题日益凸显。在此背景下，精确的交通流量预测对于城市智慧交通系统[1]的有效运作至关重要。高效的预测模型能够辅助交通管理部门做出更加精准的控制决策[2]，有效缩短拥堵时长，进而提升城市的可持续发展水平和居民生活品质[3]。因此，确保交通流量预测的准确性成为城市交通系统智能化发展的核心任务[1]。

为了实现精准预测，众多学者提出了各种实用且有说服力的方法[4]。传统的交通预测方法主要依赖统计学和机器学习技术，如自回归积分滑动平均(Autoregressive Integrated Moving Average, ARIMA) [5]和向量自回归(Vector Autoregression, VAR) [6]模型，以及支持向量机(Support Vector Machine, SVM) [7]等。尽管这些方法在时间序列分析上取得了成效，但在捕捉交通数据的复杂时空依赖性方面仍显不足，这些一般化模型可能无法准确反映特定地区和时段的交通特征，导致预测偏差[8]。此外，道路间的相互影响对交通流量预测同样至关重要，单条道路的流量变化可能对周边道路产生连锁反应[9]。

随着深度学习技术的快速发展，基于循环神经网络(Recurrent Neural Network, RNN) [10]、卷积神经网络 (Convolutional Neural Network, CNN) [11]和生成对抗网络(Generative Adversarial Network, GAN) [12]的深度学习策略已逐渐被应用于交通预测。这些方法在短期依赖性捕捉方面展现出显著优势，但在长期依赖和动态空间关系建模上仍存在挑战。随着交通网络模型的不断完善，研究者们提出了更为高效的交通预测模型。这些模型通常包含两个核心部分：时间特征提取模块和空间特征提取模块。在时间特征提取方面，一些学者专注于时间特征提取，提出了用于交通预测的基于时间周期序列特征的时空交互动态图卷积网络(Spatial-Temporal Interactive Dynamic Graph Convolution Network, STIDGCN) [13]以及基于滑动窗口的时空同步图卷积网络(Spatial-temporal synchronous graph convolutional networks, STSGCN) [14]等；在空间特征提取方面，不少学者聚焦于道路网络的动态变化特征，提出了用于交通预测的集成动态图学习机制的解耦动态时空图神经网络(Decoupled dynamic spatial-temporal graph neural network, D2STGNN) [15]，基于时空注意力模块和多感受野门控卷积的动态时空感知图神经网络(Dynamic spatial-temporal aware graph neural network, DSTAGNN) [16]，结合自适应图、混合跳传播层的多任务图神经网络(Multi-Task Graph Neural Network, MTGNN) [17]，基于通道注意力和门控卷积的多尺度时间对偶图卷积网络(Multi-scale temporal dual graph convolution network, MD-GCN) [18]，结合跨尺度融合机制的时空多尺度图卷积网络(Spatiotemporal Multiscale Graph Convolutional Network, SMGCN) [19]等。尽管这些模型在时间相关性处理或道路动态空间特征建模方面取得了一定的进展，但在长期依赖性建模方面仍有改进空间。

同时，基于Transformer的模型也得到了广泛研究，例如双向时空自适应Transformer (Bidirectional spatial-temporal adaptive transformer, BSTAT) [20]模型提出了一种基于Transformer的动态解码编码机制，旨在实现循环控制的动态优化，以提高运行时间的效率。然而，在实际应用中，BSTAT模型未能充分考虑时间维度内的隐含交互作用，不仅增加了动态优化过程中的运行时间成本，也限制了其在长期依赖性捕捉方面的性能表现。

基于时间序列采样特性与BSTAT模型中的Transformer编码和解码层次结构，本文提出了一种全新的下采样交互时空注意力网络(Downsampled Interactive Spatio-Temporal Attention Network, DISTAN)用以预测交通流量，旨在更有效地捕捉交通数据的时空依赖性。通过将Transformer编码器嵌入到交互式学习框架中，深入挖掘交通数据的动态相关性，并采用下采样交互(Downsampled Interactive, DI)模块，利用时间序列的趋势特征，将序列分割为多个子序列，在子序列间进行交互学习，提取时空数据间的隐含联系。此外，为了精确捕获其空间依赖性并防止模型过拟合，将图结构信息结合Node2vec [21]和Line [22]嵌入向量化，并在损失函数中引入历史解码偏差作为正则项，以增强模型的泛化能力。这种结构不仅提高了模型对空间相关性的敏感度，而且通过正则化策略确保了模型在未知数据上的预测准确性。

基于以上探索，本文的主要创新工作包括：

(1) 提出一种全新的下采样交互时空注意力网络，通过将Transformer层整合进交互式学习框架，实现对时间与空间相关性的同步捕获，并利用交互式学习机制深入挖掘时空依赖性，优化长期预测的准确性。

(2) 设计了一个全新的下采样交互融合模块，该模块能够整合下采样子序列与原始序列的特征，有效捕获局部与全局的时空依赖性，增强模型的预测能力。

(3) 通过结合Node2vec和Line节点嵌入技术，自适应地捕捉不同规模网络中的空间异质性，并模拟节点间的动态关联，以提升空间特征的表达精度。

(4) 在四个真实世界数据集上进行了实验验证。实验结果显示，与现有基线模型相比，DISTAN展现出卓越的普适性，并在长期预测任务中取得了最优越的性能。

本文的其余部分结构如下：第2节详细介绍了提出的模型，第3节汇总了实验设置和结果分析，第4节进行总结并讨论了未来的工作。

2. 模型构建

2.1. 问题定义

交通预测是一个典型的时序预测问题[23]，其中交通网络的拓扑结构是模型建立的重要依据。模型的输入为历史交通数据，输出为基于历史交通数据和交通网络拓扑结构的预测交通数据。有向图 $G = (V, E)$ 表示道路网络，其中V是节点的集合，E是边的集合。每个节点 $v_{i} \in V$ 的特征用 $x_{i} \in R^{d_{x}}$ 表示， $d_{x}$ 是其维度。历史交通数据用 $X = [x_{1}, x_{2}, \dots, x_{n}]$ 表示，其中 $x_{i}$ 是第i个时刻的交通数据。预测交通数据用 $\hat{X} = [{\hat{x}}_{1}, {\hat{x}}_{2}, \dots, {\hat{x}}_{n}]$ 表示，其中 ${\hat{x}}_{i}$ 是第i个时刻的预测交通数据。交通预测的目标是根据历史交通数据 $X$ 来预测未来的交通数据 $\hat{X}$ 。

2.2. 下采样交互时空注意力网络模型

本文提出了一种新的下采样交互时空注意力网络(DISTAN)，该网络基于编码器–解码器架构，通过多层多头时空注意力机制实现高效的交互学习，旨在深入挖掘时空数据的内在关联，以实现精确的预测。模型架构详细展示于图1。

在数据处理阶段，首先对原始交通流量数据进行小时和星期的独热编码[24]，以有效表示时间维度信息。同时，采用Node2vec和Line算法对静态道路网络节点进行嵌入，并将两种嵌入结果拼接合并，通过线性映射转化为可学习的参数层，从而捕获深层次的空间依赖性。随后，将原始交通流量数据、时间独热编码和节点嵌入结果进行拼接，并将拼接后的特征按时间序列划分为过去、现在和未来三个部分，j将当前特征数据输入至K层下采样交互注意力编码模块。

如图1所示，编码器对当前数据特征采用分而治之的策略，在每一层编码模块中交互式学习。通过交错采样技术，将输入的当前数据特征序列分割为两个子序列，各自通过注意力编码层处理后，按时间索引顺序重新组合，并与原始序列进行加权融合，以补充潜在的相互关系。此融合结果进一步作为下一层编码的输入。相较于传统的单层Transformer编码层，下采样交互策略显著增强了序列间的相互作用，有效提升了对复杂时间动态和空间变化的捕获能力。经过K层编码模块的处理，计算过去数据特征与当前数据特征之间的相似度权重，以优化编码后的当前数据特征。优化后的特征输入解码器的预测模块，并经过K层解码过程生成预测结果。此外，还将划分出的用于调整的解码器输入，通过K层解码得到与真实数据之间的误差，构建正则化损失函数，从而有效防止模型过拟合，确保模型的泛化性能。

Figure 1. Overall process framework diagram

图1. 整体流程框架图

2.3. 交通网络图的构建和图编码

(1) 空间结构图

预先定义的邻接矩阵基于节点的关联性和距离[25] [26]，对于节点 $i$ 和 $j$ ( $1 \leq i, j \leq n$ ，n为节点个数)，邻接矩阵定义如下：

$A_{i j} = {\begin{array}{l} \exp (- \frac{d_{i j}^{2}}{σ^{2}}), 如果 i \neq j 且 \exp (- \frac{d_{i j}^{2}}{σ^{2}}) \geq ε \\ 0, 其他 \end{array}$ (1)

其中， $d_{i j}$ 代表i和j之间的距离， $σ^{2}$ 为阈值， $ε$ 为控制邻接矩阵稀疏性的阈值。

(2) 图节点嵌入

采用Node2vec算法[21]以构建节点嵌入，通过随机游走机制捕捉图中节点的同质性和结构对等性。Node2Vec通过调整搜索参数p和q来控制随机游走的偏好，其定义如下：

$α_{p q (t, x)} = {\begin{matrix} \frac{1}{p} ，如果 d_{t x} = 0 \\ 1 ，如果 d t x = 1 \\ \frac{1}{q} ，如果 d t x = 2 \end{matrix}$ (2)

然而，Node2vec受限于样本数量，导致随机游走的长度受限，影响了保留原始结构特征的能力。其主要学习近邻社区的结构特征，对于相距较远的社区，随机游走难以在序列中同时包含结构性相似的节点。

为了克服这一限制，引入Line算法[22]，通过一阶、二阶相似度来捕捉节点间的直接联系和邻居的相似性，有效捕获节点的局部和全局结构特征。一阶相似度旨在保留低维嵌入中节点间直接联系的紧密程度，并通过边权重进行优化。对于边 $(i, j)$ ，顶点 $v_{i}, v_{j}$ 之间的联合概率 $p_{1}$ 和KL散度优化目标 $O_{1}$ 分别为：

$p_{1} (v_{i}, v_{j}) = \frac{1}{1 + \exp (- {\bar{u}}_{i}^{T} {\bar{u}}_{j})}, O_{1} = - \sum_{(i, j) \in E} w_{i j} \log p_{1} (v_{i}, v_{j})$ (3)

二阶相似度衡量两个节点邻居相似程度。对于边 $(i, j)$ ，顶点 $v_{i}$ 生成 $v_{j}$ 的概率 $p_{2}$ 和KL散度优化目标 $O_{2}$ 分别为：

$p_{2} (v_{j} | v_{i}) = \frac{\exp ({\bar{u}}^{'}_{j}^{T} {\bar{u}}_{i})}{\sum_{k = 1}^{| V |} \exp ({\bar{u}}^{'}_{j}^{T} {\bar{u}}_{i})}, O_{2} = - \sum_{(i, j) \in E} w_{i j} \log p_{2} (v_{j} | v_{i})$ (4)

综合Node2vec和Line算法的优势，提出了一种向量嵌入生成方法，将两种算法生成的嵌入向量进行拼接，并引入额外的可学习参数层以强化空间特征的表达。定义向量嵌入X如下：

$X = Concatenate (X_{1}, X_{2})$ (5)

其中， $X_{1}$ 为Node2vec算法生成的嵌入向量， $X_{2}$ 为Line算法生成的嵌入向量，Concatenate操作代表将两个向量按索引顺序连结，形成一个新的向量。

2.4. 时间编码

交通数据通常显示出明显的时间周期性，例如早晚高峰时段的交通流量剧增以及工作日与非工作日的流量差异。为了精确捕捉这些周期性模式，不仅考虑了一天中的具体小时，还考虑了一周中的特定星期数。使用独热编码[24] (One-hot Encoding)来表示时间单位，生成时间特征向量。具体来说，对于小时和星期的独热编码表示如下：

$O n e h o t (H o u r) = [h o u r_{0}, \dots, h o u r_{i}, \dots, h o u r_{23}]$ (6)

其中 $h o u r_{i} = 1$ ，如果 $H o u r = i$ ； $h o u r_{i} = 0$ ，如果 $H o u r \neq i$ 。

$O n e h o t (W e e k) = [w e e k_{0}, \dots, w e e k_{i}, \dots, w e e k_{6}]$ (7)

其中 $w e e k_{i} = 1$ ，如果 $W e e k = i$ ； $w e e k_{i} = 0$ ，如果 $W e e k \neq i$ 。

通过将小时和星期的独热编码向量进行拼接，构建时刻i的时间特征向量：

$T_{i} = C o n c a t e n a t e (O n e h o t (H o u r_{i}), O n e h o t (W e e k_{i}))$ (8)

进一步地，将时间特征向量与空间特征结合，构建了时刻i的综合特征向量：

$X_{i} = C o n c a t e n a t e (X, T_{i})$ (9)

2.5. 按时间交叉采样分割的数据

为了深入挖掘时间序列数据的特征并有效捕捉序列内的前后依赖性，将时间序列数据根据时间索引划分为历史(past)、当前(present)和未来(future)三个部分以方便后续的交互框架，具体划分如下：

$X_{p a s t}, X_{p r e s e n t}, X_{f u t u r e} = X [1 : 1 : e n d - 2], X [2 : 1 : e n d - 1], X [3 : 1 : e n d]$ (10)

其中， $X [a : b : e n d]$ 为从索引a开始，每隔b个时间单位采样一次，直到序列的最后一个时间点结束。

为了构建时间序列的内部交互结构，根据数据的奇偶性将当前时刻的数据划分为两个子集：

$X_{e v e n} = X_{p r e s e n t} [1 : 2 : e n d], X_{o l d} = X_{p r e s e n t} [2 : 2 : e n d]$ (11)

2.6. 编码器

编码器由K个同构编码器层堆叠而成，旨在有效提取时间序列数据的长时依赖特征。每一层编码器均由三个核心组成部分构成：时间编码层、空间编码层以及融合机制。对于时间序列中的偶数索引数据 $X_{e v e n}$ 和奇数索引数据 $X_{o l d}$ ，分别通过时间编码层和空间编码层进行处理。时间编码层专注于捕捉时间序列的周期性和趋势性特征，空间编码层则旨在提取数据的空间相关性。此外，当前时刻的数据 $X_{p r e s e n t}$ 同样经过这两个编码层，以确保模型能够同时考虑到时间序列的即时特征。

2.6.1. 交互融合模块

针对交通流时间序列数据通常具有明显的趋势性和周期性，即便在经过交错下采样处理后，子序列仍能保留原始序列的大部分关键信息的特点，提出了一种新的下采样方法。该方法在保持数据周期性的同时，有效扩展了模型的感知范围，使得模型能够更全面地捕获长时间序列的依赖性。基于此，设计了一种多层次的基于三个Transformer编码层的交互式学习策略，旨在深化模型对时间序列内部结构的理解。通过在每个Transformer编码层内实施三层循环机制，深入挖掘不同子序列间的隐含关系。在每个Transformer编码模块中，子序列分别交互学习时空特征，并通过独立的Transformer编码模块进行处理，从而增强了模型的接受域。

具体的编码过程描述如下：

对于每一层编码器，原始编码层首先处理当前时刻的数据：

$H_{X (p r e s e n t)} = S T_{e n c o d e r} (X_{p r e s e n t})$ (12)

子序列编码层分别处理奇数索引子序列和偶数索引子序列：

$H_{X (o l d)} = S T_{e n c o d e r} (X_{o l d}), H_{X (e v e n)} = S T_{e n c o d e r} (X_{e v e n})$ (13)

接着，对子序列编码层的输出进行拼接，以融合奇数和偶数子序列的特征：

$H_{X (o l d & e v e n)} = C o n t r a t e (H_{X (o l d)}, H_{X (e v e n)})$ (14)

最后，将原始编码层的输出与子序列编码层的融合结果相结合：

$H_{f i n a l} = α H_{X (p r e s e n t)} + (1 - α) H_{X (o l d & e v e n)}$ (15)

其中，ST为Transformer的时空编码层，α是一个自适应的可学习权重，用于调整当前时刻数据与子序列数据的相对重要性。

2.6.2. 编码模块

采用Transformer编码架构[20]提取交通流数据中的复杂时空特征，具体编码过程如下：

(1) 位置编码

为充分提取三者的数据信息，在编码器层设置了三层的循环层，同时考虑数据所在的位置 $1 \leq t \leq T$ 和所在编码器的循环次数 $1 \leq l \leq L$ ，以及序列的总长度 $d_{m o d e l}$ 和序列维度d：

$E_{T P} (t, l, 2 d) = \sin (t / 10000^{2 d / d_{m o d e l}}) + \sin (l / 10000^{2 d / d_{m o d e l}})$ (16)

$E_{T P} (t, l, 2 d + 1) = \cos (t / 10000^{2 d / d_{m o d e l}}) + \cos (l / 10000^{2 d / d_{m o d e l}})$ (17)

(2) 注意力机制和多头注意力

注意力机制将查询(Q)与一组键值对(K-V)映射到输出，以实现对数据的动态关注[27]。使用自意力机制[27]，以提高计算效率和表达能力。具体的注意力计算公式如下：

$A t t e n t i o n (Q, K, V) = S o f t m a x (\frac{Q K^{T}}{\sqrt{D}}) V$ (18)

多头注意力机制进一步扩展了模型的学习能力，使模型能够在不同的表示子空间中并行学习信息：

$M u l t i H e a d (Q, K, V) = C o n c a t a t i o n (h e a d_{1}, \dots, h e a d_{k}) W^{O}$ (19)

其中，每个head是独立的注意力计算：

$h e a d_{i} = A t t e n t i o n (Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V})$ (20)

(3) 残差连接、层归一化和转换函数

为提高模型的训练效率、稳定性，第m层编码层的输出 $A^{(m)}$ 通过层归一化和转换函数进行处理：

$A^{(m)} = L a y e r N o r m ((H^{(m - 1)} + E_{T P}^{(m)}) + M u l t i H e a d (H^{(m - 1)} + E_{T P}^{(m)}))$ (21)

$H^{(m)} = L a y e r N o r m (A^{(m)} + F e e d F o r w a r d (A^{(m)}))$ (22)

其中，LayerNorm表示层归一化，FeedForward表示转换函数，由两个仿射变换组成，中间包含一个ReLU激活函数。

2.6.3. 时间和空间注意力交互模块

为了深入提取时间和空间信息，分别通过Transformer层提取时间依赖和空间依赖，并通过 $σ$ 激活函数以及门控结合两者[20]：

$g = σ (H_{s} W_{s} + H_{T} W_{T} + b_{g})$ (23)

$H = g ⊙ H_{s} + (1 - g) ⊙ H_{T}$ (24)

其中， $⊙$ 为哈达玛积， $H_{s}$ 代表空间编码层， $H_{T}$ 代表时间编码层。将编码模块整个简记为：

$H = S T_{e n c o d e r} (X)$ (25)

编码层整个过程按照图2所示：

Figure 2. Encoding layer

图2. 编码层

2.7. 解码器

2.7.1. 交叉验证

为了增强模型对当前、未来以及过去数据之间关联性的理解，通过交叉验证方法来捕获序列之间的关联性，并提高解码器的解码能力[20]。分别通过空间嵌入X和时间嵌入T来获取过去嵌入向量 $E_{p}$ 和未来嵌入向量 $E_{p}$ ：

$E_{p} = X [s_{i}, :] + T^{P} [P_{i}, :], E_{F} = X [s_{i}, :] + T^{F} [F_{i}, :]$ (26)

通过计算未来和过去嵌入向量之间的相似度 $λ_{F_{i}, P_{i}}^{S_{i}}$ 量化序列之间的关联性，并将其用作权重来合成解码器层的输入：

$λ_{F_{i}, P_{i}}^{S_{i}} = \frac{〈 E_{F}, E_{P} 〉}{\sqrt{D}} = \frac{\exp (λ_{F_{i}, P_{i}}^{S_{i}})}{\sum_{P_{j} = 1}^{P} \exp (λ_{F_{j}, P_{i}}^{S_{i}})}$ (27)

其中， $〈, 〉$ 代表点积，D为嵌入向量的维度。

最终，解码器层的输入 $H_{D}$ 通过加权融合过去嵌入向量H来构建：

$H_{D} [F_{i}, s_{i}, :] = \sum_{p_{i} = 1}^{P} λ_{F_{i}, P_{i}}^{S_{i}} H [P_{i}, s_{i}, :]$ (28)

2.7.2. 解码器层

编码器有着和编码器类似的结构，但具有独特的双重作用：一部分专注于对过去数据的解码，另一部分致力于对未来数据的预测。与编码器不同，过去数据解码部分排除了交互模块，仅包含单层循环结构，这有助于将历史偏差纳入模型，作为正则化手段以防止过拟合。预测结果的表示如下：

${\hat{χ}}^{H} = S T_{d e c o d e r} (S T_{e n c o d e r} (χ^{H}))$ (29)

未来数据解码部分则专注于预测未来的交通流状态，表示为：

${\hat{χ}}^{F} = S T_{d e c o d e r} (S T_{e n c o d e r} (χ^{F}))$ (30)

整个编码和解码的过程旨在提高模型对交通流时间序列数据的理解能力，从而提高预测的准确性。解码器过程的详细整体过程如图3所示。

Figure 3. Decoding layer

图3. 解码层

2.8. 损失函数

为了衡量模型预测历史数据的准确性，计算历史预测误差：

$ℒ_{H} = \frac{1}{H} \sum_{t = 1}^{H} | χ^{H} - {\hat{χ}}^{H} |$ (31)

同时，为了评估模型对未来数据的预测能力，计算实际预测误差：

$ℒ_{F} = \frac{1}{F} \sum_{t = 1}^{F} | χ^{F} - {\hat{χ}}^{F} |$ (32)

在模型训练过程中，为了防止过拟合并增强模型的泛化能力，将历史误差作为损失函数正则项：

$ℒ = ℒ_{F} + α_{l o s s} ℒ_{H}$ (33)

其中， $α_{l o s s}$ 为正则化参数。

3. 实验分析

3.1. 实验数据集

本文选取了由加州交通部性能测量系统(Caltrans Performance Measurement System, PeMS) [28]提供的数据集，涵盖了美国加利福尼亚州四个不同地区、多个时间段和不同规模的高速公路流量数据，具体包括PEMS03、PEMS04、PEMS07和PEMS08。

3.2. 参数设置

3.2.1. 数据划分

本文将数据集按照6:2:2的比例分为训练集、测试集和验证集。在数据进入模型训练之前，首先对其进行了归一化处理，以消除不同量纲的影响。此外，利用过去12个时刻(即一小时)的数据来预测未来的交通流量以评估效果，具体包括未来三个时刻(15分钟)、六个时刻(30分钟)、九个时刻(45分钟)和十二个时刻(一小时)的数据。

3.2.2. 超参数设置和硬件配置

本文基于Pytorch框架实现，在Tesla P100-XSM2服务器显卡上运行实验，使用Adam优化器训练更新。其中，epoch为100，batch-size为8，超参数的注意力头个数设置为3，模型输出维度为8，学习率为0.001，编码器和解码器层数为2，编码器和解码器循环为3， $ε$ 为0.1，图节点嵌入的总维度为64， $α_{l o s s}$ 为0.001。

3.3. 评价指标及基准模型

以MAE，RMSE，MAPE分别衡量预测的点数和实际的误差[22]，具体三种误差计算如下：

$M A E (x_{i}, {\hat{x}}_{i}) = \frac{1}{n} \sum_{i = 1}^{n} | x_{i} - {\hat{x}}_{i} |$ (34)

$R M S E (x_{i}, {\hat{x}}_{i}) = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(x_{i} - {\hat{x}}_{i})}^{2}}$ (35)

$M A P E (x_{i}, {\hat{x}}_{i}) = \frac{100 %}{n} \sum_{i = 1}^{n} \frac{| x_{i} - {\hat{x}}_{i} |}{x_{i}}$ (36)

将以下效果表现优异的模型作为基准模型，具体如下：

STIDGCN [13]：提出了一种交互式动态图卷积结构，该结构将交通数据作划分，并通过交互式和图卷积同步捕获交通数据的时空依赖性。

STSGCN [14]：通过滑动窗口构建局部时空图，同步捕获时空相关性。然而，这种方法只在固定的时间步长内缝合局部空间图，这可能会由于收集的数据中缺失的测量值而被破坏。

D2STGNN [15]：提出了一种新的解耦时空框架，利用数据驱动的方式分离扩散和固有交通信息，包括一个独特的估计门和残差分解机制。

DSTAGNN [16]：利用时空感知距离，有效地增强路网节点间内部动态关联属性的表示。结合时空注意力模块和多感受场门控卷积，提高了时间序列数据中对动态时空依赖性的感知。

MTGNN [17]：基于GNN和基于CNN的模型，采用自适应图、混合跳传播层和扩张的初始层来捕获时空相关性。

MD-GCN [18]：基于通道注意力和Inception结构的门控时态卷积以提取多尺度时间依赖性。包含图采样与聚合子模块和混合跳数传播图卷积子模块的双图卷积模块，以捕捉邻近节点相关性。

SMGCN [19]：利用粗粒度交通图中集群的流量变化以及细粒度节点的流量变化与其所归属的集群趋势一致的特性，提出了跨尺度融合机制，实现细粒度和粗粒度交通图之间的信息扩散。

BSTAT [20]：提出了一种基于Transformer的动态解码和编码器，实现动态控制循环，动态优化运行时间。

实验的结果如表1所示：

Table 1. Performance evaluation results comparison

表1. 性能评价结果比较

		Horizon 3			Horizon 6			Horizon 9			Horizon 12
数据集	模型	MAE	RMSE	MAPE	MAE	RMSE	MAPE	MAE	RMSE	MAPE	MAE	RMSE	MAPE
PEMS03	STIDGCN	14.77	25.23	15.06%	16.02	27.44	16.12%	16.97	28.88	17.10%	18.02	30.12	18.11%
	STSGCN	14.87	25.77	14.47%	15.90	27.80	15.37%	16.98	28.20	16.49%	17.87	29.07	17.27%
	D2STGNN	14.67	25.15	14.53%	15.99	27.31	15.55%	16.88	28.77	16.27%	17.78	29.97	17.18%
	DSTAGCN	14.54	25.52	14.61%	15.91	27.97	15.62%	16.70	29.19	16.41%	17.62	30.46	17.22%
	MTGNN	15.12	26.11	15.82%	16.50	28.33	17.09%	17.89	30.78	18.59%	19.10	32.11	19.87%
	MD-GCN	14.57	25.51	14.99%	15.97	27.68	15.89%	16.68	28.81	16.52%	17.58	29.89	17.51%
	SMGCN	14.49	25.43	14.85%	15.87	27.59	15.67%	16.59	28.77	16.44%	17.54	29.78	17.44%
	BSTAT	14.33	25.07	14.88%	15.53	27.01	15.77%	16.61	28.67	16.49%	17.55	29.62	17.45%
	DISTAN	14.21	24.96	14.96%	15.34	26.80	15.81%	16.28	28.24	16.46%	17.18	29.57	17.41%
PEMS04	STIDGCN	19.01	29.99	12.98%	20.43	32.21	13.87%	21.54	34.17	14.77%	22.17	36.99	15.65%
	STSGCN	19.80	31.58	13.41%	21.30	33.84	14.27%	22.86	36.15	15.36%	24.47	38.46	16.27%
	D2STGCN	18.43	29.42	12.89%	19.63	31.19	13.79%	20.67	32.58	14.56%	21.64	33.87	15.30%
	DSTAGCN	18.45	29.85	12.10%	19.36	31.61	12.57%	20.15	33.10	13.03%	21.19	34.75	13.33%
	MTGNN	18.93	29.90	9.52%	20.96	33.47	10.18%	22.47	35.95	10.66%	24.06	38.18	11.12%
	MD-GCN	18.77	29.77	12.77%	20.44	32.11	13.22%	21.92	34.12	14.25%	23.02	36.42	15.11%
	SMGCN	18.53	29.34	13.21%	19.55	31.73	13.98%	20.77	33.13	14.76%	22.12	35.02	15.39%
	BSTAT	18.15	29.23	12.06%	18.96	30.52	12.60%	19.68	31.57	13.11%	20.54	32.68	13.80%
	DISTAN	18.01	29.12	12.23%	18.75	30.33	12.75%	19.39	31.33	13.21%	20.16	32.40	13.77%
PEMS07	STIDGCN	20.53	32.44	8.87%	22.12	34.88	9.33%	23.74	36.12	9.78%	25.12	38.78	10.11%
	STSGCN	20.89	32.67	8.76%	22.34	35.22	9.23%	23.93	36.44	9.98%	25.33	38.80	10.21%
	D2STGNN	19.55	31.55	8.46%	21.22	34.12	8.99%	22.41	35.98	9.33%	23.76	38.10	9.88%
	DSTAGCN	19.57	31.98	8.52%	21.10	33.97	8.76%	22.20	35.75	9.12%	23.49	37.86	9.73%
	MTGNN	19.80	32.10	7.20%	21.60	35.2	8.12%	23.10	36.11	8.22%	25.01	39.11	9.00%
	MD-GCN	19.77	31.88	8.32%	21.32	33.90	8.62%	22.43	35.72	8.98%	23.65	37.98	9.64%
	SMGCN	19.75	31.77	8.22%	21.27	33.92	8.58%	22.34	35.88	8.87%	23.58	38.10	9.46%
	BSTAT	19.92	32.12	8.35%	21.34	34.51	8.94%	22.63	36.47	9.52%	24.06	38.41	10.25%
	DISTAN	19.44	31.45	8.08%	20.81	33.84	8.64%	21.95	35.66	9.14%	23.25	37.51	9.75%

续表

PEMS08	STIDGCN	15.12	23.77	9.87%	16.22	25.64	10.67%	17.16	27.23	11.42%	18.65	28.98	12.21%
	STSGCN	16.65	25.40	10.90%	17.82	27.31	11.60%	18.70	28.77	12.00%	19.77	29.30	12.80%
	D2STGCN	14.29	22.43	9.90%	15.42	24.40	10.61%	16.42	25.92	10.83%	17.37	27.33	11.81%
	DSTAGCN	14.33	22.87	9.77%	15.22	24.22	10.12%	15.67	25.10	10.32%	16.02	26.77	10.67%
	MTGNN	15.65	25.12	9.30%	16.71	27.11	9.90%	18.22	28.22	10.02%	20.13	30.02	10.10%
	MD-GCN	14.77	24.68	9.11%	15.80	26.33	9.58%	16.86	27.08	9.99%	18.23	28.08	10.35%
	SMGCN	14.55	23.44	10.44%	15.76	25.26	11.20%	16.44	26.52	11.54%	17.50	27.70	11.98%
	BSTAT	13.61	22.45	8.62%	14.24	23.85	9.04%	14.87	24.96	9.44%	15.67	26.11	9.95%
	DISTAN	13.51	22.26	9.00%	14.18	23.72	9.42%	14.85	24.93	9.88%	15.65	26.07	10.52%

表1展示了提出的DISTAN在不同地区和规模的交通网络数据集上的性能评估结果。与基准模型相比，DISTAN在PEMS03、PEMS04、PEMS07和PEMS08四个数据集上均表现出显著的性能优势。对于规模较大、数据量丰富的PEMS03和PEMS07交通网络，DISTAN不仅在短期预测上实现了性能提升，而且在长期预测方面也展现出更佳的预测效果。特别是在PEMS07数据集上，与最优基准模型相比，DISTAN在三个评估误差指标上分别实现了3%、3%和4%的改进。对于中等规模的PEMS04和较小规模的PEMS08交通网络，DISTAN在短期预测中同样取得了显著的性能提升。然而，在长期预测方面，由于PEMS08网络的规模较小，其内在的时空依赖性较弱，因此性能提升相对较少。这些结果验证了DISTAN在处理复杂交通流量数据方面的有效性和可靠性，尤其是在预测未来交通流量方面展现出的高准确度。

3.4. 消融实验

为了理解模型中各个组件对模型性能的具体影响，对PEMS04数据集进行了消融实验研究。将DISTAN的变体命名如下：

•w/o Line：只用Node2vec构建节点向量表示。

•w/oDI：去除在编码层的下采样交互模式，只保留单层Transformer编码。

•w/oH_s：编码层和解码层去除空间编码和时间空间融合层。

•w/oH_T：编码层和解码层去除时间编码和时间空间融合层。

•w/o $ℒ_{H}$ ：去除损失函数正则化。

Table 2. Comparison of performance evaluation results for different variants

表2. 不同变体性能评估结果比较

	Horizon 3			Horizon 6			Horizon 9			Horizon 12
变体	MAE	RMSE	MAPE	MAE	RMSE	MAPE	MAE	RMSE	MAPE	MAE	RMSE	MAPE
w/o Line	18.11	29.24	12.55%	18.90	30.65	12.92%	19.56	31.61	13.51%	20.40	32.62	13.90%
w/o DI	18.31	29.35	12.67%	19.13	30.82	12.90%	19.97	31.89	13.78%	20.76	32.98	14.23%
w/oH_s	18.90	30.12	13.10%	20.18	32.10	14.41%	21.78	34.22	15.80%	23.08	36.10	17.05%
w/oH_T	18.46	29.66	12.69%	19.43	31.17	13.39%	20.31	32.43	14.14%	21.30	33.76	14.95%
w/o $ℒ_{H}$	18.16	29.30	12.67%	18.96	30.70	12.99%	19.60	31.72	13.66%	20.53	32.77	14.10%
DISTAN	18.01	29.12	12.23%	18.75	30.33	12.75%	19.39	31.33	13.21%	20.16	32.40	13.77%

如表2所示，时间编码模块和空间编码模块对于提高模型的预测精确度起到了显著的作用。此外，下采样交互机制特别在增强模型的长期预测能力方面表现出了明显的优势。同时，Line算法和损失函数中的正则化策略也在一定程度上促进了预测性能的提升。

4. 结论

本文针对现有交通流量预测模型在捕捉时间关联性和长期依赖性方面的局限性，提出了一种新的下采样交互时空注意力网络模型(DISTAN)。该模型通过融合Transformer编码器到交互式学习框架，显著增强了对交通数据时空依赖性的识别能力。同时结合了两种节点嵌入技术，并采用下采样交互模块，进一步提升了对交通数据时空相关性的挖掘。在四个真实交通网络数据集上的对比实验结果表明，DISTAN在预测精度上超越了现有方法。特别是在大规模的PEMS03和PEMS07数据集上，在长期预测性能上实现了显著提升，分别得到了3%、3%和4%的改进。此外，在中等规模的PEMS04和较小规模的PEMS08数据集上，短期预测也展现了显著的性能优势。消融实验表明，时间编码模块、空间编码模块在提高模型预测精度方面起关键作用，下采样交互机制在增强模型长期预测能力方面表现尤为突出。同时，Line算法和损失函数中的正则化策略对提升模型性能也起到了积极作用。未来将继续集中于探索如何更高效地同时提取交通数据的空间和时间特征，降低模型的时空复杂度，并进一步提升预测精度。

基金项目

江苏省大学生创新创业训练计划项目(项目编号：202310293112Y)。

NOTES

^*通讯作者。

参考文献

[1]	Rahman, R., Zhang, J. and Hasan, S. (2023) A Review of Deep Learning-Based Approaches and Use Cases for Traffic Prediction. In: Dia, H., Ed., Handbook on Artificial Intelligence and Transport, Edward Elgar, 80-101. https://doi.org/10.4337/9781803929545.00009
[2]	Peng, L., Liao, X., Li, T., Guo, X. and Wang, X. (2024) An Overview Based on the Overall Architecture of Traffic Forecasting. Data Science and Engineering. https://doi.org/10.1007/s41019-024-00246-x
[3]	Alzahrani, M., Wang, Q., Liao, W., Chen, X. and Yu, W. (2024) Survey on Multi-Task Learning in Smart Transportation. IEEE Access, 12, 17023-17044. https://doi.org/10.1109/access.2024.3355034
[4]	Aljuaydi, F., Wiwatanapataphee, B. and Wu, Y.H. (2023) Multivariate Machine Learning-Based Prediction Models of Freeway Traffic Flow under Non-Recurrent Events. Alexandria Engineering Journal, 65, 151-162. https://doi.org/10.1016/j.aej.2022.10.015
[5]	Milenković, M., Gligorić, M., Bojović, N. and Gligorić, Z. (2023) A Comparison between ARIMA, LSTM, ARIMA-LSTM and SSA for Cross-Border Rail Freight Traffic Forecasting: The Case of Alpine-Western Balkan Rail Freight Corridor. Transportation Planning and Technology, 47, 89-112. https://doi.org/10.1080/03081060.2023.2245389
[6]	Dissanayake, B., Hemachandra, O., Lakshitha, N., et al. (2021) A Comparison of ARIMAX, VAR and LSTM on Multivariate Short-Term Traffic Volume Forecasting. Proceedings of the 28th Conference of the Open Innovations Association FRUCT, Moscow, 27-29 January 2021, 564-570.
[7]	Zhong, W. and Du, L. (2023) Predicting Traffic Casualties Using Support Vector Machines with Heuristic Algorithms: A Study Based on Collision Data of Urban Roads. Sustainability, 15, Article 2944. https://doi.org/10.3390/su15042944
[8]	Khan, A., Fouda, M.M., Do, D., Almaleh, A. and Rahman, A.U. (2023) Short-Term Traffic Prediction Using Deep Learning Long Short-Term Memory: Taxonomy, Applications, Challenges, and Future Trends. IEEE Access, 11, 94371-94391. https://doi.org/10.1109/access.2023.3309601
[9]	Umar, I.K., Adamu, M., Mostafa, N., Riaz, M.S., Haruna, S.I., Hamza, M.F., et al. (2024) The State-of-the-Art in the Application of Artificial Intelligence-Based Models for Traffic Noise Prediction: A Bibliographic Overview. Cogent Engineering, 11, Article 2297508. https://doi.org/10.1080/23311916.2023.2297508
[10]	Yu, W., Ruan, K., Tang, H. and Huang, J. (2022) Routing Hypergraph Convolutional Recurrent Network for Network Traffic Prediction. Applied Intelligence, 53, 16126-16137. https://doi.org/10.1007/s10489-022-04335-0
[11]	Krupski, J., Graniszewski, W. and Iwanowski, M. (2021) Data Transformation Schemes for CNN-Based Network Traffic Analysis: A Survey. Electronics, 10, Article 2042. https://doi.org/10.3390/electronics10162042
[12]	Jin, J., Rong, D., Zhang, T., Ji, Q., Guo, H., Lv, Y., et al. (2022) A GAN-Based Short-Term Link Traffic Prediction Approach for Urban Road Networks under a Parallel Learning Framework. IEEE Transactions on Intelligent Transportation Systems, 23, 16185-16196. https://doi.org/10.1109/tits.2022.3148358
[13]	Liu, A. and Zhang, Y. (2022) Spatial-Temporal Interactive Dynamic Graph Convolution Network for Traffic Forecasting. arXiv Preprint arXiv:2205.08689
[14]	Song, C., Lin, Y., Guo, S. and Wan, H. (2020) Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for Spatial-Temporal Network Data Forecasting. Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, New York, 7-12 February 2020, 914-921. https://doi.org/10.1609/aaai.v34i01.5438
[15]	Shao, Z., Zhang, Z., Wei, W., Wang, F., Xu, Y., Cao, X., et al. (2022) Decoupled Dynamic Spatial-Temporal Graph Neural Network for Traffic Forecasting. Proceedings of the VLDB Endowment, 15, 2733-2746. https://doi.org/10.14778/3551793.3551827
[16]	Lan, S., Ma, Y., Huang, W., et al. (2022) DSTAGNN: Dynamic Spatial-Temporal Aware Graph Neural Network for Traffic Flow Fore-Casting. Proceedings of the 39th International Conference on Machine Learning, Baltimore, 17-23 July 2022, 11906-11917.
[17]	Wu, Z., Pan, S., Long, G., Jiang, J., Chang, X. and Zhang, C. (2020). Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Online, 6-10 July 2020, 753-763. https://doi.org/10.1145/3394486.3403118
[18]	Huang, X., Wang, J., Lan, Y., Jiang, C. and Yuan, X. (2023) MD-GCN: A Multi-Scale Temporal Dual Graph Convolution Network for Traffic Flow Prediction. Sensors, 23, Article 841. https://doi.org/10.3390/s23020841
[19]	Cao, S., Wu, L., Zhang, R., Wu, D., Cui, J. and Chang, Y. (2024) A Spatiotemporal Multiscale Graph Convolutional Network for Traffic Flow Prediction. IEEE Transactions on Intelligent Transportation Systems. https://doi.org/10.1109/tits.2024.3354802
[20]	Chen, C., Liu, Y., Chen, L. and Zhang, C. (2023) Bidirectional Spatial-Temporal Adaptive Transformer for Urban Traffic Flow Forecasting. IEEE Transactions on Neural Networks and Learning Systems, 34, 6913-6925. https://doi.org/10.1109/tnnls.2022.3183903
[21]	Grover, A. and Leskovec, J. (2016) node2vec: Scalable Feature Learning for Networks. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, 13-17 August 2016, 855-864. https://doi.org/10.1145/2939672.2939754
[22]	Tang, J., Qu, M., Wang, M., Zhang, M., Yan, J. and Mei, Q. (2015) LINE: Large-Scale Information Network Embedding. Proceedings of the 24th International Conference on World Wide Web, Florence, 18-22 May 2015, 1067-1077. https://doi.org/10.1145/2736277.2741093
[23]	Panayiotou, T., Michalopoulou, M. and Ellinas, G. (2023) Survey on Machine Learning for Traffic-Driven Service Provisioning in Optical Networks. IEEE Communications Surveys & Tutorials, 25, 1412-1443. https://doi.org/10.1109/comst.2023.3247842
[24]	Reza Rezvan, M., Ghanbari Sorkhi, A., Pirgazi, J. and Mehdi Pourhashem Kallehbasti, M. (2024) AdvanceSplice: Integrating N-Gram One-Hot Encoding and Ensemble Modeling for Enhanced Accuracy. Biomedical Signal Processing and Control, 92, Article 106017. https://doi.org/10.1016/j.bspc.2024.106017
[25]	Li, F., Feng, J., Yan, H., Jin, G., Yang, F., Sun, F., et al. (2023) Dynamic Graph Convolutional Recurrent Network for Traffic Prediction: Benchmark and Solution. ACM Transactions on Knowledge Discovery from Data, 17, 1-21. https://doi.org/10.1145/3532611
[26]	Shuman, D.I., Narang, S.K., Frossard, P., Ortega, A. and Vandergheynst, P. (2013) The Emerging Field of Signal Processing on Graphs: Extending High-Dimensional Data Analysis to Networks and Other Irregular Domains. IEEE Signal Processing Magazine, 30, 83-98. https://doi.org/10.1109/msp.2012.2235192
[27]	Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, 4-9 December 2017, 1-15.
[28]	Wang, C., Tian, R., Hu, J. and Ma, Z. (2023) A Trend Graph Attention Network for Traffic Prediction. Information Sciences, 623, 275-292. https://doi.org/10.1016/j.ins.2022.12.048

为你推荐

友情链接