用于交通流预测的多图融合与延迟对齐动态图卷积网络

doi:10.12677/ORF.2024.141079

期刊菜单

用于交通流预测的多图融合与延迟对齐动态图卷积网络
Multi-Graph Fusion with Delay-Aligned Dynamic Graph Convolutional Network for Traffic Flow Prediction

DOI: 10.12677/ORF.2024.141079, PDF, HTML, XML,
作者: 马驰：上海理工大学光电信息与计算机工程学院，上海
关键词: 交通流预测；多图融合；延迟传播；动态图卷积；Traffic Flow Forecasting； Multi-Graph Fusion； Delayed Propagation； Dynamic Graph Convolution

摘要: 交通流预测的根本挑战是如何高效捕获复杂而又动态的时空相关性。大多数研究所采用的时空图神经网络以静态方式捕获道路节点间的时空相关性，忽视了交通状况在不同节点间传播具有时间延迟的特性，难以建模隐藏动态关联。为此，提出多图融合与延迟对齐动态图卷积网络(MGF-DA-DGCN)，该网络设计了一个延迟对齐模块来捕获由于传播延迟而损失的空间信息。其次引入一种新的多图融合方法，在构造的多图基础上生成新的动态图结构，增强模型对空间异质性的捕获能力，模拟节点间动态关联。最后将多图融合动态图卷积嵌入到交互式学习结构中，在多个时间分辨率下同步捕获并共享时空相关性。三个公共交通流数据集与11种基线模型的实验结果表明，MGF-DA-DGCN具有最优的预测性能。

Abstract: The principal challenge in predicting traffic flow is efficiently capturing the complex and dynamic spatial-temporal dependence. The majority of studies that have utilized spatial-temporal graph neural networks have focused on capturing the spatial-temporal correlations between road nodes in a static manner. However, this approach overlooks the fact that there is a time delay in the propagation of traffic conditions between different nodes, and as such can make modeling the hidden dynamic correlations between them difficult. To address these challenges, a multi-graph fusion and delay-aligned dynamic graph convolutional network (MGF-DA-DGCN) was proposed. The model designed a delay-aligned module to capture the spatial information lost due to propagation delay. Furthermore, a new multi-graph fusion method was introduced to generate a dynamic graph structure based on the constructed multi-graph. This approach enhanced the model’s ability to capture spatial heterogeneity and simulate the dynamic association between nodes. Finally, the multi-graph fusion dynamic graph convolution was embedded in the interactive learning structure to synchronously capture and share spatiotemporal correlation at multiple time resolutions. Experimental results from three public transportation flow datasets and 11 baseline models indicate that MGF-DA-DGCN yields the most accurate predictions.

文章引用：马驰. 用于交通流预测的多图融合与延迟对齐动态图卷积网络[J]. 运筹与模糊学, 2024, 14(1): 856-871. https://doi.org/10.12677/ORF.2024.141079

1. 引言

随着交通设施的快速发展与人们出行需求的增加，智能交通系统(Intelligent Transportation Systems, ITS)领域要求有效优化和高效配置交通资源。交通流预测是ITS的核心技术，其目标是通过建模给定的交通网络中的历史交通数据，预测未来的交通流量，在流量控制、路线规划、车辆调度等交通服务中起着至关重要的作用。

作为研究热点，人们对交通流预测这一领域进行大量研究以提高预测精度。Yin等人 [1] 指出如何对交通大数据进行有效地获取与建模以得到复杂而又动态的时空相关性是目前最根本的挑战。其方法可以分为三类：数理统计模型、传统机器学习方法和深度学习模型。刘静 [2] 把早期用于交通流预测的数理统计方法总结为历史平均(Historical Average, HA)、自回归综合移动平均(Autoregressive Integrated Moving Average, ARIMA)、卡尔曼滤波、向量自回归(Vector Autoregression, VAR)等模型。虽然这些模型经过严谨的数学理论证明，但它们都是在静态假设的基础上才得以应用，它们的表现往往受交通数据的非线性和不稳定性的限制，目前应用很少，往往作为整体模型的一个模块来捕获时间相关性。

基于机器学习的方法可以克服这些限制，例如随机森林、支持向量回归和k近邻模型等。这些模型受益于大规模数据，可以捕获更复杂的依赖关系。然而它们的有效性在很大程度上取决于提取特征的复杂程度与提取广度，有时这是难以实现的，并且上述两类方法都没有考虑到时序序列的空间相关性。

基于深度学习的方法大多考虑到交通流数据的时空相关性，它们在时间和空间维度上进行建模，时空建模可以分开进行也可以合并进行。对于时间建模，Ma等人 [3] 首次在交通速度预测中采用了长短时记忆网络(LSTM)。LSTM通过门控机制解决梯度消失和爆炸问题，把过去的特征信息提取到内部状态中，在每个时间步递归地更新新的输入，有效提升了对长时间序列相关性的建模能力。Fu [4] 提出GRU模型，相较于LSTM，GRU在内部减少了一个输出门的设计，却能够获得相近的预测效果。此设计减少了将近三分之一的参数量，提升了训练速度，节省了计算资源。然而这些方法采用递归结构，只能捕获时间序列中的顺序信息，无法对周期性建模，并且容易把误差累积传递，难以进行并行运算。相比之下，基于TCN的方法能够比较容易进行并行化运算，训练速度较快。Wu等人 [5] 提出了GWN (Graph Wave Net)，该模型叠加多个扩展一维卷积组件，其感受野随层数的递增呈指数级增长，从而在预测效果和运行时间方面显著占据优势。因此，GWN表现出对于处理极长序列的卓越能力。然而，TCN中的扩展架构每一层共享一个卷积滤波器，在特征提取过程中导致时间关系损失，长期相关性将被稀释。近年来，由于自注意力机制的高效性，基于Transformer的方法发展起来，其以并行的方式关注每个时间位置，有效学习长期依赖关系。Transformer关注全局相关性，局部信息获取能力不如RNN与TCN，并且也存在误差累积传播的问题。上述这些方法都没考虑到时间序列的特性，比如把时间序列数据进行下采样得到的两个子序列，他们仍在很大程度上保留了原序列的时间相关性。因此可以通过使用多个卷积滤波器从下采样的子序列或特征中提取不同但有价值的时空特征。Liu等人 [6] 提出了SCINet (Sample Convolution and Interaction Network)，其扩展了卷积的感受野，以下采样—卷积—分治交互学习的方式实现多分辨率提取时间相关性，这种新颖的时间序列预测方法在交通流预测中也取得了优异的效果。

在空间建模方面，卷积神经网络(Convolutional Neural Networks, CNN)将交通流数据看作规则的欧几里德数据，然而本质上交通道路网络具有自己的拓扑结构，基于CNN的模型捕获的空间相关性有一定局限。图神经网络(Graph Neural Networks, GNN)可以对非欧数据进行建模，空间信息的传递可以通过构造底层图结构实现。为了捕获空间相关性，早期许多研究对静态图进行图卷积。为了构造静态图，研究者从真实的交通网络出发，图的边缘权重反映了两个节点之间的实际距离。然而基于距离的图只能在一定程度上反应地理位置之间的相互影响，不能体现实际的区位功能。比如，两个相聚较远的商业区和住宅区，从物理距离上两者空间相关性不大，然后从区位功能来说，两者互相影响很深。为了弥补这一不足，Graph WaveNet和AGCRN (Adaptive Graph Convolutional Recurrent Network) [7] 通过自适应学习得到一个新的邻接矩阵，并借助节点嵌入进行学习，以准确捕获输入数据中潜在的空间依赖性，在一定程度上弥补路网结构提供的节点间关系的不足。Ye等人 [8] 则从不同的角度构造多个图进行空间相关性提取，将路网节点被划分为近邻、中近邻和远近邻，并设计了三个空间矩阵来提取目标节点与其他所有节点之间的空间相关性。然而，这些方法的图(预构建或自适应)，分配给相邻节点的权重在训练后是固定的。城市交通网络是一个动态变化的系统，上述方法无法捕获到交通节点之间的动态关联。基于注意力机制的模型被广泛应用于长期交通流预测。Guo等人 [9] 提出的ASTGCN (Attention Based Spatial-Temporal Graph Convolutional Networks)模型基于注意力机制设计了一种时空卷积模块，旨在进行精细的时空相关性建模。该模块利用基于图的交通网络结构的图卷积获取原始数据中的空间特征并采用标准时间维卷积，描述邻近时间依赖关系。通过这一创新设计，模型能够全面而精准地捕获交通数据中的时空相关性。Zheng等人 [10] 提出了一种由时空注意力模块组成的编码器——解码器结构的多图图多注意力网络(Graph Multi-Attention Network, GMAN)，用于建模时空因素对交通状况的影响。这些方法利用注意力机制动态确定邻居节点的权重，在特征聚集时采用的是动态权重而不是静态权重以捕获动态空间相关性。然而，大多数基于注意力模型的参数在所有位置和时间间隔之间共享，因此节点之间的相关性仅取决于它们各自的特征，难以解决空间异质性问题。

尽管这些模型取得了不错的效果，但在交通流预测方面仍有三个问题急待解决。首先，为了捕获复杂的时间相关性，应该充分考虑时间序列周期性与趋势。目前大多数模型仅仅从输入的固定长度的时间序列捕获时间相关性，而其内部之间的关联往往被忽略。其次，为了捕获高度动态的空间相关性，目前很多研究通过训练自适应邻接矩阵或引入注意力机制。然而，这些方法都是局部建模，存在模型过度平滑的问题。它们无法充分利用历史交通数据并且忽视了空间异质性，难以捕获长期的空间依赖。例如，如图1(a)中的节点A与节点D，它们拥有相同的区位功能，应该反应相同的交通模式，但是从详细的交通流数据来看，如图1(b)所示，在时间段6:00至11:00与14:00至20:00，A与D点的相关性差距较大，整体而言他们又是高度相关。如果仅仅从输入的有限数据捕获他们之间的空间相关性是不合适的。最后，交通下游所受到的影响会延迟到达。例如，当上游路段发生交通事故，需要一定时间(延迟)才能影响周围路段，即不同位置间的空间信息传播会有时延性，比如图1(c)中的节点C与B。但是，这一特性在基于消息传递机制的GNN模型中被忽略。

Figure 1. Traffic flow characteristic map

图1. 交通特性图

为了解决上述问题，本文提出了一种用于交通流多步预测的多图融合与延迟对齐动态图卷积网络模型。该模型使用多个嵌入到交互式学习结构中的多图融合动态图卷积，从奇偶交错下采样的子序列或时空特征中捕获多维度时空相关性。然后通过组合这些从多个分辨维度聚合而来的丰富特征，高效地模拟具有复杂相关性的时空序列。为了捕获由于传播延迟而损失的空间信息，设计了一个延迟对齐模块来解决空间信息传播的时间延迟问题，得到在时间轴上真正对齐的交通流数据。为了捕获隐藏的时空相关性，解决时间异质性和空间异质性问题，本文提出了一个多图融合动态图卷积模块，通过一种新的动态图构造方式来捕获交通网络中动态变化的时空相关性。此动态图的构造方法是通过多维度融合物理距离图、路网区位图、动态时空图的转移矩阵，并与自适应邻接矩阵共同作用，生成动态图结构。此结构可以探索交通网络中不可见的节点连接，模拟节点之间动态关联。

2. 整体设计

2.1. 符号和定义

定义1 (交通网络)本文把交通网络定义为有向图 $G = (V, E, A)$ ，其中 $V = {v_{1}, v_{2}, \dots, v_{N}}$ 是一组 $N$ 个节点，代表交通网络中的节点(例如道路上的传感器)， $E$ 代表有序节点对组成的有向边集合，其中 $(v_{i}, v_{j})$ 代表一条从 $v_{i}$ 到 $v_{j}$ 的有向边， $A$ 代表此交通网络形成的有向图的邻接矩阵，定义如下：

$A (i, j) = {\begin{matrix} 1 i f (v_{i}, v_{j}) \in E \\ 0 o t h e r w i s e \end{matrix}$ (1)

其中 $i, j = 1, \dots, N$

定义2 (交通状态)节点 $i$ 在时刻 $t$ 的交通状态 $X_{t}^{i} \in R^{C}$ ，其中 $C$ 是交通流特征数目(如车辆速度、交通流量与车道占用率)。 $X_{t} = [X_{t}^{1}, X_{t}^{2}, \dots, X_{t}^{N}] \in R^{N \times C}$ 表示在时刻 $t$ 所有节点的交通状态。

定义3 (周期数据)本文将数据间隔每小时、每天和每周定义为 $T_{h}$ 、 $T_{d}$ 、 $T_{w}$ 。在给定时间窗口 $τ$ 后，输入的历史周期数据定义如下：

$X_{i n} = C o n c a t ({\begin{cases} X_{t - i \times T_{v a r} + 1,} X_{t - i \times T_{_{v a r}} + 2, \dots,} X_{t - i \times T_{_{v a r}} + τ,} \\ X_{t - (i - 1) \times T_{_{v a r}} + 1,} X_{t - (i - 1) \times T_{_{v a r}} + 2, \dots,} X_{t - (i - 1) \times T_{_{v a r}} + τ,} \\ ... X_{t - T_{_{v a r}} + 1,} X_{t - T_{_{v a r}} + 2, \dots,} X_{t - T_{_{v a r}} + τ} \end{cases}} |_{T_{_{v a r}} = T_{w,} T_{d,} T_{h}}^{i = t_{j}, t_{k}, t_{l}})$ (2)

其中， $C o n c a t ()$ 表示把数据拼接起来， $t_{j}$ 与 $T_{w}$ 对应， $t_{k}$ 与 $T_{d}$ 对应， $t_{l}$ 与 $T_{h}$ 对应。每个时间戳在本研究的数据集上时间间隔为5分钟，那么 $T_{h} = 12$ ， $T_{d} = 288, T_{w} = 2016$ 。

定义4 (多图构造)在不同维度上可以构造多张图来解释节点间的不同关系。这些图可以用 ${G_{d} = (V, E_{d}, W_{d})}_{d = 1}^{D}$ 代表，其中 $E_{d}$ 代表图的边集， $W_{d}$ 代表 $G_{d}$ 的权重矩阵，其中 $d$ 表示构造图的数量，所有的图结构拥有相同的节点数。

2.2. 问题定义

交通流量预测可以定义如下：在给定输入的历史周期数据 $X_{i n} \in R^{T \times N \times C}$ ， $T = (t_{j} + t_{k} + t_{l}) τ$ ，通过模型训练的映射函数 $f$ 来预测未来 $P$ 时刻的交通流量，数学表达式如下：

$[X_{i n}; G_{d}] \overset{f}{\to} Y = [X_{(t + 1)}^{}, X_{(t + 2)}^{}, \dots, X_{t + P}^{}] \in R^{P \times N \times 1}$ (3)

3. 多图融合与延迟对齐动态图卷积网络

3.1. 总体框架

本文提出了多图融合与延迟对齐动态图卷积网络(MGF-DA-DGCN)来同步捕获时空相关性进行交通流预测。该网络提出延迟对齐模块来解决交通网络节点间的短期历史交通流的传播延迟问题，并构建了多图融合动态图结构来捕获节点间不可见的深层依赖，模拟其动态关联。本研究网络框架如图2(a)所示，主要由三个模块组成，分别是延迟对齐模块、交互学习模块和重组合并融合模块。

首先，本文将周期交通流数据输入到延迟对齐模块，解决空间信息传播具有时间延迟的问题，得到真正对齐的交通流数据。接着，对齐的交通流数据通过一维卷积得以在更高的维度捕获更深层次的依赖关系。然后将依赖特征输入分治交互动态图卷积(DCIDGCN)模块。本文采用分治的思想来进行交互式学习。如图2(c)所示，使用奇偶交错下采样将输入序列等分成两个子序列，再将经过卷积的子序列输入到嵌入交互式学习结构中的多图融合动态图卷积中，共享学习各自的特征并在多个时间分辨率下同步捕获时空相关性。此模块输出两个序列，再将这两个序列重复上述操作，然后将所有得到的子序列按时间索引顺序重组并输入多图融合动态图卷积来从全局进行时空特征提取。最后，将组合的时空特征送入多层感知机(Multilayer Perception, MLP)获得预测的交通流序列。

3.2. 延迟对齐模块

在现实交通网络中，节点间交通信息的传播存在时延特性。如图1(a)节点C与B，当在C处发生交通事故时，需要一定时间其影响才能传播到B处，在交通流量图1(c)中B曲线的交通流量突然下降相对于节点C是延后一段时间的。既往的模型根据时间轴来处理交通流数据，在捕获时空相关性时忽略了交通信息延迟传播的影响，难以捕获由于传播延迟而损失的空间信息。因此，本文提出了一种能够处理交通信息延迟传播并把交通流数据在时间轴上对齐的延迟对其模块。该模块引入fastDTW (fast Dynamic Time Warping)算法来求解时序数据的时间相关性并在改进后能够对齐多列交通流数据。fastDTW算法的主要思想是对两列时序数据在时间轴上进行压缩与拉伸(即序列某一时刻可以对应另一序列的多个连续时刻)，使得序列某一时刻能够对齐另一序列在时间轴上延迟的时刻，进而最小化它们之间的距离。本文记录下交通流数据压缩与拉伸的过程(对齐过程)，使得数据能在交通信息延迟传播情况下脱离时间轴而对齐。

DTW算法一般用于度量两列时序数据的相似性。给定两列时序数据 $X_{t} = (x_{1}, x_{2}, \dots, x_{n})$ 与 $Y_{t} = (y_{1}, y_{2}, \dots, y_{m})$ ，用 $γ (i, j)$ 代表 $x_{i}$ 与 $y_{j}$ 对齐时的最小距离。为求得 $X_{t}$ 与 $Y_{t}$ 的最小距离，采用动态规划的方法，其核心是找到最合适的 $x_{i}$ 与 $y_{j}$ 对齐，递推规则如下：

$γ (i, j) = d (x_{i}, y_{j}) + \min {γ (i - 1, j), γ (i, j - 1), γ (i - 1, j - 1)}$ (4)

其中 $d (x_{i}, y_{j}) = \sqrt{x_{i}^{2} + y_{j}^{2}}$ ，在经过多次迭代后， $γ (n, m)$ 即为 $X_{t}$ 与 $Y_{t}$ 最终对齐后的最小距离，用 $ϒ (X_{t}, Y_{t}) = γ (n, m)$ 代表这两列时序数据的相似性。

对齐的路径如下：

$Γ (X_{t}, Y_{t}) = w_{1}, w_{2} \dots w_{k} \max (m, n) \leq K < m + n - 1$ (5)

元素 $w_{i} = (i, j)$ 代表 $x_{i}$ 与 $y_{j}$ 对齐， $w_{1} = (x_{1}, y_{1})$ ， $w_{k} = (x_{n}, y_{m})$ ， $Γ (X_{t}, Y_{t})$ 代表 $X_{t}$ 与 $Y_{t}$ 对齐后路径。

$Φ (Γ {(X_{t}, Y)}_{t})$ 代表把对齐路径中时序数据提取出来重新排列操作， $X_{a l i g n}$ 与 $Y_{a l i g n}$ 代表得到的新的对

Figure 2. MGF-DA-DGCN overall framework diagram

图2. MGF-DA-DGCN总体框架图

齐后时序数据。

$X_{a l i g n}, Y_{a l i g n} = Φ (Γ (X_{t}, Y_{t}))$ (6)

采用DTW迭代求取时序数据相似性的时间复杂度为 $Ο (n^{2})$ ，难以处理现实交通中的长序列交通流数据。本文采用fastDTW算法，限制DTW在搜索对齐路径时的搜索长度，数学表达式如下：

$w_{i} = (i, j) | i - j | \leq Q$ (7)

时间复杂度降为 $Ο (Q n)$ ，本文取 $Q = 12$ ，可以用于对现实的长序列数据求取时间相似性。fastDTW只能用于对齐两列数据，无法用于多节点的交通流数据对齐。为了对齐多节点的交通流数据，本文提出延迟对齐模块(Delay Data Alignment)。首先使用fastDTW算法求得交通流数据 $X_{i n}$ 节点之间的时间相似性矩阵 $S \in R^{N \times N}$ ， $S (i, j)$ 代表节点 $i$ 与节点 $j$ 的时间相似性。然后利用时间相似性的大小对节点聚类，每类筛选出与中心节点最相似的 $k$ 个节点。最后再分别对不同的类进行延迟对齐，将对齐数据以最长序列为基准，把较短序列开头补零。本文以 $X_{t}, Y_{t}, Z_{t}$ 延迟对齐为例，详细说明多节点交通流数据延迟对齐。以 $X_{t}$ 为对齐中心序列，先是通过fastDTW把 $X_{t}, Y_{t}$ 延迟对齐 $Φ (Γ (X_{t}, Y_{t}))$ ，得到对齐后结果 $X_{a l i g n}, Y_{a l i g n}$ ，然后再把 $X_{a l i g n}$ 与 $Z_{t}$ 对齐。此时， $X_{a l i g n}$ 已经是经过对齐后的序列，不适用原本的fastDTW递推规则，新的递推规则如下：

$γ' (i, j) = d (X_{a l i g n, i}, z_{j}) + \min {γ' (i - 1, j), γ' (i - 1, j - 1)}$ (8)

其中 $X_{a l i g n}$ 代表 $X_{a l i g n}$ 的第 $i$ 个元素， $γ' (i, j)$ 代表 $X_{a l i g n, i}$ 与 $z_{j}$ 对齐时的最小距离，对齐路径如下：

$Γ' (X_{a l i g n}, Z_{t}) = w_{1}, w_{2} \dots w_{k} k = l e n (X_{a l i g n})$ (9)

元素 $w_{i} = (i, j)$ 代表 $X_{a l i g n, i}$ 与 $z_{j}$ 对齐， $k$ 是 $X_{a l i g n}$ 的长度， $X_{a l i g n}, Z_{a l i g n}$ 就是再次延迟对齐后的得到的时序数据。

基于上述思想，本文提出的延迟对齐模块算法伪代码如下：

3.3. 交互学习

为了捕获交通流序列的时间相关性，基于RNN、CNN及Transformer的一系列模型被提出。尽管这些模型取得了不错的效果，但它们没考虑到时间序列的特性。比如，把时间序列数据进行下采样得到的两个子序列，子序列在很大程度上保留了原序列的时间相关性。受SCINet [15] 启发，本文提出交互学习模块。此模块主要采用CNN与GCN来实现交互学习，使用多个多图融合动态图卷积从下采样的子序列或特征中提取不同但有价值的时空特征，通过重组合并这些从多个分辨率聚合的丰富特征，有效地模拟了具有复杂相关性的时空序列。

交互学习模块的主要组成是DCIDGCN，其结构图如图2(b)所示。首先使用奇偶交错下采样将输入序列等分成两个子序列，然后将这两个子序列输入交互学习结构。具体来说，使用一维卷积对输入子序列进行升维。然后将升维后特征输入到多图融合动态图卷积中，再把卷积结果与另一序列共享学习各自特征，重复上述操作后便能在多个时间分辨率下同步捕获时空相关性。

假设 $Z \in N^{T \times N \times C}$ 是DCIDGCN模块输入，经过奇偶交错下采样后得到的子序列表示为 $Z_{o d d} \in R^{T / 2 \times N \times C}, Z_{e v e n} \in R^{T / 2 \times N \times C}$ ，此模块中一维卷积用 $C o n v 1 d_1, C o n v 1 d_2, C o n v 1 d_3, C o n v 1 d_4$ 表示。下采样的子序列第一次的交互学习结果记为 $Z_{o d d_m i d}^{} \in R^{T / 2 \times N \times C}, Z_{e v e n_m i d}^{} \in R^{T / 2 \times N \times C}$ ，它们需要再进行一次交互学习，最终得到的结果记为 $Z_{o d d_o u t}^{} \in R^{T / 2 \times N \times C}, Z_{e v e n_o u t}^{} \in R^{T / 2 \times N \times C}$ 。交互学习结构中的操作定义如下：

$Z_{o d d}, Z_{e v e n} = D i v i d e (Z)$ (10)

$Z_{o d d_m i d} = t a n h (M G D G C N (C o n v 1 d_2 (Z_{e v e n}))) ⊙ Z_{o d d}$ (11)

$Z_{e v e n_m i d} = t a n h (M G D G C N (C o n v 1 d_1 (Z_{o d d}))) ⊙ Z_{e v e n}$ (12)

$Z_{o d d_o u t} = t a n h (M G D G C N (C o n v 1 d_4 (Z_{e v e n_m i d}))) + Z_{o d d_m i d}$ (13)

$Z_{e v e n_o u t} = t a n h (M G D G C N (C o n v 1 d_3 (Z_{o d d_m i d}))) + Z_{e v e n_m i d}$ (14)

其中 $D i v i d e ()$ 代表奇偶交错下采样， $t a n h$ 是激活函数， $⊙$ 代表哈达玛积， $M G D G C N$ 代表多图融合动态图卷积。

3.4. 多图构造

既往的模型基于预定义的不完整的邻接矩阵建模，限制了模型对时空相关性的学习能力。为了捕获节点间各种类型的依赖关系，本文从多个维度构建多重加权图 ${G_{d} = (V, E_{d}, W_{d})}_{d = 1}^{D}$ ，下文介绍三种图构造方法并给出基于这些图的转移矩阵计算方法。

3.4.1. 物理距离图

众所周知，交通流在传播过程中，上下游的相互影响最为显著。基于这一机制，通过节点间的距离构建物理距离图。现实的交通网络可以被看作成一个简单的有向加权图，其中边的权重可以用节点间距离衡量。本文把通过Dijkstra算法计算得到的路网中节点间的距离作为计算物理距离图的边权值的依据，来反映节点之间的真实物理接近度。从 $v_{i}$ 到 $v_{j}$ 的基于距离的权重的定义如下：

$W_{d i s} (i, j) = \exp {- \frac{d i s {(i, j)}^{2}}{σ^{2}}}$ (15)

其中 $d i s (i, j)$ 代表由Dijkstra算法计算的 $v_{j}$ 到 $v_{i}$ 的距离， $σ$ 代表距离标准差。

在得到物理距离图后，便可以计算其转移矩阵，定义如下：

$A_{d i s} (i, j) = {\begin{matrix} \frac{W_{d i s} (i, j)}{\sum_{r = 1}^{N} W_{d i s} (i, r)} iff W_{d i s} (i, j) \geq σ_{1} \\ 0 otherwise \end{matrix}$ (16)

其中 $σ_{1}$ 是限制条件，可以使 $A_{d i s} (i, j)$ 稀疏化，在不影响模型效果的情况下简化了计算。

3.4.2. 路网区位图

仅仅利用传感器之间的距离来构造路网的拓扑结构是有缺陷的。例如，即使两个节点在地理上相隔较远，然后当它们处在相似的功能区域时，它们仍有较大可能拥有相同的交通状况。因此，本文不仅考虑了节点间的距离，还考虑到节点所在区域的相似性，从来构造图结构。规则如下：首先在Caltrans Performance Measurement System (PeMS)官网上获得相应传感器经纬度，然后通过FourSquare将对应传感器映射到相应的路段并获取周围一定范围内十类兴趣点(POI)数量作为构造路网区位图的依据。POI包括居住区、商场、饭店、学校、公园、停车场、加油站、艺术馆、客运站、工厂。最后，将得到的路网POI数量矩阵 $E \in R^{I \times N}$ ( $I$ 代表兴趣点的类别数， $N$ 代表路网节点数)用改进的TF-IDF方法评估，用以量化每个节点的每类路网兴趣点在整个兴趣点数量矩阵中的重要程度，具体公式如下：

$T F - I D F_{i, j} = \frac{E (i, j)}{\sum_{r = 1}^{I} E (r, j)} \times \log \frac{| N |}{1 + | t_{i} \in N |}$ (17)

其中 $T F - I D F_{i, j}$ ， $E (i, j)$ 分别代表第 $i$ 类别的POI在节点 $j$ 处的重要程度和数目， $\sum_{r = 1}^{I} E (r, j)$ 代表节点 $j$ 处的POI总数。前一项计算 $j$ 节点的各类POI频率，后项计算“逆节点”频率。“逆节点”频率代表各类POI对节点的重要程度。

在得到兴趣点的重要程度后，用余弦相似定理计算节点间关于区位的相似度，然后把相似度作为构造的网路区位图的边权重，公式如下：

$W_{l o c} (i, j) = \frac{\sum_{r = 1}^{I} T F - I D F_{r, i} \times T F - I D F_{r, j}}{‖ T F - I D F_{i} ‖ \times ‖ T F - I D F_{j} ‖}$ (18)

其中 $T F - I D F_{i}$ 代表节点 $i$ 的兴趣点特征向量。

路网区位图构造完成，计算其转移矩阵，定义如下：

$A_{l o c} (i, j) = {\begin{matrix} W_{l o c} (i, j) iff W_{l o c} (i, j) \geq σ_{2} \\ 0 otherwise \end{matrix}$ (19)

其中 $σ_{2}$ 是用于稀疏化 $A_{loc}$ 的阈值，可以在不影响模型效果的情况下简化运算。

3.4.3. 动态时空图

传统的图构造方法往往只考虑物理空间的图结构，忽略了交通流数据本身的动态变化特性，使得动态的空间依赖变得难以捕获。本文利用fastDTW算法求得节点之间的时间相似性矩阵 $S \in R^{N \times N}$ ，进而构造动态时空图，其边权重 $W_{t i m} (i, j)$ 定义如下：

$W_{t i m} (i, j) = \exp {- \frac{S {(i, j)}^{2}}{σ_{3}^{2}}}$ (20)

其中 $σ_{3}$ 代表时间相似性标准差。

时空动态图构造完成，接下来计算其转移矩阵，定义如下：

$A_{t i m} (i, j) = {\begin{matrix} \frac{W_{t i m} (i, j)}{\sum_{r = 1}^{N} W_{t i m} (i, r)} iff W_{t i m} (i, j) \geq σ_{4} \\ 0 otherwise \end{matrix}$ (21)

其中 $σ_{4}$ 作用与 $σ_{2}$ 一致，用以简化计算。

3.5. 多图融合动态图卷积

Figure 3. MGDGCN module frame diagram

图3. MGDGCN模块框架图

本小节提出了一种将多维空间相关信息融合的多图融合动态图卷积(MGDGCN)模块。此模块主要由多图融合和动态扩散图卷积组成，其结构如图3所示。

扩散图卷积运算被定义为：

$D G C N (Z, A) = \sum_{k = 0}^{K} (θ_{k, 1} A_{f}^{k} Z + θ_{k, 2} A_{b}^{k} Z)$ (22)

其中 $Z \in N^{T \times N \times C}$ 代表隐藏特征， $A \in R^{N \times N}$ 代表预定义邻接矩阵， $θ \in R^{K \times 2}$ 是可学习参数， $K$ 是扩散步数。本文在有向图上进行建模，将正/反向转移矩阵记为 $A_{f} / A_{b}$ ，其中 $A_{f} = A / r o w s u m (A)$ ， $A_{b} = A^{T} / r o w s u m (A^{T})$ 。

为了从多维度和不相邻节点捕获时空相关性，本文提出多图融合结构以生成一个能够探索更深层次空间相关性的转移矩阵 $A_{f u s i o n}$ ，其定义如下：

$A_{f u s i o n} = M G F u s i o n (Z, A_{v a r})$ (23)

$M G F u s i o n (Z, A_{v a r}) = s o f t m a x (M L P (σ (\sum_{i = 1}^{3} ω_{i} A_{v a r} S_{w} Z W_{i})))$ (24)

其中 $A_{v a r}$ 代表转移矩阵， $A_{v a r} \in {A_{d i s}, A_{l o c}, A_{t i m}}$ ， $W_{i}$ 是可学习矩阵， $σ$ 是激活函数Sigmoid， $S_{w} \in R^{N \times N}$ 代表空间动态权重矩阵，其作用是为了模拟节点随时间的动态变化，调整隐藏特征重要程度，其定义如下：

$S_{w} = s o f t m a x (\frac{Z Z^{T}}{\sqrt{C}})$ (25)

除了在多图融合模块中得到的转移矩阵 $A_{f u s i o n}$ ，本文还引入自适应伴随矩阵 $A_{a p t} \in R^{N \times N}$ ，其定义如下：

$A_{a p t} = s o f t m a x (Re l u (E_{1} E_{2}^{T}))$ (26)

其中 $E_{1}, E_{2} \in R^{N \times C}$ 是可学习矩阵。ReLU函数的作用是对矩阵进行稀疏化处理，softmax对矩阵进行归一化。本文使用 $A_{d i s}$ 对自适应伴随矩阵进行初始化。

为了捕获节点间不可见的深层依赖，本文把 $A_{a p t}$ 与 $A_{f u s i o n}$ 再次融合以输入到扩散图卷积中，定义如下：

$A_{d y n} = α A_{f u s i o n} + (1 - α) A_{a p t}$ (27)

其中 $A_{d y n}$ 为动态伴随矩阵， $α$ 为可学习参数。

本文分别在多图融合动态图卷积和重组合并融合这两个模块中使用扩散图卷积。在多图融合动态图卷积模块中，扩散图卷积被定义成：

$M G F D G C N (Z, A_{d y n}) = \sum_{k = 0}^{K} θ_{k} A_{d y n}^{k} Z$ (28)

如图2(a)所示，从交互学习模块中获得的输出输入到多图融合动态图卷积，从全局进行时空相关性的捕获和校正，其定义如下：

$D G C N (Z, A, A_{d y n}) = \sum_{k = 0}^{K} (θ_{k, 1} A_{f}^{k} Z + θ_{k, 2} A_{b}^{k} Z + θ_{k, 3} A_{d y n}^{k} Z)$ (29)

多图融合动态图卷积能够捕获节点间不可见的深层依赖，模拟节点间动态关联。将其嵌入到交互式学习结构中，进而增强对时间信息获取的能力。

4. 实验及分析

在本节中，为了对MGF-DA-DGCN作定量与定性评估，在三个真实的高速公路交通流数据集上做了大量实验，并通过消融实验验证MGF-DA-DGCN的各个模块的性能。

4.1. 数据集

Table 1. Dataset details

表1. 数据集详情

在本实验中，使用三个现实世界中开源的交通流数据集，分别是PEMS04、PEMS07和PEMS08。这3个数据集由Caltrans Performance Measurement System (PeMS)提供，是美国加利福尼亚州主要都市区高速公路的交通流数据。数据集详细信息如表1所示。实验中的图的邻接矩阵是基于这些真实交通道路网络中传感器之间的距离构造的。

4.2. 基线模型

本文将MGF-DA-DGCN与以下11种模型进行对比：

(1) HA：简单历史平均方法，将过去一时间段的平均值用于预测。

(2) VAR [11] ：向量自回归模型是一种捕获时间相关性的时序模型。

(3) SVR [12] ：支持向量回归是通过支持向量机对交通流预测的机器学习方法。

(4) LSTM [3] ：具有门控机制的长短期记忆网络。

(5) STGCN [13] ：将谱图卷积与一维卷积结合的时空图卷积模型。

(6) DCRNN [14] ：扩散卷积循环神经网络是一种采用编码器–解码器结构，将扩散GCN与GRU结合的模型。

(7) AGCRN [7] ：通过结合GRU和使用自适应图结构的GCN，提取时空相关性的时空模型。

(8) GWN [5] ：一种结合门控TCN和空间GCN，采用自适应邻接矩阵的神经网络模型。

(9) STSGCN [15] ：通过构建多个局部时空图的图卷积神经网络。

(10) ASTGCN [9] ：一种把时空注意机制引入图卷积网络的模型。

(11) SCINet [6] ：下采样输入的时序数据，采用交互式卷积结构，允许对序列数据进行多分辨率处理的时序网络。

4.3. 实验参数设置

针对上述三个数据集中缺失值，本文采用线性插值进行填充，然后通过Z-Score归一化对数据进行标准化，以减少奇异样本对模型的影响。在评估阶段，本文再将数据重新投影到初始范围，作为预测结果。所有的数据集采用6:2:2的比例进行划分，形成训练集、验证集、测试集。

所有实验在一台拥有Intel (R) Core (TM) i9-12900H @ 2.50GHz CPU和NVIDIA GeForce RTX 3070Ti GPU的计算机上进行。本文采用历史时间步 $τ = 12$ 来预测 $P = 12$ 步交通流。采用文献 [7] 对模型输入数据处理方法，在经过试验后，当 $t_{j} = 2$ ， $t_{k} = 1$ ， $t_{l} = 2$ 时，模型效果最好。在进行特征升维时，一维卷积的输出维度为64，扩散卷积的扩散步长K = 2。本文使用Ranger优化器训练模型，初始学习率设置为0.001，batch size为32，dropout为0.5，epoch为200。

4.4. 评价指标

本文采用三个标准评测指标来评估所有模型的性能，分别为平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)。其定义如下：

$M A E = \frac{1}{N} \sum_{i = 1}^{N} | Y_{i} - \hat{Y_{i}} |$ (30)

$M A P E = \frac{100 %}{N} \sum_{i = 1}^{N} | \frac{Y_{i} - \hat{Y_{i}}}{Y_{i}} |$ (31)

$R M S E = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} {(Y_{i} - \hat{Y_{i}})}^{2}}$ (32)

其中 $\hat{Y_{i}}$ 是模型输出预测交通流量值， $Y_{i}$ 是真实交通流量值。

4.5. 实验结果对比与分析

表2给出了本文模型MGF-DA-DGCN与基线模型在三个真实交通流数据集上预测未来一小时(12个时间步)的平均性能比较。除了数据集PEMS04的MAPE，本文模型高于ASTGNN与SCINet，在其余所有评价指标中，本文模型性能明显优于其他基线方法。

Table 2. Comparison of average performance of different models predicting the next 12 time steps on the PeMS dataset

表2. PeMS数据集上不同模型预测未来12时间步的平均性能比较

分析表2的结果，发现数理统计方法(HA, VAR)、传统机器学习方法(SVR)、LSTM等模型性能较差，其根本原因是仅仅建模了交通流数据的时间相关性，而没有考虑交通流数据的空间相关性。STGCN、DCRNN、STSGCN和AGCRN同时建模了时空相关性，因此取得了较好的效果，但它们在空间依赖方面仅仅捕获了局部信息，无法处理空间异质性问题，整体效果要差于基于注意力机制的模型ASTGCN。注意力机制能够处理较长的时间序列，同时较多的参数能够提取不相邻节点间的空间依赖。Graph WaveNet是比较特殊的存在，其在2019年提出，在没有引入注意力机制情况下，性能甚至能够接近最近提出的一些模型。GWN是将扩散GCN嵌入到TCN中，并引入自适应邻接矩阵，具有很好的动态时空相关性捕获能力。SCINet在没有考虑空间相关性的情况下，性能能够稍好与GWN，其根本原因是对交通流数据下采样卷积，在多个时间分辨率下迭代提取和交换信息，能够捕获隐藏的时间依赖。MGF-DA-DGCN结合了SCINet与GWN的优点，取得了最好的效果。

本文提出的MGF-DA-DGCN使用交互学习策略，在多个时间分辨率下捕获时空依赖，能够获得较好的长期预测能力。如图4所示，不管时间步怎么增加，MGF-DA-DGCN的表现也优于基于注意力机制的ASTGNN和其余模型。

4.6. 消融实验

为了更加具体评估MGF-DA-DGCN中的哪些模块是影响模型性能的关键因素，本文在PEMS04与PEMS08数据集上进行消融实验。设计了MGF-DA-DGCN的5个变体，具体如下。

w/o DGCN：在MGF-DA-DGCN基础上，去掉扩散卷积模块，只考虑时间相关性。

w/o PDC (Periodic Data Combination)：在MGF-DA-DGCN基础上，输入变为连续的12步交通流数据，不再考虑以周期为天、周的数据。

w/o MGF：在MGF-DA-DGCN基础上，去掉多图融合模块，仅仅使用预定义初始邻接矩阵进行扩散图卷积。

w/o Align：在MGF-DA-DGCN基础上，去掉延迟对齐模块。

w/o Apt：在MGF-DA-DGCN基础上，去掉MGDGCN模块的自适应伴随矩阵。

Figure 4. Comparison of prediction results of various models at different prediction time steps

图4. 各模型在不同预测时间步长的预测结果对比图

Figure 5. The performance of each ablation model compared on PEMS04 and PEMS08

图5. 各消融模型在PEMS04与PEMS08上性能对比图

消融实验结果如图5所示，各个模块对整个模型的影响在PEMS04和PEMS08数据集上具有相似的效果。可以看到DGCN对MGF-DA-DGCN最为重要，没有DGCN便失去了捕获空间相关性的能力，MAE、RMSE、MAPE三项评价指标大幅度增加。其次，多图融合模块大大提高了模型性能，如果仅仅使用预定义初始邻接矩阵，那么从多维度捕获空间动态将变得难以实现。此外，延迟对齐模块同样发挥了重要作用，其可以减小预测误差，提高模型性能。在去掉自适应伴随矩阵后，三项评价指标也有一定程度增加，可见其对模型的重要性。因此，本文提出的两项核心模块，延迟对齐模块与多图融合动态图卷积模块对交通流预测是十分有效的。

5. 结束语

本文提出了一种新的多图融合与延迟对齐动态图卷积网络。具体来说，本文设计了一个延迟对齐模块来解决空间信息传播的时间延迟问题，得到在时间轴上真正对齐的交通流数据，捕获由于传播延迟而损失的空间信息。然后引入一种新的多图融合方法，利用获得的交通信息去构造多维度图结构，在充分融合多图的基础上，生成新的动态图结构，来捕获不相邻节点间深层依赖，模拟节点间动态关联。最后本文将多图融合动态图卷积嵌入到交互式学习结构中，共享学习各自的特征并在多个时间分辨率下同步捕获时空相关性。在三个真实世界的公共数据集上进行了多步交通流预测实验。结果表明，本文模型显著优于现有的先进模型。本文提出的多图融合模块没有考虑到许多其他外部因素影响，如天气与出行需求。在未来研究中，将进一步探索动态图的构建，优化模型适应能力并提高预测性能。

参考文献

[1]	Yin, X., Wu, G., Wei, J., et al. (2021) Deep Learning on Traffic Prediction: Methods, Analysis, and Future Directions. IEEE Transactions on Intelligent Transportation Systems, 23, 4927-4943. [Google Scholar] [CrossRef]
[2]	刘静, 关伟. 交通流预测方法综述[J]. 公路交通科技, 2004, 21(3): 82-85.
[3]	Hochreiter, S. and Schmidhuber J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780. [Google Scholar] [CrossRef] [PubMed]
[4]	Rui, F., Zhang, Z. and Li, L. (2016) Using LSTM and GRU Neural Network Methods for Traffic Flow Prediction. 2016 31st Youth Academic Annual Conference of Chinese Association of Automation (YAC), Wuhan, 11-13 November 2016, 324-328.
[5]	Wu, Z., Pan, S., et al. (2019) Graph Wavenet for Deep Spatial-Temporal Graph Modeling. ArXiv:1906.00121. [Google Scholar] [CrossRef]
[6]	Ruotsalo, T., Peltonen, J., Eugster, M.J.A., et al. (2015) Scinet: Interactive Intent Modeling for Information Discovery. Proceedings of the 38th International ACM SIGIR Con-ference on Research and Development in Information Retrieval, Santiago Chile, 9-13 August 2015, 1043-1044. [Google Scholar] [CrossRef]
[7]	Bai, L., Yao, L., Li, C., et al. (2020) Adaptive Graph Convo-lutional Recurrent Network for Traffic Forecasting. Advances in Neural Information Processing Systems, 33, 17804-17815.
[8]	Ye, J., Zhao, J., Ye, K., et al. (2020) Multi-Stgcnet: A Graph Convolution Based Spa-tial-Temporal Framework for Subway Passenger Flow Forecasting. 2020 International Joint Conference on Neural Networks (IJCNN), Glasgow, 19-24 July 2020, 1-8. [Google Scholar] [CrossRef]
[9]	Guo, S., Lin, Y., Feng, N., et al. (2019) Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Fore-Casting. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 922-929. [Google Scholar] [CrossRef]
[10]	Zheng, C., Fan, X., Wang, C., et al. (2020) Gman: A Graph Multi-Attention Network for Traffic Prediction. Proceedings of the AAAI Conference on Artificial Intelligence, 34, 1234-1241. [Google Scholar] [CrossRef]
[11]	Zivot, E. and Wang, J. (2006) Vector Autoregres-sive Models for Multivariate Time Series. Modeling Financial Time Series with S-PLUS®, Springer, New York, 385-429.
[12]	Drucker, H., Burges, C.J., Kaufman, L., et al. (1996) Support Vector Regression Machines. Advances in Neural Information Processing Systems 9, MIT Press, Cambridge, 155-161.
[13]	Li, C.L., Cui, Z., Zheng, W.M., et al. (2018) Spatio-Temporal Graph Convolution for Skeleton Based Action Recognition. ArXiv:1802.09834. [Google Scholar] [CrossRef]
[14]	Li, Y., Yu, R., Shahabi, C., et al. (2017) Diffusion Convolu-tional Recurrent Neural Network: Data-Driven Traffic Forecasting. ArXiv:1707.01926.
[15]	Song, C., Lin, Y.F., Guo, S.N., et al. (2020) Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for SpatialTemporal Network Data Forecasting. Proc of the 34th AAAI Conference on Artificial Intelligence, Palo Alto, CA: AAAI Press, 34, 914-921. [Google Scholar] [CrossRef]

为你推荐

友情链接