基于离散小波变换的深度树时空模型

doi:10.12677/CSA.2023.1312242

期刊菜单

基于离散小波变换的深度树时空模型
A Deep Spatiotemporal Model for Traffic Flow Prediction Based on Discrete Wavelet Transform

DOI: 10.12677/CSA.2023.1312242, PDF, HTML, XML,
作者: 曲浩, 吕志强^*：青岛大学计算机科学技术学院，山东青岛；吴楠：北京计算机技术及应用研究所，北京
关键词: 时序卷积网络；树卷积网络；离散小波变换；交通流量预测；离散数据计算；Temporal Convolutional Network； Tree Convolutional Network； Discrete Wavelet Transform； Traffic Flow Prediction； Discretized Data Calculation

摘要: 交通流量预测是智能交通领域的研究热点，有利于提高交通资源分配的合理性和出行政策制定的有效性。新型冠状病毒的爆发，严重影响了交通出行的正常秩序。许多国家为了减少疫情的传播速度均颁布了限制居民出行的政策，导致交通流量数据出现了较高的离散性和不规则性。为了克服数据离散性对交通流量预测的影响，本文采用离散小波变换(DWT)将交通流量数据拆分为离散量、变化趋势和离散基线。为了提升模型对高离散性交通数据预测的准确率，本文设计了两种不同的模型来分别预测变化趋势和离散量。由于出行区域的限定，疫情期间的交通状况变化呈现出小规模聚集性。图卷积神经网络的节点邻接计算方法适用于节点随机均匀分布的图结构，对于节点小规模聚集分布的图结构的计算效果较差。本文提出了一种树卷积网络(TreeCN)来分析交通网络的空间相关性，并采用时序卷积网络来分析交通数据的时间相关性。为了解决交通流量数据的高离散性问题，本文提出了一个离散预测模块(DPM)，用于将离散小波变换分离出的离散量转换为高维离散特征。最后，使用离散小波变换对预测的交通数据进行分割，然后将新分割的交通趋势和离散基线与离散预测模块预测的离散模型进行逆离散小波变换，得到最终的交通流预测结果。在对比实验中，将这项工作与现有的高级基线进行了比较，本文模型要优于现有基线模型。

Abstract: Traffic flow prediction is a focal point in the field of intelligent transportation, aiming to enhance the rationality of traffic resource allocation and the effectiveness of travel policy formulation. The out-break of the novel coronavirus has significantly disrupted the normal order of traffic movements. To mitigate the impact of data discreteness on traffic flow prediction caused by policies restricting resident mobility during the pandemic, this study employs Discrete Wavelet Transform (DWT) to decompose traffic flow data into discrete components, trend variations, and discrete baselines. To improve the accuracy of predicting high discrepancy traffic data, two distinct models are designed to forecast trend variations and discrete components separately. Due to restricted travel areas, the traffic conditions during the pandemic exhibit small-scale clustering. The conventional node adja-cency calculation method of Graph Convolutional Neural Networks (GCNN) is suitable for graph structures with nodes randomly and uniformly distributed, but it performs poorly for graph struc-tures with nodes exhibiting small-scale clustering. This paper proposes a Tree Convolutional Net-work (TreeCN) to analyze the spatial correlations of the traffic network and utilizes a Temporal Convolutional Network to analyze the temporal correlations of traffic data. To address the high dis-creteness issue in traffic flow data, a Discrete Prediction Module (DPM) is introduced to transform the discrete components extracted by the discrete wavelet transform into high-dimensional dis-crete features. Finally, the study utilizes discrete wavelet transform to segment the predicted traffic data, and then combines the newly segmented traffic trends and discrete baselines with the dis-crete model predicted by the Discrete Prediction Module through inverse discrete wavelet trans-form, yielding the ultimate traffic flow prediction results. Comparative experiments demonstrate that the proposed model outperforms existing advanced baseline models.

文章引用：曲浩, 吴楠, 吕志强. 基于离散小波变换的深度树时空模型[J]. 计算机科学与应用, 2023, 13(12): 2417-2431. https://doi.org/10.12677/CSA.2023.1312242

1. 引言

1.1. 交通预测任务的研究背景

随着2020年新型冠状病毒(COVID-19)的大规模爆发，全球经济发展受到严重影响。COVID-19呈现出极高的传染性，感染人数在一周内呈指数级增长，单日新增感染人数高达370,000。为了降低病毒的传染速度，许多国家颁布了限制居民出行的相关条令。在这些相关条令的影响下，居民出行时间和出行路线呈现出较高的不规则性，从而导致疫情期间的交通流量数据呈现出较高的离散性 [1] [2] [3] 。交通流量数据的高离散性是指交通流量数据在短时间内呈现出多次非规律性地增大或减小 [4] [5] 。交通流量数据的高离散性为交通流量预测任务带来了巨大的挑战。准确预测疫情期间的交通流量数据，可以帮助人们选择合适的出行时间，降低感染率，也可以为政府采取及时有效的预防措施提供可靠依据。然而，交通流量的变化容易受到外界影响因素的干扰 [6] [7] [8] 。影响交通流量变化的外界影响因素有很多种，例如疫情、天气和节假日等。Yasin等人分析了疫情变化对交通状况的影响。该研究表明，与2019年4月的全球道路交通碰撞(RTC)数据相比，2020年4月全球RTC大幅度下降。在调查研究的36个国家中，32个国家的交通流量大幅度下降。其中，12个国家的交通流量下降50%以上。14个国家的交通流量下降25%至49%。6个国家的交通流量下降25%以下。解决高离散性交通流量数据的准确预测问题，可以为城市规划者合理规划交通路线提供依据。可以帮助人们合理选择出行时间，减少聚集，大幅度降低病毒的传播速度 [9] [10] [11] [12] 。

空间相关性指的是交通网络中不同节点之间的交通流量数据相互影响。交通网络由大量节点组成，每个节点会与一个或多个不同节点连接 [13] [14] 。当交通网络中某节点的交通流量增加时，与其相邻节点的交通流量也会增加 [15] [16] 。传统的RNNs无法计算空间相关性，研究人员们考虑采用卷积神经网络(CNN)来提取交通网络的空间特征 [17] [18] 。CNN常被用于图像识别、语音识别等任务，无法充分提取非欧式结构的交通网络的空间特征。Michaël等人提出的图卷积神经网络(GCN)是一种常用于解决非欧式结构问题的重要算法。在交通预测问题中，GCN常被用于提取交通网络拓扑结构的空间相关特征，并大幅度提高了模型对非欧式结构场景下的时间序列数据预测的准确度 [19] [20] [21] 。但是，在COVID-19的影响下，城市中部分道路关闭，交通网络中节点连通性降低。GCN适用于提取节点分布均匀且连通性较高的交通网络空间特征 [22] [23] [24] 。对于节点连通性较低的图，例如圆环，GCN不能充分分析其空间相关性 [25] [26] 。大多数GCN模型采用无向图来模拟交通网络，缺少了对交通网络中节点之间的层次性和方向性的分析。此外，在疫情的影响下，交通流量数据呈现出较高的离散性和不规则性。这对交通流量预测带来了巨大的挑战 [27] [28] 。

1.2. 贡献

(1) 在本文中，提出了一种基于离散小波变换的深度树时空模型，即DeepTSTM，用于解决具有高离散度交通流量的预测问题。

(2) 本文模型使用离散小波变换对交通流量数据进行拆分，得到交通流量数据的离散量。为了完成对离散量的准确预测，本文提出了一个离散预测模块，该模块通过将低维离散数值转换为高维离散特征来完成离散量的预测。

(3) 本文提出了一种树卷积网络来提取交通网络的空间特征。交通网络中每一个节点可以构成一个平面树矩阵，通过将所有节点的平面树矩阵进行按序叠加来构成空间树矩阵。空间树矩阵包含了不同树结构之间的空间分布关系。

(4) 本文方法的有效性在两个不同的真实数据集上进行了验证，并与几个深度学习基线进行了比较，结果表明，DeepTSTM在预测高度离散的交通流数据方面优于现有的基线。

2. 相关工作

对某一节点的交通数据影响较大的两个因素是相邻节点的交通状况和前一段时间的交通状况，即交通数据的空间相关性和时间相关性 [29] [30] [31] 。Yu等人提出了一种基于三维卷积网络的交通流量预测网络(TF-3DNet)。该文章提出了一种有效的3D CNN模型架构，使用3D卷积核来提取交通流量数据的空间特征和时间特征。此外，该文章提出了一种缺失值补全方法，进一步提高了模型的预测性能。虽然该方法可以完成交通流量的预测，但是CNN是一种欧式结构空间特征的计算方法，无法充分提取非欧式结构的空间特征 [33] 。该方法不能充分分析交通流量数据的空间相关性和时间相关性。Michaël等人提出的GCN可以充分提取非欧式结构数据的空间特征。GCN通过邻接矩阵的形式将空间关系带入神经网络，然后提取不同节点的空间特征 [32] 。然而，GCN仅提取交通流数据的空间特征，缺乏对交通流量数据的时间特征的分析。Yu等人提出了一种时空图卷积网络(STGCN)，该模型不仅采用GCN来提取交通数据的空间特征，并且提出了一种时间门控卷积模块来提取交通数据的空间特征。Guo等人在STGCN的基础上加入了时空注意力机制，并提出了一种基于时空注意力的图卷积神经网络(ASTGCN)。ASTGCN利用时空注意力机制突出交通数据的时空特征，并采用时空图卷积神经网络来充分分析交通流量数据的时间相关性和空间相关性。现有的交通数据预测模型取得了较好的预测效果，但这仅限于正常情况下的交通流量。随着疫情的爆发，交通流量数据呈现出较高的离散性 [33] 。因此现有模型无法准确地预测疫情期间的交通流量 [34] 。

3. 研究方法

本文模型主要包括四个模块，分别是：输入层、时空卷积层、离散预测层和输出层(图1)。首先，输入层按照近期、日周期和周周期对交通流量进行时间片划分，同时，产生数据的节点的空间分布信息被抽象化为树结构，并被正则化处理为空间树矩阵。其次，时空卷积层利用TCN对不同周期下的交通流量数据进行时间特征提取，并利用TreeCN对空间树矩阵进行树卷积，从而完成交通网络的空间相关性分析；然后，离散预测层利用DWT将输入层中的近期数据拆分为变化趋势、离散量和离散基线。离散量充分展示了交通流量数据在短时间内的不规则变化，离散量的准确预测可以有效提高预测结果与真实值的拟合程度。本文设计了离散预测模块来完成离散量的预测任务。最后，在输出层中采用逆离散小波变换来对时空卷积层的输出结果与离散预测模块的输出结果进行融合，得到模型的预测结果。

Figure 1. DeepTSTM model

图1. 深度树时空模型图

3.1. 问题定义

本文将交通网络定义为一个无向图，记为 $G = (V, E, A)$ 。其中，V表示节点集，且 $| V | = N$ 表示交通网络中的节点数量。E表示边集。A表示该无向图的邻接矩阵。

3.1.1. 交通流输入定义

在无向图G中，选择N个节点以相同的采样频率在相同时段形成时间序列集合F，其中 $f \in (1, 2, \dots, F)$ 表示每个位置的第f个时间序列。记 $x_{t}^{n} \in R$ 表示在t时刻时第n个节点的交通流量。所有节点在时刻t的交通流量如公式(1)所示，公式(2)则表示完整的交通流数据。

$X_{t} = (x_{t}^{1}, x_{t}^{2}, \dots, x_{t}^{N}) \in R^{N}$ (1)

$X = (X_{1}, X_{2}, \dots, X_{F}) \in R^{N \times F}$ (2)

3.1.2. 交通流输出定义

此外， $Y_{t}^{n} \in R$ 表示未来时刻t时第n个节点的交通流量。所有节点在未来时刻t的交通流量如公式(3)所示。

$Y_{t} = (Y_{t}^{1}, Y_{t}^{2}, \dots, Y_{t}^{N}) \in R^{N}$ (3)

3.2. 时空卷积层

3.2.1. 提取时序特征的时序卷积网络

Figure 2. Basic process of Temporal Convolution Layer, The d is the dilation factor

图2. 时序卷积层的基本过程，d为扩张因子

TCN结合了因果卷积和扩张卷积，以完成时序特征提取。如图2中输入到第一个隐藏层的输入数据所示，仅使用一层因果卷积只能提取相邻两个时间步的时序特征，具有较小的感受野。图2中输入数据的时间步为7。若仅使用因果卷积，则需要3层因果卷积才能覆盖所有时间步。而因果卷积和扩张卷积集合只需要一层因果卷积和一层扩张卷积即可覆盖全部7个时间步。如图2所示，仅将输入数据卷积到第一个隐藏层的部分是因果卷积，扩张因子为1。而剩下的两层是扩张卷积。由于扩张因子呈指数增长，通过扩张卷积的叠加，感受野也呈指数增加。因果卷积和扩张卷积的结合使得可以使用更少的卷积层来获取更大的感受野。本文中的TCN包含一层因果卷积和两层扩张卷积。第一层扩张卷积的扩张因子为2，第二层扩张卷积的扩张因子为4。由于本文中输入数据的时间步大小为12，采用这种结构可以覆盖所有的时间步。

交通流数据通常是具有强烈时序相关性的时序数据。在本文中，选择了TCN来提取交通流数据的时序特征。TCN的特征提取方法如图3所示。TCN采用卷积神经网络大规模并行处理的思想，将多维矩阵映射为时间序列。TCN通过多层网络扩展感受野，并进行深度网络并行处理。在交通流预测问题中，未来的交通流量取决于过去时间片段内的交通流量，这符合因果卷积的思想。TCN的输入数据为

$X^{i} = {X_{1}^{i}, X_{2}^{i}, \dots, X_{T}^{i}} \in ℝ^{N \times T}$ ，表示第i个节点在T个时间片段内的数据。 $Y^{i} = {Y_{1}^{i}, Y_{2}^{i}, \dots, Y_{T}^{i}} \in ℝ^{N \times T}$ 是隐藏层的输出数据。 ${f_{1}, f_{2}, \dots, f_{k}}$ 是滤波器序列。因果卷积的计算过程如公式(4)所示。

$Y_{T}^{i} = \sum_{j = 1}^{k} f_{j} \cdot X_{j : T - k + j}^{i}$ (4)

如果输出与T个过去的时间片相关联，则需要 $T - 1$ 层因果卷积来完全提取时序特征。当T太大时，可能会导致模型结构过于复杂、训练困难以及梯度消失等问题。扩张卷积能够扩展感受野的范围。其目的是通过引入扩张因子d来控制每层输入数据的时间步，以在更少的层次上获取更多的特征。扩张因子d随着网络深度的增加呈2的指数倍增长。扩张卷积的计算过程如公式(5)所示。在t时刻，每一层的结果只能从时间 $[0, T]$ 的数据中计算得出，这反映了因果卷积的思想。每个时刻的结果是通过跳跃到网络前一层的扩张因子值得出的，这反映了扩张卷积的思想。

$Y_{T}^{i} = \sum_{j = 0}^{k - 1} f_{j} \cdot X_{j : T - d \times j}^{i}$ (5)

Figure 3. TCN convloutuoional residual block

图3. TCN卷积残差块

图3展示了TCN的残差结构。TCN的残差结构由多个残差模块组成。当数据输入残差模块时，首先使用因果卷积和扩张卷积来提取输入数据的时序特征；其次，使用WeightNorm对卷积结果进行归一化；然后，使用ReLU函数激活结果；最后，使用Dropout随机丢弃一些特征，以防止模型过拟合。在Dropout的输出上再次执行上述操作。使用卷积核为1的CNN模型来提取输入数据的特征，将特征提取结果与第二个Dropout的输出结果相结合，得到残差模块的输出结果。在TCN中，获取了一个残差模块的输出后，将残差模块的输出与TCN 的输入数据结合起来，作为下一个残差模块的输入数据。经过多个残差模块的迭代之后，最后一个残差模块的输出将作为TCN的输出。

3.2.2. 提取空间特征的树状卷积网络

本文建立了一种类似于GCN的树卷积神经网络。这种树表示方法可以充分体现以不同节点为根节点时，其他节点与根节点的相关程度。首先，根据图结构抽象出节点和节点间的连通关系。其次，以不同的节点作为根节点，并针对这一根节点构建平面树矩阵。最后，将所有节点的平面树矩阵融合为空间树矩阵。这种方法增加了节点间的层次性和方向性，充分考虑了节点的空间连通性。上述过程可以抽象为式(6)所示，其中，x表示时序数据，T表示空间树矩阵，t_i表示第i个节点的平面树矩阵。

$y = f (T, x), T = C o n c a t (t_{0}, t_{i}), i \in [1, N]$ (6)

Figure 4. Regularization design of plane tree matrix

图4. 平面树矩阵的正则化设计

Figure 5. Design process of spatial tree matrix design

图5. 空间树矩阵的设计过程

本文围绕数据正则化的思想构建树结构。树结构的数据正则化设计如图4所示，以图4(a)中的A节点为根节点，采用广度优先搜索(Breadth-First Search, BFS)来构建广度优先搜索树，如图4(b)所示。最终构建出如图4(c)所示的平面树矩阵。由于以节点A为根节点的广度优先搜索树共有三层，则构成的平面树矩阵共有3行。而构成的平面树矩阵的列数，由广度优先搜索树的最后一层且拥有相同父节点的叶子节点的最大数量决定。如图4(b)所示，在以A节点为根节点的广度优先搜索树中，最后一层共有三个叶子节点，且G节点和H节点的父节点均为B节点。所以，在平面树矩阵构建时，前一层的所有节点均设置为含有2个子节点。如图4(b)中所示，B节点拥有两个子节点，则在平面树矩阵中将这两个子节点分别加入到B节点下。C节点只有一个子节点，则在平面矩阵中将这一个子节点加入到C节点下两次。E节点没有子节点，则在平面树矩阵中将空值加入到E节点下两次。以此类推，来构成以A节点为根节点的平面树矩阵。

空间树矩阵是具有空间特征的三维矩阵，空间矩阵的构建过程如图5所示。采用BFS获取图中的所有节点的广度优先搜索树，然后根据图4所示的过程来分别构建每个节点的平面树矩阵。最后将所有节点的平面树矩阵融合来得到空间树矩阵。图5展示了一个理想化图结构到树结构的转换结果。但是，实际应用场景中的节点分布更加复杂，从而导致不同节点的平面树矩阵维度不同。为了解决这一问题，本文采用公式(7)来定义空间树矩阵中每个平面树矩阵的维度。其中 $α$ 表示所有树结构的最大层数。

$T \in ℝ^{α \times 2^{α - 1}}, α = m a x_l a y e r (t_{i}), i \in [1, N]$ (7)

Figure 6. Principle of plane tree convolution

图6. 平面树卷积原理

图6以7个节点的完全二叉树为例来展示平面树矩阵的卷积过程。将树结构转化为平面树矩阵作为original feature。本文采用卷积核大小为2 × 1的CNN来提取平面树矩阵的特征。CNN从平面树矩阵的最后两行开始卷积并向右平移。当平移到最右侧时得到preliminary feature。然后对preliminary feature重复上述过程，一直到得到high-level feature。在平面树卷积的过程中，将当前层及其父层的数据特征串联起来作为CNN的输入。上述过程的输出作为下一个CNN过程的输入。为了使当前层与其父层的数据特征有一定的差异，本文对父层的数据特征进行加权融合。

3.3. 离散预测层

3.3.1. 交通流分割的离散小波变换

由于疫情的影响，交通流表现出较高的分散性和不规律性。因此，我们使用离散小波变换对交通流数据进行分解，得到交通流数据的离散量。通过分别预测离散交通流量，提高在疫情期间交通流预测的准确性。在交通流中，数据的整体趋势是交通流的低频信息，而基于趋势的一些偏差则是高频信息。本文采用小波分解来在不同尺度上分解交通流数据。小波变换将傅里叶变换中无限长的三角函数基替换为有限长度的衰减小波基：

$ψ_{a, τ} (X_{t}) = \frac{1}{\sqrt{a}} ψ (X_{\frac{t - τ}{a}})$ (8)

其中， $X_{t}$ 代表t时刻的交通流数据。 $ψ_{a, τ} (X_{t})$ 是由母小波函数 $ψ (X_{t})$ 经过平移和缩放生成的一组函数，称为小波基函数。从方程中可以看出，小波变换具有两个变量，即尺度因子a和平移因子 $τ$ 。尺度a控制小波函数的缩放，而平移 $τ$ 控制小波函数的平移。尺度因子a和平移因子 $τ$ 被离散化，如公式(13)所示。

$a = a_{0}^{m}, τ = τ_{0} a_{0}^{m}$ (9)

$ψ_{m, n} (X_{t}) = \frac{1}{\sqrt{a_{0}^{m}}} ψ (X_{\frac{t - τ_{0} a_{0}^{m}}{a_{0}^{m}}}) = \frac{1}{\sqrt{a_{0}^{m}}} ψ (X_{a_{0}^{- m} t - τ_{0}})$ (10)

其中， $m \in Z$ 用于控制小波基函数在缩放交通流数据方面的程度； $a_{0}$ 是一个大于1的常数； $τ_{0}$ 是一个大于0的常数。当 $m > 0$ 时，根据公式(19)，我们知道 $a_{0}^{m} > 1$ 。小波基函数根据时间维度压缩输入的交通流数据。假设交通流数据总共有T个时间片。经过小波基函数压缩后的输出数据在时间维度上的大小为

$\frac{T}{a_{0}^{m}} < T$ 。当 $m < 0$ 时，根据公式(9)，我们知道 $a_{0}^{m} < 1$ 。小波基函数根据时间维度压缩输入的交通流数据。假设交通流数据总共有T个时间片。经过小波基函数压缩后的输出数据在时间维度上的大小为 $\frac{T}{a_{0}^{m}} > T$ 。在本文中， $a_{0}^{m} = 2$ 。

在获得公式(10)之后，需要通过结合低通滤波器和高通滤波器来获得交通流数据的低频和高频信息，从而分别获取流量的趋势和分散度。令 $X \in ℝ^{T \times N}$ 表示交通流数据， $x_{t} \in ℝ^{N}$ 表示时刻t所有节点的交通流。然后，计算低通滤波器如公式(11)所示。高通滤波器的计算如公式(12)所示。

$g (x_{t}) = α * g (x_{t - 1}) + α * (x_{t} - x_{t - 1})$ (11)

$h (x_{t}) = α * x_{t} + (1 - α) * h (x_{t - 1})$ (12)

其中， $α \in (0, 1)$ 是一个可训练参数，用于控制滤波器的数据过滤。当t为0时，低通滤波器和高通滤波器取值为 $g (x_{0}) = h (x_{0}) = x_{0}$ 。最后，将小波基函数的输出与低通滤波器和高通滤波器相结合，分别获得交通流数据的低频信息和高频信息，从而完成交通流数据的分割。交通流的趋势通过公式(13)计算。交通流数据的离散量通过公式(14)计算。由于离散量在0上下波动，所以离散基线恒定为0 ( $D B = 0$ )。

$C T = \sum_{k = 0}^{K - 1} a ψ_{a, τ} (X) g (x_{k})$ (13)

$D Q = \sum_{k = 0}^{K - 1} a ψ_{a, τ} (X) h (x_{k})$ (14)

3.3.2. 离散预测模块

通过离散小波变换对交通流数据进行分解，得到离散交通流数据量。我们将离散量视为一组包含空间特征的时间序列数据。为了更全面地分析离散量的时间和空间相关性，使模型对交通流的预测更加准确，我们提出了一个离散预测模块，如图7所示。

Figure 7. Discrete prediction module

图7. 离散预测模块

DPM主要包括三部分，分别是图特征融合、图更新门和图重置门。为了提高预测结果的准确率，本文采用拉普拉斯矩阵的特征值和特征向量来分析交通流量数据的空间相关性。空间相关性的拉普拉斯矩阵的计算过程如公式(15)所示。

$L_{A} = D - A$ (15)

其中，D表示节点的度矩阵，A表示邻接矩阵，L_A表示空间相关分析的拉普拉斯矩阵。在图特征融合中需要对拉普拉斯矩阵进行分解，当图的规模较大时，直接对拉普拉斯矩阵进行分解的成本较高，导致模型运算速度大幅度下降。为了提高模型的训练速度，本文使用K阶切比雪夫多项式逼近来解决这个问题。图特征融合的计算过程如公式(16)所示。

$G_{t} = σ (\sum_{i = 0}^{K} α_{i} L_{A} X_{t})$ (16)

其中， $α_{i}$ 表示可训练参数， $σ$ 表示sigmoid函数， $G_{t}$ 表示图特征融合的结果。首先，将上一层的隐藏状态信息和融合了图特征的输入信息传递给sigmoid函数来获得图重置门信息，如公式(17)所示。其次，将图重置门信息、前一层的隐藏状态信息和当前数据信息融合，并传递给tanh函数来获得一个新的候选值向量，如公式(18)所示。然后将上一层的隐藏状态信息和融合了图特征的输入信息传递给sigmoid函数来获得图更新门信息，如公式(19)所示。最后DPM的输出结果定义为公式(20)。

$r_{t} = σ (W_{r} (G_{t} h_{t - 1}) + b_{r})$ (17)

${\tilde{h}}_{t} = \tanh (W_{\tilde{h}} (r_{t} h_{t - 1}) X_{t} + b_{\tilde{h}})$ (18)

$z_{t} = σ (W_{z} (G_{t} h_{t - 1}) + b_{z})$ (19)

$h_{t} = (1 - z_{t}) h_{t - 1} + z_{t} {\tilde{h}}_{t}$ (20)

4. 实验

4.1. 数据集

本文选择的数据集是美国加利福尼亚州高速公路上的交通流数据。这些数据来自美国加利福尼亚州高速公路上的性能测量系统(PeMS, http://pems.dot.ca.gov/)。PeMS中的交通数据是通过超过39,000个检测器实时收集的。这些传感器覆盖了加利福尼亚州所有主要城市的高速公路系统。PeMS还是一个存档数据用户服务(ADUS)，提供了十多年的历史分析数据。它整合了来自Caltrans和其他地方机构系统的各种信息。在本文中，从PeMS的所有检测器中随机选择了97个作为训练集中的节点。对于这97个节点，选择了2020年4月1日至5月1日(共30天)的交通流作为时间间隔为5分钟的训练集，训练集总共有8640个时间片。该数据集表示为PeMS97。为验证模型的性能，从PeMS数据集中随机选择了140个节点作为测试集。测试集用于2020年5月1日至5月25日的交通流，共25天。测试集数据保持在5分钟的时间片中，总共有7200个时间片。该数据集表示为PeMS140。本文的模型在这两个数据集上取得了令人满意的结果，验证了模型的有效性。

4.2. 实验设置

在本文中，周期输入数据的时间长度为12个时间片，即1小时；以日周期输入数据的时间为12个时间段，即1小时；近期输入数据的时间为12个时间段，即1小时。预测交通数据时间长度为12个时间段，即预测下一小时的交通流量。在TCN中，初始扩展因子为2，卷积核大小为3。两层TCN的实验设置相同。在GCN中，空间特征提取的准确率随着切比雪夫多项式项数的增加而增加。但是，项目数量的增加会增加训练的难度。本文使用切比雪夫的三阶多项式，即K = 3。在使用离散小波变换分解交通流数据时，本文选择Haar函数作为母小波函数。在训练阶段，所有实验的batch size为32，学习率设置为0.001。所有实验均使用Adam优化器训练模型，训练迭代的最大次数设置为1000。

4.3. 评估指标

本文采用平均绝对误差(MAE)和均方根误差(RMSE)作为评估参数来评估模型效果。MAE值的范围是当预测值与真实值完全匹配时，MAE的计算结果等于0，即完美模型，MAE越大，误差越大，MAE越大，表达式为 MAE定义为：

$MAE = \frac{1}{n} \sum_{i = 1}^{n} | {\hat{y}}_{i} - y_{i} |$ (21)

RMSE常被用作机器学习模型预测结果的度量，用来衡量观测值与真实值之间的偏差。RMSE取值范围与MAE取值范围相同，同样RMSE越大，误差越大，RMSE定义表达式为：

$RMSE = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {({\hat{y}}_{i} - y_{i})}^{2}}$ (22)

4.4. 实验结果及与基线模型对比

将本文模型置于与其他7个基线模型相同的实验条件下对测试集进行预测，并记录实验过程中的MAE、RMSE和预测结果。在实验期间，预测接下来12个时间段(即60分钟)的交通流量。为了展示模型对不同时间长的数据的预测效果，本文展示了未来5分钟，30分钟和60分钟的预测结果的评估参数，如图8所示。其中，绿色模块代表了模型对未来60分钟数据预测的评估结果。红色模块代表了模型对未来30分钟数据预测的评估结果。蓝色模块代表了模型对未来5分钟数据预测的评估结果。图8显示了数据集PeMS97的所有交通流预测模型的评估结果。从图8可以看出，在相同的训练环境下，本文的模型在数据集PeMS97上优于其他baseline预测模型。

(a) (b)

Figure 8. Quantitative analysis results comparison experiment figures. (a) MAE evaluation results; (b) RMSE evaluation results

图8. 对比实验定量分析结果图。(a) MAE评估结果；(b) RMSE评估结果

4.5. 与包含图卷积神经网络的模型进行比较

通过分析图8和图9，我们得出以下结论。在包含GCN的四个baseline中，单一的GCN模型效果最差。由图9(a)和图9(b)可知，GCN只能拟合交通流量数据的变化过程，GCN的预测结果与真实交通流量数据之间具有较大差距 [35] 。与CNN和RNN相比，GCN可以更加充分地分析交通网络的空间依赖性。但是单一的GCN模型缺少对交通流量数据的时间相关性的分析。所以，单一的GCN模型的预测效果有很大的提升空间。由图8可知，GCN的MAE平均高达61.23，GCN的RMSE平均高达93.30。T-GCN在GCN之上使用CNN来获取时间特征。通过对比图8可以看出，在GCN之上加入时间相关性分析相比GCN有效提高了模型交通流数据的准确性，T-GCN的MAE平均降低了16.98，T-GCN的RMSE平均降低了27.44。通过图9(c)和图9(d)可以看出，T-GCN的预测结果比GCN的预测结果更接近真实值。但是，T-GCN在预测峰值交通流量方面仍然存在不足，STGCN将T-GCN中用于提取时间特征的CNN模型替换为GRU模型。与CNN相比，GRU模型在提取序列数据特征方面更具优势。通过对比图9中T-GCN和STGCN的预测结果，可以看出STGCN模型效果更好。虽然STGCN模型已经包含了时空特征的提取，但它并不能很好地拟合交通流数据的离散变化。ASTGCN模型在STGCN模型的基础上增加了注意力机制，用于突出数据的空间和时间特征，从而可以更准确地提取数据特征。从图8可以看出，ASTGCN短期交通流预测的MAE平均下降到40.54，ASTGCN的RMSE平均下降到56.72。由图9(g)和图9(h)可以看出，ASTGCN只预测了疫情期间交通流量变化的整体趋势，但一些细节的拟合并不准确。由于GCN适用于随即均匀分布的交通网络。所以，包含GCN的baseline对于节点间连通性较低的交通流量数据的预测不够准确。为了解决这一问题，本文提出了一种TreeCN来计算交通网络的空间特征。此外，为了充分拟合高离散性的交通流量数据的时序变化，本文增加了数据离散度分析，可以更加准确地预测高离散性的交通流量数据。由图8可以看出，本文模型的MAE平均下降到35.85，本文模型的RMSE平均下降到52.77。通过对比图8和图9可知，本文模型的预测效果要优于所有基线模型的预测效果。

(a) (b) (c) (d) (e) (f) (g) (h)

Figure 9. Comparison of experimental results on the PeMS140 dataset between the model proposed in this paper and four models incorporating graph convolutional neural networks

图9. 本文模型与四种包含图卷积神经网络的模型在PeMS140数据集上的实验结果比较

5. 结论

本文提出了一种面向高离散性交通流量数据的预测模型。本文采用DWT对交通流量数据进行拆分，得到交通流量数据的变化趋势、离散量和离散基线。为了充分分析交通网络的空间相关性，本文提出了TreeCN来提取交通流量数据的空间特征。首先，本文将数据按周期进行划分，分别是近期、日周期和周周期。并且，本文采用TCN来分别提取三个不同周期交通流量数据的时间特征。其次，将TCN的输出结果作为TreeCN的输入，并采用TreeCN提取数据的空间特征。然后，再采用TCN计算TreeCN输出结果的时间特征，并将三个不同周期的计算结果进行拼接。最后，通过全连接层得到时空模型预测结果。为了充分分析数据的高维离散型，本文采用DWT将输入数据进行拆分，并提出了DPM来预测数据离散量。该模型在输出层采用逆离散小波变换将DPM的预测结果与时空模型的预测结果融合，并得到最终的预测结果。在实际数据集上的实验证明，该模型比现有模型能够更准确地预测高离散性的交通流量数据。

虽然这篇文章已经完成了对高离散性的交通流量预测，但是还有很多地方需要改进。我们未来的研究工作将使用集成学习方法将TreeCN扩展到大规模节点数的计算。TreeCN的未来研究工作可以建立一个完善的树卷积理论。同时，我们也希望将树卷积理论推广到节点分类、节点预测、边缘预测等领域。

NOTES

^*通讯作者。

参考文献

[1]	Lv, Z., Li, J., Li, H., et al. (2021) Blind Travel Prediction Based on Obstacle Avoidance in Indoor Scene. Wireless Communications and Mobile Computing, 2021, Article ID: 5536386. [Google Scholar] [CrossRef]
[2]	Xu, Z., Li, J., Lv, Z., et al. (2021) A Graph Spatial-Temporal Model for Predicting Population Density of Key Areas. Computers & Electrical Engineering, 93, Article ID: 107235. [Google Scholar] [CrossRef] [PubMed]
[3]	Sun, X., Li, J., Lv, Z., et al. (2020) Traffic Flow Predic-tion Model Based on Spatio-Temporal Dilated Graph Convolution. KSII Transactions on Internet and Information Sys-tems (TIIS), 14, 3598-3614. [Google Scholar] [CrossRef]
[4]	Lv, Z., Li, J., Dong, C., et al. (2020) A Deep Spatial-Temporal Net-work for Vehicle Trajectory Prediction. In: International Conference on Wireless Algorithms, Systems, and Applications, Springer International Publishing, Cham, 359-369. [Google Scholar] [CrossRef]
[5]	Fu, L., Li, J., Lv, Z., et al. (2020) Estimation of Short-Term Online Taxi Travel Time Based on Neural Network. In: International Conference on Wireless Algorithms, Systems, and Applications, Springer International Publishing, Cham, 20-29. [Google Scholar] [CrossRef]
[6]	Lv, Z., Li, J., Dong, C., et al. (2021) DeepPTP: A Deep Pedes-trian Trajectory Prediction Model for Traffic Intersection. KSII Transactions on Internet & Information Systems, 15, 2321-2338. [Google Scholar] [CrossRef]
[7]	Lv, Z., Li, J., Dong, C., et al. (2021) Deep Learning in the COVID-19 Epidemic: A Deep Model for Urban Traffic Revitalization Index. Data & Knowledge Engineering, 135, Arti-cle ID: 101912. [Google Scholar] [CrossRef] [PubMed]
[8]	Dong, C., Li, J., Lv, Z., et al. (2021) Spatial and Dual-channel Temporal Convolution Networks: A Novel Method for Speed Forecasting. Proceedings of the ACM Turing Award Cel-ebration Conference, Hefei, 30 July-1 August 2021, 82-86. [Google Scholar] [CrossRef]
[9]	Fan, S., Li, J., Lv, Z., et al. (2021) Multimodal Traffic Travel Time Prediction. 2021 IEEE International Joint Conference on Neural Networks (IJCNN), 18-22 July 2021, 1-9. [Google Scholar] [CrossRef]
[10]	Lv, Z., Li, J., Xu, Z., et al. (2021) Parallel Computing of Spatio-Temporal Model Based on Deep Reinforcement Learning. Wireless Algorithms, Systems, and Applications: 16th International Conference, WASA 2021, Nanjing, 25-27 June 2021, 391-403. [Google Scholar] [CrossRef]
[11]	Xu, Z., Li, J., Lv, Z., et al. (2022) A Classification Method for Urban Functional Regions Based on the Transfer Rate of Empty Cars. IET Intelligent Transport Systems, 16, 133-147. [Google Scholar] [CrossRef]
[12]	Yuan, G., Li, J., Lv, Z., et al. (2021) DDCAttNet: Road Segmen-tation Network for Remote Sensing Images. In: International Conference on Wireless Algorithms, Systems, and Applica-tions, Springer International Publishing, Cham, 457-468. [Google Scholar] [CrossRef]
[13]	Li, H., Li, J., Lv, Z., et al. (2021) MFAGCN: Multi-Feature Based Attention Graph Convolutional Network for Traffic Pre-diction. Wireless Algorithms, Systems, and Applications: 16th International Conference, WASA 2021, Nanjing, 25-27 June 2021, 227-239. [Google Scholar] [CrossRef]
[14]	Wang, Y., Li, J., Zhao, A., et al. (2021) Temporal Attention-Based Graph Convolution Network for Taxi Demand Prediction in Functional Areas. Wireless Algo-rithms, Systems, and Applications: 16th International Conference, WASA 2021, Nanjing, 25-27 June 2021, 203-214. [Google Scholar] [CrossRef]
[15]	Lv, Z., Li, J., Dong, C., et al. (2023) DeepSTF: A Deep Spa-tial-Temporal Forecast Model of Taxi Flow. The Computer Journal, 66, 565-580. [Google Scholar] [CrossRef]
[16]	Xu, Z., Li, J., Lv, Z., et al. (2021) A Prediction Method for Population Density in Key Areas. International Symposium on Artificial Intelligence and Robotics 2021, Vol. 11884, 13-28. [Google Scholar] [CrossRef]
[17]	Xu, Z., Lv, Z., Li, J., et al. (2022) A Novel Perspective on Travel Demand Prediction Considering Natural Environmental and Socioeconomic Factors. IEEE Intelligent Transportation Systems Magazine, 15, 136-159. [Google Scholar] [CrossRef]
[18]	赵薇, 李建波, 吕志强, 等. 融合时间和地理信息的兴趣点推荐研究[J]. 复杂系统与复杂性科学, 2023, 19(4): 25-31. [Google Scholar] [CrossRef]
[19]	Dong, C., Lv, Z. and Li, J. (2021) A Forecasting Method of Dual Traffic Condition Indicators Based on Ensemble Learning. 2021 IEEE 27th International Conference on Parallel and Distributed Systems (ICPADS), Beijing, 14-16 December 2021, 332-339. [Google Scholar] [CrossRef]
[20]	Wang, Y., Lv, Z., Sheng, Z., et al. (2022) A Deep Spa-tio-Temporal Meta-Learning Model for Urban Traffic Revitalization Index Prediction in the COVID-19 Pandemic. Ad-vanced Engineering Informatics, 53, Article ID: 101678. [Google Scholar] [CrossRef] [PubMed]
[21]	Xu, Z., Lv, Z., Li, J., et al. (2022) A Novel Approach for Predicting Water Demand with Complex Patterns Based on Ensemble Learning. Water Resources Management, 36, 4293-4312. [Google Scholar] [CrossRef]
[22]	Li, H., Lv, Z., Li, J., et al. (2023) Traffic Flow Forecasting in the COVID-19: A Deep Spatial-Temporal Model Based on Discrete Wavelet Transformation. ACM Transactions on Knowledge Discovery from Data, 17, 1-28. [Google Scholar] [CrossRef]
[23]	Wang, Y., Zhao, A., Li, J., et al. (2023) Multi-Attribute Graph Convolution Network for Regional Traffic Flow Prediction. Neural Processing Letters, 55, 4183-4209. [Google Scholar] [CrossRef]
[24]	Sun, H., Lv, Z., Li, J., et al. (2022) Prediction of Cancellation Probability of Online Car-Hailing Orders Based on Multi-Source Heterogeneous Data Fusion. In: Interna-tional Conference on Wireless Algorithms, Systems, and Applications, Springer Nature Switzerland, Cham, 168-180. [Google Scholar] [CrossRef]
[25]	Ye, R., Lv, Z., Zhao, A., et al. (2022) Socially Acceptable Trajectory Prediction for Scene Pedestrian Gathering Area. In: International Conference on Wireless Algorithms, Systems, and Applications, Springer, Cham, 206-215. [Google Scholar] [CrossRef]
[26]	Lv, Y., Cheng, Z., Lv, Z., et al. (2022) A Spatial-Temporal Convolutional Model with Improved Graph Representation. In: International Conference on Wireless Algorithms, Sys-tems, and Applications, Springer, Cham, 101-112. [Google Scholar] [CrossRef]
[27]	Sheng, Z., Lv, Z., Li, J., et al. (2023) Taxi Travel Time Predic-tion Based on Fusion of Traffic Condition Features. Computers and Electrical Engineering, 105, Article ID: 108530. [Google Scholar] [CrossRef]
[28]	Lv, Z., Wang, X., Cheng, Z., et al. (2023) A New Ap-proach to COVID-19 Data Mining: A Deep Spatial-Temporal Prediction Model Based on Tree Structure for Traffic Re-vitalization Index. Data & Knowledge Engineering, 146, Article ID: 102193. [Google Scholar] [CrossRef] [PubMed]
[29]	Li, Y., Li, J., Lv, Z., et al. (2023) GASTO: A Fast Adaptive Graph Learning Framework for Edge Computing Empowered Task Offloading. IEEE Transactions on Network and Ser-vice Management. [Google Scholar] [CrossRef]
[30]	Sun, H., Lv, Z., Li, J., et al. (2023) Will the Order Be Canceled? Order Cancellation Probability Prediction Based on Deep Residual Model. Transportation Research Record, 2677, 142-160. [Google Scholar] [CrossRef]
[31]	Sheng, Z., Lv, Z., Li, J., et al. (2023) Deep Spa-tial-Temporal Travel Time Prediction Model Based on Trajectory Feature. Computers and Electrical Engineering, 110, Article ID: 108868. [Google Scholar] [CrossRef]
[32]	Lv, Y., Lv, Z., Cheng, Z., et al. (2023) TS-STNN: Spa-tial-Temporal Neural Network Based on tree Structure for Traffic Flow Prediction. Transportation Research Part E: Lo-gistics and Transportation Review, 177, Article ID: 103251. [Google Scholar] [CrossRef]
[33]	Han, S. and Fu, L. (2023) A Deep Spatiotemporal Model for Travel Time Prediction. Annals of Applied Sciences.
[34]	Xu, Z., Lv, Z., Chu, B., et al. (2023) Fast Autoregressive Tensor De-composition for Online Real-Time Traffic Flow Prediction. Knowledge-Based Systems, 282, Article ID: 111125. [Google Scholar] [CrossRef]
[35]	Lv, Z., Cheng, Z., Li, J., et al. (2023) TreeCN: Time Series Pre-diction with the Tree Convolutional Network for Traffic Prediction. IEEE Transactions on Intelligent Transportation Systems, 1-16. [Google Scholar] [CrossRef]

为你推荐

友情链接