1. 引言
随着城市化进程的推进和人口规模的持续扩张,城市轨道交通凭借其容量大、准点率高、速度快等特点成为大型城市中的重要交通工具 [1] 。城市轨道交通显著缓解了城市交通压力,通过减少私家车使用,有效降低空气污染和缓解交通拥堵。然而,由于日益增长的客流压力和事故风险,轨道交通系统面临着巨大挑战。在如此背景之下,揣摩城市轨道交通之脉动,准确预测其客流已逐渐成为提升运营效益、优化资源配置、降低事故风险的关键所在。准确的客流预测有助于客流高峰或者突发事件的风险评估和应对,从而采取措施避免过度拥挤,确保乘客安全 [2] 。
近年来,城市轨道交通系统的短时客流预测逐渐成为智慧城市交通领域的重要研究方向。这一领域的发展经历了数理统计模型、机器学习模型以及深度学习模型三个阶段的演进。首先,早期的短时客流预测主要依赖于基于数理统计的模型。包括历史平均模型、最小二乘法、卡尔曼滤波模型等 [3] 。尽管这些模型在一定程度上能够进行预测,但由于其依赖于线性理论,无法捕捉数据中的非线性关系,难以实现短时客流的精确预测 [4] 。当路网结构和影响因素发生改变时,训练完成的网络将不再适用 [5] 。其次,随着机器学习技术的发展,短时客流预测逐渐进入了基于机器学习的阶段;如决策树、随机森林等单一模型以及一些组合模型。该阶段的预测模型相比于数理统计的模型预测精度有所提升,但由于这些模型无法充分考虑车站之间复杂的时空相关性,通常只能针对个别车站进行预测,而不能对整个城市轨道交通网络进行预测。最后,随着深度学习技术的飞速发展,不少学者将其用到短时客流预测当中,例如卷积神经网络(CNN)、长短时记忆网络(LSTM)、图卷积神经网络(GCN)等。相比于前两个阶段来说,深度学习阶段的模型具有更高的预测精度。鉴于单一深度学习模型在捕捉复杂时空特征方面的局限性,本文采用GCN-CNN组合模型来进行短时客流预测,以充分挖掘城市轨道交通网络的拓扑结构和空间信息。与XGBoost、随机森林、LSTM、GCN、CNN等模型相比具有更高的预测精度和泛化能力,同时还具备较强的模型解释性,为城市轨道交通系统的智能化发展提供了重要的技术支持。
2. 问题描述及模型框架
2.1. 问题描述
本文的研究目标是基于历史AFC (Automatic Fare Collection)数据,选用15 min作为时间粒度,从中提取出基于时间序列的进站客流信息,以预测未来15分钟内城市轨道交通线网的进站客流量。为了更有效地利用客流量的周期性,本研究采用了三种时间模式进行预测,包括周模式、日模式和实时模式。在模型设计方面,本研究将图卷积神经网络(GCN)与二维卷积神经网络(CNN)相结合,提出了GCN-CNN组合模型。GCN层通过处理不同时间尺度的客流数据,揭示了交通模式随时间演变的多尺度依赖性。这些时间维度的特征经过融合后,CNN层进一步提取这些融合特征中的空间特征,通过其深层的非线性处理能力来捕捉站点间复杂的空间依赖关系。同时为了防止过拟合,在模型的全连接层之间添加两个Dropout层,在卷积层后进行批量归一化。综上所述,本文提出的GCN-CNN组合模型,在一定程度上提高了客流预测的准确性和模型的泛化能力,能够综合考虑城市轨道交通系统在时空维度上的复杂特征。
2.2. 模型框架
搭建基于GCN-CNN的短时客流预测模型,模型框架如图1所示。通过结合GCN和CNN的优势,此模型不仅能够有效处理具有复杂空间结构的图数据,还能捕捉时间序列数据的动态变化 [6] 。
模型建立步骤如下:
步骤一:数据输入
现有地铁短时客流预测模型中的数据输入分为两类:一是以天(d)为单位,不分时段,将所有历史数据都作为输入;二是将一天分为不同的时段,再把每天的同一时段的客流作为数据的输入 [7] 。由于地铁客流的特点,以天为单位作为输入,不能精确预测出地铁一天中不同时段的客流量;以每天的某个时段作为数据输入,前后时刻客流的影响难以把握,最终都会影响模型的精度。本文采用每天05:00~23:00时间内,按15 min为时间粒度,提取15 min时间粒度进站客流序列并将该客流序列数据使用Min-Max Scaler进行归一化处理。数据输入包括三种客流模式,即周模式、日模式和实时模式,分别代表所要预测时段上一周同时段的客流,前一天同时段的客流以及邻近的前几个时段的客流。
步骤二:图卷积神经网络(GCN)层
将上文中的三种客流分别输入GCN层,通过定义三个独立的GCN层来处理不同的时间尺度(周、日、实时)的流量数据,模型能够分别学习每个时间尺度上的空间依赖性。周尺度GCN层:专注于学习周内模式,捕捉周末与工作日之间的流量差异等周期性变化。日尺度GCN层:关注日内模式,如早晚高峰时段流量的变化。实时尺度GCN层:用于捕捉更细粒度的时间变化,例如每小时的流量波动。通过GCN层处理,不仅能够同时捕捉不同时间尺度的流量模式,提高预测的准确性和鲁棒性,还能有效学习站点间的空间依赖关系,提高了空间特征的表示能力。
步骤三:卷积神经网络(CNN)层
GCN层输出的三种客流经过合并之后输入CNN层,卷积神经网络(CNN)能从复杂数据中自动提取多维度特征 [8] ,特别是提取局部特征和模式方面。模型利用nn.Sequential定义了一个CNN层序列,包含两个卷积块。每个卷积块包括一个卷积层、ReLU激活函数、批量归一化(Batch Normalization),以及最大池化层来提取合并层的时空特征。
![](//html.hanspub.org/file/9-2760815x8_hanspub.png?20240604093508233)
Figure 1. GCN-CNN model framework diagram
图1. GCN-CNN模型框架图
3. 案例分析
3.1. 数据来源
由于城市轨道交通数据的获取通常受限制,从轨道运营企业获得数据可能会面临一系列挑战。常规渠道可能需要经过繁琐的审批程序,耗费大量时间和精力。考虑到城市轨道交通数据的稀缺性和获取的难度,实验数据为论文中开源的北京客流数据,该数据包括北京连续5周的客流数据。本文使用2016年2月29日~2016年4月1日连续5周25个工作日的AFC数据,共计1.3亿条数据。数据跨度为05:00~23:00 (18 h),将前四周的数据作为训练集,训练集的10%作为验证集,第五周的数据作为测试集 [9] 。其中2016年3月,北京共计运营线路17条、运营车站276座(换乘车站不重复计数)。2016年的数据虽然有些陈旧,但它们仍然具有价值。这些数据的类型和特征可以很好地解决我们研究的问题。
3.2. GCN-CNN模型的参数设置
在利用构建的模型进行轨道站点短期客流预测时,模型的参数设置需要根据具体模型考虑的因素来确定 [10] 。下面是一些模型自定义参数含义如表1所示。
![](Images/Table_Tmp.jpg)
Table 1. Main parameter settings of the model
表1. 模型的主要参数设置
4. 预测结果与评价
4.1. 基准模型
1) XGBoost (eXtreme Gradient Boosting)是一种高效且灵活的梯度提升决策树算法,广泛用于分类、回归、预测和排序任务。在短时客流、路网行驶速度和汽车流量等预测工作中都有涉及 [11] 。设置树的数量为100,数的最大深度为6,学习率为0.3。
2) 随机森林(Random Forest)是一种集成学习模型,由Leo Breiman和Adele Cutler于2001年提出。它是一种基于决策树的集成模型,通过构建多个决策树并对其结果进行组合来进行预测 [12] 。n_estimators设置为100。
3) LSTM (长短时记忆网络)适用于处理时间序列性数据,对预测时间序列中的长间隔和延迟有很好的处理效果 [13] 。设置两个隐藏层,隐藏层均设置128个神经元。
4) GCN (图卷积神经网络)被用于处理图数据,提取节点特征,并进行节点分类等任务。学习率设置为0.001,BatchSize = 32。
5) CNN (卷积神经网络):二维卷积神经网络,卷积核尺寸3 × 3,池化核尺寸2 × 2,Dropout层设置0.5的概率。
4.2. 评价指标
4.2.1. 均方根方差
均方根误差(root mean square error, RMSE)对于一些异常值比较敏感,可以直观表示预测值与真实值的平均偏离程度.RMSE值越小,表明预测值与真实值越接近,预测模型的性能越好。RMSE可计算为:
4.2.2. 决定系数
决定系数(Coefficient of Determination),通常用符号R2表示,是一种用于衡量回归模型拟合优度的统计指标。它表示因变量的变异程度中可以由自变量解释的比例。决定系数的取值范围从0到1,越接近1表示模型对观测数据的拟合程度越好。
计算决定系数的公式如下:
其中:
SSR (Sum of Squares of Residuals)表示残差平方和,是观测值与回归模型预测值之间的差异的平方和。
SST (Total Sum of Squares)表示总平方和,是观测值与观测值均值之间的差异的平方和。
4.2.3. 平均绝对误差
平均绝对误差(Mean Absolute Error, MAE)可直观反映平均误差值大小,计算公式为:
其中,
为真实值;
为预测值;n为样本个数,MAE值越小,表明模型性能越好。
4.2.4. 加权平均绝对百分比误差
加权平均绝对百分比误差(WMAPE)是一种用于衡量预测模型准确性的指标,与MAE类似但考虑了每个样本的权重。其计算公式为:
其中
表示第i个样本的权重,
为真实值;
为对第i个样本的预测值,n为样本个数。WMAPE值越小,表明模型的预测性能越好。
4.3. 案例分析
本文考虑历史客流对客流预测的影响,以北京市地铁的客流数据为例,并利用周模式、日模式、实时模式三种模式来预测各个车站未来15 min的进站客流量。同时采用常用的XGBoost模型、随机森林、LSTM、GCN、CNN模型作为对比,并用RMSE (均方根误差)、R2 (决定系数)、MAE (平均绝对误差)、WMAPE (加权平均绝对百分误差)等评估指标综合评价本文模型的预测精度与模型鲁棒性等,结果表2所示。其中GCN-CNN组合模型的训练损失图如图2所示。
各模型预测结果精度如表2所示。
![](Images/Table_Tmp.jpg)
Table 2. Comparison of evaluation metrics for the rail network
表2. 线网的评价指标对比
![](//html.hanspub.org/file/9-2760815x18_hanspub.png?20240604093508233)
Figure 2. Training loss curve of the GCN-CNN combined model
图2. GCN-CNN组合模型的训练损失曲线图
GCN-CNN模型相较于其他模型的提升情况如下:
相较于XGBoost,GCN-CNN在:RMSE上提升了16.67%;R2上提升了0.41%;MAE上提升了14.30%;WMAPE上提升了14.13%;
相较于随机森林,GCN-CNN在:RMSE上提升了48.00%;R2上提升了2.70%;MAE上提升了50.31%;WMAPE上提升了50.00%;
相较于LSTM,GCN-CNN在:RMSE上提升了34.01%;R2上提升了1.23%;MAE上提升了33.60%;WMAPE上提升了33.61%;
相较于CNN,GCN-CNN在:RMSE上提升了25.69%;R2上提升了0.81%;MAE上提升了24.06%;WMAPE上提升了24.04%;
相较于GCN,GCN-CNN在:RMSE上提升了23.73%;R2上提升了0.71%;MAE上提升了22.21%;WMAPE上提升了21.78%;
通过对比这些指标,得出以下结论:GCN-CNN模型在处理复杂数据结构,特别是城市轨道交通线网数据时,展现出了显著的性能优势。相比于传统的机器学习模型(XGBoost、随机森林)和其他先进的深度学习模型(LSTM、CNN、GCN),GCN-CNN在关键性能指标上均实现了显著的提升。这包括预测精度(通过RMSE衡量)、模型拟合能力(通过R2衡量)、平均预测误差(通过MAE衡量)以及误差的相对大小(通过WMAPE衡量)。
![](//html.hanspub.org/file/9-2760815x19_hanspub.png?20240604093508233)
Figure 3. Comparison of XGBoost predictions for different stations
图3. 不同车站的XGBoost预测对比图
为了更全面地评价GCN-CNN模型的性能,以及对比不同模型之间的差异,随机选择三个车站进行深层分析。三个车站的选择基于随机抽样的原则,目的是确保研究结果的广泛适用性和客观性。随机抽样是科学研究中常用的方法,有助于减少选择偏差,确保样本的代表性。但是随机选择的局限性可能影响模型评估的全面性。因此,未来的研究可以考虑采用聚类后抽样等更细致的方法,以覆盖更广泛的车站类型和运营条件,进一步验证GCN-CNN模型的适用性和优越性。
在之前数据处理中已经把车站进行编号,现在随机抽取车站4,车站18,车站30来展示不同车站在不同模型下的预测变化。下面是三个车站在不同预测模型下的真实值与预测值对比图。如图3~8所示。
XGBoost模型下三个车站的真实值与预测值对比图如图3所示。
随机森林模型下三个车站的真实值与预测值对比图如图4所示。
LSTM模型下三个车站的真实值与预测值对比图如图5所示。
CNN模型下三个车站的真实值与预测值对比图如图6所示。
![](//html.hanspub.org/file/9-2760815x20_hanspub.png?20240604093508233)
Figure 4. Comparison of random forest predictions for different stations
图4. 不同车站的随机森林预测对比图
![](//html.hanspub.org/file/9-2760815x21_hanspub.png?20240604093508233)
Figure 5. Comparison of LSTM predictions for different stations
图5. 不同车站的LSTM预测对比图
![](//html.hanspub.org/file/9-2760815x22_hanspub.png?20240604093508233)
Figure 6. Comparison of CNN predictions for different stations
图6. 不同车站的CNN预测对比图
GCN模型下三个车站的真实值与预测值对比图如图7所示:
![](//html.hanspub.org/file/9-2760815x23_hanspub.png?20240604093508233)
Figure 7. Comparison of GCN predictions for different stations
图7. 不同车站的GCN预测对比图
GCN-CNN模型下三个车站的真实值与预测值对比图如图8所示:
![](//html.hanspub.org/file/9-2760815x24_hanspub.png?20240604093508233)
Figure 8. Comparison of GCN-CNN predictions for different stations
图8. 不同车站的GCN-CNN预测对比图
为了更直观地展示模型预测性能,并深入了解模型在各个车站预测准确度的差异,对每个车站进行对比分析,如表3所示:
![](Images/Table_Tmp.jpg)
Table 3. Comparison of evaluation metrics for individual stations
表3. 单个车站的评价指标对比
可以看出,GCN-CNN模型在单个车站的表现普遍优于其他基准模型。归因于GCN-CNN模型结合了图卷积网络(GCN)和卷积神经网络(CNN)的优势,有效地捕获了数据的空间特征和时序依赖,从而提高了预测的准确性。
5. 结论
本文通过结合图卷积神经网络(GCN)和卷积神经网络(CNN)提出了一个针对城市轨道交通短时客流的预测模型。通过详细分析北京地铁的自动售票系统数据,得出本文提出的GCN-CNN模型在预测准确性和模型泛化能力上表现优异。首先,GCN层通过捕捉交通模式的多尺度依赖性,有效的处理了不同时间尺度上的客流变化。其次,CNN层使得模型能够深入挖掘并利用站点间的复杂空间依赖关系,从而提高预测的准确性和精度。GCN-CNN模型在多个关键性能指标上,均显示出GCN-CNN模型在这些指标上表现出较好的性能。具体而言,GCN-CNN模型展现出较低的RMSE和MAE值,表明其具有较高的预测准确性,而较高的R2值则说明其具备较强的解释能力。相较于基准模型,GCN-CNN模型展现出更好的性能和鲁棒性,进一步验证了其在处理复杂非线性数据和利用空间关系与时间序列信息方面的优势。
基金项目
天津市科技计划(XC202028, 2022ZD016)项目资助。
NOTES
*通讯作者。