1. 引言
随着汽车数量的大幅攀升,缓解交通拥堵越来越成为城市发展所要面对的重大课题。构建完善的智能交通预测系统,是一项重要的应对措施。准确的交通流量预测能够辅助有关部门进行决策,提前采取相关预警措施,促进管理体系和管理能力现代化。因此,研究短时交通流预测具有很强的实践意义 [1] 。
目前,本文提出了大量的预测模型,以通过关注不同的模型结构和计算过程来增强预测性能,例如,参数模型 [2] [3] [4] [5] ,反向传播神经网络(Back Propagation Neural Network, BP) [6] ,支持向量机(Support Vector Machine, SVM) [7] 和人工神经网络(Artificial Neural Network, ANN) [8] 等。这些算法在一些特定的应用中表现出很高的性能。然而,由于交通系统的时空变化具有不确定性和复杂性,短时交通流数据在采集过程中常常受到强烈的噪声干扰,导致交通流预测的可靠性和准确性下降。为此,研究人员已经致力于设计数据降噪过程,在应用预测方法之前对数据进行处理,以提高交通流预测的准确性和可靠性 [9] [10] [11] [12] [13] 。
其中,小波(Wavelet, WL)方法是一种被广泛采用的降噪模型。Xie等 [9] 采用小波卡尔曼滤波模型消除短时交通量预测中的噪声影响,表现出比单独的小波模型和卡尔曼模型更好的性能。Jiang等 [10] 提出了一种改进的离散小波包变换,利用统计自相关函数来选择小波方法中的分解层数,来处理原始数据源中隐含的噪声。此外,Lu等 [11] 利用小波变换将交通流数据分解为多尺度分量。而在研究 [12] 和研究 [13] 的工作中应用小波降噪方法提高交通流预测精度,并提出了基于自组织神经网络和神经小波的几种改进的预测模型。综上所述,降噪过程的加入是提高交通流预测精度的有效手段。
但是上述的研究中,小波变换的性能受到所选择的小波基的影响。不同的小波基具有不同的时频特性,选择不合适的小波基可能导致去噪效果不佳。同时,小波降噪中的阈值选择是一个重要的问题。合适的阈值选择可以实现较好的去噪效果,但如何选择适当的阈值并没有一个通用的准则,需要根据具体问题和应用进行调整。所以在这项研究中,本文侧重于提出一种自适应的降噪方法,不需要去选择基函数和阈值函数,该方法结合了经验模态分解(Empirical Mode Decomposition, EMD)和独立分量分析(Independent Component Analysis, ICA),用于去除噪声干扰。并通过模拟仿真实验证明了该降噪方法的有效性,在此基础上,通过对真实交通流的预测进行评估,结果表明该降噪方法与预测模型的组合可以有效地提高预测精度,其中EIMD与SVM的组合预测模型有最高的预测精度。
2. 方法原理
2.1. 小波(WL)
对于消除交通流数据中的噪声干扰,可以采用WL方法 [14] 。降噪模型的目标是减少噪声等干扰因素对模型预测精度的影响,尤其是在复杂的非线性交通数据集中。一维噪声模型可以用以下形式表示:
(1)
其中,
是含有噪声的原始信号;
是没有噪声的纯净信号;
为噪声;i为时刻;t为时刻;n是信号长度。小波降噪的原理是抑制
的
部分,恢复
的
部分。小波降噪模型能够保留降噪后的原始信号特征,小波降噪方法的流程通常分为三个步骤,如下所示:
Step 1. 选择一个小波,确定小波分解的层数N,然后计算信号的N层分解。
Step 2. 对于从层1到层N的每一层的高频因子,选取阈值用于阈值化。
Step 3. 根据近似系数和修正后的小波系数,利用小波逆变换重构降噪后的交通数据。
2.2. 经验模态分解(EMD)
EMD在图像分析、齿轮箱故障诊断等领域广泛应用,并取得了显著的成功。EMD的主要特点是数据自适应性,这使得它能够适应不同类型的信号,并获得良好的分解效果 [15] [16] 。EMD通过采用三次样本插值方法,在信号中自适应地分解出多个具有物理意义的本征模态函数(Intrinsic Mode Function, IMF)。IMF具有以下两个特征条件:1) 在整个时间序列中,信号的极值点和过零点的数目相等或相差1;2) 由极大值点和极小值点确定的包络线均值为零。对EMD模型的更详细解释如下所述:
Step 1. 从数据序列
中找出潜在的极值点,通过采用三次样条插值方法连接极值点和最大值点,形成上包络
和下包络
。
Step 2. 计算上包络
和下包络
的平均值,以获得平均包络
(参见公式(2))。
Step 3. 计算
和
之间的差值以获得
(参见公式(3))。如果
满足IMFs的条件,则
是IMF之一,否则需要重复上述三个子步骤,直到
满足IMF的条件。
Step 4. 通过计算
与
的差值得到残差部分
,重复上述三个子步骤得到新的IMF,直到残差数据分布单调或有一个极值点为止。
最后,故原始信号
可表示为被分解为一系列IMFs
和残差部分
,如以下公式所示:
(2)
(3)
(4)
2.3. 独立分量分析(ICA)
ICA是一种统计方法,主要用于信号处理和数据分析。其目标是将观测信号分解为相互独立的子信号,这些子信号被称为独立分量。ICA假设观测信号是由一组独立分量线性混合而成,通过寻找最大可能独立的分离矩阵来实现分解 [17] 。
(5)
其中,t为离散时间变量;
为M维观测信号集合;A为
阶未知混合矩阵;
为互相独立的子信号。为了在A和
均未知的情况下,仅利用观测到的信号
,尽可能真实地分离出源信号
,可构建一个分离矩阵(解混矩阵) W,使
经过分离矩阵W变换后,得到n维输出列向量。这样,ICA问题的求解可表示为:
(6)
其中,
为
的估计信号。由于解混时除了各
互相独立外,对
与A无其他先验知识,故称为“盲信源分解”。又由于分解结果要求
中各分量互相独立,故称“独立分量分析”。
通常把解混过程W分解成两步,第一步先把观察矢量
经过线性系统B变换成中间输出
,称为球化;第二步再把
变换成
。要求
中各分量正交归一(即互相正交而且方差都等于1)。
Fast ICA (Fast Independent Component Analysis)是一种常用的ICA方法 [18] ,该方法基于非高斯性最大化原理,采用牛顿迭代方法寻找非高斯性最大值,对观测变量的大量采样点进行批处理,每次从观测信号中分离出一个独立分量。对FastICA模型的更详细解释如下所述:
Step 1. 将
去均值,然后加以球化得
。
Step 2. 取任意初始矢量
,要求它满足模长为1。
Step 3. 求
,其中k为迭代序号,不是时间序号,
可以通过对Z的各采样时刻求均值来估计,
是函数
。
Step 4. 将
归一化。
Step 5. 如果
不接近1,则令k加1,回到Step 2。否则迭代结束。输出最终的
作为
。
Step 6. 提取独立分量:
。
2.4. 经验独立模态分解(EIMD)
EMD方法分解出的各个IMF包含了原始信号在不同时间尺度上的局部特征,该方法可用于提取交通流种高频信息。相比之下,ICA方法通过提取独立源并利用随机噪声的弱非高斯性质来识别随机噪声。因此,本研究提出了经验独立模态分解(Empirical Independent Mode Decomposition, EIMD)降噪方法,结合了EMD和ICA的优势,主要用于压制高频随机噪声。以下是具体方法的描述:
Step 1. 使用EMD方法将原始信号
分解为多个IMFs,记为
。
Step 2. 计算每个IMF分量与原始信号
之间的相关系数。记相关系数中具有第一个局部最小值的下一个IMF为
。可以观察到,从
开始,后续IMFs与原始信号
的相关性开始增加,可认为
为含噪IMFs与纯净IMFs的分离边界。计算相关系数的公式如为公式(7)所示。
(7)
Step 3. 对包括
和
之前的IMFs,进行ICA方法的盲源分离,用于进一步分离出高频的随机噪声。
Step 4. 选择频率最高的独立分量作为高频随机噪声,并将其去除。之后,将剩余的独立分量重构回IMFs。
Step 5. 将重构后的IMFs,记为
和没参与重构的剩余IMFs累加,得到降噪后的信号
。
(8)
2.5. 小波神经网络(WNN)
WNN是在传统反向传播神经网络(Back Propagation Neural Network, BP) [19] [20] 结构的基础上,用母小波函数的伸缩平移代替BP隐节点的Sigmoid函数。小波函数具有多样性,鉴于Morlet小波拥有较好的光滑性和时域局部性,本文采用Morlet小波基函数替代隐含层的Sigmoid函数,表达式为:
(9)
在小波神经网络训练过程中,采用适应时刻估计方法(Adaptive Moment Estimation, Adam)梯度下降法对WNN的网络权值和小波基函数伸缩平移因子进行修正,通过对参数的调整,实现输出值逐步逼近期望值。
2.6. 卷积神经网络(CNN)
卷积神经网络CNN已经在图像分类,语音识别,自然语音处理等几大领域获得显著成功 [21] 。在CNN结构中,包含两个特殊的神经网络层:一是卷积层,每个卷积层都包含多个特征映射,每个特征映射是一个由多个神经元构成的“平面”,通过一种卷积滤波器提取输入的一种特征。二是池化层,其作用是基于局部相关性原理进行亚采样,从而在减少数据量的的同时保留有用信息。特别地,在一维卷积中,滑动窗口是在时间序列数据的宽度方向上进行滑动,并通过相乘求和的方式进行卷积计算。通过一维卷积操作,可以捕捉到时间序列数据中的局部模式和趋势特征,从而进行有效的预测和分析。
2.7. 支持向量机(SVM)
SVM回归的目标是找到一个最优的回归函数(或称为超平面),以尽可能地拟合训练数据,并在保持较小的预测误差的同时,最大化边界(即支持向量)与训练样本之间的间隔。SVM回归与传统的线性回归不同,它通过使用核函数将数据映射到高维特征空间,从而能够处理非线性关系。在高维特征空间中,SVM回归通过寻找一个最优的超平面来实现回归任务。该方法已被广泛应用于数据分析,模式识别,分类,回归等领域 [22] [23] 。
3. 模拟实验与降噪结果讨论
3.1. 降噪性能评价
在仿真信号实验中,若真实信号已知,可采用均方根差(RMSE)和信噪比(SNR)作为降噪评价指标,计算公式如下:
(10)
(11)
其中,t为时刻;n是信号长度;
为降噪后信号;
为真实信号。SNR越大、RMSE越小说明降噪效果越好,反之,说明降噪效果越差 [24] 。
3.2. 仿真交通流I的降噪分析
为了评估所提出的EIMD方法的有效性,有必要模拟类似于现实场景的交通流信号,因为没有实际的方法可以获得无噪声的交通流数据来定量评估降噪方法,所以通过对交通流数据特征的分析,可以看出,交通流数据在高峰时段具有很强的周期性和波动性。因此,模拟交通流是由公式(12)中不同频率的子信号组合而成,模拟时间为5天,每5分钟记录一次数据,共1440个数据点。在模拟数据中加入不同信噪比的高斯白噪声,并在高峰时段加入实际交通流波动。具体而言,使用EMD对真实交通流数据进行分解,得到IMF1和IMF2,然后将其添加到模拟数据中,以用于模拟高峰时段波动。本研究使用的实际交通流数据来自贵阳市,详情见4.1节。
(12)
其中,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
以及
表示添加的白噪声,
表示添加的真实交通流高峰期噪声,
表示不含噪声的仿真交通流信号,
表示含有噪声的仿真交通流信号。首先,先加入30 dB白噪声,具体仿真交通流信号如图1所示。
![](Images/Table_Tmp.jpg)
Table 1. Calculation results of correlation coefficients between each IMF and R ( t ) (30 db white noise added)
表1. 各IMF与
(加30 db白噪声)相关系数计算结果
接下来,为验证EIMD降噪方法的有效性。在对比其他降噪方法时,WL方法中基函数选取了不同小波类型,包括db4,coif2,haar,sym2,其中分解层数设计为3。在阈值处理方式上,采用软阈值,这可以使得重建信号比较光滑。在计算阈值的方法上,则采用无偏似然估计原则(Rigrsure)。EIMD中IMF分解次数设置为6,各IMF和原始序列
相关系数计算结果如表1所示,由2.4内容可知,应选取前3个IMFs作为2.4中Step 3的输入。
![](//html.hanspub.org/file/104-1700823x114_hanspub.png?20230816100607207)
Figure 1. Simulation signal I and its components
图1. 仿真信号I及其各组成部分
![](//html.hanspub.org/file/104-1700823x115_hanspub.png?20230816100607207)
Figure 2. The denoising results of simulation signal I with noise by different denoising methods
图2. 不同降噪方法对含噪的仿真信号I的降噪结果
![](Images/Table_Tmp.jpg)
Table 2. Denoising results (30 db white noise added)
表2. 降噪结果(加入30 db白噪声)
![](Images/Table_Tmp.jpg)
Table 3. Denoising results (35 db white noise added)
表3. 降噪结果(加入35 db白噪声)
![](Images/Table_Tmp.jpg)
Table 4. Denoising results (40 db white noise added)
表4. 降噪结果(加入40 db白噪声)
![](Images/Table_Tmp.jpg)
Table 5. Denoising results (45 db white noise added)
表5. 降噪结果(加入45 db白噪声)
利用WL和EIMD对仿真信号I进行降噪,降噪结果如图2所示。图2清楚地表明,本文提出的EIMD降噪方法与其他降噪方法相比,产生的波形更清晰平滑,有效地消除了高频部分的噪声。均方根误差和信噪比分析如表2所示。EIMD方法的均方根误差较小,信噪比较大,降噪性能优于其他方法。为了进一步验证结果,在原交通流信号中加入信噪比分别为35 dB、40 dB和45 dB的高斯白噪声,计算其均方根误差和信噪比,如表3~5所示。这些表中的数据一致地证明了本文提出的方法与其他降噪方法相比具有更强的降噪能力。
4. 预测结果比较与讨论
4.1. 数据来源
为了评估基于降噪方法与SVM的组合预测模型的有效性,对贵州省贵阳市长岭南路与阳关大道交叉口环路检测器采集的真实交通流数据进行了分析。数据收集时间为2021年3月1日至2021年3月5日,每5分钟测量一次,每天总计288个数据点。前4天的数据(占总数据的80%)作为训练集,用于模型的训练,第五天的数据(占总数据的20%)作为测试集,用于评估最终模型的预测性能。
4.2. 模型预测性能评价
实验结果评价用到3个误差指标,分别为均方根误差RMSE、平均绝对误差MAE和绝对百分比误差MAPE,计算公式为:
(13)
(14)
(15)
其中,
表示在t时刻的交通流的实际值;
表示预测值,n表示样本个数。
4.3. 预测结果
本研究采用了WL和EIMD方法对原始数据进行降噪处理。这些方法的参数在3.2节中有详细的相关设置,特别地,EIMD中各IMF和
相关系数计算结果如表6所示。
![](Images/Table_Tmp.jpg)
Table 6. Calculation results of correlation coefficients between each IMF and raw traffic flow
表6. 各IMF与原始交通流的相关系数计算结果
当使用WL和EIMD方法对原始数据进行降噪处理后,图3显示了前1152个数据的降噪结果。黄线表示降噪后的数据,蓝线表示原始数据。数据按周期划分,每天包含288个数据点,呈现出明显的高峰和低谷。在高峰时段,数据的波动性明显高于非高峰时段。这是因为道路占用率增加以及高峰时段司机行为的影响所导致的。因此,在高峰时段交通噪声比非高峰时段更为明显。值得注意的是,在非高峰时段,噪声干扰较小,降噪结果与原始数据几乎一致。表7提供了采用不同降噪方法后的交通流与原始交通流的详细对比。根据表中的结果,可以观察到EIMD方法显示出与原始数据最显著的偏差,表明它有效地滤除了大量的噪声。将降噪后得到的数据,使用SVM模型进行交通流预测。交通流预测方案包括SVM、SVM + WL(db4)、SVM + WL(coif2)、SVM + WL(haar)、SVM + WL(sym2)和SVM + EIMD。SVM方法中,采用步长为6,惩罚因子为4.0,径向基函数参数为0.8。预测结果如图4所示。黑色圆圈表示真实数据,蓝色符号表示预测数据。表8中列出了预测结果的RMSE、MAE、MAPE。直接使用SVM模型进行预测时,RMSE为20.43,MAE为14.44,MAPE为11.99%。在进行不同降噪处理后,预测的RMSE、MAE、MAPE都得到了不同程度上的减少。此外,与EIMD的组合预测模型有着最好的预测精度,预测精度,预测的RMSE、MAE、MAPE分别减少了33%、30%和31.5%。综上所述,降噪后的数据预测能够更好地捕捉交通流的变化趋势,从而提高预测精度。与其他降噪方法与SVM的组合模型相比,EIMD和SVM组合预测模型表现出更优越的性能和优势。
![](Images/Table_Tmp.jpg)
Table 7. Comparison of traffic flow and original traffic flow with different denoising algorithms
表7. 采用不同去噪算法的交通流与原始交通流的比较
为了进一步验证EIMD方法的有效性,我们引入了两种额外的预测方法,并比较了不同的降噪方法与这些预测方法的组合预测模型。WNN方法中,输入层由4个节点组成,采用1个输入层、1个隐藏层、1个输出层的标准结构。CNN方法中,采用步长为8,三个隐藏层,每层使用31个卷积核,它分别生成16、32和32个特征映射,选取激活层为RELU,采用Adam梯度下降法。设置最大训练次数为300次,初始学习率为0.01,学习率下降因子为0.1。学习率降低0.010*1,采用最大池化方法。表9和表10显示了不同降噪方法和预测模型的组合模型的预测性能比较结果。从表中结果可知,在进行不同降噪处理后,预测的RMSE、MAE、MAPE都得到了不同程度上的减少。此外,与EIMD的组合预测模型有着最好的预测精度,这与SVM的情况保持一致。
![](Images/Table_Tmp.jpg)
Table 8. Prediction results of different denoising algorithms combined with SVM
表8. 不同降噪算法结合SVM的预测结果
![](Images/Table_Tmp.jpg)
Table 9. Prediction results of different denoising algorithms combined with WNN
表9. 不同降噪算法结合WNN的预测结果
![](Images/Table_Tmp.jpg)
Table 10. Prediction results of different denoising algorithms combined with CNN
表10. 不同降噪算法结合CNN的预测结果
从表8,表9和表10的预测结果中,我们可以总结出以下几个有趣的发现:
1) 从表和图中的结果观察可以看出,结合降噪方法的模型的预测结果都更好于不采用降噪方法的模型。这主要是因为降噪过程能够去除原始数据中的急剧变化部分,使数据的变化趋势更加明显。通过对数据进行降噪处理,模型在训练过程中变得更加稳定,并能够获得更高的预测精度。
2) 在所有降噪方法中,EIMD对预测结果的改善效果最好,而各种WL的预测精度相似,但都比EIMD的预测精度稍差。EIMD预测精度高的原因在于它将原始数据分解为多个IMFs后,通过识别到的多个含噪IMFs进行盲源分离,压制了高频随机噪声。在EIMD与不同的预测方法(SVM, WNN, CNN)组合时,在RMSE、MAE和MAPE上均表现出较好的结果。这说明EIMD方法对不同的预测模型都具有一定的通用性和有效性。此外,EIMD和SVM的组合在预测精度方面表现最好,优于其他组合模型。
3) WL降噪模型的性能。在四种小波类型中,sym相对产生最高的预测性能,coif和db类型的预测精度相近,低于sym。haar小波的预测性能不如其他三种小波。其原因可以归结为sym波形对交通流数据的变化模式表现出更好的拟合性能。coif和db型小波适合处理具有对称特征的数据。由于交通量隐含的周期性,它表示近似对称的模式。因此,coif和db也可以产生相对较高的预测精度.
综上,这些研究结果强调了EIMD方法在降低噪声和提高交通流预测精度方面的有效性和优越性。将EIMD与不同的预测方法相结合,提高了预测性能,为交通流路段提供了可靠的预测。这证明了使用EIMD作为交通流量预测任务中有价值的工具的潜力。
5. 结论
本文提出了一种结合EMD和ICA的EIMD方法,该方法可以有效地去除交通流数据中的噪声。为了验证EIMD方法的有效性,进行了仿真实验。在此基础上,将数据降噪方法与机器学习模型相结合,提出了一种新的交通流预测框架。该框架采用了WL (haar, db4, sym2, coif2)和EIMD降噪方法,分别结合SVM、WNN、CNN三种预测模型对交通流进行预测,通过分析RMSE、MAE和MAPE性能指标,确定出准确、可靠的交通流预测模型。通过观察这项研究的结果,我们可以得出几个有趣的结论。首先,仿真结果表明,在各种噪声环境下,EIMD方法在降噪方面优于不同小波基的WL方法。其次,结合降噪方法的模型预测性能均优于未采用降噪方法的模型。第三,在考虑降噪算法与不同预测模型(SVM, WNN, CNN)的组合时,EIMD与SVM的组合模型预测性能高于其他组合模型。第四,在WL方法中,sym小波类型的预测精度高于其他三种类型。
此外,在未来的工作中我们考虑以下两个方面来进一步提高预测的准确性:1) 引入更多特征,除了基本的交通流数据,可以考虑引入如天气数据、道路等级、交通事件等可能影响预测精度的因素。2) 探索先进的机器学习技术,除了传统的机器学习方法,可以尝试引入更先进的技术,如深度学习模型、集成方法或混合模型。