1. 引言
近几年我国汽车人均保有量不断攀升,尾气污染问题受到大众的普遍关注。在国家对环境保护日益重视的大背景下,减少汽车尾气排放、减少车辆能源消耗成为个人和企业关注的重点,混合动力汽车成为这一时期的关键产物 [1]。混合动力汽车在行驶过程中尾气排放增加的主要阶段有:路口红灯后起步阶段、道路拥堵时的走走停停或在车辆较少的路面的突然加速等等。因为混合动力汽车的能耗极大地依赖于车辆的速度,需要根据各道路的实际工况来计算及预测最适合该路况的车辆速度,从而提高整车的燃油经济性,减少汽车尾气排放量,实现对车辆能量管理策略的优化 [2]。
对道路车速的预测方法,目前应用较多的是基于规则的能量管理策略,但对不同工况的适应性较差,无法得到最优控制效果;动态规划算法虽能得到较好的控制效果,但须知晓全局的工况,因此只能应用于交通仿真。许多学者运用马尔可夫模型与ARIMA模型解决车速预测问题,解少博等人提出了一种基于马尔可夫链的并联PHEB预测型能量管理策略,实现了档位选择和功率分配的协同优化 [3];袁焕涛等人进行了基于马尔可夫的混合动力汽车行驶车速预测研究,利用马尔可夫模型获得了较好的效果 [4];张良力等人利用ARIMA模型对交叉路口车速进行预测,从而实现车辆碰撞风险评估,指出使用更多的历史数据可以提高车速预测和风险评估的精度 [5];Guo等人利用ARIMA模型对车辆循环工况进行道路坡度和车速预测,利用动态规划构建能量管理策略 [6]。
目前利用马尔可夫模型与ARIMA模型对车速预测的对比分析研究较少,本文引入马尔可夫模型与SARIMAX模型对车辆速度进行预测,并且针对不同工况与不同预测长度对二者预测的精确度进行了对比和分析,进而提出不同工况与不同预测长度下的最优模型选择。
2. 数据预处理
本文所用数据来自美国密歇根大学的研究团队,该团队收集了美国密歇根州安阿伯市2017年11月至2018年11月,由264辆汽油车、92辆混合动力车和27辆混合动力电动汽车组成的多元化车队在真实世界中的行驶数据,包含车辆的GPS轨迹及其燃料、能源、速度和辅助电力使用的时间序列数据,总里程约374,000英里 [7]。
将每辆车从每段路开始行驶的时间戳记为0,车辆完全驶离该路段的时间戳记为T,速度记为V,得到该车在该路段全程的瞬时速度变化。随机选取四种不同工况下具有代表性的车辆行驶数据,提取车辆编号、路段编号、时间戳等信息,具体见表1。
绘制这四种工况的箱线图如图1,其中编号为140的车辆在1243路段上行驶的速度均值为7.34 km/h,为低速工况;155号车在1499路段上行驶的速度均值为26.60 km/h,为中速工况;351号车在808路段上行驶的速度均值为62.03 km/h,为中高速工况;147号车在712路段上行驶的速度均值为90.46 km/h,为高速工况。
从图1的速度箱线图中可以直观地感受到四种工况的区别,且155号车在1499路段行驶的速度分布较为均匀,140号车在1243路段行驶的速度呈右偏分布,351号车在808路段行驶的速度和147号车在712路段行驶的速度呈左偏分布。
![](//html.hanspub.org/file/27-2580968x7_hanspub.png?20140125004811378)
Figure 1. Speed box diagram under four different working conditions
图1. 四种不同工况的速度箱线图
由于初始记录的车辆速度数据并非规律的时间序列数据,不符合SARIMAX模型与马尔可夫模型对于实验数据的要求,这就导致初始数据无法直接代入模型进行预测。
为了更好地满足数据要求、拟合模型进行预测,就需要对收集到的初始数据进行预处理。由于三次样条插值具有计算方便、稳定性高、光滑性好且易于操作的优良特征,于是利用Python工具对数据进行了三次样条插值拟合,得到了以一秒为间隔的170个速度时间序列数据,作为标准数据进行建模,后文所提原数据均为在此经过三次样条插值拟合处理后的时间序列数据,拟合结果如图2所示,横轴为时间戳,单位为秒(s);纵轴为时间戳对应汽车瞬时速度,单位为千米每小时(km/h)。
![](//html.hanspub.org/file/27-2580968x8_hanspub.png?20140125004811378)
Figure 2. Cubic spline interpolation speed under four working conditions
图2. 四种工况下的三次样条插值速度
3. 马尔可夫预测模型
3.1. 马尔科夫链
马尔可夫链是一组具有马尔可夫性质的离散随机变量的集合 [8]。
对概率空间内以一维可数集为指数集的随机变量集合,若随机变量的取值都在可数集内,且随机变量的条件概率满足如下关系则被称为马尔可夫链,可数集被称为状态空间,马尔可夫链在状态空间内的取值称为状态。
设有随机过程
,其中时间
,状态空间为
,若对任意的正整数k,任意
,
及任意非负整数
,有
(1)
马尔可夫链的马尔可夫性质也被称为“无记忆性”,即t + 1步的随机变量在给定第t步随机变量后与其余的随机变量条件独立 [9]。隐马尔可夫模型的要素:隐含状态S、可观测状态、初始状态概率矩阵π、状态转移概率矩阵A。
3.2. 建立模型
设
表示140号车在1243路段的速度,状态空间为
;
表示155号车在1499路段的速度,状态空间为
;
表示351号车在808路段的速度,状态空间为
;
表示147号车在712路段的速度,状态空间为
。
根据各工况下的数据,将速度等距划分为不同的状态,得到表2。
![](Images/Table_Tmp.jpg)
Table 2. State division section (km/h)
表2. 状态划分区间(km/h)
以编号为140的车辆在1243路段下的行驶数据为例,将三次样条插值后得到的170个速度数据由低至高划分为4个状态区间,即A,B,C,D,结果如表3所示。
![](Images/Table_Tmp.jpg)
Table 3. Sample of speed data change of vehicle 140 on section 1243 (km/h)
表3. 140号车在1243路段速度数据变动情况样本(km/h)
同样以编号为140的车辆在1243路段下的行驶数据为例,计算一步转移概率矩阵如表4所示。
![](Images/Table_Tmp.jpg)
Table 4. Probability transition matrix
表4. 概率转移矩阵
将三次样条插值后得到的170个数据划分为训练集和测试集,用前150个数据作为训练集建立模型,后20个数据作为测试集,并分别预测后5、10、15、20个速度状态,测试模型的预测精度。利用马尔可夫模型预测140号车在1243路段的速度状态结果如表5所示。
![](Images/Table_Tmp.jpg)
Table 5. Display of forecast result process
表5. 预测结果过程展示
3.3. 预测结果与实际结果对比
低速工况的预测结果和实际结果对比如表6所示,当预测15个速度数据时,准确率为100%;当预测20个数据时,准确率为80%。当车辆低速行驶时,中短期的马尔可夫模型预测较为准确。
![](Images/Table_Tmp.jpg)
Table 6. Comparison between predicted results and actual results of Section 1243 (low speed)
表6. 1243路段(低速)预测结果与实际结果对比
中速工况的预测结果和实际结果对比如表7所示,当预测5个速度数据时,准确率为80%;预测10个速度数据时,准确率为40%;预测15个速度数据时,准确率为26.67%;预测20个速度数据时,准确率为20%。因此在中速工况下,马尔可夫模型在短期之内的预测准确率较高,对长期的速度预测结果不太理想。
![](Images/Table_Tmp.jpg)
Table 7. Comparison between predicted results and actual results of section 1499 (medium speed)
表7. 1499路段(中速)预测结果与实际结果对比
中高速工况的预测结果和实际对比结果如表8所示,当预测5个速度数据时,准确率为40%;预测10个速度数据时,准确率为30%;预测15个速度数据时,准确率为53.33%;预测20个速度数据时,准确率为40%。可见在中高速工况下,马尔可夫模型的预测效果并不理想。
![](Images/Table_Tmp.jpg)
Table 8. Comparison between predicted results and actual results of 808 section (medium and high speed)
表8. 808路段(中高速)预测结果与实际结果对比
高速工况的预测结果和实际对比结果如表9所示,当预测5个速度数据时,准确率为100%;当预测10个速度数据时,准确率为50%;当预测15个速度数据时,准确率为40%;当预测20个速度数据时,准确率为55%。在高速工况下,短期内的马尔可夫模型预测效果较好。
![](Images/Table_Tmp.jpg)
Table 9. Comparison between the predicted results and the actual results of section 712 (expressway)
表9. 712路段(高速)预测结果与实际结果对比
4. SARIMAX预测模型
4.1. SARIMAX模型
用于汽车速度预测的时间序列数据是指在不同时间点上所收集到的该汽车的瞬时速度数据,用于车辆速度随时间变化的情况,反映了车辆速度随时间的变化的状态。在实际操作过程当中我们通常会选取有限的观测数据进行实验。
SARIMAX模型在差分移动自回归模型(ARIMA)的基础上加上季节(S, Seasonal)和外部因素(X, eXogenous),即在ARIMA模型的基础上加上周期性和季节性。ARIMA(p, d, q)中,AR是“自回归”,p是自回归项数;MA是“滑动平均”,q是滑动平均项数,d是使之成为平稳序列所做的差分次数(阶数),L是滞后算子 [10]。
(2)
SARIMAX(p, d, q) (P, D, Q, S)中,p表示趋势的自回归阶数;d表示趋势差分阶数;q表示趋势的移动平均阶数;P表示季节性自回归阶数;D表示季节性差分阶数;Q表示季节性移动平均阶数;S表示单个季节周期性的时间步长数。
由于时间序列分析方法要求所采用的观测数据之间有某种联系,即未来的数据将会受过去数据发生的情况以及当时所处环境的影响,所以对于时间序列数据而言过去的数据可以对未来的数据进行良好的预测。同时,时间序列预测分析的方法要求数据应该严格遵循时间顺序,使用者可依照各自的分析背景对时间间隔的数据进行抓取。
本文所用数据是:由同一辆客车在同一路段在均匀时间间隔下记录的不同速度值所组成的观测数据,完全符合SARIMAX模型初始要求,故作者希望通过对车辆速度的定量分析进行建模,从而对速度进行预测等一系列操作。
4.2. 车速预测模型
选取一组等时间间隔的数组,以140号车在1243路段速度的三次样条插值数据为例,建立SARIMAX模型。通过ADF检验的P值为0.01062 < 0.05,故拒绝原假设,可以认为序列是平稳的。接下来使用BOX-Ljung统计量判断白噪音,得到P值为6.708e−36 < 0.05,因此可以拒绝原假设,即该序列通过了白噪声检验,是白噪声序列。
最后进行时间序列趋势分解,结果如图3所示,由图3可知Trend数据具有明显的趋势性,Seasonal数据具有明显的周期性,Resid是剩余的部分,可以认为是去除了趋势和季节性数据之后,稳定的数据,是模型所需要的 [11]。
![](//html.hanspub.org/file/27-2580968x26_hanspub.png?20140125004811378)
Figure 3. Time series trend breakdown of speed
图3. 速度的时间序列趋势分解图
按照差分次数确定阶数d和D,按照AIC (赤池信息准则)和BIC (贝叶斯信息准则)确定最优模型,得到最小AIC值为597.949、最小BIC值为609.198。即最优组合为:p = 1、d = 1、q = 1、P = 0、D = 1、Q = 1、S = 12。随即进行参数估计,结果如表10所示,可知ar.L1、ma.L1、ma.S.L12和sigma2的P值都小于0.05,拒绝原假设,即通过了显著性检验 [11]。
模型诊断结果如图4所示:
左上角为残差图,残差没有随时间的变化而变化,故通过了白噪声检验 [12];左下角为“q-q”图,残差的分布符合N(0, 1)的标准正态分布采样的线性趋势,这表示观测值具有良好的正态性 [12];右上角的图中红色KDE线与标准正态分布曲线(N(0, 1))行,这表明残差正常分布;右下角为残差自相关性图,表明时间序列残差与其本身的滞后版本具有低相关性。
对建立的模型进行验证预测,有助于了解SARIMAX模型预测的准确性。如图5所示,模型拟合的效果良好。
![](//html.hanspub.org/file/27-2580968x28_hanspub.png?20140125004811378)
Figure 5. SARIMAX validation prediction results
图5. SARIMAX验证预测结果
通过观察诊断结果可知,模型较为理想,可以进行下一步预测 [13]。最后利用最优模型(SARIMAX(1, 1, 1) (0, 1, 1, 12)模型)对未来汽车速度进行预测,得到的预测结果如图6示。
![](//html.hanspub.org/file/27-2580968x29_hanspub.png?20140125004811378)
Figure 6. Forecast of future speed of 1243 section (low speed)
图6. 1243路段(低速)未来车速预测
将预测结果与实际结果进行对比,如表11所示,对15个数据的预测中SARIMAX模型的准确率为100%;20个速度的预测准确率为80%。可见在低速工况下,SARIMAX模型在中短期内的预测较为准确。
![](Images/Table_Tmp.jpg)
Table 11. Comparison between model prediction and actual results of Section 1243 (low speed)
表11. 1243路段(低速)模型预测与实际结果对比
同样利用SARIMAX模型对其他三个工况进行速度预测,图7为通过SARIMAX模型得到的155号车在1499路段的速度预测。
![](//html.hanspub.org/file/27-2580968x30_hanspub.png?20140125004811378)
Figure 7. Forecast of future speed of 1499 section (medium speed)
图7. 1499路段(中速)未来车速预测
将预测结果与实际结果进行对比,如表12所示,当利用SARIMAX模型预测10个速度数据时,模型的准确率为100%;预测15个速度数据时,准确率为86.67%;预测20个速度数据时,准确率为65%。因此在中速工况下,SARIMAX模型在短期内的预测较为准确。
![](Images/Table_Tmp.jpg)
Table 12. Comparison between model prediction and actual results of 1499 section (medium speed)
表12. 1499路段(中速)模型预测与实际结果对比
图8为通过SARIMAX模型得到的351号车在808路段的速度预测。
![](//html.hanspub.org/file/27-2580968x31_hanspub.png?20140125004811378)
Figure 8. Forecast of future speed of 808 section (medium and high speed)
图8. 808路段(中高速)未来车速预测
将预测结果与实际结果进行对比,如表13所示,当利用SARIMAX模型预测5个速度数据时,模型预测的准确率为40%;预测10个速度数据时,准确率为30%;预测15个速度数据时,准确率为53.33%;预测20个速度数据时,准确率为65%。在中高速工况下,SARIMAX模型在长期内的预测较为准确,在中短期的速度预测与实际值有所偏差。
![](Images/Table_Tmp.jpg)
Table 13. Comparison between model prediction and actual results of 808 section (medium and high speed)
表13. 808路段(中高速)模型预测与实际结果对比
图9为通过SARIMAX模型得到的147号车在712路段的速度预测。
![](//html.hanspub.org/file/27-2580968x32_hanspub.png?20140125004811378)
Figure 9. Speed prediction of 712 section (high speed)
图9. 712路段(高速)车速预测
将预测结果与实际结果进行对比,如表14所示,当利用SARIMAX模型预测5个速度数据时,模型预测的准确率为100%;预测10个速度数据时,准确率为60%;预测15个速度数据时,准确率为60%;预测20个速度数据时,准确率为45%。可见在高速工况下,SARIMAX模型在短期内预测较为准确。
![](Images/Table_Tmp.jpg)
Table 14. Comparison between predicted results and actual results
表14. 预测结果与实际结果对比
5. 对比分析
不同工况下,利用马尔可夫模型和SARIMAX模型分别预测未来5个、10个、15个和20个车辆速度,并与实际值对比,得到的准确率如表15。
![](Images/Table_Tmp.jpg)
Table 15. Comparison of Markov Model and SARIMAX Model
表15. 马尔可夫模型和SARIMAX模型的比较
在低速工况下,利用马尔可夫模型和SARIMAX模型对未来车速进行预测的效果相差无几,且在中短期内的预测效果都较好;在中速工况下,SARIMAX模型的预测效果优于马尔可夫模型,且SARIMAX模型在中短期内预测的准确率较高,而马尔可夫模型预测的效果不尽如人意;在中高速工况下,马尔可夫模型和SARIMAX模型预测的准确率都不高,相比之下,SARIMAX模型的长期预测效果优于马尔可夫模型;在高速工况下,SARIMAX模型和马尔可夫模型在短期内的预测效果都较好,但是中长期的预测准确率较低,相比较而言马尔可夫模型在长期的预测效果稍优于SARIMAX模型。
通过对比分析发现,SARIMAX模型在低速、中速和高速工况下的短期预测效果较优,在低速工况下的长期预测准确率也较高,在中速和中高速工况下的长期预测效果优于马尔可夫模型;马尔可夫模型在低速和高速工况下的短期预测效果较优,在低速工况下的长期预测效果较好,在高速工况下的长期预测效果稍优于SARIMAX模型。
在拟合车辆速度方面,马尔可夫模型侧重于以区间进行速度分类,通过大数统计来对下一时间段的车辆速度进行拟合。马尔可夫模型是一种对历史数据进行统计分析,发现统计规律从而进行预测的模型,它对于临时改变状况的因素考虑不足,比较适合预测路况较为平稳,意外因素较少的车况。
SARIMAX模型侧重于研究车辆速度的历史数据并进行拟合,每一个时刻的速度只与上一时刻有关。SARIMAX模型基于平稳的时间序列数据,将时间序列数据代入模型进行预测,一个时刻估计值的差分与上一个时刻的预测误差有关,即对预测的车速的关联度较高,SARIMAX模型依赖于相邻上一时刻的汽车行驶状态,更符合车辆实际行驶状态的工况。
6. 结论
本文基于马尔可夫模型和SARIMAX模型,提出将二者引入汽车速度预测模型。通过实际操作研究发现,在低速工况下,对车速进行短期预测抑或是长期预测,SARIMAX模型和马尔可夫模型都是不错的选择;在高速工况下,对未来车速进行长期预测应选择马尔可夫模型,短期预测两种模型都能获得较好的效果;对于中速和中高速工况,选择SARIMAX模型对车速进行长期预测能获得更好的效果;在中速工况下对车速进行短期预测,选择SARIMAX模型较为合适;在中高速工况下,利用SARIMAX模型和马尔可夫模型进行短期预测的效果都不太理想,可考虑选用其他模型对车辆速度进行预测。本文的实证研究表明不同工况、不同预测长度及模型的选取对车辆速度预测的精度会产生很大的影响。
基金项目
2021年度国家级大学生创新创业训练计划(202111058035)。