1. 引言
金融市场在国家经济体系中扮演着至关重要的角色,金融市场的表现反映着国家经济发展状态,挖掘金融市场变化的潜在规律并准确的判断金融市场的发展趋势,有利于相关从业者制定更完善的策略,达到降低风险,提高效益的目的 [1]。
一直以来,股票在金融市场中有着举足轻重的地位,而股票价格往往对时间因素非常敏感 [2],所以建立时间序列模型能有效地对股票价格进行预测。本文选取深粮控股的收盘价历史数据,采用ARIMA模型,对未来几天的收盘价进行预测。
2. ARIMA模型原理
ARIMA模型即差分移动平均自回归(Autoregressive Integrated Moving Average)模型,主要被用于拟合具有平稳属性的时间序列,或者是可以转换为具有平稳属性的时间序列,是目前广泛为学者应用的时间序列拟合方法 [3]。其中心思想是通过差分运算法使得不平稳的原始序列趋于平稳,其中d为差分运算的总次数。基本原理如下:
(1)
其中,
;
、
分别为平稳可逆ARIMA(p,q)模型的自回归系数多项式和移动平均系数多项式。其中自回归(AR(p))、移动平均(MA(q))、自回归移动平均(ARMA(p,q))模型都是ARIMA(p,d,q)模型的一个特例。当
且
时,ARIMA(p,0,0)即为AR(p)模型;当
且
时,ARIMA(0,0,q)即为MA(q)模型;当
且
时,ARIMA(p,0,q)即为ARMA(p,q)模型 [4]。ARIMA模型的性质见下表1:
![](Images/Table_Tmp.jpg)
Table 1. ARIMA(p,d,q) fixed-order rules
表1. ARIMA(p,d,q)定阶规则
3. ARIMA模型构建
大致来讲,ARIMA模型构建大约需要几个步骤,如下图1所示:
![](//html.hanspub.org/file/72-2623048x17_hanspub.png?20230103091340061)
Figure 1. Flow chart of ARIMA model construction
图1. ARIMA模型构建流程图
平稳性检验。时间序列的平稳性代表时间序列的统计性质关于时间平移的不变性。对原始股票价格数据进行平稳性检验时,如果数据为非平稳时间序列,需要对序列进行差分运算,直至序列平稳 [5]。
白噪声检验(纯随机性检验)。序列的各项数值之间不相关,序列在进行完全无序的随机波动,这样的序列称为纯随机时间序列(白噪声序列)。纯随机时间序列是没有信息可提取的序列,如果序列为白噪声序列,应当停止分析 [6]。
模型定阶(模型识别)。结合数据样本时序图和AIC信息准则,确定模型自回归系数p和移动平均系数q的最优组合 [7]。
模型拟合。根据已经确定的最优参数p和q,对平稳非白噪声时间序列进行拟合,构建ARIMA(p,d,q)模型。
模型检验。对模型进行显著性(有效性)检验,检验模型是否将样本信息进行充分提取。当模型检验为无效模型时,重复步骤三,直至模型有效 [8] [9]。
3.1. 数据描述
本实验所采集数据均来自tushare金融大数据社区,通过python连接API接口获得。实际选取了深粮控股的收盘价2021年12月6日至2022年7月15日共147个数据样本。
3.2. 数据预处理
为保证数据的可靠性和有效性,本文数据全部选自tushare金融大数据社区,然后对其缺失值和异常值进行了处理,对缺失值全部采用上一个交易日的数据,对异常值作删除处理。
3.3. 模型构建
首先,对原始数据进行平稳性检验,观察原序列的时序图如图2所示。
观察图2,可见其为非平稳序列,不过为避免肉眼观察的主观性,再对原始序列进行ADF单位根检验。即序列若存在单位根,则不平稳。ADF单位根检验结果如表2所示,由表可知,检验统计量
,且
,不能拒绝原假设,故判断原序列非平稳。
ARIMA模型建模要求必须为平稳的时间序列,因此对原序列进行一阶差分,再对一阶差分后的序列进行ADF检验,结果如表3所示:
![](//html.hanspub.org/file/72-2623048x20_hanspub.png?20230103091340061)
Figure 2. Original data time series diagram
图2. 原始数据时序图
![](Images/Table_Tmp.jpg)
Table 2. Results of the original series ADF test
表2. 原序列ADF检验结果
![](Images/Table_Tmp.jpg)
Table 3. Results of the ADF test for the series after first-order differencing
表3. 一阶差分后序列ADF检验结果
观察图3差分后序列已平稳,由表3,检验统计量
,且
,拒绝原假设,故判断序列平稳,可以用于建模。
![](//html.hanspub.org/file/72-2623048x23_hanspub.png?20230103091340061)
Figure 3. Timing diagram of the sequence after first-order differencing
图3. 一阶差分后序列时序图
一阶差分后序列平稳,故确定
,模型的定阶就是估计自回归阶数p和移动平均阶数q的过程。图4为差分后序列的自相关和偏自相关图,观察图4可知,ACF和PACF均拖尾,判断为ARMA模型,初步判断取
。为进一步确定更合适的p和q取值,运用AIC信息准则估计不同阶数对模型拟合精度的影响,如表4所示,综合结果选择
,建立ARIMA(5,1,5)模型。
![](//html.hanspub.org/file/72-2623048x27_hanspub.png?20230103091340061)
Figure 4. Differential post-sequence ACF and PACF plots
图4. 差分后序列ACF和PACF图
![](Images/Table_Tmp.jpg)
Table 4. AIC values corresponding to different orders
表4. 不同阶数对应的AIC值
根据上文,建立ARIMA(5,1,5)模型进行拟合,结果如图5所示,模型对应的
,故模型显著有效。进行参数估计,并写出对应表达式为:
(2)
3.4. 模型的显著性检验
模型的显著性检验主要检验模型的有效性,即拟合模型是否充分提取观测值序列中所有的样本相关信息。当拟合模型为有效模型时,残差序列
不存在任何相关性,即残差序列
为白噪声序列。对模型进行残差检验,由图6,
,故不能拒绝原假设,即残差为白噪声序列,模型显著有效。
此外,DW(Durbin_Waston)检验也是检验残差的自相关方法 [2]。检验统计量DW的取值范围为区间[0, 4],DW趋近于0,序列显著正相关;DW趋近于4,序列显著负相关;DW趋近于2,序列不存在自相关性。经检验得,DW = 2.13趋近于2,因此可判断残差为白噪声序列。
![](//html.hanspub.org/file/72-2623048x33_hanspub.png?20230103091340061)
Figure 5. ARIMA(5,1,5) fitting result
图5. ARIMA(5,1,5)拟合结果
![](//html.hanspub.org/file/72-2623048x34_hanspub.png?20230103091340061)
Figure 6. Residual series autocorrelation plot
图6. 残差序列自相关图
观察图7,模型的残差序列值基本拟合在直线y = 0附件呈对称分布,因此,也可判断残差序列不存在自相关。
3.5. 模型预测结果分析
由表5可知,由上表可知,预测误差率均控制在5%以内,虽仍有些许误差,但预测值的误差相对较小,在可控范围内,即认为该模型具有较好的拟合效果。
4. 结语
股票价格预测一直备受瞩目,本文采用ARIMA对所选取的数据样本进行了预测,介绍了建模的基本方法和步骤,通过平稳性,白噪声等检验,构建了ARIMA并进行了预测。结果表明,该预测方法是可靠的,对原序列信息提取充分,拟合效果较好。但也看到预测值较真实值偏小,且预测期数越长误差越大。因此相关从业者可选择此方法进行短期预测,以为其相关投资决策作为参考。