1. 引言
在现实生活中,整数值时间序列数据非常常见,它是由某种现象的某一统计指标在不同时间上的状态所形成的整数计数数据。这种类型的数据广泛应用于通讯保障、医疗卫生、法律、保险精算等众多领域,例如某地区某医院某种疾病每月住院的病人数,某地区某月的事故发生数等 [1]。因此,对整值时间序列的研究受到越来越多学者的关注。大部分这一类数据通常显示出短期的相依关系且是取非负整数值的,使用一般的时间序列模型来拟合这些数据会引起异常预测。所以相较于传统的取连续实值得时间序列数据,研究整值数据更加困难。
1979年,Steutal和Van Harn提出了稀疏算子 [2],1987年,Al-Osh和Alzaid基于二项稀疏算子提出了一阶整数值自回归模型 [3],该模型是通过计算伯努利分布随机变量的序列而生成的。在一阶整数值自回归模型中,算子的取值总是小于前一时刻的取值,所以在实际发生的数据中,这就成为了二项稀疏算子的一个局限。因此,有人提出用几何随机变量来表示这些事件。于是,Aly和Bouzar和Ristic在2009年引入了负二项稀疏算子 [4],之后Ristic提出了算子服从负二项分布的一阶整数值自回归模型 [5]。上述整数值时间序列模型的一个共同特点是它们都是单一算子模型。因此不能很好的拟合显示生活中的整数值时间序列数据。一些随机事件可能会以一定的概率在一个观察周期内滞留或者消失,或者以一定的概率它们又会变得非常活跃,并在一段时间后引发更多随机事件。为解决此类问题,Nastic和Ristic提出了二项稀疏算子与负二项稀疏算子以一定概率混合的整数值自回归模型 [6],此模型的稀疏参数是固定的。虽然这种假定给研究带来了很大的方便,但它显然是不合理的。因为数据的变化是受多方面环境因素的影响,而环境是随时间变化的,所以模型的稀疏参数不应该是固定不变的,而应该是随机的,所以在2007年,Zheng H,Basawa IV,Datta S等人提出将一阶整数值自回归模型的系数随机化 [7]。2008年,Zheng H建立了一阶观测驱动的整数值自回归模型 [8]。2017年,Han Li,Kai Yan和Shishun Zhao等人提出一阶整数值自回归模型系数的随机化 [9],2018年,Meiju Yu,Dehui Wang等人提出基于负二项算子的观测驱动随机系数INAR(1)模型 [10]。
本文在上述模型的基础上,对比优劣,建立了一阶泊松随机系数混合算子整数值自回归模型(Po-RCMTINAR(1)),并且研究了模型的统计性质,对模型参数运用Yule-Walker方法进行估计,最后通过一组实际数据集来探讨模型的应用。
2. 混合算子
是一个独立同分布的随机变量序列,它的分布为 [11]:
(1)
其中
和
分别表示服从Bernoulli
分布的随机变量和服从geometric
分布的随机变量,
的概率质量函数为
,假设
和
是独立随机变量。从(1)式中我们
可以得出
是Bernoulli和geometric分布的混合,当
时,它服从geometric分布;当
时,它服从Bernoulli分布。
由形式(1)我们可以写出
的概率母函数:
现在我们给出混合算子定义 [11]:
定义2.1 运算符
被定义为
其中
,
是非负整数值随机变量且与
独立。
3. 一阶泊松随机系数混合算子整数值自回归时间序列模型
一阶泊松随机系数混合算子整值自回归模型(Po-RCMTINAR(1))被定义为:
(2)
这里
是由定义2.1给出的混合算子;
是[0,1)上独立同分布的随机序列具有概率分布
;
是服从参数为
的泊松分布随机变量序列;
、
和
是相互独立的;对于
,
与
是相互独立的。令
,
,并假设这些随机变量都是有限的。
下面研究模型中参数的统计性质。
模型的统计性质
1)
2)
,如果
3)
4)
5)
,其中
,如果
6)
7)
。如果
,
证明:
1)
2)
3)
其中,
所以,
1)
其中
所以
2)
当
时,
,
其中
。
3)
4)
如果
,
,
因此,
根据以上统计性质,对模型中参数进行矩估计。
4. 参数估计
Yule-Walker估计
对于模型(3.1)中的未知参数
我们使用Yule-Walker去估计。由(3.1)中的模型性质可以得到
和
,可以直接得出
和
的估计:
,
.
其中,
,
。另外,为了估计,我们需要进行一些计算得到下面的辅助公式:
,
,
,
,
.
通过上面这些辅助公式可得:
①
②
令上述①式乘以
减去②式乘以
,解出:
,
.
其中,
,
,
,
,
,
.
5. 案例分析
在这一部分,基于一组实际数据集来分析提出的一阶泊松随机系数混合算子整数值自回归模型(Po-RCMTINAR(1))的实用性。该数据来自预测原理网站(http://www.forecastingprinciples.com)。并且我们用MSE准则评价模型,其MSE定义为 [12]:
,
这里,
并且取
,
。
此组数据来自犯罪数据PghTracts中CMIS的第97组数据,是从1990年1月到2001年12月,共有144个观测数据。图1给出了该数据的路径图,图2是其自相关图和偏自相关图。根据偏自相关函数在滞后2阶开始平稳,说明这组数据适用于一阶模型对其进行分析。我们使用Po-RCMTINAR(1)模型与一阶泊松混合算子模型(Po-MTINAR(1))进行分析此数据,得到相应参数估计值和MSE准则值如表1。
在图3中,给出了两种模型残差的自相关图和偏自相关图。在这里,我们用到标准化皮尔逊残差的公式 [13]:
如图3所示,残差序列是平稳序列。此外,Po-RCMTINAR(1)模型和Po-MTINAR(1)模型的期望和方差分别为(−0.0103, 1.3513)和(−0.0032, 0.2587),说明模型Po-RCMTINAR(1)更接近正态分布。由表1的结果知Po-RCMTINAR(1)模型的MSE准则值比Po-MTINAR(1)模型小,所以一阶泊松随机系数混合算子整值自回归模型(Po-RCMTINAR(1))更适合被用于分析此数据。
Table 1. Value of parameters’ estimation and MSE
表1. 参数估计值及MSE值
Figure 2. ACF and PACF plots of counts
图2. 数据ACF图和PACF图
Figure 3. (a), (c) Standardized residuals; (b), (d) Histograms of standardized residuals; (e), (g) ACF plots of residuals; (f), (h) PACF plots of residuals
图3. (a)、(c)为标准化残差图;(b)、(d)为标准化残差直方图;(e)、(g)为残差的自相关图;(f)、(h)为残差的偏自相关图
6. 结论
在本文中,我们对以往的整数值自回归模型进行优化:提出了一阶泊松随机系数混合算子整数值自回归模型,其自回归系数是随时间变化的。并且推导和证明了该模型的统计性质,利用Yule-Walker方法对模型的参数进行了估计。最后,我们将一阶泊松随机系数混合算子整值自回归模型与一阶泊松混合算子整值自回归模型用于分析真实数据进行比较。结果表明,一阶随机系数混合算子整值自回归模型(Po-RCMTINAR(1))更适合分析此组真实数据。
致谢
衷心地感谢我的研究生导师赵丽华老师和给我很多帮助的刘秀芳老师,感谢她们在整个学习及论文写作过程中,对我认真的指导,教会我很多科研知识;在生活中,经常告诫我不要有太大压力,做好自己,让我在漫漫学涯中感受到了温暖和肯定。其次,感谢给予转载和引用权的文献及研究思想和设想的所有作者,正是借助你们的肩膀,我才能够更好地完成论文的撰写。
NOTES
*通讯作者。