1. 引言
面板数据是经济管理中最为常见的数据形式,一般定义为多个观测个体比如区域或者企业多个时间上的观测值。面板数据的研究一直是统计学和计量经济学领域的重点问题。近年来,基于面板数据模型的预测问题得到了越来越多的关注。文献 [1] [2] 最早考虑了面板数据模型的预测问题,运用文献 [3] 中有关最优线性无偏预测(BLUP)的结论,给出了第i个个体在未来s期的预测值。文献 [4] 得到了误差干扰项分别服从AR(1)、AR(2)、AR(4)和MA(1)过程的随机效应面板数据模型的最优线性无偏预测量。关于这一方面的研究,我们可以发现其引起了诸多学者的注意,具体工作可以参见文献 [5] [6] [7] [8] [9]。而文献 [10] 在文献 [4] 的基础上,研究了误差项服从AR(p)过程的一般情况,得到了对应的最优线性无偏预测表达式。
上述研究大都是基于one-way随机效应面板数据模型,没有考虑回归系数的个体异质性。实际面板数据分析中,个体异质性的刻画可以通过设定变系数模型来解决。变系数模型是指不同个体的回归系数不同,可以分为随机系数模型和固定变系数模型,其中的随机系数模型作为混合效应模型和多层模型的特例得到了广泛的研究。但针对随机系数面板数据模型预测问题的针对性研究还相对较少。
本文将研究误差项服从AR(p)过程的随机系数面板数据模型的预测问题,从而本文将文献 [10] 的研究推广到随机系数情形。
本文安排如下:第二节介绍模型的设定,第三节对模型进行估计,第四节给出模型的最优线性无偏预测表达式,第五节运用数值模拟验证所提方法,第六节为本文总结。
2. 模型的设定
AR(p)误差下随机系数面板数据模型可记为如下形式
(1)
其中i表示截面个体维度,t表示时间序列维度,
表示第i个个体在第t时期的观测值,
表示第i个个体在第t时期的
维观测向量,随机系数
可以拆分为均值部分和随机部分,即
,其中
为
维常值向量,且有
,
为
维独立同分布的均值为0、方差–协方差矩阵恒定的随机变量,即
,
。
干扰项
均值为0,服从AR(p)过程,即
(2)
式中,
为未知参数,满足平稳性条件,即
的根都落在单位圆外,剩余干扰项
,且有
与
相互独立,并与
相互独立。
考虑模型的矩阵形式,定义
,
,
,
,令
则模型(1)写成矩阵形式为
(3)
此外,需要说明的是,本文所定义的AR(p)误差下随机系数面板数据模型,包含了现有面板数据预测文献中的多种面板数据模型,具体如下:
(1) 当
时,模型为误差项服从AR(1)过程的随机系数面板数据模型;
(2) 当
时,模型为随机系数面板数据模型;
(3) 当
时,模型为具有AR(p)剩余干扰项的面板数据模型,文献 [10] 中对此类模型的预测问题进行了研究;
(4) 当
时,模型为剩余干扰项服从AR(1)序列相关过程的面板数据模型,文献 [4] 中完成了针对此类模型最优线性无偏预测表达式的推导;
(5) 当
时,模型简化为最熟悉的面板数据模型的情况。
定义
,则有
,
,
。下面计算此时模型的方差–协方差矩阵
首先易证
(4)
然后由
和
式中
为AR(p)相关矩阵,得
(5)
由(5)和(7)得
(6)
3. 模型参数的估计
3.1. 模型系数的估计
根据线性混合模型的理论可得,固定参数β的最佳线性无偏估计量(BLUE)和随机效应b的最佳线性无偏预测(BLUP)分别为
(7)
(8)
其中
,且对(8)有
(9)
则有
(10)
式中
为单位矩阵
的第i行。
可以看出,固定参数β的估计和随机效应b的预测依赖于模型参数
、
、
的估计。
3.2. 方差分量参数的估计
下面分别运用极大似然估计(ML)方法和限制极大似然估计(REML)方法对方差分量参数
、
、
进行估计。
1) ML算法
(1) 计算对数似然函数
(11)
(2) 对l关于
分别求一阶偏导
① 对l关于
求一阶偏导
(12)
式中
(13)
其中
,
为
维向量
的第m个元素
② 对l关于
求一阶偏导
(14)
式中
(15)
其中
为AR(p)相关系数矩阵
③ 对l关于
求一阶偏导
(16)
式中
(17)
其中
为AR(p)相关矩阵
对
关于
求二阶偏导
(18)
式中
、
、
见(13)、(15)、(17)。
通过得分算法对下式进行迭代,式中a指第a次迭代过程。当迭代收敛时,得到模型方差分量参数的估计值
(19)
2) REML算法
(1) 计算边际对数似然函数
(20)
式中
(2) 对
分别关于
求一阶偏导
(21)
(22)
(23)
式中
、
、
见(13)、(15)、(17)
(3) 对
关于
分别求二阶偏导
(24)
式中
、
、
同上。
运用得分算法对下式进行迭代,这里的a指第a次迭代过程,当迭代收敛时,得到方差分量的估计值
(25)
4. 模型的最优线性无偏预测
文献 [3] 给出在模型方差–协方差矩阵已知的情况下,第i个个体在第
时期的最优线性无偏预测值为
(26)
式中,
为
的GLS估计量,
为未来第
期干扰项与样本干扰项间的协方差,
为相应的GLS残差,上式中的最后一项
称为Goldberger最优线性无偏预测项。
本节运用文献 [3] 中的结论,针对AR(p)误差下随机系数面板数据模型的最优线性无偏预测量进行推导。
下面计算此时模型的Goldberger最优线性无偏预测项
(27)
上式中第三个等式是由于
与
之间相互独立。
首先计算上式中的第一项
,则有
(28)
对式中
有
(29)
上式中第三个等式由
可得,把(39)代回(38)得
(30)
上式中第五个等式是根据式(10),
为单位矩阵
的第i行。
下面计算(27)式的第二项
(31)
由
服从AR(p)过程有
(32)
将(32)代入(31)得
(33)
其中
为单位矩阵
的第i行,对上式中
有
(34)
上式中第三个等式是由于
与
相互独立
令
(35)
把(35)代入(34)可得
(36)
又由
(37)
可得
(38)
将(36) (38)代入(33)可得
(39)
上式中第三个等式由
可得。
综上,将(30) (39)代入(27)可得此时模型的Goldberger最优线性无偏预测项为
(40)
即此时模型的最优线性无偏预测量为
(41)
特别地,当
时,有
,则此时模型的最优线性无偏预测为
(42)
下面给出模型中包含的几类特殊面板数据模型的Goldberger最优线性无偏预测项及最优线性无偏预测表达式
(1) 当
时,模型转化为剩余干扰项服从AR(1)过程的随机系数面板数据模型,为本文所研究的AR(p)误差下随机系数面板数据模型的特殊情况,此时模型的方差–协方差矩阵为
,式中
为AR(1)相关矩阵,则Goldberger最优线性无偏预测项为
(43)
模型的最优线性无偏预测量为
(44)
(2) 当
时,模型为随机系数面板数据模型,此时对模型的方差–协方差矩阵有
,则Goldberger最优线性无偏预测项为
(45)
模型的最优线性无偏预测量为
(46)
(3) 当
时,模型为剩余干扰项服从AR(p)过程的面板数据模型,文献 [10] 中对该模型的最优线性无偏预测问题进行了研究,此时有随机效应
的方差为
,方差–协方差矩阵为
,其中
为AR(p)相关矩阵,则Goldberger最优线性无偏预测项为
(47)
模型的最优线性无偏预测量为
(48)
(4) 当
时,模型为具有AR(1)序列相关误差项的面板数据模型,为(3)中模型的特殊情况,此时模型的方差–协方差矩阵为
,式中
为AR(1)相关矩阵,则Goldberger最优线性无偏预测项为
(49)
模型的最优线性无偏预测量为
(50)
(5) 当
时,模型转化为最熟悉的面板数据模型,此时有
,Goldberger最优线性无偏预测项为0,则模型的最优线性无偏预测量为
(51)
5. 数值模拟
本节运用Monte Carlo模拟,针对本文中所提出的AR(p)误差下随机系数面板数据模型最优线性无偏预测量的有效性进行检验。考虑如下模型:
(52)
模型设定是为了保证当实验中随机系数项方差取0时,模型中仍存在个体效应项,模型仍为面板数据模型,此时即为上文中
的特殊情况,数据生成过程如下:
(1) 截距项
;
(2) 个体效应项
,其中
;
(3) 自变量
的生成过程设定为
,其中
,且有
;
(4)
,系数
,随机系数
,其中
;
(5) 干扰项
,其中
,即当
时,
,其中
,当
时,
,其中
,
,且设定
;
(6) 取样本量
,预测
期,每次设定模拟重复次数
,记
和
分别为第i个个体在第
期的预测值和真实值,选取指标RMSE (均方根误差)和MAE (平均绝对误差)来评估预测量的准确性,指标定义如下:
(53)
(54)
(7) 我们将本文所提的方法与其它6类预测进行对比,具体形式见表1。
具体包括分别考虑OLS预测量、忽略了随机效应和序列相关的预测量,仅忽略随机效应的预测量,仅忽略序列相关性的预测量,及本文中提出的最优线性无偏预测量。
数值模拟结果见表2、表3,从结果中我们发现
(1) 忽略随机效应和序列相关的OLS预测量,在RMSE和MAE方面均表现最差;
(2) 对于AR(1)模型,对比预测量2、3和预测量5、6可知,考虑了序列相关性的预测量3、6表现较好,对比预测量2、5和预测量3、6可知,考虑了随机效应的预测量5、6表现较好,且在MLE和REML估计下,预测量6均表现最佳;
![](Images/Table_Tmp.jpg)
Table 1. The prediction in the random coefficient panel data model with AR(p) serially correlated error components
表1. AR(p)误差下随机系数面板数据模型模拟参与对比的预测量
![](Images/Table_Tmp.jpg)
Table 2. The results for the MLE
表2. 极大似然估计(MLE)实验结果
![](Images/Table_Tmp.jpg)
Table 3. The results for the REML
表3. 限制极大似然估计(REML)实验结果
(3) 对于AR(2)模型,对比预测量2、3、4和预测量5、6、7可知,考虑了序列相关性的预测量表现较好,对比预测量2、5和预测量3、6及预测量4、7可知,考虑了随机效应的预测量5、6、7表现较好,对比预测量3、4和预测量6、7可知,考虑了二阶序列相关的预测量4、7表现较好,且在MLE和REML估计下,预测量7均表现最佳;
(4) 本文所提出的预测量6、7具有较小的RMSE和MAE,表明预测精确度较高。
6. 总结
本文在已有误差序列相关面板数据模型的预测研究基础上,将模型拓展至AR(p)序列相关的随机系数面板数据模型。分别运用极大似然估计方法和限制极大似然估计方法,获得模型中参数的估计,结合最优线性无偏预测理论,得到此时模型的最优线性无偏预测表达式。
在模拟实验中,以剩余干扰项服从AR(1)过程和AR(2)过程的情况为例,综合预测结果的RMSE和MAE作为评判指标,对比分析多种预测量的预测效果,实验结果表明,本文所提出的最优线性无偏预测量具有较高的预测精度。
基金项目
国家社会科学基金项目(21BTJ005)。