1. 引言
空间自回归模型广泛应用在经济学、政治学和公共健康学等众多的领域,其用于解决地理单元上的空间交互效应问题。关于空间自回归模型的一些早期研究可参见文献Anselin (1988) [1],Anselin和Bera (1998) [2],LeSage (1999) [3] 以及LeSage和Pace (2009) [4] 等。近几年来,有大量的文章将关注点聚焦在空间计量经济模型的统计推断研究上。例如Lee (2007) [5] 研究将广义矩估计方法应用到空间自回归模型里,Lee (2004) [6] 研究了空间自回归模型的拟极大似然估计量的渐近性。Lee和Yu (2010) [7] 提出了带有空间滞后和空间扰动的空间自回归面板模型的极大似然估计。Xu和Lee (2015) [8] 考虑了工具变量和极大似然估计量在空间自回归模型中的应用。Qu和Lee (2015) [9] 提出了三条对于含有内生空间权重矩阵的空间自回归模型的估计方法,包括两阶段工具变量法,拟极大似然估计法,以及广义矩估计法。
然而在实际应用中,线性结构的空间自回归模型并不足以刻画潜在的变量结构方式。另外,仅仅依靠非参数回归方法又有可能会面临“维数灾祸”的问题。为此,最近一些降维的半参数空间自回归模型越来越受到关注,其中部分线性空间自回归模型作为半参数空间自回归模型的主要模型之一已被部分学者研究,并提出了一些统计推断方法。例如,Su和Jin (2010) [10] 针对部分线性空间自回归模型提出了拟极大似然估计的方法,Cheng和Chen (2019) [11] 研究了针对部分线性单指标空间自回归模型的广义矩估计,Du等人(2018) [12] 对部分线性可加空间自回归模型进行了研究。
但是以往的文献主要是基于均值回归框架下研究部分线性空间自回归模型的统计推断问题,而均值回归往往会受到数据异常值的影响。基于此,本文主要研究部分线性空间自回归模型的稳健估计问题。具体地,基于分位数回归方法以及矩阵的QR分解技术,本文对部分线性空间自回归模型提出了一种基于正交投影的稳健估计方法。另外在一些正则条件下,研究了所得估计的渐近性质,并且通过数据模拟验证了所提出的估计方法具有较好的稳健性。
2. 方法论及主要结果
设我们具有一个容量为n的样本,并记
是因变量,
是
维自变量,
是空间权重矩阵W的第
元素。参数
是空间滞后因变量
的一个效应系数,
是
维的参数向量,
是一维的光滑变量。那么部分线性空间自回归模型为
(1)
其中
,
。
由于内生变量
的存在,我们采用工具变量分位数回归(IVQR)的方法来消除偏差。内生变量
和一组工具变量
相关,而
与
无关。这样我们就可以定义条件工具分位数为:
(2)
其中
是给定
值下的
的
分位数,
是
域
,
是工具变量
对应的系数,
。
我们采用B样条来进行估计。为了不失一般性,我们假设
对所有的i都成立。我们采用阶数为
的B样条基函数来估计
,考虑一列正整数序列
,
,将
分成
个近似均匀的区间。令
表示一组B样条基函数,其中
,则
便可被这组规范化的B样条基函数线性表示为
此处,
是样条系数向量。关于B样条基函数构建的细节,读者可参考Schumaker (1981) [13]。在B样条展开的基础上,模型(2)可近似为
(3)
模型(3)的矩阵形式为
(4)
其中,
,
,
,
,
对
进行QR分解得
,
是
阶矩阵,
是
阶方阵,
是
阶矩阵,
。在(4)式两边同时左乘
,得
(5)
其中
,
,
,
,
,于是
(6)
接下来我们定义目标函数:
(7)
其中
,根据Chernozhukov和Hansen (2006, 2008) [14] [15] 以及Galvao (2011) [16],假设工具变量
可以获得,则我们可以依照以下三步推导出IVQR估计量。
第一步,给定一个分位数
,定义一组合适的
,然后最小化目标函数
,获得分位数估计量
。
(8)
第二步,在
中选出一个
,使得定义在
(9)
的加权距离函数最接近零:其中A是一个正定矩阵,
。
第三步,
的估计可以得到,为
。
在本篇论文中,我们运用三阶B样条进行估计。针对目标函数(7)式,我们根据Schwarz-type信息准则来选取
个节点:
其中
,
,
分别为有
个节点的第
分位点上的估计量,更多细节可见Kim (2003) [17]。另外,为了得到IVQR估计量,对于内生变量
我们需要一组工具变量。在本文中,采用WX作为工具变量矩阵。
为了使用IVQR估计量,下面需要引入几条正则性条件。
正则条件1
1)
是独立同分布的,
的条件分布函数为F,
。
2) 对每一个i,
的密度函数
是有界的,该函数在零点处可微,且一阶导数有界。
正则条件2
1) 对于所有的
,
在集合
中,且
既是紧的又是凸的。
2) 令
(10)
(11)
其中
,
,
。雅可比矩阵
和
是连续的且为满秩。参数空间
是连通集且在此集合的像在映射
下是连通的。
3) 定义
,其中
。令
。则下列矩阵均为正定矩阵:
(12)
(13)
(14)
其中
是
的一个合适划分。因此,
是可逆的且
也是可逆的。
4)
,
,
。
定理1:在正则条件1和2下,对任意给定的
,
依分布收敛于高斯分布,即
(15)
其中
,
,
,
,对任意给定的
,结合定理1可知
的
置信区间可表为
其中
,
是对角矩阵
的第i个对角元素,
。
3. 数值模拟研究
在本节中,我们利用蒙特卡洛方法来研究本文提出的估计方法的有限样本性质。在模拟过程中,样本容量分别取
三种情况,并且在每个样本下,实验重复1000次。对估计量进行的分位数回归时分位点分别取为
。数据从如下模型产生:
(16)
其中
,
,
,
,F是
的分布函数,因此随机误差
是以
分位点为中心。为了说明本文提出方法的稳健性,模型误差
分别取为对称分布
和非对称分布
两种情况。这里协变量
分别服从
,
分布,另外类似Dai等人(2016) [18],空间权重矩阵
的生成机制为
,其中
,
,
。
在本文的模拟研究中,我们把本文提出的基于分位数回归得到的估计结果与Wang等人(2016) [19] 提出的均值回归得到的估计结果进行比较。表1给出了基于这两种方法,在不同情况下估计量的偏差和标准差基于1000次重复实验的平均值。由表1可以得到以下结论:
1) 对任一给定的分位点
,基于本文方法给出的估计偏差和标准差均随着样本量的增加而减小。并且对任意给定的样本量n,本文的方法在两种误差分布下给出模拟结果是非常类似的,这也表明本文提出的估计方法具有较好的稳健性。
2) 对任一给定的分位点
,当误差分布为对称分布时,本文方法给出的模拟结果与基于文献Ahmad等人(2005) [20] 的均值回归方法给出的结果是类似的。但是当误差分布为非对称分布,即数据中含有部分异常值时,本文方法给出的模拟结果明显优于均值回归主法给出的模拟结果。
Table 1. Simulation results of parameter components based on different estimation methods
表1. 基于不同估计方法对参数分量的模拟结果
4. 证明
为了证明定理1,我们要先引入一个引理。
引理1:定义
,令
是一组定义在
空间的参数向量,并记
(17)
则在正则条件1和2下,有
(18)
具体证明详见Dai et al. (2016) [18]。
定理1证明
接下来,根据Chernozhukov和Hansen (2006) [14] 的结论,
对于每一个
都有唯一解。
为了证明参数的连续性,在正则条件1和2下,我们有
。令
其中
是连续的。在引理1的条件下,对于
我们有
。根据Dai (2016) [18] 的结论,我们有
。因此我们可以得到
,同时也得出
,所以,
。
当
时,我们可以将(8)式的目标函数写成
其中
,
。令
,
于是
。将G展开得
(19)
其中
。显然
,
,则最后的等式可表示为
(20)
令
,上式可写为
运用更简单的记号,上式可表示为
其中
,
,
是一个零均值的随机向量,其协方差为
,
。
令
是
的一个合适划分(如Galvao (2011)和Chernozhukov以及Hansen (2006) [14] [16] )使得
,
。令
,则
,其中
。将它带入之前的表达式中,则
,其中
。由于
可逆,所以
。同理可得
。在正规条件下,我们有
其中
,
。