部分线性可加模型的随机约束岭估计
A Stochastic Restricted Ridge Estimator in Partially Linear Additive Models
DOI: 10.12677/SA.2022.116151, PDF, HTML, XML, 下载: 198  浏览: 280  科研立项经费支持
作者: 李 静:中国劳动关系学院应用技术学院,北京;李雪艳:中国民航大学理学院,天津;安佰玲:淮北师范大学数学科学学院,安徽 淮北
关键词: 部分线性可加模型随机线性约束Profile最小二乘估计岭估计Partially Linear Additive Model Stochastic Linear Restriction Profile Least Squares Approach Ridge Estimation
摘要: 本文研究了部分线性可加模型这类半参数模型在线性部分自变量存在多重共线性,同时还附加有随机约束条件时的估计问题。基于针对半参数模型的Profile最小二乘技术,处理多重共线性问题的岭估计方法以及针对随机约束的混合估计技术,构造了参数分量的随机约束岭估计,给出了估计量的偏与协方差,并给出了所提估计量的渐近性质。最后通过数值模拟验证了所提估计方法的表现。
Abstract: This paper studies the estimation of a partially linear additive model when there are stochastic linear restrictions on the parameter components and multicollinearity problem exists, simultaneously. Based on the profile least square method of semiparametric model, ridge estimation approach for multicollinearity problem and mixed estimation technique for stochastic restrictions, a stochastic ridge estimator for the parametric components was proposed and its bias and covariance were provided. Meanwhile, the asymptotic distribution of this proposed estimator has also been proved. Finally, some simulations are carried out to study the finite properties of the proposed estimator.
文章引用:李静, 李雪艳, 安佰玲. 部分线性可加模型的随机约束岭估计[J]. 统计学与应用, 2022, 11(6): 1448-1455. https://doi.org/10.12677/SA.2022.116151

1. 引言

作为可加模型的推广,部分线性变系数模型近年来受到了广泛的关注,在理论和应用上都得到了深入的研究。该模型一般记为如下形式

Y i = X i T β + m 1 ( Z 1 i ) + + m q ( Z q i ) + ε i , i = 1 , 2 , , n , (1)

其中 Y i 是因变量观测值, X i p × 1 的自变量观测值, β = ( β 1 , β 2 , , β p ) T 是对应的未知回归系数, Z k i 是一元连续性变量观测值, m 1 ( ) , , m q ( ) 是未知的非参数光滑参数,模型误差 ε i 相互独立且均值为零和方差为 σ 2

对于半参数模型(1),模型中回归系数和非参数函数的估计是一个重要的任务,基于不同的估计思想,已经有多种方法提出,包括Ospomer和Ruppert (1999) [1] 提出的backfitting方法、Li (2000) [2] 所使用的级数估计方法,Manzan和Zerom (2005) [3] 提出的边际积分方法以及Wei和Liu (2012) [4] 使用的Profile最小二乘方法。

使用回归模型分析实际数据的过程中,经常会遇到多重共线性问题,原因是变量之间存在较强的线性关系。多重共线性的存在对回归模型的统计推断结果有直接的影响,能将问题分析带入歧途,比如在理论上最小二乘估计依然是最小方差线性无偏估计,但此时估计量的方差很大,即估计量的均方误差很大。在回归分析结果中的直接体现就是未知系数的估计值绝对值偏大或者其正负号与实际意义相反。为了解决上面存在的问题,目前有多种处理思路,比如包括对自变量的剔除,构造系数的有偏估计,以牺牲估计量的无偏性换取估计量均方误差的降低。使用较多的有偏估计方法包括常见的岭估计和主成分估计,以及Liu (1993) [5] 提出的Liu估计。此外,分析实际研究中有时还能从问题本身以及已有研究中得到一些额外的信息,如果能将这些额外信息纳入到模型推断中,则有助于提高模型的推断结果。附加额外信息,常常可以转化为对回归系数的约束问题,从而有了回归模型的精确线性约束估计,随机约束估计,以及不等式约束估计。如何在多重共线性和附加额外信息同时存在的情况下对模型进行估计得到了关注。

对于模型(1),其线性部分存在多重共线性时的估计问题得到了重视。Wei和Wang (2016) [6] 给出了参数分量的Liu估计及其约束Liu估计的渐近性质,Wei (2016) [7] 研究了参数分量的随机约束估计及其性质,在此基础上,王肖南和魏传华(2016) [8] 构造了模型中参数分量的随机约束Liu估计。

相比于Liu估计,模型(1.1)的岭估计研究相对较少,蓝文英(2013) [9] 基于backfitting方法给出了参数分量的岭估计和约束岭估计。为了更进一步研究模型(1)的岭估计,本文在上述研究基础上将给出模型(1.1)在线性部分存在多重共线性且存在随机约束下的估计问题,提出参数分量的随机约束岭估计,并给出估计量的渐近性质。研究将Özkale (2009) [10] 的结果从线性回归模型推广到了部分线性可加模型。与此类似的是魏传华等(2014) [11] 和刘超等(2017) [12] 分别研究了部分线性模型和部分线性变系数模型的随机约束岭估计。

同Özkale (2009)等文献一样,随机约束条件表述为如下形式

b = A β + η (2)

其中 b k × 1 的已知向量, A 是一个已知的 k × p 行满秩矩阵。 η 为均值为 0 协方差矩阵为 σ 2 Ω 的随机向量,其中 Ω 为一已知正定矩阵。针对模型(1)~(2),我们将重点研究参数分量 β 的估计问题。因此本文是Wei (2016) [7] 和蓝文英(2013) [9] 的推广。

第2节提出部分线性可加模型中参数部分的随机约束岭估计,并研究其渐近性质。第3节利用数值模拟考察所提估计方法的有效性,第4节给出结论。

2. 随机约束岭估计及其性质

为了构造模型的随机约束岭估计,首先介绍Profile最小二乘技术。为了方便叙述,假定模型(1.1)中 q = 2 ,设 { Y i , X i , Z 1 i , Z 2 i } i = 1 n 来自于模型(1.1),则有

Y i = X i T β + m 1 ( Z 1 i ) + m 2 ( Z 2 i ) + ε i , i = 1 , 2 , , n . (3)

假定模型(3)中的参数分量 β = ( β 1 , β 2 , , β p ) T 已知,则模型(3)可以写成如下一个标准的可加模型:

Y i X i T β = m 1 ( Z 1 i ) + m 2 ( Z 2 i ) + ε i , i = 1 , 2 , , n . (4)

k = 1 , 2 ,记

Y = [ Y 1 Y 2 Y n ] , X = [ X 1 T X 2 T X n T ] , m k = [ m k ( Z k 1 ) m k ( Z k 2 ) m k ( Z k n ) ] , D Z k k = [ 1 ( Z k 1 Z k ) / h k 1 ( Z k 2 Z k ) / h k 1 ( Z k n Z k ) / h k ] .

由局部线性估计方法的原理,关于第k个非参数函数的局部线性光滑矩阵可记为:

S k = [ e 1 T { D Z k 1 k T K Z k 1 D Z k 1 k } 1 D Z k 1 T K Z k 1 e 1 T { D Z k 2 k T K Z k 2 D Z k 2 k } 1 D Z k 2 T K Z k 2 e 1 T { D Z k n k T K Z k n D Z k n k } 1 D Z k n T K Z k n ] ,

其中 e 1 = ( 1 , 0 ) T K Z k = diag { K h k ( Z k 1 Z k ) , K h k ( Z k 2 Z k ) , , K h k ( Z k n Z k ) } ,这里

K h k ( ) = K ( / h k ) / h k K ( ) 是核函数, h k 是窗宽。由Opsomer和Ruppert (1997) [13] 可知,未知的非参数函数 m k 可通过求解如下方程得到:

[ I n S 1 * S 2 * I n ] [ m 1 m 2 ] = [ S 1 * S 2 * ] ( Y X β ) , (5)

其中 S k * = ( I n 1 1 T ) S k k = 1 , 2 。进一步我们可以得到 m 1 m 2 的backfitting估计为:

m ^ 1 = W 1 ( Y X β ) , m ^ 2 = W 2 ( Y X β ) (6)

W 1 = I n ( I n S 1 * S 2 * ) 1 ( I n S 1 * ) , W 2 = I n ( I n S 2 * S 1 * ) 1 ( I n S 2 * ) .

m ^ 1 m ^ 2 代入模型(3),可得如下线性回归模型

Y ¯ i = X ¯ i T β + ε i , i = 1 , 2 , , n , (7)

其中 Y ¯ = ( Y ¯ 1 , , Y ¯ n ) T = ( I n S ) Y , X ¯ = ( X ¯ 1 , , X ¯ n ) T = ( I n S ) X S = W 1 + W 2

使用最小二乘法估计线性模型(7),从而得到线性部分回归系数 β 的profile最小二乘估计

β ^ = arg min β R p [ ( Y ¯ X ¯ β ) T ( Y ¯ X ¯ β ) ] = ( X ¯ T X ¯ ) 1 X ¯ T Y ¯ . (8)

下面我们在模型(7)上考虑随机约束条件(2),构造随机约束岭估计,类似于Özkale (2009) [10]、魏传华等(2014) [11] 和刘超等(2017) [12],构造如下的目标函数

L ( β ) = arg min β R p { ( Y ¯ X ¯ β ) T ( Y ¯ X ¯ β ) + k β T β + ( b A β ) T Ω 1 ( b A β ) }

求取函数 L ( β ) 关于 β 的偏导数,并令其等于零,有

L ( β ) β = 2 X ¯ T Y ¯ + 2 X ¯ T X ¯ β + 2 k β 2 A T Ω 1 ( b A β ) = 0 (9)

求解(9),整理可得 β 的随机约束岭估计为

β ^ R S ( k ) = ( X ¯ T X ¯ + k I p + A T Ω 1 A ) 1 ( X ¯ T Y ¯ + A T Ω 1 b ) (10)

E = X ¯ T X ¯ + k I p ,由Rao等(2008) [14] 中的定理A.18(iii),可得

( X ¯ T X ¯ + k I p + A T Ω 1 A ) 1 = E 1 E 1 A T ( Ω + A E 1 A T ) 1 A E 1 (11)

将(11)式代入(10)式整理可得 β ^ R S ( k ) 的另外一种等价形式为:

β ^ R S ( k ) = β ^ R ( k ) ( X ¯ T X ¯ + k I p ) 1 A T [ Ω + A ( X ¯ T X ¯ + k I p ) 1 A T ] 1 [ A ( k ) β ^ R ( k ) b ] (12)

其中 β ^ R ( k ) = ( X ¯ T X ¯ + k I p ) 1 X ¯ T Y ¯ β 的岭估计。

下面给出 β ^ R S ( k ) 的一些理论性质。

定理1. 参数分量 β 的Profile混合岭估计 β ^ R S ( k ) 有如下性质

Bias ( β ^ R S ( k ) ) = β k S s r 1 β + S s r 1 X ¯ T ( I n S ) M ,

Cov [ β ^ R S ( k ) ] = S s r 1 Ψ S s r 1

其中: S s r = X ¯ T X ¯ + k I p + A T Ω 1 A , M = m 1 + m 2

Ψ = σ 2 [ X ¯ T ( I n S ) ( I n S ) T X ¯ + A T Ω 1 A ]

证明:根据 β ^ R S ( k ) 估计的表达式(12)可知

β ^ R S ( k ) = ( X ¯ T X ¯ + k I p + A T Ω 1 A ) 1 ( X ¯ T Y ¯ + A T Ω 1 b ) = S s r 1 ( X ¯ T Y ¯ + A T Ω 1 b ) = S s r 1 [ X ¯ T ( I n S ) X β + X ¯ T ( I n S ) M + X ¯ T ( I n S ) ε + A T Ω 1 ( A β + η ) ] = β + S s r 1 [ k β + X ¯ T ( I n S ) M + X ¯ T ( I n S ) ε + A T Ω 1 η ]

E ε = 0 , E η = 0 , Cov ( ε ) = σ 2 I n Cov ( η ) = σ 2 Ω ,我们有

Bias [ β ^ R S ( k ) ] = E [ β ^ R S ( k ) ] β = S s r 1 [ k β + X ¯ T ( I n S ) M ] ,

Cov [ β ^ R S ( k ) ] = E [ ( β ^ R S ( k ) E β ^ R S ( k ) ) ( β ^ R S ( k ) E β ^ R S ( k ) ) T ] = S s r 1 Ψ S s r 1 .

在给出定理2之前先给出一些假设条件:

条件1. 核函数 K ( ) 为对称密度函数,具有紧支撑。

条件2. Z k 的密度函数 f k ( Z k ) 是Lipschitz连续且有有界支撑 Ω k , k = 1 , 2

条件3. m k ( ) , k = 1 , 2 具有二阶连续导数。

条件4. n 时, h k 0 时, n h k / log n n h k 8 0 , k = 1 , 2

定理2. 在满足以上条件1~4假设下,随机约束岭估计 β ^ R S ( k ) 是渐近正态的, n ( β ^ R S ( k ) β ) D N ( 0 , σ 2 Σ 1 )

其中 Σ = E [ X i k = 1 2 E ( X i | Z k i ) ] [ X i k = 1 2 E ( X i | Z k i ) ] T

证明:由定理1中的结论可知,

n ( β ^ R S ( k ) β ) = ( S s r n ) 1 1 n [ k β + X ¯ T ( I n S ) M + X ¯ T ( I n S ) ε + A T Ω 1 η ]

根据Wei和Liu (2012) [4] 中引理6.2知,

1 n ( X ¯ T X ¯ ) p Σ ,

此外有 1 n A T Ω 1 A = o p ( 1 ) ,结合以上式子易知:

1 n ( X ¯ T X ¯ + k I p + A T Ω 1 A ) p Σ . (13)

由Wei和Liu (2012) [4] 中的引理6.3,我们有

1 n X ¯ T ( I n S ) M = o p ( 1 ) , 1 n X ¯ T ( I n S ) ε D N ( 0 , σ 2 Σ ) (14)

事实上, E A T Ω 1 η = 0 , Cov ( A T Ω 1 η ) = A T Ω 1 A ,则有

1 n A T Ω 1 η = o p ( 1 ) (15)

因此结合(13),(14)和(15),根据Slutsky定理可得

n ( β ^ R PM ( k ) β ) D N ( 0 , σ 2 Σ 1 ) .

注2.1. 当 Ω = 0 时,随机约束条件(1.2)转化为精确的线性约束条件 A β = b ,此时由(11)式变为

β ^ R S ( k ) = β ^ R ( k ) ( X ¯ T X ¯ + k I p ) 1 A T [ A ( X ¯ T X ¯ + k I p ) 1 A T ] 1 ( A β ^ R ( k ) b ) .

该估计就是Wei和Wang (2016) [6] 针对部分线性可加模型在精确约束条件下构造的profile最小二乘约束岭估计。

3. 数值模拟

本节将通过Monte Carlo数值模拟的方法对所提出的估计进行有效性检验。考虑如下的部分线性可加模型产生数据:

y i = x 1 i β 1 + x 2 i β 2 + x 3 i β 3 + x 4 i β 4 + x 5 i β 5 + m 1 ( z 1 i ) + m 2 ( z 2 i ) + ε i , i = 1 , 2 , , n ,

同Wei (2016) [7] 中的设置一样,模型中自变量和非参数函数进行如下设定 z 1 i U ( 0 , 1 ) , z 1 i U ( 1 , 1 ) , m 1 ( z 1 i ) = sin ( 2 π z 1 i ) , m 2 ( z 2 i ) = z 2 i 3 + 3 z 2 i 2 5 z 2 i 1 β = ( 2 , 1 , 1 , 3 ) T 为了构造多重共线性,运用McDonald和Galerneau (1975) [15] 中生成具有多重共线性自变量的方法生成解释变量 x 1 , x 2 , , x 4 ,具体为:

x i j = ( 1 ρ 2 ) 1 / 2 ω i j + ρ ω i ( p + 1 ) , i = 1 , 2 , , n ; j = 1 , , p

其中, ω i j 是独立的标准正态随机数, ρ 是一个具体的数值以确保任何四个解释变量在理论上是相关的,分别取 ρ = 0.90 , 0.99 , 0.999 刻画不同程度的复共线性问题。样本量n = 50,80和120三种情形。为了考察模型误差的分布对估计结果的影响,选取模型误差 ε i 服从如下的正态分布和均匀分布1) ε i N ( 0 , 0.5 2 )

2) ε i U ( 3 2 , 3 2 ) 。模拟中核函数选用Epanechnikov核: K ( x ) = 0.75 ( 1 x 2 ) I | x | 1 ,为了计算方便,窗

宽设定为 h 1 = h 2 = n 1 / 5 。随机约束的设定同刘超等(2017) [12] 一样,参数分量 ( β 1 , β 2 , β 3 , β 4 ) = ( 2 , 1 , 3 , 3 ) ,随机约束设定为

E η 1 = E η 2 = 0 , V a r ( η 1 ) = 0.04 , V a r ( η 2 ) = 0.16 , C o v ( η 1 , η 2 ) = 0.2 ,

A = [ 1 0 0 1 0 1 1 0 ] , Ω = [ 0.04 0.016 0.016 0.16 ]

针对上面的具体设定,每种情况都重复进行500次模拟,每次求取参数分量

( β 1 , β 2 , β 3 , β 4 ) 的profile最小二乘估计(PLS)、随机约束估计(S)、岭估计(R)和提出的随机约束岭估计(SR),对于 β = { β 1 , β 2 , β 3 , β 4 } 的估计 β * = { β 1 * , β 2 * , β 3 * , β 4 * } ,以其估计均方误差(EMSE)来衡量其表现,

EMSE ( β * ) = 1 500 k = 1 500 j = 1 4 ( β k j * β j ) 2

其中 β k j * 是参数 β j 的第k次重复时的估计值,模拟结果见表1

Table 1. EMSEs of the estimators

表1. 不同估计量的EMSEs

从模拟结果不难看出,随着样本量的增加,四类估计的EMSE都在变小,同时模型误差的分布对结果影响很小。四类估计之间对比,随着共线性程度变高,随机约束岭估计的EMSE比其他三类估计显著的小,从而反映了所提方法的有效性。

4. 总结

作为非参数回归和线性回归模型的推广,部分线性模型、可加模型、变系数和单指标模型等半参数模型近年来得到了广泛的关注。对于这些半参数模型的研究,较少讨论变量的多重共线性问题。本文针对部分线性可加模型这一半参数模型,研究了附加随机约束条件时的有偏估计问题,构造了线性部分回归系数的随机约束岭估计,并研究了估计量的性质。

半参数模型的模型结构对比线性回归模型更为复杂,在自变量存在多重共线性的情况下,如何构造有效的有偏估计量是实际分析中不可回避的问题。

基金项目

中国劳动关系学院教育教学改革立项项目(JG1406);2020年度安徽高等学校自然科学项目 (KJ2020A1200)。

参考文献

[1] Opsomer, J.D. and Ruppert, D. (1999) A Root-n Consistent Backfitting Estimator for Semiparametric Additive Modeling. Journal of Computational and Graphical Statistics, 8, 715-732.
https://doi.org/10.1080/10618600.1999.10474845
[2] Manzana, S. and Zeromb, D. (2005) Kernel Estimation of a Partially Linear Additive Model. Statistics & Probability Letters, 72, 313-322.
https://doi.org/10.1016/j.spl.2005.02.005
[3] Liu, X., Wang, L. and Liang, H. (2011) Estimation and Variable Selection for Semiparametric Additive Partial Linear Model. Statistica Sinica, 21, 1225-1248.
https://doi.org/10.5705/ss.2009.140
[4] Wei, C.H. and Liu, C.L. (2012) Statistical Inference on Semiparametric Partially Linear Additive Models. Journal of Nonparametric Statistic, 24, 809-823.
https://doi.org/10.1080/10485252.2012.716155
[5] Liu, K.J. (2003) Using Liu-Type Estimator to Combat Collinearity. Communcation in Statistics-Theory and Methods, 32, 285-292.
https://doi.org/10.1081/STA-120019959
[6] Wei, C.H. and Wang, X.N. (2016) Liu-Type Estimator in Semiparametric Partially Linear Additive Models. Journal of Nonparametric Statistics, 28, 459-468.
https://doi.org/10.1080/10485252.2016.1163357
[7] Wei, C.-H. (2016) A Stochastic Restricted Estimator in Partially Linear Additive Models. Far East Journal of Theoretical Statistics, 52, 35-477.
https://doi.org/10.17654/TS052010035
[8] 王肖南, 魏传华. 部分线性可加模型的随机约束Liu估计[J]. 中央民族大学学报(自然科学版), 2016, 25(1): 80-85.
[9] 蓝文英. 部分线性可加模型基于backfitting方法的岭估计[J]. 中央民族大学学报(自然科学版), 2013, 22(S1): 68-71.
[10] Özkale, M.R. (2009) A Stochastic Restricted Ridge Regression Estimator. Journal of Multivariate Analysis, 100, 1706- 1716.
https://doi.org/10.1016/j.jmva.2009.02.005
[11] 魏传华, 郭双, 王肖南. 部分线性模型的随机约束岭估计[J]. 数学的实践与认识, 2014, 44(13): 249-254.
[12] 刘超, 韦杰, 魏传华. 部分线性变系数模型的随机约束岭估计[J]. 应用数学, 2017, 30(4): 774-779.
[13] Opsomer, J.D. and Ruppert, D. (1997) Fitting a Bivariate Additive Model by Local Polynomial Regression. The Annals of Statistics, 25, 186-211.
https://doi.org/10.1214/aos/1034276626
[14] Rao, C.R., Shalabh, Toutenburg, H. and Heumann, C. (2008) Linear Models and Generalization: Least Squares and Alternatives. Springer, Berlin.
[15] McDonald, G.C. and Galarneau, D.I. (1975) A Monte Carlo Evaluation of Some Ridge-Type Estimators. Journal of American Statistical Association, 70, 407-416.
https://doi.org/10.1080/01621459.1975.10479882