1. 引言
随着我国居民消费水平不断提升,国民幸福指数不断提高,统计分析方法在研究居民消费水平的影响因素中得到了广泛应用,但由于多重共线性的存在,常常会导致数据的参数估计不准确。
消除多重共线性的研究已经普遍应用于现实生活中,如蒙伟等人于岩体研究中进行了运用 [1],卢维学等人将其应用在了降水量的预测 [2],周菲将Logistic回归模型与多重共线性诊断应用于医学研究等 [3]。因此深知其诊断方法,学会正确地运用,无疑是很有意义的。本文拟用多重共线性诊断中的几个方法进行介绍,并结合实例说明方法是否具有可靠性。
2. 多重共线性
多重共线性,简单而言即是自变量间具有高度相关性。在进行回归分析时,会因为预测变量间的高度相关性导致数据所给信息出现重叠,从而影响模型估计所得结果,甚至会出现不可估性。
2.1. 多重共线性的判断方法
1) 简单相关系数检验共线性
简单相关系数的大小决定自变量间的相关性强弱,在强相关性的情况下,一般可视为变量间存在共线性,但该方法只能检验两两变量的线性相关关系。 [4]
2) 特征值检验多重共线性
假设矩阵X为n组观测值的样本矩阵,记为
,易知
为实对称矩阵,由
可知,当且仅当λ为0时,
,即表明特征值大小会影响共线性的程度,且特征值越趋近于0,共线性程度越严重。
3) 辅助回归模型检验多重共线性
当样本变量无法直接判断其相关关系时,可以建立辅助回归模型
,其中,
为误差项,
。如果自变量可由其他自变量线性表示则说明自变量间存在共线性。 [5]
4) 方差膨胀因子检验多重共线性
方差膨胀因子VIF的计算公式为
,其中,R2表示变量与其他变量之间的复测定系数,R2的值越接近于1,VIF越大,即说明模型之间的共线性越强。当
时,表明回归模型的共线性可近似忽略,当VIF大于10时,表明该回归模型存在严重的多重共线性。 [6]
2.2. 消除多重共线性的方法
1) 保留重要解释变量,去掉次要或可替代解释变量
通过删除不必要的自变量来消除相关性从而达到共线消除的目的。但在删除次要变量时应该以实际为前提,选出相对不重要的变量并以显著性检验为依据来判断此变量是否能够剔除。如果随意的删除,可能会导致所得模型误差增大、参数估计失真。 [7]
2) 岭回归
岭回归分析是放弃最小二乘法无偏性的一种改进方法,通过引入有限个单位阵,对回归系数进行估计。其估计值的稳定性与准确性要高于简单的线性回归估计值,更加贴合实际情况,但引入单位阵的过程会导致部分信息丢失。 [8]
3) 主成分分析
主成分分析,即利用线性变换将一组存在相关性的变量用较少的综合变量表示,这些综合变量彼此互不相关且能较好的表示原始变量包含的信息,主要作用于高维复杂数据的降维。
主成分分析主要是通过其降维思想进行变量间共线性消除,将降维后所得的线性无关的变量称为主成分,可代表原始数据的相关信息。对原始数据进行主成分分析并建立主成分变量与因变量之间的回归模型后,利用得分系数矩阵经迭代可得原始数据指标间的模型。此方法一般运用于自变量个数太多、变量间存在高度相关关系中。
除上述方法外,还可通过增加样本容量、差分法等进行多重共线性的消除。
3. 主成分回归
3.1. SVD分解
设A为
的矩阵,存在矩阵分解
其中U是m阶正交矩阵,V是n阶酉矩阵,S是
阶对角矩阵。U和V的列分别叫做A的左奇异向量和右奇异向量,S对角线上的元素叫做A的奇异值。U由
单位化后的特征向量构成,V由
单位化后的特征向量构成。
3.2. SVD分解于主成分回归中的应用
记标准化后的矩阵A为X,X的协方差阵为
,此时有
。对X做SVD分解,
。将其代入
,求得相关系数阵对应的特征值(其中,V是正交矩阵,故
等于单位矩阵E),进而通过计算累计贡献率求得X的主成分。这种基于SVD分解的主成分在求解高维矩阵的特征值时相较于传统的方法更加简洁高效。 [9]
4. 实例分析
本文以居民消费水平模型为研究对象,利用方差膨胀因子与主成分回归方法解决多重共线性问题。
模型中因变量为居民消费水平(HCL,元),自变量分别为国内生产总值(GDP,千亿元)、国内第一产业生产总值(PI,千亿元)、国内第二产业生产总值(SI,千亿元)、人均可支配收入(PCDI,万元)以及主要消费人口数(MCG,千万人)。(本文主要消费人群取年龄为15~64岁)。样本矩阵为
,数据取自2021年中国统计年鉴,数据分析软件运用SAS。
4.1. 判断多重共线性
对原始数据观测值进行线性回归分析并利用方差膨胀因子判断其回归模型是否存在多重共线性。经样本数据计算可得,变量所对应的VIF均远远大于10,表明所建模型间存在严重的共线性。
通过SVD分解对原始数据矩阵计算特征值及贡献率,从而进行主成分分析。经计算可得其特征值分别为
,第一、第二主成分的累计贡献率达到99.81%,所以选取两个主成分比较合理。
4.2. 消除多重共线性
由上述可知
、
、
所对应的总贡献率为仅有0.19%,故从对应的特征向量中,可以剔除自变量。
由表1可得,
对应的特征向量中变量PI的系数的绝对值最大,说明PI是第三主成分的主要因素。故剔除变量PI,同理在
、
对应的特征向量中剔除变量SI、GDP,从而消除多重共线性的影响。再将变量PCDI、MCG做关于HCL的线性回归,可得回归方程为:
模型中各个自变量的t检验通过且R2达到0.9993。
Table 1. Eigenvectors corresponding to eigenvalues
表1. 特征值所对应的特征向量
4.3. 主成分回归
两个主成分的累计贡献率达到99.81%,即可代表原始数据99.81%的信息,主成分如下:
(GDP1、PI1、SI1、PCDI1、MCG1均为原变量标准化后的变量。)
由主成分与变量间的关系可得,Z2中,除主要消费群体外,其他变量与Z2均呈负相关,而Z1中各自变量与主成分量之间均是正相关,即可将Z2认为经济影响因子,Z1认为人口影响因子。建立经济影响因子、人口影响因子与居民消费水平之间的回归模型如下:
经检验各个变量及常量的显著性检验P值均小于0.0001,即说明模型检验通过。
将GDP,PI,SI,PDCI,MCG的均值以及标准差代入
得:
经计算得:
代入主成分回归方程,得主成分回归方程:
观察所得,回归模型可知主要消费群体人数与居民消费水平呈负相关,国内生产总值国内第一产业生产总值、国内第二产业生产总值、人均可支配收入均与居民消费水平呈正相关关系。
4.4. 模型误差分析
经计算可知模型的平均相对误差为5.8%,通过对比2019年数据的预测值与2019年数据的实际值可得,相对误差为2.9%,故可以认为模型建立合理。 [10]
5. 总结
通过使用近几年的相关数据保证了数据的时效性与结果模型的可行性。将主成分分析应用于多重共线性的消除:通过方差膨胀因子了解变量间共线性的严重程度,经过特征值求得各个变量的贡献率并对其进行显著性检验,以确保筛除后的自变量可以保留基本价值信息,保证回归系数真实可靠。由结果可知,利用主成分回归处理多重共线性问题有不错的效果,只是过程的计算较为复杂,还需进一步简化。
致谢
在此论文完成之际,首先要感谢学校对该项目的支持以及老师的悉心指导,在这期间,我们学到了很多关于矩阵分解和统计方法的知识,对自己的专业也有了更深的了解。另外,论文的完成也离不开团队成员的付出和同学的帮助。当然,由于学到的知识有限,该论文也存在一些不足,但求知的道路永无止境,在今后的学习道路上,我们也会戒骄戒躁,勇往直前。