1. 引言
我国房地产业在2003年被确定为国民经济的支柱产业 [1] ,其发展情况不仅与国民经济的稳定息息相关,也在众多相关产业的发展中产生先导效应 [2] 。但在不同的历史条件下,房地产业发展的主导因素不同。同时,影响房地产业发展的因素错综复杂,各因素间也可能存在相互影响。由于常规分析方法对房地产业的内部发展动因的论述具有模糊性,本文应用基于主成分回归方法的计量模型对房地产业发展进行灵活分析。该方法通过消除自变量之间的多重共线性,很好地克服了最小二乘估计(LS)在处理多重共线性上的缺陷,进而能够对房地产业增长因素进行可靠且合理的分析。
2. 主成分回归法的思想方法
2.1. 主成分回归法概述
主成分估计(principal component estimate) [3] 是Massy在1965年提出的一种回归系数参数的线性有偏估计(biased estimate)方法。自变量之间相互独立时,最小二乘估计是唯一具有最小方差的无偏估计。但现实数据获取的自变量不可避免地存在多重共线性关系,使回归系数的估计值异常增大,从而使回归系数估计值的的符号与实际意义相违背 [4] 。主成分估计通过消除自变量之间的复多重共线性,很好地克服了最小二乘估计在处理多重共线性的缺陷。另一有偏估计岭估计 [5] (ridge estimate)通过在病态矩阵中沿主对角线加入正数以增大特征根同样可以处理最小二乘估计设计矩阵的奇异性,但主成分估计法以其接近降维法的实质,更适合解释分析现实数据中各变量的实际意义。
主成分回归法首先将数据经主成分分析,提取若干各不相关的主成分。在保证不存在共线性的情况下,进行最小二乘分析。最后变换回原模型,求出估计参数。即主成分估计通过牺牲无偏性换取方差的大幅减小,最终降低均方差,达到回归估计的最优目的 [6] 。
2.2. 主成分回归模型
1) 数据预处理
设有p个指标变量
,它在第i次实验中取值
,写为矩阵形式
由于主成分分析结果受量纲影响,故对于变量
首先应用标准化变换公式
进行数据预处理。其中
和
分别为
的第
列的均值和标准差。将经过标准化的矩阵
记为
。
2) 正交化
对
的特征值
求出对应标准化正交特征向量
。
3) 选取主成分
考虑线性模型
其中
,
为未知参数,
为所有元素均为1的
维列向量,
为
未知参数向量,
为
误差向量。
此时,有
对于自变量的任意一个线性组合
将
视为一个新的变量。则在第
次实验中的取值为
由于
已经标准化,故有
记
,则
对于变量
,若所对应的
较大,说明该变量作用较显著。反之,则该变量作用较小,不作为主元考虑。根据公式,
的最大值
在
取对应标准化正交特征向量
处取得。
此时,新变量
即为
作为当前第1主成分
。类似地,求得第2主成分
、第3主成分
……。一般地,所选取主成分的个数
是使累计贡献率的和应至少超过75% [7] ,且尽可能地保证变量的精简、全面。
4) 最小二乘估计
将
变换为主成分
后,通过最小二乘法求新参数的估计值。最小二乘估计 [8] 是通过拟合误差对回归模型进行的参数估计,即对于
要使误差最小,即使
最小,从而取得
的估计值,进而变换回原模型。
2.3. 显著性检验
所建立的主成分分析模型,拟合误差要尽可能地小。通常用一些统计检验量对此进行衡量,本模型可采用可决系数
此值越接近1,模型越精确。
3. 中国房地产业经济增长影响因素实证分析
为计算房地产业发展的主导因素 [9] ,自变量的选取应全面、相关且尽可能地不自相关。经考量,本文在以下六个方面各选取一个与房地产业相关性相对较强 [10] 的因素作为模型自变量:
1) 人民生活:城镇居民人均可支配收入(元);
2) 就业和工资:房地产业城镇单位就业人员(万人);
3) 国民经济:城镇居民消费水平(元);
4) 房地产业成本:房地产开发企业土地成交价款(亿元);
5) 能源:能源消费总量(万吨标准煤);
6) 固定资产投资:全社会固定资产投资(亿元)。
因变量为房地产业增加值(亿元) [11] ,数据时间选取2008年~2017年。原始数据见表1。
下面建立主成分回归模型。
Table 1. Real estate economic growth related data
表1. 房地产业经济增长相关数据
经数据预处理及正交化,通过MATLAB R2016a编程求得各主成分的贡献率,见表2。
Table 2. Principal component contribution rate
表2. 主成分贡献率
第1主成分
分析表格易知,第一主成分
的贡献率已超过90%.故选取
作为主成分变量进行进一步计算,得该主成分变量对应回归方程系数为0.4192,进而得到标准化变量的回归方程
变换回原始回归变量,最终得到主成分分析模型
经检验,该模型的均方误差
,接近1,因而具有较高的显著性。
4. 结果分析
由所得房地产业经济增长的标准化的主成分回归模型可知,对房地产业增加值(亿元)影响由大到小的因素排序分别为:城镇居民消费水平,城镇固定资产投资,城镇居民人均可支配收入,能源消费总量,房地产业城镇单位就业人员,房地产开发企业土地成交价款。其中,城镇居民消费水平对房地产业增加值起主导性作用。该数据不仅反应了房地产行业的繁荣度,也体现了房地产业行业发展的内在动力。同时,城镇固定资产投资体现了房地产业的重要投入,城镇居民人均可支配收入体现了人们对房地产的购买空间,能源消费总量体现对房地产的物质投入,但房地产业城镇单位就业人员,房地产开发企业土地成交价款的系数非常小,可见房地产业增长值与其相关性不大。
5. 结论
主成分回归法通过消除自变量之间的多重共线性,很好地克服了最小二乘估计在处理多重共线性上的缺陷,并以其接近降维法的实质较好地解释了各变量的实际意义。本文建立基于主成分回归法的房地产业模型进行分析,得到影响房地产业增加值的影响因素及其影响程度。经检验,该模型显著性较高,具有很强的现实意义。
基金项目
江苏省大学生创新创业训练计划项目(201810332036Y),国家自然科学基金(11401418)。
NOTES
*通讯作者。