基于主成分回归的房地产业经济增长因素分析
Analysis of Real Estate Economic Growth Factor Based on Principal Component Regression
DOI: 10.12677/SA.2019.82039, PDF, HTML, XML, 下载: 974  浏览: 2,879  国家自然科学基金支持
作者: 汪冰青*, 程毛林*, 龚静乙, 任晓燕, 姚小玲, 周志伟:苏州科技大学数理学院,江苏 苏州
关键词: 主成分回归经济增长房地产业因素分析 Principal Component Regression Economic Growth Real Estate Factor Analysis
摘要: 不同的历史条件下,房地产业发展的主导因素不同。由于常规分析方法对房地产业的发展动因的分析具有模糊性,本文给出了基于主成分回归的计量经济模型。该方法通过消除自变量之间的多重共线性,很好地克服了普通最小二乘分析在处理多重共线性上的缺陷,对房地产业经济增长因素进行可靠分析具有较强的现实意义。
Abstract: Under different historical conditions, the leading factors of the development of the real estate industry are different. Because of the fuzziness of the conventional analysis method to the analysis of the development cause of the real estate industry, this paper presents the econometric model based on principal component regression. By eliminating the complex multicollinearity among independent variables, this method overcomes the defects of the ordinary least squares analysis in dealing with multicollinearity, and has strong practical significance in the reliable analysis of economic growth factors of the real estate industry.
文章引用:汪冰青, 程毛林, 龚静乙, 任晓燕, 姚小玲, 周志伟. 基于主成分回归的房地产业经济增长因素分析[J]. 统计学与应用, 2019, 8(2): 358-363. https://doi.org/10.12677/SA.2019.82039

1. 引言

我国房地产业在2003年被确定为国民经济的支柱产业 [1] ,其发展情况不仅与国民经济的稳定息息相关,也在众多相关产业的发展中产生先导效应 [2] 。但在不同的历史条件下,房地产业发展的主导因素不同。同时,影响房地产业发展的因素错综复杂,各因素间也可能存在相互影响。由于常规分析方法对房地产业的内部发展动因的论述具有模糊性,本文应用基于主成分回归方法的计量模型对房地产业发展进行灵活分析。该方法通过消除自变量之间的多重共线性,很好地克服了最小二乘估计(LS)在处理多重共线性上的缺陷,进而能够对房地产业增长因素进行可靠且合理的分析。

2. 主成分回归法的思想方法

2.1. 主成分回归法概述

主成分估计(principal component estimate) [3] 是Massy在1965年提出的一种回归系数参数的线性有偏估计(biased estimate)方法。自变量之间相互独立时,最小二乘估计是唯一具有最小方差的无偏估计。但现实数据获取的自变量不可避免地存在多重共线性关系,使回归系数的估计值异常增大,从而使回归系数估计值的的符号与实际意义相违背 [4] 。主成分估计通过消除自变量之间的复多重共线性,很好地克服了最小二乘估计在处理多重共线性的缺陷。另一有偏估计岭估计 [5] (ridge estimate)通过在病态矩阵中沿主对角线加入正数以增大特征根同样可以处理最小二乘估计设计矩阵的奇异性,但主成分估计法以其接近降维法的实质,更适合解释分析现实数据中各变量的实际意义。

主成分回归法首先将数据经主成分分析,提取若干各不相关的主成分。在保证不存在共线性的情况下,进行最小二乘分析。最后变换回原模型,求出估计参数。即主成分估计通过牺牲无偏性换取方差的大幅减小,最终降低均方差,达到回归估计的最优目的 [6] 。

2.2. 主成分回归模型

1) 数据预处理

设有p个指标变量 x 1 , x 2 , , x p ,它在第i次实验中取值 x i 1 , x i 2 , , x i p ( i = 1 , 2 , , n ) ,写为矩阵形式

X 0 = ( x 11 x 12 x 1 p x 21 x 22 x 2 p x n 1 x n 2 x n p )

由于主成分分析结果受量纲影响,故对于变量 x j 首先应用标准化变换公式

x j = x j x ¯ j s j

进行数据预处理。其中 x ¯ j s j 分别为 X 的第 j 列的均值和标准差。将经过标准化的矩阵 X 0 记为 X

2) 正交化

X T X 的特征值 λ 1 , λ 2 , , λ p 求出对应标准化正交特征向量 η 1 , η 2 , , η p

3) 选取主成分

考虑线性模型

Y = α 0 I + X α + ξ , ξ N ( 0 , σ 2 )

其中 Y = ( Y 1 , Y 2 , , Y n ) T α 0 为未知参数, I 为所有元素均为1的 n 维列向量, α p × 1 未知参数向量, ω n × 1 误差向量。

此时,有

α 0 = Y ¯ = i = 1 n Y i n

对于自变量的任意一个线性组合

z = c 1 x 1 + c 2 x 2 + + c p x p , j = 1 p c j 2 = 1 ,

z 视为一个新的变量。则在第 i 次实验中的取值为

z ( i ) = c 1 x i 1 + c 2 x i 2 + + c p x i p ( i = 1 , 2 , , n )

由于 X 已经标准化,故有

z ¯ = i = 1 n z ( i ) n = 0

w = ( c 1 , c 2 , , c p ) T ,则

M * = 1 n i = 1 n ( z ( i ) z ¯ ) = 1 n ( X w ) T (Xw)

对于变量 Z Ι ,若所对应的 M * 较大,说明该变量作用较显著。反之,则该变量作用较小,不作为主元考虑。根据公式, M * 的最大值

1 n λ Ι , λ Ι = max { λ i | i = 1 , 2 , , p }

w 取对应标准化正交特征向量 η Ι 处取得。

此时,新变量 z 即为

z = x T η Ι

作为当前第1主成分 z 1 。类似地,求得第2主成分 Z 2 、第3主成分 z 3 ……。一般地,所选取主成分的个数 m 是使累计贡献率的和应至少超过75% [7] ,且尽可能地保证变量的精简、全面。

4) 最小二乘估计

x 1 , x 2 , , x p 变换为主成分 z 1 , z 2 , , z p 后,通过最小二乘法求新参数的估计值。最小二乘估计 [8] 是通过拟合误差对回归模型进行的参数估计,即对于

Q ( β 1 , β 2 , , β m ) = i = 1 n ( y i β 1 z 1 β m z m ) 2

要使误差最小,即使 Q 最小,从而取得 β 1 , β 2 , , β m 的估计值,进而变换回原模型。

2.3. 显著性检验

所建立的主成分分析模型,拟合误差要尽可能地小。通常用一些统计检验量对此进行衡量,本模型可采用可决系数

R 2 = 1 ( y y ) 2 ( y y ¯ ) 2

此值越接近1,模型越精确。

3. 中国房地产业经济增长影响因素实证分析

为计算房地产业发展的主导因素 [9] ,自变量的选取应全面、相关且尽可能地不自相关。经考量,本文在以下六个方面各选取一个与房地产业相关性相对较强 [10] 的因素作为模型自变量:

1) 人民生活:城镇居民人均可支配收入(元);

2) 就业和工资:房地产业城镇单位就业人员(万人);

3) 国民经济:城镇居民消费水平(元);

4) 房地产业成本:房地产开发企业土地成交价款(亿元);

5) 能源:能源消费总量(万吨标准煤);

6) 固定资产投资:全社会固定资产投资(亿元)。

因变量为房地产业增加值(亿元) [11] ,数据时间选取2008年~2017年。原始数据见表1

下面建立主成分回归模型。

Table 1. Real estate economic growth related data

表1. 房地产业经济增长相关数据

经数据预处理及正交化,通过MATLAB R2016a编程求得各主成分的贡献率,见表2

Table 2. Principal component contribution rate

表2. 主成分贡献率

第1主成分 z 1 = 0.1756 x 1 + 0.1734 x 2 + 0.1762 x 3 + 0.1498 x 4 + 0.1743 x 5 + 0.1758 x 6 .

分析表格易知,第一主成分 z 1 的贡献率已超过90%.故选取 z 1 作为主成分变量进行进一步计算,得该主成分变量对应回归方程系数为0.4192,进而得到标准化变量的回归方程

y = 0.4192 ( 0.1756 x 1 + 0.1734 x 2 + 0.1762 x 3 + 0.1498 x 4 + 0.1743 x 5 + 0.1758 x 6 )

变换回原始回归变量,最终得到主成分分析模型

Y = 0.31 X 1 + 20.25 X 2 + 0.38 X 3 + 0.74 X 4 + 0.05 X 5 + 0.01 X 6

经检验,该模型的均方误差 R 2 = 0.9953 ,接近1,因而具有较高的显著性。

4. 结果分析

由所得房地产业经济增长的标准化的主成分回归模型可知,对房地产业增加值(亿元)影响由大到小的因素排序分别为:城镇居民消费水平,城镇固定资产投资,城镇居民人均可支配收入,能源消费总量,房地产业城镇单位就业人员,房地产开发企业土地成交价款。其中,城镇居民消费水平对房地产业增加值起主导性作用。该数据不仅反应了房地产行业的繁荣度,也体现了房地产业行业发展的内在动力。同时,城镇固定资产投资体现了房地产业的重要投入,城镇居民人均可支配收入体现了人们对房地产的购买空间,能源消费总量体现对房地产的物质投入,但房地产业城镇单位就业人员,房地产开发企业土地成交价款的系数非常小,可见房地产业增长值与其相关性不大。

5. 结论

主成分回归法通过消除自变量之间的多重共线性,很好地克服了最小二乘估计在处理多重共线性上的缺陷,并以其接近降维法的实质较好地解释了各变量的实际意义。本文建立基于主成分回归法的房地产业模型进行分析,得到影响房地产业增加值的影响因素及其影响程度。经检验,该模型显著性较高,具有很强的现实意义。

基金项目

江苏省大学生创新创业训练计划项目(201810332036Y),国家自然科学基金(11401418)。

NOTES

*通讯作者。

参考文献

[1] 盛松成, 宋红卫. 房地产业对GDP的贡献被低估了多少?[J]. 财新周刊, 2018(21): 32-34.
[2] 陈欣. 我国房地产发展与经济增长的关系[J]. 房地产导刊, 2018(35): 29-30.
[3] 司守奎, 孙兆良. 数学建模算法与应用[M]. 第2版. 北京: 国防工业出版社, 2017: 231-236.
[4] 刘柏森, 刘艳. 基于偏最小二乘回归的城镇居民消费水平影响因素研究[J]. 现代营销, 2018(5): 227-228.
[5] 高月. 基于岭估计的一种新的有偏估计[J]. 数学学习与研究: 教研版, 2018(7): 17-17.
[6] 郭少阳, 郑蝉金, 陈彦垒. 方差分析与回归分析的整合: 虚拟变量与设计矩阵[J]. 统计与决策, 2018, 34(12): 25-28.
[7] 王璐, 包革军, 王雪峰. 主成分分析中的信息损失及其效率估计[J]. 统计与信息论坛, 2003, 18(3): 55-57.
[8] 袁敏, 智丽萍, 高健, 孙江洁. 多重线性回归模型中的最小二乘估计与投影法[J]. 吉林广播电视大学学报, 2018, 202(10): 66-67, 82.
[9] 周晓红. 市场经济下中国房地产业发展规律[J]. 中国房地产业, 2018(15): 38.
[10] 张永岳, 胡金星, 王盛. 中国房地产业快速发展奇迹: 驱动因素与可持续性研究[J]. 华东师范大学学报(哲学社会科学版), 2018, 50(6): 81-91.
[11] 阮连法, 张贤明, 郭文刚. 基于增加值的房地产业核算分析[R]. 杭州: 杭州市科协, 2009: 564-567.