云南地区生产总值影响因素和回归分析
Influencing Factors and Regres-sion Analysis of GDP in Yunnan Province
DOI: 10.12677/SA.2019.84066, PDF, HTML, XML, 下载: 1,156  浏览: 4,010 
作者: 胡欣欣*:云南财经大学统计与数学学院,云南 昆明
关键词: 生产总值影响因素线性回归模型 GDP Influencing Factors Linear Regression Model
摘要: 本文基于统计年鉴中云南省2007~2016年生产总值和与之相关的数据,运用线性回归方法,建立了用于描述云南省地区生产总值与相关变量之间定量关系的拟合模型,并对模型进行了异方差检验、序列自相关检验和异常点的检验。该模型对于云南省地区生产总值的预测有一定的研究作用。
Abstract: Based on the statistical yearbook of GDP from 2007 to 2016 in Yunnan province and the related data, using linear regression method, this paper sets up the fitting model to describe the relationship between GDP and related variables in Yunnan province. The heteroscedasticity test, sequence autocorrelation test and abnormal point test for the model are also carried out. The results show that this model can be used to predict the gross domestic product of Yunnan province.
文章引用:胡欣欣. 云南地区生产总值影响因素和回归分析[J]. 统计学与应用, 2019, 8(4): 581-588. https://doi.org/10.12677/SA.2019.84066

1. 引言

地区生产总值是指地区生产总值(地区GDP)是指本地区所有常住单位在一定时期内生产活动的最终成果。地区生产总值等于各产业增加值之和。地区生产总值是衡量一个地区发展情况的良好尺度,本文使用线性回归模型对云南省地区生产总值的影响因素进行实证研究,通过变量选择方法,筛选得到了对地区生产总值具有显著影响的因素,并建立了拟合模型,该模型通过了异方差性检验。

2. 数据来源与变量选择

2.1. 数据来源

本数据来源于国家统计局网(http://data.stats.gov.cn/easYquerY.htm?cn=E0103)上公布的2007~2016的相关数据。

2.2. 变量选择

本文的地区生产总值的影响因素的研究主要考察在众多因素中哪些因素对生产总值有显著的影响。此处首先给出自变量的待选变量集。经查阅资料,此处将城镇单位就业人员工资,全社会固定资产投资总额,地方财政一般预算收入和工业增加值、农林牧业增加值以及建筑业增加值引入待选变量集中,此外由于昆明作为春城花都,常年吸引世界各地的游客前来游玩,故将国际旅游外汇收入也引入待选变量集中。综上,此处选取地方财政一般预算收入(亿元)、全社会固定资产投资总额 [1] (亿元)、城镇单位就业人员工资总额(亿元)、工业增加值(亿元)、农林牧业增加值(亿元)、建筑业增加值(亿元)、国际旅游外汇收入(亿元) (为了统一数量级,此处将统计年鉴中的“百万美元”单位换算为“亿元”)为自变量,以地区生产总值(亿元)为响应变量。

3. 建立模型

3.1. 模型估计 [2]

首先,绘制出变量Xi ( i = 0 , , 7 )和Y之间的散点图(见图1),观察解释变量与响应变量之间的关系。通过散点图可以初步发现,解释变量Xi与生产总值Y大致成线性正向影响关系。Y与X之间的pearson相关系数分别为0.9936,0.9798,0.9938,0.9726,0.9968,0.9911,0.9834。

3.2. 用普通最小二乘法(OLS)估计模型 [3]

为了进一步分析解释变量Xi对生产总值Y的影响,本文采用多元线性回归模型对变量之间的关系进行验证。此处建立云南省地区生产总值影响因素分析的七元回归预测模型:

(1) (2) (3) (4) (5) (6) (7)

Figure 1. The scatter plot between the variable Xi ( i = 0 , , 7 ) and Y((1)~(7))

图1. 散点图((1)~(7))

Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 + β 7 X 7 + μ

其中,X1系地方财政一般预算收入(亿元)、X2系全社会固定资产投资总额(亿元)、X3系城镇单位就业人员工资总额(亿元)、X4系工业增加值(亿元)、X5系农林牧业增加值(亿元)、X6系建筑业增加值(亿元)、X7系国际旅游外汇收入(亿元),Y系地区生产总值(亿元)。βi ( i = 0 , , 7 )为各解释变量对应的参数,μ为随机误差项。回归方程的参数估计值及检验结果如表1所示:

Table 1. The result

表1. 检验结果

所得到的模型为

h Y = 592.094 1.004 X 1 0.038 X 2 1.586 X 3 + 1.440 X 4 + 2.272 X 5 + 4.253 X 6 + 16.519 X 7 + μ

线性方程的回归检验的P值为 0.00047 0.5 ,R2为0.999,这意味着在5%的显著性水平下,因变量与自变量之间的线性关系是显著的。而在系数的t检验中,p值最小的是0.155,故在5%显著性水平下所有系数均不显著,即每个解释变量对被解释变量的线性影响均不是显著的 [4] 。这说明模型自变量之间很可能存在多重共线性。T检验中的解释变量都不显著,可能是由于某些自变量对因变量的影响被其他自变量所掩盖。为了检验多重共线性 [5] 的存在,进一步对各变量之间的相关关系进行分析研究,结果如表2所示:

Table 2. System resulting data of standard experiment

表2. 标准试验系统结果数据

由表可以看出,各变量之间的确存在一定的线性关系。对七个自变量采用逐步回归的方法进行变量筛选 [6] ,得到的结果如图2

Figure 2. The result of stepwise

图2. 逐步回归结果

逐步回归 [7] 的结果显示选择的自变量应当为工业增加值(X4),农林牧业增加值(X5),建筑业增加值(X6)。在5%的显著性水平下,他们的P值分别为0.0002、0.0202和0.0000,表明这三个解释变量对模型方程的影响是显著的。

为了进一步确证变量选择结果,此处使用AIC准则 [8] 对一些重点待选模型进行比较。比较结果见表3

Table 3. The model selection

表3. 模型选择

由表可见,AIC准则提供的变量选择的结果与逐步回归法一致,均选择X4,X5和X6

将模型方程进行二次拟合,结果如表4所示

Table 4. The result of refit

表4. 二次拟合结果

故得出模型方程为: h Y = 350.684 + 1.138 X 4 + 1.548 X 5 + 3.594 X 6

3.3. 异方差性检验

a. 残差图分析法 [9]

Figure 3. The residual plot

图3. 残差图

由异方差性检验原理可知,当线性回归模型满足其假设条件时,即模型中不存在明显的异方差性,残差图上的n个数据点的散布应该是随机的,无任何规律。观察图3可得,数据点的分布较为随机,故此模型不存在明显的异方差性。

b. 斯皮尔曼(Spearman)检验 [10]

由MATLAB程序运算可得,P值为0.8810,大于0.5,故模型不存在异方差。

4. 结论

经过上述分析,我们建立了 h Y = 350.684 + 1.138 X 4 + 1.548 X 5 + 3.594 X 6 这样一个方程模型。从这个模型来看,在地方财政一般预算收入、全社会固定资产投资总额、城镇单位就业人员工资总额、工业增加值、农林牧业增加值、建筑业增加值和国际旅游外汇收入这些自变量中,对地区生产总值影响最为显著的是工业增加值、农林牧业增加值和建筑业增加值。工业增加值、农林牧业增加值、建筑业增加值均与地区生产总值成正相关。这说明工业、农业和建筑业对地区生产总值的提高具有积极作用,这与我们的常识了解也是相一致的。欲提高一个地区的生产总值,应大力促进其工农建三方面产业的发展。

参考文献

[1] 陈静. 我国各地区生产总值的影响因素分析及建议[J]. 商, 2015(7): 150-151.
[2] 杨武. 安徽省国内生产总值影响因素的多元回归分析[J]. 南方农机, 2018, 49(5): 11-13.
[3] 李实. 云南省生产总值影响因素实证分析[J]. 中国市场, 2011(31): 105-107.
[4] 朱琳, 陈飞. 云南失业率影响因素分析和回归诊断[J]. 当代经济, 2013(4): 90-91.
[5] 王雪雪. 我国地区生产总值影响因素的实证分析[J]. 时代金融, 2017(15): 18-22.
[6] 单翔翔, 严浩坤. 基于多元回归模型分析我国国内生产总值的影响因素[J]. 时代金融, 2018(9): 238-239.
[7] 吴喜之. 应用回归及分类[M]. 北京: 中国人民大学出版社, 2016: 49-51.
[8] 王燕. 应用时间序列[M]. 北京: 中国人民大学出版社, 2012: 82-83.
[9] 唐年胜, 李会琼. 应用回归分析[M]. 北京: 科学出版社, 2014: 114-115.
[10] 杨林涛. 非参数统计视角下的异方差检验设计及其应用[J]. 数量经济技术经济研究, 2014, 31(11): 118-131.