线性回归方法在北京市居民消费水平影响因素分析中的应用
Application of Linear Regression Method in the Analysis of Influencing Factors of Beijing Residents’ Consumption Level
DOI: 10.12677/SA.2023.125135, PDF, HTML, XML, 下载: 253  浏览: 871 
作者: 张 琪, 牟唯嫣, 刘程馨:北京建筑大学理学院,北京
关键词: 线性回归消费水平复共线性Linear Regression Consumption Level Complex Collinearity
摘要: 本文应用线性回归方法探讨北京市居民消费水平的影响因素,通过收集北京市各类数据,建立多元线性回归模型进行分析,识别出对北京市居民消费水平具有显著影响的核心因素。结果表明,北京市居民消费水平与人均可支配收入(元)以及旅游业国内旅游收入(亿元)密切相关。同时,本文收集到了不同时间段内的影响因素的数据进行分析,揭示了北京市近年来的居民消费水平发展趋势。通过本文可以更好地认识到北京市经济发展的未来走向,分析了其相关性和复共线性可以为政府和国家单位提供理论支撑。
Abstract: In this paper, the linear regression method is applied to explore the factors affecting the consumption level of Beijing residents. Through collecting all kinds of data in Beijing, a multiple linear regression model is established for analysis, and the core factors that have a significant impact on the consumption level of Beijing residents are identified. The results show that the consumption level of Beijing residents is closely related to the per capita disposable income (RMB) and the domestic tourism income (RMB 100 million). At the same time, this paper collected the data of influencing factors in different time periods for analysis, revealing the development trend of Beijing residents’ consumption level in recent years. Through this paper, we can better understand the future trend of Beijing’s economic development, and analyze its correlation and complex collinearity, which can provide theoretical support for the government and national units.
文章引用:张琪, 牟唯嫣, 刘程馨. 线性回归方法在北京市居民消费水平影响因素分析中的应用[J]. 统计学与应用, 2023, 12(5): 1313-1323. https://doi.org/10.12677/SA.2023.125135

1. 引言

随着我国经济的发展,人们的消费水平也不断提升,对于国家和政府而言,为了做出更好的决策,需要分析出影响人民的消费水平的因素,北京作为中国的首都和经济中心城市,其居民的消费水平及其相关影响因素一直备受关注。

线性回归是一种广泛应用的数据分析方法,本文通过对北京市居民的消费水平及其影响因素进行详细的实证分析,希望能为政府和国家提供参考和价值,以促进北京市经济的发展。

本文首先介绍了线性回归的理论基础和应用范围,基于收集到的旅游业国内旅游收入(亿元)社会消费品零售总额(亿元)人均可支配收入(元)常住人口(万人)全市各类学校数(个)医疗卫生机构(个)境内道路总里程(公里)居民消费水平(元)一般公共预算收入(亿元)在内的实证数据,我们建立了一个多元线性回归模型,并采用SPSS软件对数据进行处理和回归分析。

2. 变量和原始数据

2.1. 解释各变量

表1,本文选取的自变量有:旅游业国内旅游收入(亿元)社会消费品零售总额(亿元)人均可支配收入(元)常住人口(万人)全市各类学校数(个)医疗卫生机构(个)境内道路总里程(公里)居民消费水平(元)一般公共预算收入(亿元),因变量为北京市居民消费水平(元)。

Table 1. Indicators of independent variables

表1. 自变量指标

2.2. 数据来源

表2,本文选取的数据是2005~2020年十六年内的数据,因变量为北京市居民消费水平(元),自变量为旅游业国内旅游收入(亿元)、社会消费品零售总额(亿元)、人均可支配收入(元)、常住人口(万人)、全市各类学校数(个)、医疗卫生机构(个)、境内道路总里程(公里)、一般公共预算收入(亿元)。数据的来源为《北京统计年鉴2005~2020》。

Table 2. Data of influencing factors of Beijing residents’ consumption level (yuan) from 2005 to 2020

表2. 2005~2020 年北京市居民消费水平(元)影响因素数据

2.3. 标准化处理数据

标准化处理数据(见表3)的优势有;

1) 消除量纲影响:不同量纲单位会带来很多不便,如果一个变量的数值范围很大,另一个变量的数值范围很小,那么这种不同量纲的变量就不能直接参与数据分析和比较。通过标准化让所有变量都处在一个数量级上,增加了计算的准确性,能更好的分析预测结果。

2) 增强稳定性:通过数据的标准化能够增强模型的稳定性,还能降低离群点的影响。如果不进行标准化处理,在有异常值的情况下,模型会受到异常值的干扰,使得运算结果不可靠。

3) 提高效率:数据标准化处理后会大幅提高计算机的运行效率,标准化之后数据都变成了0附近的数值,可以提升算法的收敛速度,从而更快地建模。

4) 方便对比不同变量:标准化处理数据方便后期的评价和比较。

Table 3. Standardized raw data

表3. 标准化原始数据

3. 模型的建立与研究 [1]

含有p − 1个自变量的多元线性回归模型的一般形式为:

y = β 0 + β 1 x 1 + β 2 x 2 + + β p 1 x p 1 + e

本文选取了8个影响因素作为自变量,即本文的线性回归模型为:

y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + β 7 x 7 + β 8 x 8 + e

其中y为——北京市居民消费水平(元), β 0 为常数变量, β 0 , β 1 , β 2 , β 3 , β 4 , β 5 , β 6 , β 7 , β 8 , β 9 为回归系数,x1——旅游业国内旅游收入(亿元),x2——社会消费品零售总额(亿元),x3——人均可支配收入(元),x4——常住人口(万人),x5——全市各类学校数(个),x6——医疗卫生机构(个),x7——境内道路总里程(公里),x8——一般公共预算收入(亿元),e为其他因素产生的不可控的误差。

3.1. 线性模型的数据检验

1) 正态性检验

图1,几乎所有的点都在直线附近,这表明基本符合正态性假设。

2) 独立性检验

德宾–沃森指数(Durbin-Watson Statistic)的取值范围在0到4之间。当德宾–沃森指数的值为2时,表示样本数据不存在自相关性,即样本数据是相互独立的。当德宾–沃森指数小于2时,表明样本数据存在正自相关性;当德宾–沃森指数大于2时,表明样本数据存在负自相关性。德宾–沃森指数值在1.5到2.5之间时,可以认为数据是独立的。见表4可知德宾–沃森指数值为2.465,认为样本间相互独立,数据分析有效。

Figure 1. Results of least squares estimation

图1. 最小二乘估计结果

Table 4. Independence test results

表4. 独立性检验结果

R方是一种模型拟合程度的指标,也是回归模型的拟合优度评估指标。R方取值范围为0到1,数值越接近1,模型的可解释能力就越好,对样本数据的拟合程度越高;反之,值越接近0,则表示模型拟合预测效果越差。

表4中R方为1表示接近1,意味着这个模型能够对因变量(北京市生产总值)有很高的解释。

3) 残差分布检验

图2可以看出,残差图呈现出一种近似随机分布,这些残差可以被认为是服从N(0,1)的一组简单随机样本,最少有95%的点落在[−2, 2]中,才能保证Y与残差e不相关。在残差图中,我们可以发现点都分布在[−2, 2]区域内,且整体呈现随机性,所以我们认为假设 e ~ N ( 0 , σ 2 I ) 基本上是合理的,线性模型可以较好地捕捉了数据变化。

3.2. 线性模型的显著性检验

表5可知线性回归的显著性远小于0.05,故建立线性回归是合理的。也就是说存在至少一个自变量是可以有效拟合因变量的。

Figure 2. Residual distribution

图2. 残差分布

Table 5. Significance test

表5. 显著性检验

3.3. 相关系数矩阵

相关系数矩阵中的每个位置的数值都在−1到1之间,每个位置的元素表示该行和该列元素之间的相关系数;当数值为负时,表示对应的两个变量呈现负相关关系,当数值为正时,表示对应的两个变量呈现正相关关系;当数值为0时,表示对应的两个变量没有线性相关关系,见表6可知大部分的数据都在0.8和0.9附近。

Table 6. Correlation matrix

表6. 相关性矩阵

3.4. 方差膨胀因子(Vif)

方差膨胀因子是检验复共线性的重要参考因素。在线性回归分析中,如果复共线性值较大,说明模型自变量之间存在有较高的相关性。也就是说存在有至少一个自变量间有较高的相关性,而较高的复共线性会严重干扰模型的判断,而我们的标准为:当0 < VIF < 10,不存在多重共线性;当10 ≤ VIF < 100,存在较强的多重共线性;当VIF ≥ 100,存在严重多重共线性。

表7我们可以知道前三个自变量对北京市居民消费水平存在显著影响,但其存在严重的复共线性,由此我们引出以下估计。

Table 7. Least square linear estimation

表7. 最小二乘线性估计

4. 最小二乘估计 [2]

最小二乘估计(Least Square Estimation)是数据分析中一种常见的参数估计方法。它的基本思想是:对于我们所收集数据,构建一个数学模型,使得线性模型的预测值和真实数据之间的误差平方和最小。这个过程就称为“最小二乘法”。

下面介绍最小二乘法的原理和方法:

假如我们有一组收集到数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , , ( x n , y n )

我们希望找到一个函数 f ( x ; θ ) ,其中 θ 是参数向量,使得对于每一个预测值 ( x i , y i ) y i f ( x i ; θ )

同时定义误差 e i 为观测值 y i 与预测值 f ( x i ; θ ) 之间的差,即 e i = y i f ( x i ; θ )

最小二乘法的基本思想就是通过寻找一组参数 θ ,使所有误差的平方和 S ( θ ) = i = 1 n e i 2 最小。也就是说需要解决以下的优化问题:

θ ^ = arg min θ S ( θ ) = arg min θ i = 1 n ( y i f ( x i ; θ ) ) 2

为了解决上述问题,我们可以采取最大似然估计的思想。假设我们的误差 e i 独立同分布且服从正态分布 N ( 0 , σ 2 ) ,则误差平方和 S ( θ ) 的最小化等价于对数似然函数 ln L ( θ ) 的最大化,其中:

ln L ( θ ) = n 2 ln ( 2 π ) n 2 ln ( σ 2 ) 1 2 σ 2 i = 1 n e i 2

最大化似然函数 ln L ( θ ) 可以通过求其梯度为零的算法得到最优参数 θ ^ = ( x T x ) 1 x T y

其中,x是 n × m 的设计矩阵,其中的第i行代表第i个原始数据的各个特征(如 x i 0 = 1 , x i 1 , x i 2 , ),y是 n × 1 的向量,代表各个原始数据的输出值。

在得到最优参数 θ ^ 后,我们可以来预测未来数据观测值。如果我们采集到一个新的样本数据 x n e w ,则其预测输出为 y ^ n e w = f ( x n e w ; θ ^ )

表7可以建立最小二乘模型:

y = 0.302 x 1 0.887 x 2 + 1.386 x 3 + 0.235 x 4 0.032 x 5 0.038 x 6 0.025 x 7 + 0.067 x 8

表7可知前三个自变量对北京市居民消费水平存在显著影响,其余自变量影响不显著,所以我们剔除了显著性大于0.05的自变量。

调整后的普通最小二乘模型为:

y = 0.302 x 1 0.887 x 2 + 1.386 x 3

5. 逐步回归法: [3]

逐步回归法是一种常见的变量选择方法,它适用于在给定的自变量集合中,确定具体有哪些自变量对于因变量的预测有重要影响。逐步回归法的本质是通过逐步添加和减少某些自变量,并通过比较每个步骤生成的模型的性能指标作为模型的选择的依据。

这是逐步回归法的基本步骤:

步骤一:设置一个初始模型

首先建立一个初始的空模型。

步骤二:自变量的选择

对于选择的自变量,通过一定的选取准则(如p值等)进行评估,筛选有显著影响的自变量加入到模型中。

步骤三:逐步添加和删除

每个步骤当中,根据我们所定义的准则,逐步添加和减少某些自变量,本文采取的是步进的方法,其本质是通过前进法(每步只添加一个自变量)或后退法(每步删除一个自变量)筛选变量。

步骤四:模型修正与评估

对于每次增加或删除自变量后拟合出来的模型,通过比较模型的性能指标(R²、AIC/BIC等)选择最优模型。

步骤五:终止准则

我们设定了一个终止准则,当达到终止准则时停止。例如当没有更多自变量可加入或删除时停止筛选。

逐步回归法能帮我们选择出对因变量有重要影响的自变量,建立有较高预测能力的回归模型,通过添加和减少自变量,提高模型的拟合效果,然而逐步回归法也在一些问题,如果有复共线性较高的自变量,会降低模型的稳定性。

表8可以建立逐步回归法模型为

y = 0.196 x 1 0.340 x 2 + 1.167 x 3 0.046 x 5

6. 主成分回归 [4]

主成分回归的本质是将主成分分析与线性回归结合,对于高度相关的自变量的多元回归问题很有优势。

Table 8. Stepwise regression method

表8. 逐步回归法回归

主成分分析(PCA):

首先对自变量进行主成分分析,降低自变量的维数,从而得到较小的主成分个数。

主成分分析的本质是对原始变量重新进行线性组合,对选取的主成分进行分析。

线性回归模型:

其次,主成分作为因变量,利用线性回归建立模型。

对于选定的因变量,使用PCR通过选择适当的主成分个数,构建新的模型。

PCR的步骤如下:

数据标准化:

对原始数据进行标准化处理,保证其均值为0,方差为1。

主成分分析:

对标准化后的自变量进行降维,提取主成分。

主成分选择:

选择解释程度最高的主成分数量。

回归模型建立:

筛选出来的主成分作为因变量,建立线性回归模型。

模型评估:

选择最佳的主成分数目,同时对PCR模型进行评估。

主成分回归的优势是:可以用来解决复共线性问题以及高维数据的回归问题,通过减少或者增加自变量的维度消除共线性,提高了模型的预测效果。

图3显示前两个主成分的特征值接近1以上,说明取前两个主成分(见表9)。

Table 9. Principal component coefficients

表9. 主成分系数

Figure 3. Lithotripsy and principal component coefficients

图3. 碎石图和主成分系数

两个主成分展示:

Z 1 = 0.921 x 1 + 0.986 x 2 + 0.946 x 3 + 0.972 x 4 0.171 x 5 + 0.964 x 6 + 0.863 x 7 + 0.979 x 8 Z 2 = 0.061 x 1 + 0.135 x 2 + 0.306 x 3 0.154 x 4 + 0.973 x 5 0.050 x 6 0.348 x 7 + 0.189 x 8

其中

y = 0.956 Z 1 + 0.279 Z 2

故而,主成分分析法得出的模型为:

y = 0.897 x 1 + 0.980 x 2 + 0.990 x 3 + 0.886 x 4 + 0.108 x 5 + 0.908 x 6 + 0.728 x 7 + 0.989 x 8

7. 分析与结论

经过对北京市居民消费水平以及影响因素的分析,使用最小二乘回归模型和逐步回归法得出了旅游业国内旅游收入与人均可支配收入对北京市居民消费水平存在显著正相关性的结论,且与人均可支配收入显著正相关,这与常识相吻合,但社会消费品零售总额与北京市居民消费水平呈负相关,与尝识不相吻合,我认为是本文中建模不够准确,所使用的数据量较小造成的失误,还可以进一步改善。

我们发现最小二乘线性运算简单,但其回归拥有较高的复共线性以及有多余的弱相关的自变量,逐步回归法选取了高相关的自变量,但仍然有着一定的复共线性,综合三个模型我们发现,人均可支配收入与旅游业旅游国内收入出现在所有模型当中,故我们可以认为人均可支配收入、旅游业国内旅游收入与北京市居民消费水平呈正相关。

旅游业国内旅游收入与北京市居民的消费水平呈正相关。我们知道北京市的旅游业非常发达,有完善的旅游配套设施,吸引了很多的人选择在北京市进行旅游和观光,如果政府可以大力继续发展北京市的旅游业,相信会推动北京市居民的消费水平提升。

人均可支配收入与居民消费水平呈现显著正相关。人均可支配收入是比较家庭经济能力的重要指标,

会直接影响居民的消费水平。人均可支配收入越高,居民的消费水平也会提升,人均可支配收入越低,居民的消费水平也会降低,因此,如果政府可以提升人均可支配收入也会导致北京市居民的消费水平提升。

综上所述,旅游业国内旅游收入和人均可支配收入对北京市居民的消费水平都有积极的影响,从而影响提高北京市居民消费水平,这一结论对于了解北京市居民的消费行为具有重要意义。

参考文献

[1] 王燕, 戴力辉, 曹晓婧. 失能老年人护理模式需求影响因素的多层线性模型研究[J]. 卫生软科学, 2023, 37(4): 44-47.
[2] 张欣, 赵俊龙. 高维线性模型的影响点诊断[J]. 北京师范大学学报(自然科学版), 2023, 59(2): 313-318.
[3] 席宇飞, 康玫, 杨英, 等. 基于逐步回归方法的心外科住院抗菌药物用药指标趋势预测模型研究[J]. 实用药物与临床, 2021, 24(9): 804-808.
[4] 梁钰梅, 李可, 林籽汐, 等. 基于主成分分析法的9个品种蓝莓品质评价[J/OL]. 食品工业科技: 1-16. https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C45S0n9fL2suRadTyEVl2pW9UrhTDCdPD6 5GWj5UxcG6fj7Gt0y4dSExRqk-zhDE77GtkmJf5fmBfu RPULX8aOuQ&un iplatform=NZKPT, 2023-09-18.