基于多元统计分析的城区经济发展研究——以武汉市为例

doi:10.12677/SA.2020.94065

期刊菜单

基于多元统计分析的城区经济发展研究——以武汉市为例
Research on Urban Economic Development Based on Multivariate Statistical Analysis—Take Wuhan as an Example

DOI: 10.12677/SA.2020.94065, PDF, HTML, XML,
作者: 吴海燕：曲阜师范大学，山东曲阜
关键词: 城区经济发展；多元统计分析；综合评价；Urban Economic Development； Multivariate Statistical Analysis； Comprehensive Evaluation

摘要: 自“中部崛起”计划以来，武汉市的发展一直是国家重点关注对象之一。经过多年发展，武汉市经济总体取得了骄人的成绩，但是各城区经济发展仍存在一定差异。又由于COVID-19的大规模爆发，给武汉市的经济发展带来一定的冲击。有鉴于此，本文对武汉市各城区经济发展进行研究，首先选取恰当的指标变量，并在此基础上客观的比较了基于主成分分析和因子分析得分的武汉市城区经济发展排名，给出综合评价模型。再利用聚类分析和判别分析研究其经济发展结构，并指示出武汉市城区经济发展的现状。最后为武汉市经济发展提供优化措施和建议。

Abstract: Since the “rise of central China” plan, the development of Wuhan city has been one of the key na-tional concerns. After years of development, Wuhan’s economy has made remarkable achievements, but there are still some differences in the economic development of various urban areas. Because of the large-scale outbreak of covid-19, the economic development of Wuhan has been impacted. In view of this, this paper studies the economic development of each urban area in Wuhan. Firstly, it selects appropriate index variables, and then objectively compares the ranking of urban economic development in Wuhan based on the scores of principal component analysis and factor analysis, and gives a comprehensive evaluation model. Then cluster analysis and discriminant analysis are used to study the structure of economic development, and indicate the current situation of economic de-velopment in Wuhan city. Finally, it provides optimization measures and suggestions for the eco-nomic development of Wuhan.

文章引用：吴海燕. 基于多元统计分析的城区经济发展研究——以武汉市为例[J]. 统计学与应用, 2020, 9(4): 615-630. https://doi.org/10.12677/SA.2020.94065

1. 引言

区域经济发展问题是统计学研究的重要领域之一，本文参考了大量的相关文献，发现之前在研究区域经济问题时大多以省份或地级市为研究对象，发现并解决国家宏观经济中的有关问题 [1]，而具体研究地级市管辖的城区经济寥寥无几。2020年是全面建成小康社会的关键一年，城区经济发展地位日趋重要和受瞩目。对市政府而言，若想推动当地经济发展，必须充分了解当地城区经济的发展状况。因此，本文在充分运用有关数据、资料的基础上，结合多种统计软件以及统计分析方法，从不同角度对武汉市城区经济发展指标进行综合分析，对多种方法分析的结果进行综合评价，得出一些合理的结论，从而为制定武汉市城区经济发展的规划提供更客观、全面的参考依据，也可供其他城市制定相关的城区发展策略进行借鉴 [2]。

2. 材料与方法

2.1. 城区经济发展研究变量体系的设立原则

武汉市城区经济发展选取的变量是用于对各城区的经济发展状况进行全面的评价，其变量应能够反映经济发展状况且既相互联系又彼此独立，因此，本文选取变量的基本原则是 [1]：

1) 代表性。对城区经济发展进行评价一定要体现代表性，选取的变量要与经济中能够区分不同城区经济发展水平，并且可以反映问题具有代表性的变量。

2) 可行性。选取指标时，要充分考虑所选取的变量是否适合用来定量分析，以确保分析的可行性和分析结果的客观性。

3) 可获得性。选取变量时要考虑所需数据的来源，在遵循代表性和可行性的基础上，选择容易通过统计年鉴、单位部门等有关途径获得准确数据的变量。

4) 数据正确性。数据最好源自国家或各级政府部门公开出版的报告、发布的统计资料，以确保数据的准确性。

2.2. 武汉市城区经济发展研究变量的选取

在以上选择变量的基础上，本文以2017年武汉市13个城区的经济发展为对象(数据来源于2018年武汉市统计年鉴)，选择了九项能够反映城区经济发展的主要经济指标 [4]。

1) 全社会固定资产投资额：投资额越高，表示用来满足人民生活生产的投资活动越多。

2) 社会消费品零售总额：用来反映一定时期内人民物质文化生活水平的提高情况，是反映社会商品购买力、零售市场规模和经济活跃度的重要指标。

3) 从业人员平均数：指报告期内平均每天拥有的从业人员数，包括全部职工、再就业的离退休人员、个体从业人员等，它是一定时期内全部劳动力资源的实际利用情况的一个反应。

4) 分区生产总值：反应的是国内生产总值在城区范围内一定时期里生产活动的最终成果，从不同的侧面反映某地区的经济规模和经济总量情况。

5) 城镇居民人均可支配收入：反映居民可以用来安排家庭日常生活的全部现金收入，是反映居民收入状况的一个重要指标。

6) 分区公共财政总收入：地区财政参与社会产品分配所取得的收入，是地区政府行使相关职能的财力保障。

7) 主营业务收入：通常指企业的经常性的、主要业务所产生的基本收入，是反映企业盈利能力的一个重要指标。

8) 城镇居民人均消费支出：指城镇居民在购买商品和劳务活动两方面的支出，往往用来衡量居民的消费支出情况。

9) 工业总产值：指以货币形式表现的工业企业在报告期内生产的工业产品总量，是衡量一定时间内工业生产水平和规模状况的重要指标。

为了文中表述方便，以上指标分别用以下记号表示，见表1：

Table 1. Variable list

表1. 变量表

2.3. 城区经济发展研究的方法

本文首先选取9个影响城区经济发展的主要指标，构建了武汉市城区经济发展评价变量体系，借助R、SPSS统计软件，运用主成分分析、因子分析、聚类分析和判别分析对数据进行分析。前两种方法用于对原始数据进行统计分析，并根据分析的结果对各城区经济发展情况进行综合评价和排名，并采用Spearman相关性检验两种结果的等价性。之后运用聚类分析对13个城区进行分类，以便指示出各城区发展的共性和个性。最后引入判别分析法，以检验聚类分析的结果是否合理。

2.3.1. 主成分分析法

① 数学模型

设 $X_{1}, X_{2}, X_{3}, \dots, X_{p}$ 表示P个原始指标，用这p个指标对n个样品进行评价，那么共有np个数据，在实际问题的研究中，通常这p个原始变量会具有不同的量纲，为了消除量纲的影响，进行主成分分析之前，需要将数据进行标准化，设标准化后的变量为 $x_{1}, x_{2}, \dots, x_{p}$ 。

若存在某个线性变换：

${\begin{cases} y_{1} = w_{11} x_{1} + w_{12} x_{2} + \dots + w_{1 p} x_{p} \\ y_{2} = w_{21} x_{1} + w_{22} x_{2} + \dots + w_{2 p} x_{p} \\ ⋮ \\ y_{p} = w_{p 1} x_{1} + w_{p 2} x_{2} + \dots + w_{p p} x_{p} \end{cases}$

此线性变换将p个标准指标变量 $x_{1}, x_{2}, \dots, x p$ ，变成p个新变量，并且该线性变换满足以下三个条件：

1) $y_{i}$ 和 $y_{j}$ 相互独立

2) $var (y_{1}) \geq var (y_{2}) \geq \dots \geq var ( y p )$

3) $w_{i 1}^{2} + w_{i 2}^{2} + \dots w_{i p}^{2} = 1, i = 1, 2, \dots, p$

那么称上述线性变换的式子为p个标准指标变量的主成分分析，其中 $y_{1}, \dots, y_{p}$ 就是由上述线性变换式子所确定的 $x_{1}, x_{2}, \dots, x_{p}$ 的p个主成分，其分析流程图见图1。

Figure 1. PCA model (variable x1-x5 maps the PC1, PC2)

图1. 主成分分析模型(变量x1-x5映射为主成分PC1，PC2)

② 主成分的选取

定义 $α_{k} = \frac{λ_{k}}{\sum_{i = 1}^{p} λ_{i}} (i = 1, 2, \dots, p)$ 为第k个主成分 $y_{k}$ 的方差贡献率

则 $\sum_{i = 1}^{m} α_{i} = \frac{\sum_{i = 1}^{m} λ_{i}}{\sum_{i = 1}^{p} λ_{i}} (m < p)$ 表示前m个主成分的累计方差贡献率

实际意义来确定提取的主成分个数，通常提取主成分的方法有两个：一个是根据主成分的累计贡献率的大小，当其达到一定程度(如85%以上)来确定m，另一个是根据特征值来决定，提取那些绝对值大于1的主成分。

③ 主成分得分

上述线性变换的w_ij成为得分系数，其具体含义为第i个主成分对应在第j个标准指标变量x_j上的得分系数，把每一个样品的p个标准化数值代入上述线性变化式子中计算其结果，可以得到每一个样品的k个主成分得分，进而可以提取各主成分得分计算其综合得分，从而根据综合得分大小可以对各样品进行综合排名，方便第各个样品进行综合评价。

2.3.2. 因子分析

因子分析是通过研究原始变量内部相关的依赖关系出发，分析这些原始变量的基本结构，使得每个变量可以用少数几个不可观测的公因子变量来表述，它属于数据降维的统计方法，可以利用公因子来解释众多变量所代表的主要信息，达到简化数据结构，方便研究的目的，流程图见图2。

Figure 2. Factor analysis

图2. 因子分析

因子分析的数学表达式可概括为为：X = AF + B，即：

${\begin{cases} x_{1} = α_{11} f_{1} + α 12 f_{2} + \dots + α_{1 k} f_{k} + β_{1} \\ x_{2} = α_{12} f_{1} + α_{22} f_{2} + \dots + α_{2 k} f_{k} + β_{2} \\ ⋮ \\ x p = α_{p 1} f_{1} + α_{p 2} f_{2} + \dots + α_{p k} f_{k} + β_{p} \end{cases}$

模型中，向量 $X = (x_{1}, x_{2}, \dots, x_{p})$ 是可观测随机向量，称之为原始观测变量。 $F = (f_{1}, f_{2}, \dots, f_{k})$ 是X的公共因子，他们是均值为0，方差为1的相互独立的不可观测向量，即各因子是相互独立的，公共因子所代表的实际含义必须结合实际问题来界定。其中 $A = (a_{i j})$ 成为因子载荷，它反映第I个变量在第j个因子上的负荷大小，在因子载荷矩阵A中，公共因子的方差贡献率对因子分析结果的解释十分重要。

2.3.3. 聚类分析

聚类分析是依据研究对象的特征，对其进行分类，已达到减少研究对象的数量的目的。聚类分析的思想是将一组数据分到不同的类别，因此，属于同一个类别中的对象有很大的相似性，而不同类别中对象倾向于不相似。分类过程中无需进行事先分类，聚类分析能够从样本数据出发，自动生成不同类别。

2.3.4. 判别分析

判别分析要解决的问题是，在已知历史上用某些方法已经把研究对象分成若干组(亦称类或总体)的情况下，来判定新的观测样品应归属的组别。判别分析是多元数据分析的重要方法之一，通常被解释变量是非数值变量，解释变量是非数值变量。

3. 结果与分析

3.1. 主成分分析

利用R软件将数据进行标准化，并作出相关系数矩阵。所得相关系数矩阵见如下表2：

Table 2. Correlation matrix

表2. 相关系数矩阵

从表2中可以看出九个原始变量指标存在较高的相关性，因此可以采用较少的综合指标进行主成分分析，对各变量中各类信息加以解释 [3]。然后，用R软件进行主成分分析，将数据降维，提取出主要的因素。结果整理如表3、表4，图3：

Table 3. Operation results

表3. 运行结果

Table 4. Load list

表4. 载荷表

Figure 3. Scree plot

图3. 碎石图

由图显示，前三个结果的累计贡献率接近87%，因此可以舍去另外六个主成分，达到降维的目的。由载荷图可以得到各主成分表达式：

$F 1 = 0.201 x_{1} - 0.373 x_{2} + 0.324 x_{3} - 0.387 x_{4} - 0.381 x_{5} - 0.371 x_{6} + 0.353 x_{7} - 0.341 x_{8} + 0.206 x_{9}$ ;

$F 2 = 0.698 x_{1} + 0.153 x_{3} + 0.193 x_{3} + 0.143 x_{4} + 0.193 x_{6} + 0.142 x_{7} - 0.104 x_{8} - 0.600 x_{9}$ ;

$F 3 = 0.114 x_{1} - 0.534 x_{3} - 0.436 x_{5} - 0.482 x_{7} - 0.534 x_{8}$

将原始数据标准化后的变量值 $x_{1}, x_{2}, \dots, x_{9}$ 带入主成分表达式，可以计算出每个城区在经济发展研究中各主成分的得分，充分利用各主成分的方差贡献率，以得到更加准确的综合评价公式 [4]，再以各主成分的加权方差贡献率为权重，得到武汉区经济发展的综合评价公式为：

$Y = (F 1 * 0.5900 + F 2 * 0.1521 + F 3 * 0.1246) / 0.8667$

根据综合得分对各城区经济发展进行排名，见下表5：

Table 5. Scores of principal component and comprehensive ranking

表5. 各主成分得分及综合排名

从表中综合得分排名来看，可以看出各中心城区排名比远郊城区排名靠前，表中不仅给出了综合得分排名，也给出了每一个主成分排名，从中可以发现，第一主成分能最大限度的反映样品间的差异，是影响各城区经济发展排名的最关键因素。

3.2. 因子分析

3.2.1. 利用SPSS进行因子分析

因子分析法是从原始变量的相关矩阵R出发，建立因子模型，将一些具有错综复杂关系的变量综合为少数几个新的不可观测而又彼此独立的综合指标(称为“因子”)，这几个相互无关的因子能够结实原始变量的绝大部分信息，并且相关性较低，基于这种思想，本文用因子分析来研究武汉个城区经济发展情况。

利用SPSS 25进行因子分析(结果见表6、表7、表8、表9、表10、图4)，首先将原始数据标准化，得到标准化矩阵和相关系数矩阵，下表是KMO和Barlett的检验结果，从中可以看出KMO的值为0.611，大于最低标准0.5，表明该数据适合做因子分析。Barlett的球形度检验的显著性水平小于0.01，表明标准化原始变量值的相关系数矩阵间有共同元素存在，适合做因子分析。

Table 6. KMO and Barlett test

表6. KMO和Barlett的检验

Table 7. Common factor variance

表7. 公因子方差

提取方法：主成分分析法。

由表7、表8公因子方差值、总解释方差和图4碎石图可知，前三个因子的累计贡献率已达86.668%，即选取这三个因子作为主因子就可以解释原始变量86.668%的信息，也就是说，通过选择三个因子进行分析，就能充分反应武汉市城区经济发展的综合水平。

Table 8. Total variance interpretation

表8. 总方差解释

提取方法：主成分分析法。

Figure 4. Scree plot

图4. 碎石图

为了更加明确各因子的经济含义，下面对因子载荷矩阵进行正交旋转，使得旋转后的因子载荷值向0和1靠近，得到的正交因子旋转成分矩阵见表9。

Table 9. Rotating component matrix

表9. 旋转成分矩阵

提取方法：主成分分析法；旋转方法：凯撒正态化最大方差法；a. 旋转在5次迭代后已收敛。

通过因子旋转，容易看出旋转之后的三个主因子均有比较典型的代表变量。第一个主因子在指标X8：城镇居民人均消费支出、X5：城镇居民人均可支配收入、X6：公共财政总收入具有较高载荷和解释能力，该类指标主要反映了经济发展的总量以及人民生活水平的状况，故将其命名为综合经济实力因子，第二主因子在X2：社会消费品零售额、X3：从业人员平均人数、X7：主营业务收入上具有较高载荷和解释能力，该指标主要反映地区的收入和劳动力水平，可以将其命名为收入和劳动力水平发展因子。第三主因子在X1：全社会固定资产投资、X9：工业总产值上具有较高载荷和解释能力，该指标主要反映了地区投资规模水平和工业发展水平状况，可以将其命名为投资规模以及工业发展水平因子。

在SPSS中采用主成分方法提取主因子，下面输出因子得分系数矩阵H，见表10：

Table 10. Component score coefficient matrix

表10. 成分得分系数矩阵

提取方法：主成分分析法；旋转方法：凯撒正态化等量最大法；组件得分。

由 $F = H^{'} X - 1 B^{'}$ 计算其因子得分，其中 $F = (F 1, F 2, F 3)$ ，Fi为第i个公因子的得分，以各因子的加权方差贡献率作为权重，最后得到武汉市城区经济发展研究的综合评价公式为：

$Y = (F 1 * 0.59004 + F 2 * 0.15209 + F 3 * 0.12455) / 0.86668$

根据综合得分对经济发展进行排名，得到表11如下：

Table 11. Factor score and comprehensive score

表11. 主因子的得分以及综合得分表

表11中不仅有各城区综合排名，还可以通过主因子得分看出各城区综合经济实力、工业发展水平、投资规模上的排名情况，有利于更好的对十三个城区的经济发展水平进行评价。由表可知，综合因子得分在平均水平之上的城区有7个，依次为青山区、江汉区、江岸区、汉阳区、洪山区、武昌区和东西湖区。

3.2.2. 利用R软件进行因子分析

利用R软件进行因子分析，结果如图5所示：

Figure 5. Factor analysis

图5. 因子分析图

从图5中可以看出，保留三个主成分即可。将所得结果进行统计整理，所得数据如下表12、表13、表14：

Table 12. Output results

表12. 输出结果

Table 13. Output results

表13. 输出结果

Table 14. Output results

表14. 输出结果

fa函数中，第一个参数为数据，第二个参数说明要保留3个主成分，第三个参数为旋转方法，为none，即不进行主成分旋转，第四个参数表示提取公因子的方法为最大似然法。上图表明输出结果与主成分输出结果基本一致，并可看出该数据选取三个主成分解释了原始变量80%的方差。

因子分析的目的不仅是要找出公因子，还要能解释每一个公因子所代表的实际含义，未旋转的因子载荷矩阵可能某一行有多个载荷系数比较大，也有可能某一列有多个载荷系数比较大，这表明公因子可能解释了多个变量的信息，导致该公因子代表性不强，为此，我们可以将初始公因子进行线性组合，也就是进行因子旋转，经过适当变换，解决上述问题 [5]，利用R软件所得结果如表15、表16、表17所示：

Table 15. Output results

表15. 输出结果

Table 16. Output results

表16. 输出结果

Table 17. Output results

表17. 输出结果

由图5可以看出，两个因子的方差比例不变，但在各观测值的载荷上发生了改变。

下图6是利用R软件进行数据可视化的结果：

Figure 6. Data visualization

图6. 数据可视化

3.3. 结果检验

运用SPSS 25对主成分分析和因子分析所得排名进行Spearman相关性检验，结果见下表18：

Table 18. Correlation test

表18. 相关性检验

^**.在0.01级别(双尾)，相关性显著。

由表可知，相关系数为0.896，说明两者之间存在较强的正相关，同时sig值为0，通过显著性检验，因此我们可以认为基于主成分分析和因子分析对武汉市城区经济发展研究的排名结果具有一致性，其综合评价模型公式等价。

3.4. 聚类分析

将所得标准化数据利用R软件按照最短距离法、重心法和Ward法进行聚类分析，得到分类结果(见图7，图8，图9)，运行结果表明三种方法聚类效果高度吻合。

Figure 7. Shortest distance method

图7. 最短距离法

Figure 8. Centroid method

图8. 重心法

Figure 9. Ward method

图9. Ward法

从树状图中可以将城区进行划分类别，以聚类结果来看，武汉市13个城区其城区经济发展结构存在较明显的差异，结合原始数据，具体表现为青山区在主营业务收入、工业总产值、从业人员平均人数上远远高于其他城区，说明青山区工业发展势头很好，汉南区在社会消费品零售额、生产总值、财政总收入上明显低于其他城区，由此可见，汉南区总体经济实力发展较弱，剩下的其他城区发展结构较一致，再细分观察，发现中心城区与中心城区之间有更相似，远郊城区与远郊城区之间也更为相似 [4]。

3.5. 判别分析

将聚类结果分成4类，第一类：青山区，汉南区；第二类，武昌区、江岸区、江汉区；第三类：硚口区、汉阳区、洪山区；第四类：蔡甸区、黄陂区、新洲区、东西湖区、江夏区。下面利用R软件做贝叶斯判别和距离判别(见表19、表20)，检验聚类分析结果的合理性，其中数字1~4表示类别，相同的数字代表同一个类别，结果表明判别分析误判率为0.07，即约93%的对象能被分到正确的类中，判别分析的结果与聚类分析几乎吻合，因此聚类分析是合理的。

Table 19. Distance discrimination results

表19. 距离判别结果

Table 20. Bayes discrimination results

表20. 贝叶斯判别结果

4. 讨论

4.1. 总结

本文在内容上运用了主成分分析、因子分析、聚类分析和判别分析等多种统计方法综合评价武汉市城区经济发展。用主成分分析和因子分子给出综合评价模型，并采用Spearman法对主成分分析和因子分析的结果进行一致性检验。再利用聚类分析研究出武汉市经济结构，并用判别分析检验其分类的合理性，进而分析出了各城区的经济发展状况。

4.2. 政策建议

经过以上研究，从宏观视角上对武汉市城区经济发展有了一个比较全面的了解，可以依据这个结果对武汉市城区经济发展进行更科学的宏观调控，建议可以从下述几个方面加以改善 [6]。

1) 对城区经济较发达地区，合理优化其产业结构，推进城区产业均衡，提高江汉区、江岸区、洪山区、武昌区的工业发展水平，同时应当注重科技创新，在武汉高新技术开发区、武汉光谷等国家级高新技术产业园区的快速发展中，充分利用其科技优势资源，重点培养和发展生物制药、互联网、光缆通讯、精密仪器制造等产业。

2) 对城区经济一般发达地区，逐步缩小城区发展不平衡，全面协调可持续发展。这类城区多为远郊城区，应当充分发挥中心城区经济发展的辐射作用，带动远郊城区的经济发展，引导城区经济逐步走向一体化，因此政府应加快推进工业化进程，把远城区的发展看作是武汉新型工业化和新城镇化的战略支点，同时要促进消费，提高经济活跃度。

3) 打造城区特色，借助城区优势，发展城区重点经济。市政府应当提高对各城区自身发展的条件和可以利用的资源的认识，建立不同城区在不同资源领域、不同技术方向上的竞争优势。如青山区继续推动武钢、武石化升级改造，建设绿色低碳循环发展的一流生态化工园区。武昌区进一步发展东湖生态旅游风景区，力求打造国际知名、国内一流的文化旅游生态风景名胜区等。另外要加大对经济实力较弱的汉南区的资金投入，扶植其优势产业，带动其经济发展。总之各城区应当相互借鉴、取长补短，将自己的优势产业做大做强，更好地促进全市经济稳步快速地发展 [1]。

参考文献

[1]	文乐. 基于多元统计分析的武汉市城区经济发展研究[D]: [硕士学位论文]. 武汉: 华中师范大学, 2016.
[2]	樊长科, 吴雨. 广西各地市区域经济发展水平分析——基于系统繁类法和主成分分析法[J]. 安徽农业科学, 2010, 38(14): 7620-7622.
[3]	杨曼琳. 基于主成分分析法的区域经济活力影响因素[J]. 中国科技信息, 2020(12): 106+108.
[4]	姜天龙, 刘子宜, 单魁贤. 吉林省县域经济社会发展的综合评价及分析——基于主成分分析法[J]. 农村经济与科技, 2014, 25(10): 120-122.
[5]	张小爱. 河北省区域经济的统计分析[J]. 统计与管理, 2018(12): 39-42.
[6]	刘孟轩. 宏观经济背景下统计分析相关问题及其对策研究[J]. 现代交际, 2020(10): 42-43.

为你推荐

友情链接