1. 引言
近几年,中国民用航空业经历了巨大变革,从2012至2016年,仅5年时间,我国民用航空就以年均7个左右的速度增加,线路增速超过50%,横跨海内外362个大都市,民用航空客流量超过5亿,引领中国进入“云端时代”。伴随着一系列国家政策的制定,航空运输作为一种现代的交通方式,在人们的生活中起到了举足轻重的作用 [1] 。
中国的民用航空在持续地探索与实践中,已经获得了令人振奋的成绩,民用航空在国民经济中的地位也变得日益突出,在人口流动,信息交流,区域经济建设,以及交通运输等方面都发挥着不可忽视的作用 [2] 。在我国民用航空业的发展中,旅客运输问题是一个不容忽视的问题,而对旅客运输能力的分析更是一个值得关注的问题。在国外,关于民航旅客数量的研究起步较早,取得的结果也更为丰富,但在国内研究在这一点上却相对缺乏。此外,近年来,国际上正在经受着疫情的考验,我国的民用航空也面临着不小的挑战。因此,无论是从充实学术理论,还是从提升我国的民用航空发展水平的角度来讲,对民用航空客运量以及它的影响因素进行研究都具有十分重要的意义 [3] 。
多年以来,我国的学术界也曾就航空旅客流量进行过相关的研究。李在林利用灰色关联分析法从国内生产总值、最终消费额、铁路客运量、民航航线里程、来华旅游这五个重要因子入手进行研究,得出了GDP对民航旅客的重要程度最高的结论 [4] 。李忠虎和他的团队从国民文化程度入手进行研究,研究表明,高校毕业生数量和民航旅客数量之间存在着明显的正相关关系,皮尔逊相关系数达到0.994,并据此构造了一个具有较强关联度的变量:40年内的滚动累积普通本科和专科毕业生数量,之后通过回归分析,对今后两年内对民航旅客数量进行了预报 [5] 。熊崇俊等人已经发现,当考虑到许多个因子的顺序对于航空旅客数量和旅客周转量的影响时,灰色关联理论可以很好地表达出各个因子的相对比较优势,并且可以将这些因子的作用程度进行定量化 [6] 。根据灰度关联系数表的结果可以发现,对民航客运周转量的影响最大的是外贸总额和人均消费支出。杨浩然、Guillaume Burghouwt等人选用从2007到2013年的数据,对138条铁路和民航存在竞争的线路进行了面板数据分析,计算出在铁路进入市场之后,铁路运行的时间、铁路运行的次数、铁路的费用等因素对于中国民航客流的具体影响 [7] 。他们的研究发现,当高速铁路参与到市场中时,平均可以使飞机的需求量降低27%,也就是说,有27%的民用飞机使用者将会转而使用高速铁路。
在国外,对民用航空客流量的预测以及对其产生的影响进行了大量的研究,比如,Farzin Nourzadeh等利用人工神经网络对2020年伊朗的国际航班旅客数量进行了预测 [8] 。他们利用不同的训练算法,利用11个指标对与伊朗在一些方面状况类似的国家进行分类,然后利用不同的训练算法对这些国家的航班旅客数进行了预测。最终,通过权重平均数和与其它国家在指标内的相似度,对入境伊朗的客流量进行了估算。并且他们在试验误差的基础上,为各个国家选取了相应的训练算法,并得到了一个具有99%准确率的置信区间。Volodymyr Bilotkach等人发现亚洲航空市场已成为世界上增长最快的航空市场,其低价航空公司的数目也是该地区最多的。他们使用根据预定数据计算出的国际航空乘客数量,在亚洲30个主要机场找到了低价位航空公司对国际航空乘客流量的影响 [9] 。研究结果发现,低价航空公司对国际航空客流量有绝对正面的影响,而低价航空公司的网路订票服务也是市场集中度的主要影响因素,说明低价航空公司对亚洲国际航空客流量有很大的贡献。
通过上述对国内外研究现状的阐述可以发现,不管是通过传统的统计方法,还是通过统计算法,在寻求民航客运量的影响因素,以及对民航客运量的预测上,都有很多的研究成果。但是,以上研究选择的自变量较多,若自变量间存在多重共线性关系,将会对研究结果造成不同程度的影响,因此,需要寻找合适的方法,探索各自变量与自变量间的函数关系。本文以1978~1993年间我国民航客运量作为研究对象,选择“国民收入”,“消费总额”,“铁路客运量”,“民航航线里程”,“来中国旅行乘客数”5个指标,运用线性回归,主成分分析,聚类分析等方法,对我国民航客运量的主要影响因素进行分析,并探讨其与其它因素之间的具体函数关系。
2. 研究方法
2.1. 多元回归分析
2.1.1. 多元线性回归模型
用线性回归方法构建预测方程是一种行之有效的方法。其基本过程是:通过实验和调研,对自变量和因变量进行多次观测;然后,确定经验公式的所属类别,建立了相应的数学模型,给出了待估计的参数;在此基础上,对待估计的参数进行了拟合,并进行统计分析。
一般的,我们称
(1)
为多元线性回归模型,其中
,
;
,
是未知参数。
称为常数项或截距,
是自变量,
是因变量,另外本文还要求模型满足Gauss-Markov条件,得到整体线性回归模型为
(2)
2.1.2. 线性关系显著性F检验
线性关系显著性F检验即要检验
。
显然,SST = SSR + SSE,因变量的发散程度可以用总离差SST反映;由回归引起的分散性可以用回归平方和SSR反映,误差变量的分散性则由SSE反映。为此可以选择SSR/SSE为统计量,又由于SSR,SSE独立,且它们与
的商分别服从
和
,因此得到F统计量为
(3)
只需计算F的值,当F的值大于临界值时,拒绝
。
还可以用复相关系数(也称为决定系数)的平方来检验回归模型的线性关系显著性:
(4)
当复相关系数的平方较大时,回归模型的线性关系显著。
2.1.3. 单个自变量显著性t检验
一个好的模型应该是所有自变量都有效的。如果
的系数
为零或绝对值很小,那么
则是无作用的。为此对每个
要检验
(5)
并且若
则SSE与
独立,从而得到t统计量
(6)
当
成立时,统计量
,由
服从自由度为
的t分布知道,如果
绝对值很大,大于临界值时,则应当拒绝
。
2.1.4. 预报
做预报是回归分析的重要目的之一。当
得到后,就有了回归方程
(7)
若再给定自变量变量的值
,就可得到预报值
(8)
求预报值的置信区间的理论介绍较为复杂,因此不过多介绍,这里仅介绍置信区间的计算方法,设自变量的值为
,令
,
,则概率为
的预测区间端点为
(9)
2.1.5. 多重共线性分析
在线性回归模型中,如果自变量(包括常数项)间有一种线性或者接近一种线性的关系,我们将这种关系称为共线性或者多重共线性。共线性可以表示为:一个自变量是其它自变量的线性组合,或者它是其它自变量的线性组合。有三种常见的多重共线诊断方法:条件指数法、方差膨胀因子法、方差比例法。
1) 条件指数法
首先把矩阵
标准化,即做矩阵
,
对角线上元素等于
对角线,矩阵
其余元素为零。
称为标准化的
。
若标准化的若标准化的
有k个逼近于零的特征值,那么,预测因子中存在
个共线性关系。估计多重共线性的经验法则是:
预示自变量间多重共线性较弱;
预示解释变量间存在较强多重共线性;
预示解释变量间存在高度的多重共线性。
2) 方差膨胀因子法
设
为
对其余
个自变量的复相关相关系数(也称为决定系数),那么
就称为方差膨胀因子。
由观测数据对每个解释变量
计算其方差膨胀因子
,用
来估计多重共线性的经验方法是:如果
,则表示第i个解释变量的多重共线性是高度显著的。
3) 方差比例法
对每一个被解释的变量(含常数项),求出每一个主成分在总方差中所占的百分比,称为方差比例。当条件指数较大,并且同时对应的两个以上的方差比例超过50%时,则认为各变量之间有显著相关关系。
2.1.6. 岭回归模型
如果自变量之间有多重共线性关系,那么就可以将那些无关紧要的自变量剔除掉,但是如果有些时候又不愿意将预测因子去掉,那么可用岭回归模型,它的基本原理是:多重共线性使
等于零或近似于零,从而由参数估计公式
造成方差过大,如果改用岭估计
,则可以避免这种情况,其中c是(0, 1)中的某个值,称为岭参数。
2.2. 主成分分析
2.2.1. 主成分分析原理
当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机变量,是很有必要的。主成分分析的数学模型是:对于随机向量
,选一些常数向量
,用
尽可能多反映随机向量
的主要信息。也即
尽量大。但是
的模可以无限增大,从而使
无限变大,这是我们不希望的;于是限定
模的大小,而改变
各分量的比例,使
最大;通常取
的模为1最方便。
设随机向量
二阶矩存在,若常数向量
,在条件
下使
最大,则称
是
的第一主成分或第一主分量。由定义可见,
尽可能多地反映原来p个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含
的信息)。
2.2.2. 主成分回归
在回归分析中,常遇到自变量存在多重共线性问题,即自变量的观测值存在线性相关,或近似线性相关。这时设计矩阵满足
,之前已指出,用公式
估计参数会造成较大方差。选取彼此正交的的主成分,用少量主成分作回归,再将主成分化为原始变量,这样得到的回归方程就不存在较大方差了。
具体来说,主成分回归,是运用主成分分析的方法,从
个自变量中,选择出彼此无关的头q个主成分;在此基础上,以q个主成分为自变量进行回归分析;再保持因变量不变,用这q个主成分作为自变量作回归;最后把所得回归结果作变量代换,转化成原来因变量与原来自变量的关系。
2.3. 聚类分析
本文选用的聚类方法为系统聚类法中的类平均法。系统聚类法的基本思想是首先将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,并求出新类与其他类间的间距;重复进行两个最近类的合并,每次减少一类,直到所有的样本都合并为一个类别。
类平均法有两种定义,本文选用的定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义
和
之间的距离为
(10)
其中
和
分别为类
和
的样品个数,
为
中样品
与
中样品
之间的距离 [10] 。
3. 实证分析
3.1. 假设检验
本文以1978~1993年间我国民航客运量作为因变量,选择“国民收入”,“消费总额”,“铁路客运量”,“民航航线里程”,“来中国旅行乘客数”5个指标作为自变量进行假设检验得到如下结果。
表1给出了方差分析表的上半部分,指出了各种平方和的来源和自由度等,从第5列中可以看出F值为281.65,而第6列则是自由度为5,9的F分布随机变量大于281.65的概率,如果这个概率小于0.0001,那就说明F的值大于0.9999分位点,也就说我国民航客运量与五个之变量之间存在显著的线性关系。
![](Images/Table_Tmp.jpg)
Table 1. Part of the analysis of variance table
表1. 部分方差分析表
从表2中可以看出各变量的参数估计值,标准误,t值等,第6列指出自由度为9时t分布大于这些t值的概率,若概率小于0.05则表示变量的作用显著,概率小于0.01表明变量的作用高度显著,因此可以得出铁路客运量x3,民航航线里程数x4的作用是显著的,来中国旅游人数x5的作用是高度显著的,国民收入x1,消费总额x2和截距的作用是不显著的。但是,在回归模型下,消费总额的数值是负的,这与实际情况不符:消费总额越高,就越有可能选择航空出行;而线性回归公式的系数是负值,意为当消费总额越大时,坐飞机的人越少,说明线性回归公式虽然拟合度较好,但并不符合实际,仍需进一步的回归诊断。
3.2. 线性回归预测
表3中给出了15次预测的参数估计值,其中第2列是因变量观测值,第3列是因变量预报值,第5列和第6列分别是预报值95%置信区间下限和上限。从表中最后一列可以看出观测值和预测值之间存在巨大的差距,最大值达到了−176.524,置信区间上限和下限之间的差距也较大,这也体现了线性回归拟合的方程不符合实际,需要进一步诊断改进。
![](Images/Table_Tmp.jpg)
Table 3. Linear regression prediction table
表3. 线性回归预测表
3.3. 多重共线性检验
从之前的介绍中可知,当方差膨胀因子大于10时,变量便存在高度的多重共线性。从表4中可以看出,国民收入x1,消费额x2,民航航线里程数x4,来华旅游人数x5的方差膨胀因子都大于10,国民收入x1,消费额x2的方差膨胀因子甚至都超过了1000,说明这些变量的共线性是很显著的。
当条件指数较大,并且同时对应的两个以上的方差比例超过50%时,就判定这些变量间存在相关性。而从表5中最后一行可见条件数246.65073远大于30,因而变量之间确实存在高度多重共线性。而246.65073对应的方差比例中国民收入x1为0.99597,消费总额x2为0.99132都远大于50%,因而国民收入x1,消费总额x2是高度相关的,需要利用其他解决这个问题。
![](Images/Table_Tmp.jpg)
Table 4. Parameter estimation table and expansion factor table
表4. 参数估计表和膨胀因子表
![](Images/Table_Tmp.jpg)
Table 5. Conditional index table and variance scale table
表5. 条件指数表和方差比例表
3.4. 岭回归
岭回归方法可以解决上述研究中存在的多重共线性问题,因此选用岭回归方法并探究变量之间更准确的函数关系。
![](//html.hanspub.org/file/26-1701375x103_hanspub.png?20240520093659561)
Figure 1. Diagram of the estimated parameters for ridge regression
图1. 岭回归估计参数图
如图1所示,在岭参数值大于0.02时,曲线都趋于平缓,因此,取岭参数值为0.02。在表6中岭参数栏中,查找其中岭参数值为0.02的两行,即第6行和第7行,第6行给出了VIF的值,第7行给出了参数估计值,从而得出了岭回归方程为
(11)
这时
的系数为正,与实际情况相符,说明岭回归的结果比线性回归的结果更好。
![](Images/Table_Tmp.jpg)
Table 6. Part of the ridge estimate table
表6. 部分岭估计表
3.5. 主成分分析
在表7中,第2列显示了各因子的特征值,在第5列中,前2个特征值在总变差中所占比例为99.3%,说明仅用2个主成分就可以对所有变化进行解释。
![](Images/Table_Tmp.jpg)
Table 7. Eigenvalue table of sample covariance matrix
表7. 样本协差阵的特征值表
从表8可以看出,第一,二主成分分别为:
(12)
(13)
由于第一主成分中铁路客运量x3是较大正数,说明了我国民航客运量减少的主要因素,主要是受到铁路客运量的影响。第二主成分铁路客运量x3的系数为负,而其他变量的系数为正,也反应了各个变量对民航客运量的影响是有差异的。
![](Images/Table_Tmp.jpg)
Table 8. Eigenvector table of sample covariance matrix
表8. 样本协差阵的特征向量表
3.6. 主成分回归
主成分回归同样可以解决多重共线性问题,这是因为,从自变量中选择出来的主成分都是相互正交的,因此,只需要用少量的主成分对其进行回归,再将其转换为原始变量,得出的回归方程的方差便不会很大。通过表9中的最后一行结果可知主成分回归方程为:
(14)
其中消费额x2的系数为正,与实际相符,也说明主成分回归的结果优于线性回归结果。
![](Images/Table_Tmp.jpg)
Table 9. Part of the principal component regression table
表9. 部分主成分回归表
3.7. 聚类回归
![](//html.hanspub.org/file/26-1701375x109_hanspub.png?20240520093659561)
Figure 2. Diagram of the cluster regression pedigree
图2. 聚类回归谱系图
由图2的谱系图可以看出,若把这些变量作为自变量,年份作为因变量进行聚类分析,大致可以分为三类,1978~1983为一类,1984~1988为一类,1989~1993为一类。因此可以得到结论,我国民航的发展是与时间息息相关的,在改革开放以后,我们国家的经济得到了很大的发展,给我国的民航业的发展带来了更好的社会条件。
4. 结论与讨论
本文以1978~1993年间我国民航客运量作为研究对象,选择“国民收入”,“消费总额”,“铁路客运量”,“民航航线里程”,“来中国旅行乘客数”5个指标进行研究。
首先由假设检验的结果得到,铁路客运量,民航航线里程数,来中国旅行乘客数这三个变量对民航客运量有显著性影响,其中民航航线里程与来中国旅行乘客数对我国民航客运量有显著的正向影响,而铁路客运量对我国民航客运量有显著的负向影响,这也与李在林的研究结果相似 [4] 。
但是,在线性回归模型下,消费总额的数值是负的,这与实际情况不符:消费总额越高,就越有可能选择航空出行;而线性回归公式的系数是负值,意为当消费总额越大时,坐飞机的人越少,说明线性回归公式虽然拟合度较好,但并不符合实际,仍需进一步的回归诊断。在李丽华的研究中同样出现了类似的问题,其线性回归模型显示铁路客运量的系数为正,意为当铁路客运量增加时,我国民航客运量也会增加 [1] 。但本文研究显示,铁路客运量的增加是降低我国民航客运量的显著因素,因此李丽华的研究结果同样说明了线性回归模型具有一定的局限性。
于是本文利用多重共线性检验进行回归诊断分析发现,国民收入,消费总额等变量之间都存在严重的多重共线性,而多重共线性的存在影响了线性回归模型的拟合效果,因此需要选择其他的方法拟合回归方程。本文选用的是利用岭回归和主成分回归两种方法进行拟合,结果显示这两种方法拟合得到的回归方程更符合实际情况,优于线性回归方程。
最后,本文利用聚类分析方法进行研究发现,我国民航事业的发展是随着时间阶段飞速变化的,这也与实际情况相符,说明国家的不断发展也是一项重要的影响因素。
与其他研究相比,本文的创新点在于使用了更多的多元统计分析方法研究我国民航客运量与五个指标之间具体的函数关系,并利用岭回归和主成分回归方法避免了线性回归中多重共线性问题带来的影响,同时对三种回归方法进行比较,得到了更准确,更符合实际结果的函数表达式,为之后的研究提供了参考。
基金项目
资助项目:国家自然科学基金(批准号:32000778)。
参考文献