1. 引言
1.1. 背景及目的
1978年国家为改革开放大局所需提出“大力发展旅游事业”,由此,我国旅游业开始萌芽。到1998年12月,中央经济工作会议把旅游业明确为“国民经济新的增长点”。随后,“假日制度”推出,大众旅游风生水起,旅游市场繁荣兴旺。而2017年,“大力发展全域旅游”成为中央经济工作会议对旅游业定位的重要肯定。
携程发布的《2018上海旅游大数据报告》显示,2017年上海共接待国际旅游入境者873.01万人次,国内旅游者31845.27万人次,2018年同比增长55%。文化和旅游部发布的2018年旅游市场基本情况显示,2018年全年,国内旅游人数55.39亿人次,比上年同期增长10.8%。
在旅游业繁荣发展的情况下,部分旅游景区在法定节假日也出现了客流量激增的情况,大大降低了游客的游玩体验。为了旅游业更长远的发展,同时符合可持续发展战略,对各景区客流量的研究和预测是极其重要的。
上海作为经济领先的大都市,旅游业也发展迅速,但同时也不可避免的出现了景区客流量日益增多的情况。在寒暑假、法定节假日,上海部分景点均出现客流量趋于饱和的现象。由此,本文基于上海市3A及3A级以上景区的客流量数据,分别比较不同日期和不同时间段上海旅游景点客流量差异;分析法定节假日、寒暑假及上海旅游节对上海景点总客流量的影响;对各景点依据客流量进行聚类分析,并建立时间序列模型预测未来的客流量,为上海旅游业的可持续发展提出有效的优化方案。
1.2. 研究方法
本文运用的主要研究方法是:
1) 观察法:通过上海市旅游局官方微信公众号——乐游上海观测各景点每日客流量数据并到各景点进行实地考察。
2) 文献研究法:通过查找与景区客流量、时间序列等相关的文献,获得相关的研究方法及研究经验。
3) 描述性统计分析:绘制节假日和非节假日及不同时间段的客流量折线图,直观形象的对比分析节假日及时间段对客流量的影响。
4) K-means聚类分析:对35个不同的旅游景点的客流量进行分类,分析客流量相似的部分景点。
5) 时间序列建模:建立时间序列ARIMA模型,分析景点客流量在时间上的变化趋势。
1.3. 研究现状
近年来,随着国内旅游业不断发展,如何预测景区客流量成为重要研究问题。目前,国内在客流量预测领域的研究主要集中在城市公共交通而对景区客流量预测的研究较少。对上海旅游客流量的研究调查主要有旅游承载力研究 [1] (2007,汪宇明等)以访谈及问卷调查的方式进行实证分析 [2] (舒锡慧等,2011),上海市旅游景区点客流时空分布特征及成因分析 [3] (刘春济等,2006年)和景点管理可容纳量的实际可操作性,并强调利用政策和制度的强制性来确保对旅游景点的管理工作能顺利进行 [4] (黄筱焯,2005年)。近年来,对旅游客流量的分析已经加入了统计分析方法,主要有基于ARIMA模型的旅游业实证研究 [5] (陈珊等,2017),对年度旅游数据建立ARIMA模型进行预测分析 [6] (刘燕玉等,2016年),运用不用时间维度的景点人数进行时间序列分析 [7] (赵玥,2018年)。本文基于以上研究,对上海市的旅游日度数据进行时间序列分析,建立ARIMA模型并进行预测,试图用模型展示上海市的每日旅游量的变化趋势。
1.4. 数据来源与处理
通过上海市旅游局官方微信公众号——乐游上海统计了2018年3月15日至2018年10月15日上海市87个3A级及以上景区每日10:00和15:00客流量。由于部分园区存在季节性闭园、部分时间段数据缺失的情况,最终筛选了如表1所示的35个数据完整的景区进行研究分析。在此基础上,将所有数据分为节假日和非假日,并将每一天35个景区的数据求和,从宏观及微观数据上分析上海市3A及3A级以上景区的客流量。
2. 景区客流量描述性统计分析
2.1. 不同时间段的景区客流量差异分析
在以下的描述性统计分析中,将已筛选出的35个旅游景点客流量总和作研究对象,建立日客流量折线图。
通过图1和图2两张日客流量折线图可以较为直观地观察到旅游景区每日10:00和15:00客流量存在显著性差异且15:00客流量普遍高于10:00客流量。
对节假日10:00和15:00客流量进行方差齐性检验。如图3所示,其中A代表10:00,B代表15:00。两样本的方差齐性F检验的原假设为“A和B样本的方差相等”,对应的P值 < 0.0001,则拒绝原假设,认为两组观测的方差差异显著,可以证明10:00和15:00景区客流量的确存在显著性差异。
相对于早上,游客更多的会选择下午的时间段到景区游玩,另外,导致下午景区客流量高于上午的原因可能是游客在景区停留的时间较长,所以到下午,景区的客流量会越来越多。
![](Images/Table_Tmp.jpg)
Table 1. Overview of passenger flow in major scenic areas
表1. 各大主要景区客流量概览图
![](//html.hanspub.org/file/15-2580499x9_hanspub.png)
Figure 1. Contrast chart of passenger flow in different periods of holidays
图1. 节假日不同时间段客流量对比图
![](//html.hanspub.org/file/15-2580499x10_hanspub.png)
Figure 2. Contrast chart of passenger flow in different periods of non-holidays
图2. 非节假日不同时间段客流量对比图
![](//html.hanspub.org/file/15-2580499x11_hanspub.png)
Figure 3. Testing the difference of passenger flow between 10:00 and 15:00 in holidays
图3. 节假日10:00和15:00客流量差异性检验
2.2. 节假日与非节假日景区客流量差异分析
从图4所示的2018年3月15日~2018年10月15日的景区客流量时序图可以看出,第一,在清明节、劳动节、儿童节、端午节、中秋节、国庆节等节假日客流量均出现了不同程度高峰。清明节、端午节、中秋节等节假日有其传统意义,更多的倾向于在家中度过,且休息时间都在1~3天,不方便远距离的出行,所以客流量高峰主要有上海市内游客引起。相比普通节假日而言,五一和十一期间的客流量高峰明显突出了很多,这两个假日休息时间长,除去长期居住在上海的游客外,客流量高峰主要由外来游客引起。但是其客流量接近平时的两倍,对于旅游景区来说,人流过大,负担太重,应针对性的进行人流分散和控制。第二,在7月和8月份的暑假期间,客流量整体趋势比非暑假期间高出一截,而9月份后,客流量出现了较为明显的下降,说明在上海的游客中,学生群体也占据了一定比例,学生的放假和开学都能对客流量带来一定程度的影响。
![](//html.hanspub.org/file/15-2580499x12_hanspub.png)
Figure 4. Passenger flow of scenic spots in holiday and non-holiday
图4. 节假日与非节假日景区客流量
2.3. 基于K-Means法对旅游景点聚类分析
K-means聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。
本项目对35个旅游景点每日10:00和15:00客流量进行K-means聚类分析,希望找出相似客流量的旅游景点。
因为变量值变化很大,所以聚类前将数据标准化。如图5和图6显示从一类到四类变化是,组内的平方总和有一个明显的下降趋势,四类之后,下降的速度减弱,说明35个旅游景点较大概率被聚成四类。
将35个旅游聚合成四类,通过图7可以发现上海国际旅游度假区为一类,上海植物园为一类,上海野生动物园与东方绿舟为一类,其余景点为一类。对聚类结果进行猜测,上海国际旅游度假区和上海植物园每日客流量对比其他景区有显著性差异,上海野生动物园与东方绿舟每日的客流量也较多,在第四类的景区中也可以发现上海科技馆与上海动物园分为一类,猜测这两个景点的主要客流量为学生,所以客流量的波动趋势较为相似。
![](//html.hanspub.org/file/15-2580499x13_hanspub.png)
Figure 5. Comparison of the sum of squares in a group and the number of clusters extracted
图5. 组内的平方和和提取的聚类个数的对比
![](//html.hanspub.org/file/15-2580499x14_hanspub.png)
Figure 6. Comparison of the sum of squares in a group and the number of clusters extracted
图6. 组内的平方和和提取的聚类个数的对比
![](//html.hanspub.org/file/15-2580499x15_hanspub.png)
Figure 7. Clustering passenger flow in 35 scenic spots
图7. 对35个旅游景点客流量进行聚类
本文认为此次聚类效果较为不理想的原因在于景点之间的客流量差距过大,几个热门景点客流量一直处于高位而其他景点仍有很大的发展空间。
3. ARIMA模型
3.1. 关于ARIMA模型
ARIMA模型全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出一著名时间序列(Time-series Approach)预测方法,所以又称为Box-Jenkins模型、博克思–詹金斯法。其中ARIMA (p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。
ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。
建立ARIMA模型的基本程序
1) 根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是平稳序列。
2) 对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。
3) 根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。
4) 进行参数估计,检验是否具有统计意义。
5) 进行假设检验,诊断残差序列是否为白噪声。
6) 利用模型预测未来值。
3.2. 建立ARIMA模型
根据聚类分析的结果,分别对四类景区建立ARIMA时间序列模型进行拟合。
3.2.1. 上海国际旅游度假区
从图8中可以看出,从三月到十月的客流量数据波动较大且不平稳,其中三月至八月客流量在40,000左右波动,而九月以后,客流量有明显的下降,在30,000上下波动。对时间序列进行扩展的Dickey-Fuller单位根检验,检验结构结果表明序列不平稳,存在单位根。由此,对序列进行差分处理,差分后的序列明显是平稳的,ADF检验也拒绝了存在单位根的原假设。
![](//html.hanspub.org/file/15-2580499x16_hanspub.png)
Figure 8. Time series map of passenger flow in Shanghai international tourism resort
图8. 上海国际旅游度假区客流量时序图
差分后的自相关函数(ACF)图中,2、3、4阶存在微弱的显著性,7、14、18、21、25、28阶也存在一定的显著性,序列存在一定的周期。
偏自相关(PACF)图中,前2~6阶是较为显著的,14和18阶也有一定的显著性。
推广的自相关函数EACF识别了一个ARIMA (3,1,4)模型。
分别用ARIMA (6,1,4)、ARIMA (3,1,4)以及ARIMA (1,1,1) × (0,1,1),周期为7,对数据进行拟合,根据AIC准则,ARIMA (1,1,1) × (0,1,1)模型是较为合适的。
拟合的模型为:(Xt − 0.5572Xt − 1)(Xt − Xt − 1) = (at + 0.8693at − 1) (at + 0.9014at − 7)
模型检验:如图9所示,模型的残差检验表明残差是白噪声序列,建立的模型是合理的。
模型预测:上海国际旅游度假区两周的客流量预测值如表2所示。
![](Images/Table_Tmp.jpg)
Table 2. Forecast value of passenger flow in Shanghai international tourism resort
表2. 上海国际旅游度假区客流量预测值
从建立的模型中可以得出,上海国际旅游度假区的客流量存在先上升后下降的趋势,上升的周期大约为一周,这也是符合现实情况的,随着周末的到来,出行的人数相对平时会有所上升。另外,客流量在时间上存在自相关性,表现为前一天的客流量对今天的客流量存在影响。
3.2.2. 上海植物园
如图10所示,上海植物园的客流量在三四五月份较高,六月至八月份客流量下降,且比较平稳,波动不大,九月以后又出现了上升趋势。整体上来看,序列是不平稳的,ADF单位根检验的结果也表明序列不平稳,不能直接建立模型,所以对数据进行差分处理。
![](//html.hanspub.org/file/15-2580499x18_hanspub.png)
Figure 10. Time series chart of passenger flow in Shanghai botanical garden
图10. 上海植物园客流量时序图
如图11所示,差分后的数据是平稳的。且可以从差分的图中看出,上海植物园的客流量在3月~6月以及10月的波动性较大,7~9月波动性小,较为稳定。
从自相关函数(ACF)中可以看出,前三阶存在较为明显的显著性,14阶也有一些显著性,但之后没有明显的周期性。
从偏自相关(PACF)图中可以看出,前五阶存在较为明显的显著性。
扩展的自相关函数EACF识别了一个ARIMA (2,1,2)模型。
根据AIC准则,ARIMA (2,1,2)模型较为合适。
拟合的模型:Xt − 1.0628Xt − 1 + 0.5266Xt − 2 = at + 1.4771at − 1 − 0.6242at − 2
模型检验:如图12所示,模型的残差检验表明残差是白噪声序列,建立的模型是合理的。
模型预测:上海植物园两周的客流量预测值如表3所示。
![](Images/Table_Tmp.jpg)
Table 3. Forecast value of passenger flow in Shanghai botanical garden
表3. 上海植物园客流量预测值
根据建立的模型可以得出结论,上海植物园的客流量在时间上的自相关性表现为前两天的客流量数据对今天的客流量存在影响,且前两天的客流量数据的波动也对今天的客流量存在影响。
3.2.3. 上海野生动物园和东方绿洲
如图13所示,上海野生动物园和东方绿舟两个景区的客流量变化确实较为相似,其中,东方绿舟的客流量稍微高一些,选择东方绿舟的客流量建立模型。
![](//html.hanspub.org/file/15-2580499x21_hanspub.png)
Figure 13. Time series diagram of passenger flow in Shanghai wildlife park and oriental green boat
图13. 上海野生动物园和东方绿舟客流量时序图
东方绿舟的客流量除了节假期出现较高的峰值外,处于较为平稳的变动之中,对序列的平稳性进行检验,ADF检验也拒绝了存在单位根的原假设,序列是平稳的,可以直接建立ARIMA模型。
自相关函数(ACF)图中,前两阶是显著的。
偏偏相关函数(PACF)图中第一阶是非常显著的,第二阶也有微弱的显著性。
拟合ARIMA (1,1,2)和ARIMA (2,1,2)模型,对比两个模型的AIC,ARIMA (1,1,2)模型更为显著。
拟合的模型:Xt − 0.4312Xt − 1 = at + 0.6676at − 1 + 0.3004at − 2
模型检验:如图14所示,模型的残差检验表明残差是白噪声序列,建立的模型是合理的。
模型预测:上海野生动物园和东方绿舟两周的客流量预测值如表4所示。
![](Images/Table_Tmp.jpg)
Table 4. Forecast value of passenger flow of Shanghai wildlife park and oriental green boat
表4. 上海野生动物园和东方绿舟客流量预测值
根据模型可以得出结论,上海野生动物园和东方绿舟这一类的景区的客流量波动较为平稳,整体的客流量没有明显的上升趋势,一直在稳定的水平上波动。时间上的自相关性表现为前一天的客流量对今天的客流量存在影响,前两天的客流量的扰动对今天的客流量的扰动存在影响。
3.2.4. 其他类景区
观察其他景区的数据及趋势后,选择趋势较为明显且客流量相对较高的徐家汇源景区建立模型。如图15所示,徐家汇源景区的客流量出现了较多的峰值,但整体上在一个较为平稳的趋势上波动,ADF单位根检验的结果也证明序列是平稳的,可以直接建立ARIMA模型。
从自相关(ACF)图中,序列存在明显的周期性。
偏自相关(PACF)图中,第一阶较为显著。
建立ARIMA (1,0,0) × (0,1,1)模型,周期为7。
拟合的模型:Xt − 0.2528Xt − 1 = Xt + Xt − 7
模型检验:如图16所示,模型的残差检验表明残差是白噪声序列,建立的模型是合理的。
模型预测:其他类景区两周的客流量预测值如表5所示。
![](Images/Table_Tmp.jpg)
Table 5. Forecast value of passenger flow in other scenic spots
表5. 其他类景区客流量预测值
根据模型的拟合结果可以得出结论,徐家汇源等景区的客流量数据波动是较为平稳的,整体上在一个稳定的水平上,节假日会出现一定的波动,但几个月内没有明显的客流量的上升趋势。在时间上的自相关性表现为前一天的客流量对今天的客流量存在影响,且存在周期为7天的影响,即一周以前的客流量数据对今天的客流量数据有一定程度上的影响。
4. 结论与建议
通过上述分析可以得出上海旅游景区每日10:00和15:00客流量存在显著性差异且15:00客流量普遍高于10:00客流量。节假日中五一和十一黄金周景区客流量较平日出现激增,双休日相较于工作日景区客流量有小幅上升,在9月份景区客流量也呈现下降趋势。通过时间序列分析,上海市3A及以上景区客流量在时间上存在相互影响,滞后周期为1。
可以得出,相对于早上,游客更多的会选择下午的时间段到景区游玩,另外,导致下午景区客流量高于上午的原因可能是游客在景区停留的时间较长,所以到下午,景区的客流量会越来越多。同时,景区的客流量并不会因为季节的变化而带来巨大的波动,整体上一年中3月到10月的客流量没有太大变化,景区客流量会出现爆炸的时间主要为五一小长假和十一黄金周期间。
针对以上问题,首先,各景区可以为游客规划合理的游玩路线,避免出现游客聚集现象,同时合理的路线也可以减少游玩时间,可以减轻景区下午时间段客流量较大的问题。其次,各景区可以利用ARIMA模型预测未来的客流量趋势,提前制定出合理的控制方案。另外,针对“五一”小长假和“十一”黄金周期间加强对景区人流的控制,避免出现旅游容量过饱和,降低游客的游玩体验。
同时,通过K-means聚类算法可以得出上海少数几个热门景点如上海国际旅游度假区、上海植物园、上海野生动物园和东方绿舟一直占据了绝大部分客流量,而其他景点客流量依旧处于较低水平,如果上海想要进一步可持续发展旅游业,可以针对其他旅游景点进行特色宣传,促进其他景点的旅游业发展。特别在五一小长假和十一黄金周期间,可以提前加强其他客流量较少景点的宣传,促使客流量分散到不同景区以防止几个热门景点出现客流量饱和的情况。
基于ARIMA时间序列模型可以发现四类景区的客流量存在不同的波动性和自相关性。上海国际旅游度假区的客流量数据在几个月内都存在较大的波动,且波动存在周期性。上海植物园的客流量在3~6月和10月以后较高,波动性也较大,而7~9月的客流量相对较低,波动也较为平稳,时间序列的影响上也不存在明显的周期性。上海野生动物园和东方绿舟的客流量除清明、五一小长假、十一黄金周等会出现明显的高峰,其余时间的波动都较为平稳,没有明显的上升趋势,时间序列上的影响表现为前两天的客流量对当下的客流量存在影响。其他景区在3~5月和10月份的客流量波动较大,其余几个月也有较弱的波动,波动表现出周期性。模型检验的结果表明时间序列模型能够较好的拟合客流量数据,建立的ARIMA模型能够针对不同的景区进行客流量预测分析,在达到饱和点之前及时进行控制。
本文通过描述性统计分析及时间序列建模的方法,图形与模型并存,直观科学地分析了客流量的分布情况并预测了景区客流量的未来趋势。但由于项目时间原因,收集的数据时间线上不够长,且部分景区的客流量数据更新不及时,导致收集的景区数据覆盖不全面。