1. 引言
随着时代的进步,社会和经济的不断发展,我国人均消费水平急速上升,在五花八门的消费模式中更多的人青睐于旅游,如今旅游业已经进入了蓬勃发展时期。旅游业的发展不仅带动了经济的发展,同时对旅游地区的发展也具有重要的战略性意义。但是随着旅游业规模的扩大,旅游人数的激增,人们在外出旅游的同时也遇到了不少阻碍。为了让旅游业得到持续稳定的发展,必须先搞清楚客源现状和未来的客源发展趋势,建立科学的、具有现实意义的旅游人数预测模型。而河北省作为我国地势地貌最齐全的省份,其先天的旅游条件尤为优越,研究河北省旅游业可以为我国旅游事业的发展提供依据。因此研究河北省旅游接待人数的现状和未来发展状况显得更为重要。
目前,对旅游人数进行预测是相关部门和研究人员关注的重点。国外方面,Michael D.G [1] 利用Box-Jenkins方法对夏威夷旅游接待人数进行预测,来证明该方法作为短期预测方法的有效性。Colladon A F [2] 等人对欧洲7个城市旅游论坛的相关数据进行了分析,提出了因子增强的自回归模型来分析旅游相关的大数据,对预测国际机场抵达人数起到了更大的作用。国内方面常用的预测方法有时间序列预测法、回归分析方法和神经网络,此外还有灰色预测法等。如孔朝莉 [3] 利用2011年1月至2018年8月共104个月的海南旅游人数数据建立ARIMA(1,1,1) × (1,1,1)12模型,对2018年9月旅游人数进行预测,相对误差为2.06。徐萍丽 [4] 等在将基于直觉模糊的时间序列模型应用到对杭州宋城主题公园旅游收入的预测上,此外,他们还针对提高预测的精准度这一问题对算法进行了改进研究。杨伟芳 [5] 采用Regress函数对海南省2007年至2011年旅游人数进行回归分析,该方法具有方便快捷和实用性强等特点。张峰 [6] 等人构造了具有较好的准确性和鲁棒性的BP神经网络模型,用来预测国内旅游人数。路相林 [7] 在BP神经网络的基础上,使用经过改良的BP神经网络对我国旅游收入总量和旅游人次数进行了预测,验证了BP神经网络模型在研究旅游收入问题上的适用性。程军锋 [8] 根据2009年至2017年的陇南市游客数据建立GM(1,1)模型对未来六年的旅游人数进行了预测,模型精度较高。余耀峰 [9] 等人为了弥补传统的统计数据不能实时反映旅游需求变化的不足,尝试基于Google趋势数据对中国入境外国游客的数量进行预测,并通过将随机森林(RF)模型应用于此任务,获得了更高的预测精度。
本文研究的主要目的是把时间序列中的残差自回归方法应用到旅游业的人数预测中,通过对历年河北省旅游接待人口总数的分析,找到合适的残差自回归模型,并对河北省未来旅游接待人数的变化趋势进行预测,为相应的管理者提供决策依据,做好下一步管理工作。
2. 河北省旅游业现状
2.1. 市场方面
本文河北省旅游业收入数据均来自2010年至2019年各地的《国民经济和社会发展统计公报》,具体数据如下表1所示。
![](Images/Table_Tmp.jpg)
Table 1. Table of the tourism revenue in Hebei province from 2010 to 2019
表1. 2010~2019年河北省旅游业收入表
根据上表数据绘制2010~2019年河北省旅游收入折线图:
![](//html.hanspub.org/file/6-2621329x10_hanspub.png)
Figure 1. Tourism revenue of Hebei province from 2010 to 2019
图1. 2010~2019年河北省旅游业收入
从图1可知,2010~2019年河北省旅游业收入呈现出持续上升的指数增长趋势。自2014年起增长速度加快,旅游业收入逐渐成为河北省经济发展中不可或缺的一部分。
2.2. 旅游景区方面
通过Python软件,爬取了“去哪儿”网站的共计获取到136个3A级以上景区的相关数据(景区类型、景区名称、景区ID、景区等级、景区门票的月销量、景区热度),本文数据截取时间:2019年12月25日。调用“高德地图”的API来处理经纬度的换算实现河北省旅游景区的可视化,如下图2所示。
![](//html.hanspub.org/file/6-2621329x11_hanspub.png)
Figure 2. Distribution of 3A and above scenic spots in Hebei province
图2. 河北省3A级以上景区分布
由图2可以看出河北省3A级以上的旅游景区大多数集中以秦皇岛市为代表的东部沿海地区和保定市–石家庄市–邯郸市走向的西南部地区。由此可以初步判断石家庄市、秦皇岛市、保定市和邯郸市在河北省内形成了广阔且集中的旅游区域范围,具有绝对的旅游资源优势。
根据景区热度数据,本文把收集到的河北省3A级以上景区分为3个梯度:第1梯度为0.7 ≤ 景区热度 < 0.8、第2梯度为0.8 ≤ 景区热度 < 0.9、第3梯度为0.9 ≤ 景区热度 < 1。并依此绘制河北省3A级以上旅游景区热度图,图上颜色越深的区域反映景区的热度就越高,如图3所示。
![](//html.hanspub.org/file/6-2621329x12_hanspub.png)
Figure 3. Heat analysis of 3A and above scenic spots in Hebei province
图3. 河北省3A级以上景区热度分析
图3所示景区热度较高的城市有:张家口市、承德市、石家庄市、邯郸市,结合河北省3A级以上旅游景区分布图可知:石家庄市、邯郸市本身旅游景区的基数较大所以热度也相对较高。但是旅游出行受季节温度影响较大,本文收集数据时是正值冬季,那么以清凉避暑为营销目的的东部沿海景区的热度就相对较低,而对于打造冰雪运动休闲区为目标的张家口市和承德市正是吸引游客的最佳季节,所以景区的热度较高。
2.3. 机遇与政策方面
(1) 2022年北京冬季奥运会为旅游业发展提供机遇
第24届冬季奥林匹克运动会将在2022年2月4日至2022年2月20日由中华人民共和国首都北京市和河北省张家口市联合举行,这也是中国历史上首次举办冬季奥运会。京津冀地区则以冬奥会为契机,完成交通路网、基础设施的全面升级,将冰雪旅游资源与体育、娱乐、休闲相结合,打造冰雪旅游产业的新兴地区。
(2) 京津冀协同发展战略——河北省雄安新区
为了疏解北京市的非首都功能、优化京津冀的空间格局和功能定位、构建一体化现代交通网络、扩大环境容量和生态空间、推动公共服务共建共享,在京津冀协同发展战略的大环境下,中共中央、国务院于2017年4月1日决定设立河北省雄安新区。而雄安新区的设立必将促进京津冀三地城际间交通更加便捷、旅游资源更加集中、旅游协作更加密切、旅游市场更加融合,对促进京津冀地区旅游业的协同发展和进一步调整和优化河北省旅游产业的布局,都起着至关重要的作用。
(3) 全面建成小康社会,实现第一个百年奋斗目标
在中国实习小康社会这一伟大构想是早在1979年12月6日由改革开放的总设计师邓小平首次提出,2012年党的十八大报告中首次正式提出全面“建成”小康社会,而2020年则是全面建成小康社会目标实现之年,也是全面打赢脱贫攻坚战的收官之年。这些年以来在中国共产党的带领下我国紧密结合新的时代条件和人类社会发展的规律出台了众多相关文件大力推进市场经济,同时带动了我国旅游业发展。
3. 方法介绍
残差自回归模型 [10] (Auto-Regressive)是研究具有显著的确定性趋势序列时,为了防止残差信息的浪费而提出的一种时间序列拟合模型。本文研究的旅游接待人数是具有明显趋势性的非平稳时间序列模型,因此利用残差自回归模型进行拟合。
Auto-Regressive的基本形式:
,其中,
为趋势效应拟合;
为季节效应拟合;
为残差序列。首先检验残差序列
的自相关性,若自相关性不显著(回归模型提取信息充分),分析结束。若自相关性显著(信息没有提取充分)则需对残差序列
进行自回归模型拟合,进一步提取相关的信息 [11]。拟合的模型如下:
(1)
其中
为残差序列
的残差。若
为纯随机序列,则模型构造完成,得到的残差自回归模型如下 [12]:
(2)
4. 数据及平稳性白噪声检验
4.1. 数据来源
本文河北省接待旅游人数数据来自河北省统计局官方网站中《河北经济年鉴》(仅有2019年以前数据),2019年数据来自中商情报网讯。具体数据如下表2所示。
![](Images/Table_Tmp.jpg)
Table 2. Table of the number of tourist receptions in Hebei province from 1990 to 2019
表2. 1990~2019年河北省旅游接待人数表
4.2. 平稳性与白噪声检验
本文将河北省旅游接待人数的年度数据序列简记为X序列。图4是该序列自1990年至2018年的时序图。该图显示出河北省接待旅客人数呈现出不断上升的趋势,尤其是近几年涨幅速度大大加快。
![](//html.hanspub.org/file/6-2621329x24_hanspub.png)
Figure 4. The number of tourist receptions in Hebei province over the years
图4. 河北省历年旅游接待人数
对X序列进行白噪声检验,检验结果如下表3所示:
![](Images/Table_Tmp.jpg)
Table 3. Table of white noise test result
表3. 白噪声检验结果表
检验结果显示,在延迟6阶情况下P值小于0.0001,即X序列为非白噪声序列。
综上所述,可以看出河北省旅游接待人数序列是具有明显的趋势性,但不具备季节性趋势的非平稳非白噪声时间序列。所以该模型实际应为:
。其中对于
的拟合可分为两种方式 [13]:
(1) 自变量为时间t的幂函数,称作因变量关于时间的回归模型。
(2) 自变量为历史观测值,称作延迟因变量回归模型。
下面分别用这两种方式对该序列进行模型拟合。
5. 因变量关于时间的回归模型
由图4可以看出,X序列的趋势并不呈现出线性特征,而是斜率逐渐增大的曲线。因此,本文尝试用
拟合模型。经过比较
回归拟合输出统计量的值进行筛选,本文决定用无趋势项的
拟合模型。下图5为X序列的
模型拟合效果图,表4为X与
的最小二乘法线性回归拟合表。
![](//html.hanspub.org/file/6-2621329x32_hanspub.png)
Figure 5. The X sequence t5 model fitting effect diagram
图5. X序列的t5模型拟合效果图
![](Images/Table_Tmp.jpg)
Table 4. Table of X and t5 least squares linear regression fitting
表4. X与t5的最小二乘法线性回归拟合表
从表4显示的数据可以发现R方的值较高,说明趋势拟合效果较好,但是DW的值为0.7321,证明残差序列
显著正相关,由此可知残差序列中信息未提取充分。应对残差序列拟合自相关模型。
由于模型趋势拟合效果较好,以下仅判定残差部分。如下表5和表6所示,残差自相关图显示出拖尾性,逐步回归消除报告结果显示除了延迟1阶的序列值外,其他延迟阶数均不具有显著的自相关性,因此延迟2~9阶的自相关项被剔除 [14]。确定1阶残差模型为:
(3)
![](Images/Table_Tmp.jpg)
Table 5. Table of residual sequence autocorrelation
表5. 残差序列自相关表
![](Images/Table_Tmp.jpg)
Table 6. Table of stepwise regression elimination report
表6. 逐步回归消除报告表
本文选择最大似然估计法来估计具有相关性的趋势参数和残差序列参数,结果如下表7。
![](Images/Table_Tmp.jpg)
Table 7. Table of maximum likelihood estimation
表7. 最大似然估计拟合表
可以看出整体的R方为0.9977,AIC = 467.313674说明该模型的拟合度较高。DW的值等于1.6894,查表知
,即残差序列
已经不具有相关性。参数的估计值及相应的t检验结果如表8所示。
![](Images/Table_Tmp.jpg)
Table 8. Table of parameter estimate (1)
表8. 参数估计值表(一)
通过表8,可以发现t5和AR1的P值均小于0.0001,均通过了参数检验。因此可以得到最终模型为:
(4)
因变量关于时间的回归模型最终拟合效果如图6所示,其中圆圈为实际值,红色虚线为拟合值,上下两条线为置信区间。
![](//html.hanspub.org/file/6-2621329x38_hanspub.png)
Figure 6. The final model fitting effect
图6. 最终模型拟合效果
6. 延迟因变量回归模型
首先利用SAS中的延迟函数生产序列X的1阶延迟序列,然后建立带有延迟因变量的回归模型:
,并对截距项和延迟一阶系数进行参数估计,参数估计值及t检验结果如下表9所示。
![](Images/Table_Tmp.jpg)
Table 9. Table of parameter estimate (2)
表9. 参数估计值表(二)
在显著性水平0.05的条件下,截距项的P值为0.1374 > 0.05,即不显著,因此使用逐步回归法继续对模型进行拟合,拟合统计量的部分结果如下表10所示。
![](Images/Table_Tmp.jpg)
Table 10. Table of delay dependent regression analysis
表10. 延迟因变量回归分析表
延迟因变量回归分析结果显示总R方为0.9980,AIC = 469.617 822说明本模型的拟合度较高。由于含延迟因变量,所以回归结果输出Durbin h统计量,由上表知Durbin h统计量的数值已达到0.4586,表示残差序列
显著相关性消除,即不需要考虑对
继续拟合自回归模型 [15]。最终的参数估计值及相应的t检验结果如下表11。
![](Images/Table_Tmp.jpg)
Table 11. Table of parameter estimate (3)
表11. 参数估计值表(三)
通过表11,可以发现延迟1阶系数变量b的P值小于0.0001,通过了参数检验。由此可以确定最终拟合模型为:
(5)
延迟因变量回归模型最终拟合效果如图7所示,圆圈线为实际值,红色虚线为拟合值。
7. 模型比较与选择
模型的比较与选择主要是根据误差平方和最小原则和最小信息量准则,两个模型的SSE值和AIC值之前的分析结果已经给出,现整理到表12。
根据误差平方和最小原则和最小信息量准则检验结果显示,因变量关于时间的回归模型的SSE值和AIC值均小于延迟因变量回归模型,说明该模型拟合效果更好。从直观的角度考虑因变量关于时间的回归模型也更容易解释原序列河北省接待旅游人数拥有一个长期的曲线增长趋势的波动规律,所以本文更倾向于选择因变量关于时间的回归模型进行预测。
8. 河北省旅游接待人数预测
由图5可以看出,拟合值与实际值基本重合,模型的拟合效果良好。通过模型预测得到2019年的河北省旅游人数数据为80,200万人,与2019年的实际值78188万人仅仅相差了2.57%,误差较小。所以认为该模型拟合效果较优异。下面对2020年至2021年未来两年的河北省旅游人数进行预测。预测结果如下表13所示。
![](Images/Table_Tmp.jpg)
Table 13. Table of forecast of the number of tourists in Hebei province from 2020 to 2021
表13. 2020~2021年河北省旅游人数预测表
9. 结论
残差自回归模型是一种拟合具有显著的确定性趋势或季节效应的非平稳时间序列方法。它不仅提高了模型的精确度还使结果更切合实际,兼具了时间序列确定性分析和随机性分析的优点。在本文河北省旅游人数的案例中,时间序列呈明显的非线性上升趋势,若仅用一般的时间序列模型进行拟合,残差序列将可能存在自相关性,对信息的提取不够充分,采用残差自回归模型方法大大地降低了拟合误差从而提高了模型的拟合精度。
本文利用残差自回归模型对河北省未来三年的旅游接待人数进行了预测,模型预测效果比较理想。预测结果表明,河北省在未来三年接待的旅游人数将持续上涨,从而河北省旅游业的发展在面临机遇的同时也将承受巨大的压力。旅游人数的增加无疑是河北省经济发展的一个重要增长极。政府和相关旅游管理部门应及时把握机遇大力发展旅游业,为河北省未来的全域旅游发展增加动力的同时也要注意宏观调控,走旅游业的可持续发展道路。
10. 展望
由于2020伊始新冠肺炎疫情的爆发给我国国民经济和社会发展造成了不可避免的负面影响,对旅游行业来说更加是一次重创。上述的研究与结论均是在未考虑新冠肺炎疫情影响的前提下得出,接下来的研究工作将尽可能收集疫情后的旅游业相关数据,争取更及时、准确的分析出此次疫情对河北省旅游业的具体影响。
基金项目
河北省自然科学基金资助项目(项目编号:A2019402043);河北省高等学校科学技术研究资助项目(项目编号:QN2019064,ZD2020130)。
NOTES
*通讯作者。