1. 引言
自2020年初新冠疫情爆发以来,世界各国无一能独善其身,幸免于难,民众生活发生了翻天覆地的变化,全球的经济情况也因各国疫情走势和所采取的措施不同呈现差异化 [1]。习近平总书记自党的十九届五中全会起,多次在重大场合中提出,“要推动形成以国内大循环为主体、国内国际双循环相互促进的新发展格局”。从近两年中国经济的实际情况来看,中国经济在疫情之后的总基调是“重挫后的强劲反弹”,折射出新发展格局的重要性、关键性和正确性。从全球来看,中国是真正支撑起疫情期间和后疫情时代世界供需的“脊梁” [2]。当前,以出口为导向的经济模式已无法继续运行,中国的经济发展模式必然要转向以国内大循环为主题、国内国际双循环相互促进的新发展格局 [3]。
在这一关键时期,预测未来短期的进出口价值将对国家制定政策、企业规划生产计划都具有十分重要的意义。路红艳 [4] 等人认为在当今新形势下,要构建新发展格局,就要充分利用外资。可以利用外资补齐发展短板,释放内需潜力,使得国内大循环充分畅通,同时可以利用外资推动贸易创新发展和“走出去”,以构建互利共赢的国内国际双循环新发展格局。魏云捷 [5] 等人从中国经济增长、国际需求、中美经贸摩擦和国际疫情状况四个方面出发,建立了基于计量经济模型、人工智能方法和系统分析方法的预测模型,提出了分解集成预测模型体系,对中国2021年进出口增长趋势进行了预测。穆明辉 [6] 以双循环的视角,研究进出口贸易外循环对中国居民消费内循环结构优化的影响机制,并检验了产业结构在进出口贸易发展对我国居民消费结构影响中的中介效应。陈蔚 [7] 等人使用自回归移动平均(ARIMA)和人工BP神经网络方法对我国进口、出口贸易额时间序列进行了线性与非线性信息挖掘。Sun,Y等人 [8] 提出了一种新的层次模型来预测中国对外贸易。首先,从贸易伙伴和贸易产品的角度对外贸数据进行分类,形成两个独立的层次模型,以进出口总额为目标变量。其次,采用自下而上的策略。所有底部时间序列都根据交易理论由相应的控制变量建模。
仅用一个模型对数据进行预测的效果往往没有利用多个模型的预测效果好,Manowska,A [9] 通过将ARIMA与LSTM人工神经网络相结合,构建了一个混合模型,并对波兰未来的天然气储量进行预测。Zhou,LD [10] 设计了Prophet-SVR混合模型和Prophet-LSTM混合模型,以优化Prophet模型的预测精度。结果表明,Prophet-LSTM混合模型具有最佳性能,其预测精度高于单一模型,在预测或空气质量指数方面具有明显优势。Matskul,V [11] 模拟和预测2005年至2019年期间乌克兰与欧盟之间贸易差额的月度动态。并利用自动神经网络、加法模型ARIMA*ARIMAS和Holts三种模型,获得了乌克兰–欧盟贸易平衡动态的适当模型,并根据该模型进行了预测。Satrio,C [12] 利用机器学习模型来预测印度尼西亚的疾病趋势,为了找出何时恢复正常的近似时间,使用了Prophet预测模型和ARIMA预测模型来比较它们的性能和准确性。Ning,Y [13] 提出了一种基于机器学习的时间序列预测方法,该方法将现有数据视为时间序列,并提取历史数据的显著特征来预测未来时间序列的值,研究并比较了ARIMA、LSTM网络和Prophet三种模型,以解决传统生产预测的局限性。综上,目前对进出口贸易的预测模型较为单一,少有混合模型的提出,未考虑将多个模型进行融合的情况。
为了取得更好的预测效果,本文提出了一种进出口额预测分析的PLA融合模型,其余部分主要内容如下:第二节主要介绍了数据的来源并对数据进行描述性统计分析;第三节对PLA模型的构建进行了简要解释;第四节对多个模型的预测结果进行对比分析,并给出了PLA模型对未来一年的进出口商品预测值;最后一节给出结论。
2. 数据来源与描述性统计分析
本文在对进出口额进行分析时,使用了Csmar中的“中国进出口商品分类总额月度统计文件”,以2011年1月至2022年3月的数据为支撑,获得依据中华人民共和国海关进出口税则归类的二十二个商品大类135个月的月总出口额、进口额等指标共计16,220条的原始数据,详细二十二个商品大类可以参照由国务院关税税则委员会所发布的《中华人民共和国进出口税则(2021)》附件。
在确定研究对象后,本文对初始表单进行了优化筛取,以二十二个商品大类为变量,并假定它们之间独立,以月出口额、进口额为指标对原始数据进行分类。进出口总值整体呈现出周期性变化,进口总值的周期性不如出口总值的周期性趋势明显,但还是同出口总值趋势具有相似性。每年的最低点都出现在第一季度,峰值出现在第四季度,主要是由于第一季度正值春节期间,人们精力被分散于购物、外出旅游等休闲活动,且春节期间大部分企业都会停产停工,这会导致生产率的普遍降低,进而导致出口额的降低;第四季度正值年末,许多公司在年底都会冲击业绩,为新一年开个好头,做好铺垫,加大工厂运作,进而导致出口额的增加。
3. PLA融合模型的构建与模型评价准则
3.1. PLA融合模型的构建
3.1.1. Prophet模型
Prophet模型是由趋势项(trend)、季节项(seasonality)、假期项(holidays)等因素所组成的一个可分解的时间序列模型 [14],其表达式如下所示。
(1)
(2)
(3)
(4)
式中,g(t)代表的是趋势部分,也就是模型中非周期性的影响;r表示增长率;δ、y表示适应度;a(t)表示t时刻前突变点发生变化的次数;d表示偏移量。s(t)代表的是周期性变化,在本文中主要指的是每年的季节性变化的值;N表示模型中使用该周期的个数;T表示期望时间序列的周期长度;2n表示拟合季节性需要估计的参数个数。h(t)代表的是假期等不规律时间所造成的影响,在此主要是受春节影响较大;z(t)为指示函数;k表示节假日的影响范围。
为误差项,在此指代除了前三种的其它影响因素,如疫情因素、政策因素等,且假定它服从于正态分布。从模型表达式中可以看出,此模型对季节性因素敏感,对节假日的影响也进行了刻画。
3.1.2. LSTM模型
进出口金额数据是具有强时序性的数据,可以使用LSTM对其进行建模分析 [15]。定义LSTM神经网络结构层与层、细胞与细胞间的传递关系,构建基于LSTM的进出口金额预测模型 [16],具体流程如图1所示。
![](//html.hanspub.org/file/49-2622868x13_hanspub.png?20140117000735212)
Figure 1. LSTM model construction process
图1. LSTM模型构建流程
所涉及到的公式如下所示,利用LSTM模型对数据进行训练,最终得到对进出口商品额的预测值。
输入门
(5)
遗忘门
(6)
(7)
输出门
(8)
长记忆
(9)
短记忆
(10)
其中,f为门的激活函数,g为Cell输入的激活函数,h为Cell输出的激活函数。
3.1.3. ARIMA模型
求和自回归移动平均(auto regressive integrated moving average)模型,简称为模型,模型结构如公式(11)所示:
(11)
通常的时间序列是不平稳的,但是经过差分运算后非平稳序列会显示出平稳序列的性质,这时就可以使用ARMA模型来进行拟合和预测 [17]。ARIMA就是在ARMA模型的基础上提出来适用于大多数时间序列数据拟合和预测的模型。本文主要运用了ARIMA加法模型:
(12)
其中,是季节效应,是长期趋势效应,是随机波动。
3.1.4. PLA融合模型
结合Prophet、LSTM以及ARIMA三种模型的自身优劣势,本文在此提出一个PLA新模型,对以上三种预测模型施以不同的权重,使三种模型各抒其长,以达到对进出口值更为理想的预测效果,其原理如下所示,选取三个合适的权重使得加权相对误差率为最小值。
(13)
(14)
(15)
(16)
其中,代表预测值,代表真实值,为各模型的相应权重,为各模型的相对误差率,T为测试集上的区间长度。
3.2. 模型评价准则
为了更好地评价模型的预测精确度,本文选用Relative Error (相对误差)来评价预测结果,其表达式如式(17)所示,在本文中,相对误差率由各模型的进出口预测值y(t)与进出口真实值z(t)的绝对值之差,除以进出口真实值所得的百分比表示,进而计算出各大类2021年4月至2022年3月共12个月的相对误差率,并以此为基础对模型的好坏进行评价。
(17)
4. PLA融合模型的构建与模型评价准则
4.1. Prophet模型训练结果分析
选取2011年1月至2021年3月的数据作为训练集,2021年4月至2022年3月的数据作测试集,训练集和测试集的比例为10.25比1,利用Python中的Prophet包对数据进行拟合预测,并以出口总值为例展示训练效果,如图2所示,横轴代表时间,纵轴代表值的大小。整体来说本文所采用的Prophet模型训练出了进出口总值的周期性以及上升趋势,所得的预测数据曲线与真实数据曲线具有良好的相似性。
![](//html.hanspub.org/file/49-2622868x27_hanspub.png?20140117000735212)
Figure 2. Export gross training results
图2. 出口总值训练结果
出口总值和进口总值的平均相对误差率分别为16.53%、13.70%,对进口总值的预测整体来说优于出口总值,其主要原因是出口总值的趋势波动大于进口总值,特别是在出口总值中存在着更多的异常点,这对预测模型是不小的挑战,但此模型还是学习到了其余正常数据的波动特征,取得了比较好的预测结果。
4.2. LSTM模型训练结果分析
运用LSTM模型对测试集进行预测,在此以第一类商品为例展示其进口训练结果,如图3所示。图中圆形线条代表预测值,三角形线条代表真实值,横轴为测试集上的时间刻度,纵轴为预测值的大小。可以看到模型的拟合效果不尽人意,对第一类商品进出口额的预测相对误差率分别为47.75%、20.37%,进口模型的拟合效果不如出口额模型的拟合效果好,初步分析可能是因为进口额序列数据的周期性不如进口额序列数据明显,波动不具有很明显的规律性,这对于LSTM模型来说,预测变得较为困难。
4.3. ARIMA模型训练结果分析
利用R语言中的ARIMA包对测试集数据进行预测,本文以第一类商品出口值为例展示利用其预测效果,如图4所示,黑色线条代表真实值,蓝色线条代表对测试集的预测和训练集的拟合,横轴为时间,共计135个月,纵轴代表相应的真实值或预测值。从图中可以看出模型较好的提取到了数据特征,对第一类商品进出口额的预测相对误差率分别为5.72%、7.49%,并给出了预测值的区间估计。
4.4. 可叠加的PLA模型训练结果分析
利用PLA模型对进出口商品在2021年4月至2022年3月的预测相对误差率如表1所示,进出口额相对误差率分别为10.69%、15.13%,从表中可以看到,PLA模型对绝大多数大类的商品进出口数据趋势有着较强的学习能力,具体优化程度如表2所示。
![](//html.hanspub.org/file/49-2622868x28_hanspub.png?20140117000735212)
Figure 3. The training results of the import value of the first category of goods
图3. 第一类商品进口值训练结果
![](//html.hanspub.org/file/49-2622868x29_hanspub.png?20140117000735212)
Figure 4. Predicting the effect of the export value of the first category of goods on the test set
图4. 第一类商品出口值在测试集上预测效果
![](Images/Table_Tmp.jpg)
Table 1. System resulting data of standard experiment
表1. 标准试验系统结果数据
4.5. 模型性能对比分析
各模型对二十二类商品进出口额预测的平均相对误差率如表2所示,其中等权重加权数据是指Prophet、LSTM、ARIMA三个模型的权重均为三分之一时的平均相对误差率,可以看到PLA模型对各模型的预测效果都有着不同程度的优化,尤其是对进口商品的预测取得了较好的优化效果。
各模型对二十二类商品进出口额预测的相对误差率如图5、图6所示,蓝色柱条为PLA模型预测的相对误差率,从图中可以看到PLA模型对每个商品类别的预测结果都有了不同程度的优化,达到了比较理想的预测效果,因此,本文选用PLA模型来预测我国未来一年的进出口额是合理的。
![](Images/Table_Tmp.jpg)
Table 2. System resulting data of standard experiment
表2. 标准试验系统结果数据
![](//html.hanspub.org/file/49-2622868x30_hanspub.png?20140117000735212)
Figure 5. The relative error rate of each model in predicting export commodities
图5. 各模型预测出口商品的相对误差率
![](//html.hanspub.org/file/49-2622868x31_hanspub.png?20140117000735212)
Figure 6. The relative error rate of each model in predicting imported goods
图6. 各模型预测进口商品的相对误差率
使用优化后的PLA模型对2022年4月至2023年3月的进出口总值进行预测,所得结果如图7所示,图中圆形线条和三角形线条分别为进出口值的真实值,实线部分代表在测试集上的拟合情况,虚线部分为对未来一年的预测情况。从PLA模型预测的进出口总值来看,2023年进出口总值将在2022年进出口总值的基础上略增,而且波动较2022年减小。
在近一年的预测中,进出口预测模型的预测值全都低于真实值,究其原因,从之前的走势来看,本文所采用的预测模型已经识别到了整体是稳中有升的趋势,且其上升趋势也明显高于2021年相较于2020年的幅度,但由于在2021年中国疫情防控取得阶段性胜利,无论是进口还是出口总值都有大幅度的提升,此原因是突发的、难以预测的,导致了模型虽预测到了上升趋势,但不能完全拟合到该特征。
综合来看二者都在2022年的1月份左右出现了模型预测最差的情况,如二中所提观点,进出口总值总是在每年的第一季度取得一年的最低值,而2021年,正是我国实现“两个一百年”奋斗目标的第一个一百年,全面建设小康社会是每个中国人民的内心期许,实现伟大复兴的中国梦是每个中华儿女的迫切希望,在灾难面前,中国人民总能众志成城,国家想要加快构建新发展格局的速度,作为“双循环”的重要一环——对外贸易,是无法忽视的存在,这必然会导致进出口总值的提高,打破原有趋势,导致了预测值低于真实值的情况。
![](//html.hanspub.org/file/49-2622868x32_hanspub.png?20140117000735212)
Figure 7. Prediction and fitting of PLA model to total import and export value
图7. PLA模型对进出口总值的预测与拟合
5. 结论
5.1. 历史数据分析
进出口总值整体呈现出周期性变化,每年的最低点都出现在第一季度,峰值出现在第四季度,这主要是由于春节及生产规划原因导致的。出口总值近十一年来的最低点出现在2020年的2月,其原因有两个,一个是春节影响,另一个是新冠肺炎疫情爆发的影响,两者的共同影响导致了出口总值的大幅度下降。而疫情的爆发对于国外的影响没有国内大,所以进口总值没有出现较大异常。但疫情这种突发事件对我国进出口所产生的负面冲击总归是短期的,长期来看并不会影响我国对外贸易发展的基本态势,从2020年的第二季度起,我国的对外贸易趋势就呈现出了稳中有升的态势,较2019年同期增长38%。
5.2. 未来数据分析
以本文提出的PLA模型对二十二类进出口值进行了拟合与预测,利用PLA模型对各大类进出口商品拟合的平均相对误差率分别为15.13%、10.69%,说明本文所提出的PLA模型对外进出口贸易有一定的预测价值。从PLA模型预测的进出口总值来看,2023年进出口总值将在2022年进出口总值的基础上略增,而且波动较2022年减小。
基金项目
国家自然科学基金资助项目(71901078)。
NOTES
*通讯作者。