1. 引言
近些年来,随着经济的发展,我国电子商务发展也逐渐突飞猛进。十三五时期,我国电子商务已经取得了瞩目的成就,在政府工作报告中,总理也多次提出电子商务在疫情中发挥的重要作用,在十四五时期,要求继续推动线上线下融合,促进电子商务继续更快更高的发展。店铺、平台、物流、用户作为一个完整的闭环,每一条都需要各司其职,才能使得电子商务发展的更好。因此对于商家来说能够利用合适准确的模型来对店铺交易额进行分析和预测,观测店铺交易额会有着怎样的变化趋势,对调整价格以及营销策略有着非常重要的关系。
店铺交易额数据为时间序列数据,可以采用时间序列模型进行预测,ARIMA模型 [1] [2] [3] [4] 和GM (1, 1) [5] 是应用比较广泛的模型,并且有着较好的预测精度。ARIMA模型具有适用于各种不同时序数据特点的灵活性。它可以通过调整自回归(AR)部分的阶数p、差分(I)的阶数d和移动平均(MA)部分的阶数q来适应不同的数据特性;同时它具体非平稳数据处理能力,对于许多实际中的非平稳时间序列数据,它可以通过差分过程将非平稳序列转化为平稳序列,从而使得模型能够适用于更广泛的数据类型。而GM (1, 1)模型具有处理不完全信息的能力,同时它所需数据量少,能够对商品的销售预测进行趋势分析。因为ARIMA模型和GM (1, 1)模型具有以上的优点及预测时序数据的优越性,所以本文选择这两个模型进行分析预测。首先对某店铺2017年6月~2022年6月每3个月即21个时间段的数据进行模型的建立,然后对模型进行检验,最后利用建立好的预测模型预测后面4个时间段的数据,能够使商家通过观测交易额的发展变化,对店铺调整营销策略做出合理决策,这对电子商务发展具有很强的现实意义。
2. 模型建立步骤
2.1. ARIMA模型建模步骤
建立ARIMA模型 [5] [6] 的步骤如下图1所示:
Figure 1. Modeling flow chart of ARIMA model
图1. ARIMA模型的建模步骤
2.2. 灰色预测模型建模步骤
灰色预测GM (1, 1)模型的建模过程是将最初的即原始无规律的数据进行某种运算过程得到1-AGO序列,目的是减少数据的波动,生成规律性比较强的数列后进行建模,进而运用建立的模型进行数据预测,最后逆向思维递减还原成原始序列 [7] [8] [9] 。
假设原始序列:
,
1-AGO序列:
,
其中
。
将序列
和
进行准光滑性检验,若满足检验
,
准指数规律检验:
,
及级比检验:
,则
具有指数增长规律。
灰色微分方程为:
,另外,a表示发展灰数,b表示内生控制灰数,
是紧邻均值,即
。
的白化微分方程为:
,用最小二乘法拟合得到:
,其中
,
。
B为构造矩阵:
。
微分方程所对应的事件响应函数为:
,对式子递减还原,可以得到原始序列的灰色预测模型:
。
模型的相关检验方法:
① 残差检验:
最初数据序列的残差列:
,
相对模拟误差:
,即相对残差绝对值的百分数形式,
模型的精度计算:
,检验标准为p大于90%则所建立的模型是合格的,可以用来进行预测的。
② 后验差检验:
原始数据列的标准差:
,其中
是原始数据列
的均值,
残差序列的均值:
,
残差序列的标准差:
,
后验差比值:
,
小误差概率:
。
检验的相关评判标准如下表1:
Table 1. Grey evaluation criteria table
表1. 灰色评价标准表
2.3. 模型评价指标
2.3.1. 均方根误差RMSE
是预测误差的标准差。
有时候使用的时候为了简便可以直接计算
。
2.3.2. 平均绝对百分比误差MAPE
式子表达的含义为取n个预测值相对误差的绝对值的平均值,常被用来作为模型预测结果准确性的评价指标。
3. 实证分析
本节是实证分析部分,数据序列选择为每3个月的交易额,2017年6月~2022年6月,数据来自网络搜集某店铺的交易额。2016年电商直播开始萌芽,2017年不同平台也切入直播赛道,电子商务迎来了快速发展的时代,从本文中数据也可以看出销售额在逐渐增长,搭上了发展的列车。销售额数据序列为小样本量,且预测时间短,完美契合灰色预测GM (1, 1)模型和ARIMA模型。本节根据两种单项预测模型的建模步骤,依据原始数据序列进行预测模型的建立,预测2022年9月~2023年6月四个时段的交易额,然后与真实值进行分析比较。两种模型分别得出了四个时间段的预测值,且预测值与真实值比较,发现两种模型都得到相近的预测值,最后利用MAPE和RMSE方法检验模型拟合的精度,结果表明ARIMA模型具有更好的预测精度。
3.1. ARIMA模型
1) 时间序列的平稳性检验:
本文选取实验的数据是2017年6月~2022年6月的数据,以时间为x轴,交易额为y轴,单位为万元,共21组数据
根据论文选取数据的时序图来看(图2中第一张图),原始数据序列是不平稳的,需要对数列进行处理将其变成平稳数列。本文采用逐阶差分的解决方法,先对时间序列采取一阶差分,根据时序图(图2中第二幅图)观察发现序列也是不平稳的,然后继续对时间序列进行二阶和三阶的差分,比较分析二阶和三阶差分以后的时间序列,发现三阶差分的数据更加均匀的在某一固定值附近徘徊,所以就先暂定对该序列进行三阶差分。时序图只是主观直接判断的,具有不确定性,接下来我们通过ADF检验进行理论验证。
根据表2结果可知二阶差分得到序列的z2 ADF检验P值为0.08734,大于0.05的检验标准,故二阶差分后的序列不是平稳序列,三阶差分后的序列z3ADF检验P值为0.0496,满足检验标准,故因此选择三阶差分序列。
Table 2. ADF test results of z2 and z3 data columns
表2. z2和z3的ADF检验
Figure 2. Sequence diagram of original data and sequence after difference
图2. 原始数据和差分后时序图
2) 模型的定阶及预测
得到平稳的序列z3以后,需要对模型进行定阶,通过自相关图和偏自相关图见下图3来判断相关参数。
根据上述对三阶差分后序列的ACF和PACF检验图,从图3中的图一即ACF检验图可以得到序列z3在1步延迟后样本均落入两倍标准误差之间并呈现逐渐衰减的趋势,具有拖尾性。偏自相关图显示在2步延迟以后样本序列也落入两倍标准误差之中,同样也具有拖尾性,可以大致判定ARIMA模型的基本参数值p = 2,q = 1。另外我们知道R软件中的Forecast包中包含有auto函数,我们可以利用此函数帮助ARIMA模型进行自动定阶,自动定阶函数识别的结果为p = 2,q = 0,于是参考AIC准则准备比较上述根据相关图所确定的两个预测模型分别为ARIMA (2, 3, 1)和ARIMA (2, 3, 0),来确定最终的模型阶数。
AIC和BIC评判模型准则:
其中L指对应的最大似然函数,k指对应的模型的变量的个数。
n指对应的数据数量,L和k同上所述。当训练样本数据量相较于很少并且维数过大的时候,
惩罚项的作用是有效避免维度灾难现象的出现。评判准则:AIC,BIC越小则模型越好。
Figure 3. ACF and PACF test diagrams for the Z3 sequence
图3. z3序列的ACF和PACF检验
此文选取AIC评判准则见表3来进行模型的评价:根据AIC的判断准则,AIC值越小,模型的准确度就高,所以我们可以确定模型就为ARIMA (2, 3, 1)模型,下面我们在对模型进行相关检验如下图4,自相关检验和白噪声检验。ACF检验说明残差没有明显的自相关性(忽略轻微误差),说明自相关检验已经顺利通过。
根据残差白噪声检验即Ljung-Box测试结果所示(省略轻微误差)所有的P-value均大于0.05,此结果显示残差序列已经为白噪声序列,已没有可提取的信息,序列已经无用,即模型通过检验,此时可以利用建立的模型对此后四个时间段做外推预测。
根据模型可得预测值分别如下表4所示,单位均为万元。
Table 4. Predictions of ARIMA model
表4. AIRMA模型预测结果
Figure 4. Residual white noise test of ARIMA (2, 3, 1) model
图4. ARIMA (2, 3, 1) model的残差白噪声检验
3.2. 灰色预测模型
根据灰色预测理论建模步骤和理论,接下来利用实际数据进行模型建立(数据序列的单位:万元)。
1) 原始序列的1-AGO生成
1-AGO生成序列为:
5.117, 10672, 16.302, 22.057, 28.151, 34.873, 42.397, 50.991, 59.750, 71.873, 85.700, 101.668, 120.244, 139.495, 162.547, 189.316, 218.633, 250.569, 285.966, 325.161, 368.779
2) 1-AGO生成序列的紧邻均值生成
紧邻均值生成序列:
0.000, 7.8945, 13.4870, 19.1795, 25.1040, 31.5120, 38.6350, 46.6940, 55.3705, 65.8115, 78.7865, 93.6840, 110.9560, 129.8695, 151.0210, 175.9315, 203.9745, 234.6010, 268.2675, 305.5635, 346.9700
3) 计算灰色模型发展系数a和灰色作用量b
根据灰色模型理论得到B和Yn矩阵:
得到上述表5得到的两个向量矩阵,根据表达理论式利用最小二乘法可以继续得到a值和b值,即a = −0.1186,b = 3.9331。
GM (1, 1)模型
时间响应式为:
,残差序列标准差为0.9934,原始序列的标准差为12.3757,其中误差检验结果是:后验差比值检验C值为0.0803,小残差概率:P值为1,满足模型一级检验标准C < 0.35,P > 0.95,即模型精度为好。
4) 模拟值与模拟误差
根据灰色模型理论可以得到数据序列模拟值和其误差值,见下表6:
Table 6. Simulation values and simulation errors
表6. 模拟值和其误差值
5) 计算平均相对模拟误差:7.1602%,因此可得到模拟精度为92.8398%。
6) 预测未来四个时间段的值:51.6512, 58.1542, 65.4761, 73.7198。
如上总结以及软件分析可以得到,根据本文所研究数据建立的灰色预测模型,发展系数为a为−0.1186,灰色作用量b为3.9331,平均相对模拟误差7.1602%,后验差比值检验C值为0.0803,小残差概率P值 = 1,满足了模型的要求,且C < 0.35,P > 0.95,所以GM (1, 1)预测精度等级良好,模拟精度也表示模型的预测等级良好。
因为模型符合检验结果,所以接下来对未来四个时间段进行了数据预测,结果如下表7所示,单位均为万元。
Table 7. Predictions of GM (1, 1) model
表7. GM (1, 1)模型预测结果
3.3. 两种预测模型结果分析比较
下表8为灰色预测模型预测值(见表7)和ARIMA模型预测结果和其真实值比较:
下面根据利用模型评价指标MAPE和RMSE评价模型拟合情况:
根据模型的两种评价指标来看,对于短期预测,预测2022.9~2023.6四个时间段的数据,ARIMA模型更为优秀。
对于表8,我们发现灰色模型的预测值比真实值要大,而ARIMA模型的预测值要比真实值小,但是根据表9的评价指数RMSE和MAPE值来看,ARIMA模型都要小于灰色预测模型,这表明对于短期预测,ARIMA模型更具有优势。根据本文来看,也就是预测步长为4,即四个时间段的值,属于短期预测。根据2023.6的数据来看,结论也确实如此,ARIMA模型预测值更加接近真实值,最后利用ARIMA模型进行了未来的预测。
Table 9. Comparison of evaluation indexes of the two models
表9. 两种模型评价指标对比
预测数据表10显示,商品交易量虽然增速缓慢,但总体呈现逐渐递增的趋势,这是由于疫情期间线下消费受阻,线上消费增加,逆势而上,正在有效促进消费回补,释放市场潜力,为在疫情影响下商务发展打开新思路。
Table 10. Future forecast value of ARIMA model
表10. ARIMA模型未来预测值
4. 结论
因为店铺交易额的数据特点完美适合灰色GM (1, 1)模型和ARIMA模型,而且这两种模型应用广泛,并具有较好的预测精度,所以我们选择了此两种模型来进行建模。本文章选择2017年6月~2022年6月某店铺每3个月度交易额数据进行建模,这数据序列为小样本量,且预测时间短,分别对ARIMA和GM (1, 1)两个单项预测模型进行建模。我们最后分析比较得到ARIMA (2, 3, 1)模型是本文最佳的ARIMA预测模型,然后又利用相同的数据建立了发展系数为−0.1186,灰色作用量为3.9331的灰色GM (1, 1)预测模型,模型检验时,得到模型的后验差比值C为0.0803,小误差概率:P值为1,满足检验要求,预测精度等级为好。最后利用两种模型对后四个时间段的数据进行了预测,得到预测值,利用MAPE和RMSE方法来对模型进行评估,将结果进行比较发现,对于短期预测ARIMA模型较GM (1, 1)模型具有更好的预测精度,更加符合商家短期预测的实际需求,商家可以根据预测结果对营销策略做出合理决策。
可以看出,疫情确实给店铺的交易量带来了影响,因为交通受阻等一些因素,使得消费者线下购买意愿下降,线上消费异军突起,是因为疫情促使人们宅家时间增多,推动了“宅经济”快速发展。以互联网技术为基础的新业态新模式新经济呈爆发式增长,这表明电子商务发展应抓住机遇,满足消费者需求。同时这一现象还说明商务交易循环里即店铺、平台、物流,用户每个环节都在积极转变态度和策略,这对电子商务的发展起着良好的作用。要善于抓住机遇,虽然消费受到限制,但消费需求并未消失,从长远来看,只要采取有效措施,把握机遇,电商交易循环就会越来越好,越来越优,会给经济发展注入更多的活力。
NOTES
*通讯作者。