1. 引言
2000年以来,新发传染病不断涌现,给国家发展和人民安全造成严重威胁。例如:2003年急性呼吸综合征,2009年H1N1流感,2012年中东呼吸综合征,2013年B7N9流感,2014年黄热病,2015年埃博拉病毒,2016年寨卡病毒,2019年新型冠状病毒肺炎(coronavirus disease 2019, COVID-19)等这些传染病给国家和人民生命安全造成极大的影响。COVID-19主要传播方式为呼吸道传播和接触传播,其病发现象与感冒相似,严重者可导致死亡 [1]。截止于2020年6月1日,全球COVID-19累计确诊人数持续上升,中国累计确诊案例为84,588人,美国累计确诊人数为1,734,040人,俄罗斯累计确诊人数为414,178人,在欧洲感染严重的国家中,英国累计确诊人数为274,766人,德国累计确诊人数为181,815人,全球各个国家和地区累计确诊人数热力图,见图1所示,据目前疫情形式来看,美国疫情十分严峻,累计确诊人数超过100万人,未来仍有大幅上升趋势,当地政府应加大疫情管控力度,提高医疗水平,保障人民生命安全。
本文研究基于自回归求和滑动平均(autoregressive integrated moving average, ARIMA)模型在COVID-19中的运用,预测美国未来累计确诊人数,以及分析疫情波动趋势的方法。
![](//html.hanspub.org/file/7-2580693x9_hanspub.png)
Figure 1. Thermal chart of global cumulative number of confirming cases
图1. 全球累计确诊人数热力图
2. 资料与方法
2.1. 数据资料
COVID-19数据来自世界卫生组织(WTO)提供的以美国为主的各个国家和地区每日累计确诊人数变化数据,收集日期为2020年1月20日~2020年6月1日。
2.2. ARIMA模型的建立与分析
2.2.1. ARIMA模型与时间序列预测的基本思想
时间序列预测是将预测目标按时间顺序排列起来,构建成一个所谓的时间序列,从所构成的这一组时间序列分析过去的变化规律,推理未来变化的可能性及变化趋势和规律(见图2),其基本理论是:一方面承认事物在时间尺度上的延续性,运用过去时间序列数据变化规律就能推算出事物发展趋势 [2] [3];另一方面又要舍弃客观因素影响所产生的随机影响,为消除客观因素带来的偏差,利用历史数据进行统计分析,并对数据进行离群值处理,其次利用该数据进行建模。ARIMA模型是基于时间序列的一种模型,在建立ARIMA模型时,要求时间序列数据是平稳的,即时间序列要求是零均值的平稳的随机序列。应用ARIMA模型进行时间序列数据预测时,主要有时序数列平稳性的识别、拟合模型的估计和诊断、最优模型的选取与预测三个阶段,利用这三个阶段选取最合适的ARIMA模型进行预测分析。
2.2.2. 研究方法
疫情期间,美国COVID-19累计确诊人数是按时间序列发展的,发展趋势各不相同,因此,本文采用时间序列分析方法建模,通过对数据的分析与处理,选用求和自回归移动平均模型(ARIMA)模型进行建模,并对未来做10期预测分析。
ARIMA模型建模流程如下:
(1) 数据预处理
本文收集了2020年2月20日~2020年6月1日内的数据,由于受到医疗设备限制,美国在检验病人是否被COVID-19感染时,除核酸检验外,还增加了临床检验等手段,根据病人发病症状进行判断,为了防止疫情的扩散,医生会将疑似感染者列入感染者隔离观察,导致累计确诊人数异常增加,为了还原原始的数值变化规律,将该数据作离群值处理,完成加性、移动水平、革新、瞬态、局部趋势、可加修补操作流程,见图3所示。
· 加性(Additive):影响单个观测值的离群值。
· 移位水平(Level shift):从某个序列点开始将所有观测值移动到一个常数的离群值,移位水平可能由策略的更改而造成的。
· 革新(Innovational):在某个特定的序列点附加到噪声项的离群值。对于平稳的序列,革新离群值将影响多个观测值;对于不平稳的序列,它可能影响在某个特定的序列点开始的每个观测值。
· 瞬态(Transient):其影响按指数衰减到0的离群值。
· 局部趋势(Local trend):从某个特定的序列点开始局部趋势的离群值。
· 可加修补(Addtitive path):由两个或更多连续可加离群值构成的组,选择此离群值类型将导致除了检测加性离群值的组以外,还检验各个加性离群值。
输出的时间序列数据绘制时间序列图和自相关ACF图,如果是平稳时间序列,其走势绕某个固定值上下波动,ACF图有迅速衰减的趋势,并进行白噪声检验。
(2) 数据平稳性识别
通过自相关图ACF和偏自相关图PACF以及时间序列图综合识别该序列是否平稳,若该序列不是平稳的时间序列,需将其做差分处理(1阶差分或2阶差分),使数据平稳化。
(3) ARIMA模型p,d,q参数估计
P,d,q是时间序列ARIMA模型的三个参数,p是指时间序列数据本身的滞后数;d是指时间序列数据稳定时差分次数;预测模型中预测误差的滞后数用q表示,分别通过ACF和PACF的趋势确定该模型的p,d值,并结合AIC准则(Akaike信息准则)综合考虑,防止过拟合现象。
序列AIC定阶准则为:
(1)
若
时,上式达到最小值,则认为序列是
;若
模型含有未知均值参数
时,模型为:
(2)
见表1所示,d是根据时序数列平稳的差分次数确定的,假设三个参数确定后,时间序列ARIMA预测模型也就确定,ARIMA模型的数学表达式为:
![](Images/Table_Tmp.jpg)
Table 1. Recognition of ARIMA (p, d, q) model
表1. ARIMA (p, d, q)模型的识别
(3)
且
其中,L是滞后算子,
是常数。
(4) 模型评价
在步骤(3)的基础上,进行白噪声检验和Q检验该序列的自相关系数ACF和偏自相关系数PACF均不应超过置信区间,即其数值与0比较不应有显著性差异,认为该序列为白噪声序列,若该序列不是白噪声序列,需重复步骤一、步骤二、步骤三操作,重新定阶和p,q的确定;若该序列是白噪声序列,计算R2,若R2越接近于1,拟合效果越好。
2.3. ARIMA模型的运用
本文收集了以美国为主2020年2月20日~2020年6月1日内累计确诊人数变化数据,由于美国疫情如今相当严峻,对疫情的管控尤为重要,本文主要对美国疫情累计确诊人数进行建模分析,并对未来10日内累计确诊人数进行预测分析,并对美国政府提供具有参考性的建议。
3. 结果
3.1. 数据预处理
将美国2020年2月20日~2020年6月1日期间每日累计确诊人数按时间序列排列,完成加性、移动水平、革新、瞬态、局部趋势、可加修补操作流程,绘制时间序列图,见图4所示,该序列具有急剧上升的趋势,不满足数据平稳性条件,需对该数据进行差分操作,使其数据平稳化。
![](//html.hanspub.org/file/7-2580693x23_hanspub.png)
Figure 4. Time series and differential time series of the cumulative number of confirmed cases in the United States
图4. 美国累计确诊人数时序图及差分时序图
3.2. 数据平稳化
从美国疫情发展趋势来看,累计确诊人数呈“J”型曲线增长,非平稳的时间序列,需对该序列做差分处理,见图5所示,1阶差分后,时序数据仍然有上升的趋势,ACF和PACF均已超出置信区间,判断该序列非平稳;2阶差分后,时序数据几乎在0附近上下波动(见图4),ACF和PACF较为均匀分布在置信区间内,可判断该时序数据经2次差分后数据平稳,可以对差分后的时序数据做参数估计。
![](//html.hanspub.org/file/7-2580693x25_hanspub.png)
![](//html.hanspub.org/file/7-2580693x24_hanspub.png)
![](//html.hanspub.org/file/7-2580693x27_hanspub.png)
1阶差分 2阶差分
Figure 5. ACF and PACF of COVID-19 differential sequences
图5. COVID-19差分序列ACF图和PACF图
3.3. 参数估计
通过数据平稳化后,确定差分次数为2,然后选取不同的p,q值,进行不同组合的拟合优度检验,提取不同模型的AIC值,以二者值相对最小模型为最优模型,所选取的最优模型的参数要求都要有统计学意义。结合选取规则确定美国累计确诊人数时间序列预测模型为ARIMA (0,2,1)模型,并对该模型的残差进行白噪声检验,Q值为21.867,其显著性p值为0.19 > 0.05,Q检验接受原假设,该残差是白噪声,残差白噪声检验结果如表2所示,残差的ACF和PACF如图6所示,两者大致在95%CI内,且R2为0.959,说明该模型拟合效果良好,利用粒子群算法求解参数(见表3),并对ARIMA (0,2,1)进行口径拟合 [4] [5],模型为:
(4)
运用该模型可完成美国累计确诊人数预测。
![](Images/Table_Tmp.jpg)
Table 2. Residual white noise test results
表2. 残差白噪声检验结果
![](Images/Table_Tmp.jpg)
Table 3. Parameter estimation and significant results of particle swarm optimization
表3. 粒子群算法参数估计及显著结果
3.4. 预测运用
运用ARIMA (0,2,1)模型对美国累计确诊人数后5日数据进行回带验证,见表4所示,结果显示,在美国回带验证结果的相对误差大小不超过0.33%,并对未来10内的累计确诊人数进行预测估计(见表5),在2020年6月11日美国累计确诊人数达到1,928,458人,按照现发展趋势,美国感染人数仍有大幅上升的趋势,见图7所示,几乎每天增加20,000人,美国政府应加大疫情管控力度和有效治疗手段,尽量控制感染人数的增加。
![](Images/Table_Tmp.jpg)
Table 4. Verification results of the daily number of confirmed cases in the US in the last 5 days
表4. 美国后5日每日确诊人数回带验证结果
![](Images/Table_Tmp.jpg)
Table 5. ARIMA (0,2,1) models predict the cumulative number of confirmed cases in the United States in the next 10 days
表5. ARIMA (0,2,1)模型预测未来10日美国累计确诊人数
![](//html.hanspub.org/file/7-2580693x30_hanspub.png)
Figure 7. Projected curve of cumulative number of confirming cases in the United States
图7. 美国累计确诊人数预测曲线
4. 结论
新型冠状病毒严重危害人类生命财产安全,给国家及世界造成严重的伤害,为了研究COVID-19的传播规律,运用合理的模型对疾病进行预测警告,便于采取相应的防控措施。本文基于该问题建立了ARIMA (0,2,1)模型对美国累计确诊人数进行预测,该模型对于短期预测效果突出,具有很强的预测价值。根据预测结果显示,美国累计确诊人数仍有大幅上升的趋势,说明美国采取的防控措施效果不明显,美国政府应及时调整疫情管控措施,缓解感染人数的上升。