1. 引言
新型冠状病毒(COVID-2019)目前已经成为世界流行性传染疾病,对各国的经济、人民的生活、生命财产造成了巨大影响。由于世界各个国家的经济状况、社会体制的不同,再加上人们对疫情重视程度的差异,抗击疫情的方法也不甚相同。有的国家已经基本摸清新冠病毒传播的特点,积极采取有效措施,新冠病毒得到了有效控制,而有的国家还处在疫情初期,还需要继续加强疫情防控。由此可见,防控新型冠状病毒疫情已然成为全球人民共同需要攻克的难题,因此了解世界主要国家疫情特点和防控状况是十分必要的。
对此,我们需要收集相关的时间序列数据 [1],分析世界主要国家的疫情发展特点并对其进行分类。其次,需要确定疫情发展及管控的影响因素,建立合理的数学模型,对主要国家疫情管控效果进行综合评价。最后,根据疫情发展特点,建立合理的数学模型,预测世界主要国家的疫情发展趋势,并检验模型效果。
2. 主要国家疫情特点分析及分类
2.1. 主要国家疫情特点分析
反映疫情发展特点最直接的指标就是每个国家确诊人数、新增确诊人数、治愈人数、死亡人数的增长幅度。由于折线图能更直观地反映这一特点,故可用折线图分析各个国家的疫情特点。下面是对比较有代表性的6个国家(美国、中国、西班牙、印度、巴西、澳大利亚)进行疫情特点分析,分析结果如下:
图1(左)为2020年1月21日~2020年7月4日世界主要6个国家的新冠确诊人数。从图中可以看出,3月21日之前,中国确诊人数明显高于其它国家,其它国家确诊人数几乎为0。3月21日之后,中国确诊人数趋于平缓;美国、巴西、印度这三个国家确诊人数明显上升,其中,美国上升速度最快,巴西次之,印度最慢;西班牙4月20日之后,上升幅度趋于平稳;澳大利亚确诊人数较稳定。
图1(右)为2020年4月7日~2020年7月4日世界主要6个国家的新冠确诊人数。从图中可以看出,美国新增确诊人数波动幅度一直较大;5月7日之后,巴西新增确诊数波动幅度变大且整体呈现增长趋势;5月17日之后,印度新增确诊人数,波动幅度较大;其他国家新增确诊人数虽然也在增长,但幅度相对美国、巴西,波动较小。
Figure 1. Cumulative number of confirmed cases and new number of confirmed cases
图1. 累计确诊及新增确诊人数
图2(左)为2020年1月21日~2020年6月19日世界主要6个国家新冠病毒的治愈人数。从图中可以看出,2月10日之前,这6个国家治愈人数基本为0;2月20日~3月21日之间,中国新冠治愈人数明显高于其它国家,通过对图1的分析,了解到这期间其他国家疫情还未开始,因此其治愈人数几乎为0。3月21日之后,中国治愈人数趋于平缓,美国、巴西、印度这几个国家曲线明显上升,西班牙刚开始有小幅度上升,5月15日左右趋于平缓;澳大利亚治愈人数有轻微增加,最后趋于平稳。
图2(右)为2020年1月21日~2020年6月19日世界主要7个国家的新冠病毒死亡人数。从图中可以看出,2月10日之前,这6个国家死亡人数基本为0;2月10日~3月11日之间,中国新冠病毒开始出现死亡人数,累计死亡人数比较稳定,其它国家死亡人数几乎为0。3月21日之后,中国死亡人数趋于平缓,美国、巴西增幅较快;西班牙刚开始有小幅度上升,5月10日左右趋于平缓;印度从4月30日开始,死亡人数开始上升;澳大利亚死亡人数基本趋于平稳。
综合上述分析,3月1日中国确诊人数、治愈人数和死亡人数基本趋于平稳,这说明中国在疫情初期认识到了新冠病毒传播特点,并采取积极有效措施,使疫情得到有效控制,西班牙的确诊人数、治愈人数和死亡人数,于5月20日趋于平稳,由此可知,西班牙的管控效果在5月17日有明显提高。3月21日开始,美国、巴西、印度的确诊人数、治愈人数和死亡人数明显升高,到6月19日,仍然还处在上升期,由此可见,美国、巴西、印度疫情防控效果较差,需及时采取有效的防控措施。
2.2. 聚类分析
聚类分析是统计中最常用的一种基本方法。由于我们需要根据时间序列数据,将世界主要国家进行分类,因此,我们可以进行聚类。基于欧氏距离在坐标轴正交旋转时的稳定性,可采用欧氏距离计算变量间的相似性度量 [2]。通过以上分析发现,有不同国家表现出同一特点,为使国家更具代表性,我们从中删除了一些国家,最终确定了31个国家,对其1月21日~6月19日的确诊人数使用SPSS软件进行聚类,聚类结果如下图3所示。
从图3可以看出,世界各主要国家被分为了4类。第一类为美国、巴西;第二类德国、西班牙、伊朗、意大利、俄罗斯;第三类为加拿大、法国、墨西哥、秘鲁、智利、印度;第四类中国、新加坡等。
3. 模糊综合评价模型
根据上述对疫情发展特点和管控效果的分析,我们选取了6个具有代表性的国家:中国、美国、西班牙、巴西、印度、澳大利亚。选取了6个影响疫情管控效果的指标:医院数量、感染率、人口密度、核酸检测(万)、呼吸机数量(每百万人)、封城时间。
3.1. 灰色关联度分析
数据归一化处理:
为了使各项指标具有可比性,需要对搜集到的各指标数据进行无量纲化处理。这里可以采取离差标准化,它是对原始数据的线性变换,将结果值映射到[0, 1]之间,转换函数如下 [3]:
得到标准化后的数据如下:
具体计算方法:
1) 选取参考数列
设有6个比较数列
这里
表示主要国家的数量。我们选取各指标所期望的最优值作为参考序列。医院人数、核酸检测数量、呼吸机数量、封城时间相对来说较长,效果较好;感染率、人口密度则相反,则参考序列可取为:
2) 数据归一化处理:
按照离差标准化方法进行处理。
3) 计算灰色关联度:
通过灰色关联系数公式
计算出灰色关联度r。
3.2. 模糊综合评价
1) 选取隶属度函数:根据灰色关联度,将相关因素按最大值、最小值划分区间,建立隶属度函数 [4]。
2) 根据隶属函数计算出6个国家对应的不同隶属度,见表1。
3) 确定模糊关系矩阵R
4) 根据相关度,各影响因素在决策中占的权重为
5) 计算各个国家综合得分
由此可知:中国疫情管控效果最好,澳大利亚次之,美国及西班牙管控效果较差。
4. SEIR模型
SEIR是常见的一种描述传染病传播的模型,SEIR模型在SIR的基础上增加了潜伏者,这更加符合新型冠状病毒的实际情况,易感人群在发病前期会经历潜伏期,一段时间之后才表现出症状 [4]。因此,我们选用SEIR模型更为准确。其基本假设是将环境中的所有人群分为了四类:
1) 易感者(健康者):指未得病,但与感染者接触后有被感染概率的人;
2) 潜伏者:指已被感染,但还没表现症状的人;
3) 感染者(病人):指感染上病毒的人,他可以传播给易感人群;
4) 移除者(病愈者):被病毒感染之后,病愈或死亡的人,这部分人不再参与感染和被感染的过程。
SEIR模型在以上三类人群中存在三个转换关系 [5]:
:易感者与感染者接触时被传染的概率,反映了疾病的传播强度,
越大,易感人群和感染人员接触后被传染的可能性越大。
反映了潜伏者转换为感染者的概率。
:感染人群以固定的平均速率恢复或死亡,这个概率称为恢复系数,它取决于感染的平均时间。
4.1. 动力学模拟疫情过程
基于上述介绍,四类人群数量随时间的动态变化规则可用以下常微分方程组来表示 [5] [6]:
,
,
,
.
4.2. 优化算法进行参数辨识
通过上述介绍,我们知道SEIR模型实际就是运用动力学模型,对疫情发展过程进行模拟,采用感染系数、恢复系数来刻画疾病传染和治愈的过程。此过程最重要、最关键的一点就是获取精确的模型参数,建立精确的模型,进而达到较好的预测效果。我们的主要任务就是确定以下最优参数 [7]:
1) 感染系数
、转化系数
、恢复系数
;
2) 易感人群初值
、潜伏人群初值
、感染人群初值
、移除人群初值
。
其中、感染人群初值
、移除人群初值
,可由当日的确诊人数、治愈人数、死亡人数得到;对于恢复系数
,常取恢复天数的倒数,由于随着疫情发展,各国采取更为有效的防控手段,所以我们使用6月17日到6月27日的数据计算
,再使用6月28日到7月7日算出
,最后取其平均值作为恢复系数
,因此,我们的主要任务变为了确定
、
、
、
。
最优参数值的确定可以采用最小二乘法:先给定一个大致区间,使用穷举法,使得真实值与所得值之差的平方和最小的参数值即为最优参数。
4.3. SEIR模型预测
通过最小二乘法确定最优参数后,对6个国家6月27日~7月7日的确诊人数进行拟合和预测,预测效果如下图4所示:
由图4可以得到各国的预计感染患者数量,可以根据各国人口数,确定确诊患者数量在本国的比例,以此评估各国新冠肺炎的严重程度,见表2。
Table 2. Estimated proportion of people diagnosed on July 24
表2. 预估确诊患者比例
从预估确诊患者数量在本国占比来看,美国、巴西的严重程度为第一梯队,西班牙为第二梯队,印度、澳大利亚为第三梯队,中国最低。
4.4. 模型检验
检验回归模型的效果可以采用F检验。它验证的是偏回归系数是否不全为0,直接从回归效果检验回归方程的显著性。
1) 构造F统计量
我们知道平方和分解式:
其中,真实值和均值差的平方和为
,预测值和均值差的平方和为
,真实值和预测值差的平方和为
,不难看出,SSE、SSR都会随着模型的变化而变化,可构造统计量:
2) 计算F值
该模型得到的
,理论的
,由于计算的F值远远大于理论F值,所以拒绝原假设,说明回归方程是显著的。
5. 总结
抗击新型冠状病毒疫情已经成为了世界各个国家的共同责任,了解新型冠状病毒的传播特点有助于抗击疫情。为更好地了解世界各个国家的疫情情况,本文建立了聚类分析、模糊综合评价和SEIR预测模型。利用统计理论、灰色关联度分析和最小二乘法分别对模型进行数据处理、求解、预测和检验。在一般的SIR模型基础上,我们考虑到了潜伏者,建立了SEIR模型,预测效果较为准确。然而新型冠状病毒的发展情况,不仅仅与已选取的指标有关,还受到一些不确定性因素的影响,例如境外输入病例的出现。因此模型还有待优化和改进。