1. 引言
随着社会的发展,人们认知水平和医疗水平的提高,我国人口出生率下降,死亡率改善,自然增长率下降。人民平均寿命每年都在提升,老年人口占总人口的比重也是逐年攀升。第七次人口普查结果显示,我国人口10年来继续保持低速增长态势,人口老龄化程度进一步加深,我国60岁及以上人口有2.6亿人,比重达到18.7%,其中65岁及以上人口有1.9亿,占比13.5% [1]。这意味着我国养老压力会越来越大。到2050年,大批现在的中青年老去,要依靠目前不断减少的新生儿抚养,会出现少数人抚养多数人的“倒金字塔”人口结构,也会造成养老金危机。由于人口老龄化带来的长寿风险对于个人养老、保险精算、社会保障乃至国家的安定团结都是至关重要的,因此我们有必要使用死亡率模型等方法,准确预测未来人口死亡率,度量和管理长寿风险。
对于死亡率模型的研究首先是随年龄变化的静态死亡率模型,逐渐发展到了包含年龄、时间、队列等的动态死亡率模型。根据人口对死亡率模型分类,可以分为单人口死亡率模型和多人口死亡率模型。在单人口死亡率模型中,最早的动态死亡率模型是Li和Lee (1992)提出的Lee-Carter模型 [2],其将死亡率分解为年龄因子和时间因子。之后出现了Age-Period-Cohort模型(2006) [3] (简称APC模型)和由Cairns、Blake和Dowd提出的CBD模型(2006) [4] 等。其中Lee-Carter模型和CBD模型是最基础的两个模型。多人口死亡率模型,通过同时模拟多个人口的死亡率数据,来解决单人口死亡率模型预测中所出现的不合理交叉和偏离现象。主要模型有Joint-k模型(1992) [5],Common-Age-Effect模型(2015) [6] (简称CAE模型),Augmented-Common-Factor (2018) [7] 模型(简称ACF模型)。ACF模型族可以提取共同年龄因子和共同时间因子。Joint-k模型和共同年龄效应模型相对应,前者提取共同时间因子,后者提取共同年龄因子。在国内,李志生等用Lee-Carter模型分析了中国数据 [8];赵明、王晓军等研究了多人口Lee-Carter随机死亡率模型及中国应用 [9],以及理论方法和进展综述 [10];曹园研究了基于Lee-Cater模型的我国死亡率预测 [11];肖鸿民、马海飞等基于中国数据比较了两种死亡率预测方法 [12]。
早在2015年,Kleinow (2015)基于Lee-Carter模型和10个国家的死亡率数据,提出了一个基于P阶年龄和时期效应的Lee-Carter模型的扩展模型,即共同年龄效应(CAE)模型 [6]。该模型可以扩展到一个随机死亡率模型的多个群体。这允许同时产生为所有人群考虑的死亡率情景。而后,Kleinow等人在2016年,分别使用CAE模型与ACF(0)模型(2005)、ACF(1)模型(2017)、ACF(2)模型(2017)对多个国家的男性和女性死亡率数据作了拟合、预测和比较 [13]。基于比较准则的CAE模型表现得更加令人满意。后期Kleinow等人还研究了基于聚类的共同年龄效应多人口死亡率模型的扩展 [14]。
国内外学者使用各种模型研究中国人口死亡率,取得了很好的效果。却还没有人使用共同年龄效应模型(2016)研究中国人口死亡率。由于Kleinow等人使用共同年龄效应模型处理多国数据,准确提取了共同年龄因子,对各国人口死亡率的预测效果良好。因此本文将进一步测试该模型,并将该模型引入中国人口死亡率。本文将共同年龄效应模型(2015)扩展到其在欧洲五国和中国男女性死亡率的适用性上,该模型在中国男女性死亡率上的应用是我们研究的重点。本文第二部分详细介绍了Lee-Carter模型和共同年龄效应模型的定义及参数估计方法;第三部分分别基于欧洲五国死亡率数据和中国男女性死亡率数据做了两个实验。第一个实验使用欧洲五国的数据来测试模型效果。第二个实验将该模型应用到中国死亡率数据,运用共同年龄效应模型(2015)处理中国的男性和女性死亡率数据,提取中国男女性死亡率数据的共同年龄因子。将结果同Lee-Carter模型分别处理中国男女性死亡率数据的结果作比较,由绝对拟合误差(AFE)值,死亡率对比图和标准残差图,可知共同年龄效应模型对中国死亡率数据的拟合效果很好;由死亡率预测图和残差图,可知共同年龄效应模型的预测效果也很好;第四部分对本文的内容做了一个简单的总结,还提出了深入研究和应用共同年龄效应模型的建议。
2. 模型介绍和参数估计
2.1. Lee-Carter模型
1) 模型介绍
Lee-Carter模型是Lee和Carter (1992)提出的出现最早的单人口动态死亡率模型。其将死亡率的变化分解为随时间而变化的时间因子,和不随时间而变化的年龄因子。该模型表达形式为:
(1)
其中
代表t年(
) x岁时的中心死亡率,
是时间因子,反映了死亡率随日历年变动的趋势;
表示t年x岁时中心死亡率的残差,并且
是一个均值为0,方差为
的白噪声过程。
式子(1)中的
都是需要估计的参数。为了保证估计结果的唯一性,可添加附加条件:
。故
表示x年龄(组)的中心死亡率取对数后的均值,
表式子(1)中的
都是需要估计的参数。为了保证估计结果的唯一性,可添加附加条件:
。故
表示x年龄(组)的中心死亡率取对数后的均值,
表示年份t时死亡率的强度,也称死亡指数。
2) 参数估计
Lee-Carter模型中参数估计的方法主要包括奇异值分解法(SVD),加权最小二乘法(WLS)和极大似然估计法(MLE)。由于加权最小二乘法(WLS)对中国数据的拟合和预测效果最好,所以本文将使用加权最小二乘法。
在使用加权最小二乘法估计Lee-Carter模型的参数时,需要最小化下式:
(2)
其中,
。
(2)式中的权重为死亡人数的观测值,为了最小化(2)式,需要分别求它关于
和
的一阶导数,然后令其分别等于0。可得如下
和
的估计值的计算公式:
(3)
(4)
(5)
由(2)式,通过迭代,当对数死亡率的实际值和估计值的差的绝对值小于指定的偏差时,
和
就是
和
的估计值。
2.2. 共同年龄效应模型(CAE模型)
1) 模型介绍
Kleinow (2015)提出了一个共同年龄效应模型(CAE模型),发现一般的年龄效应模型可以推广到多种群的随机死亡模型之中,其表达式为:
(6)
其中,
。
表示第i人群中x岁的人在年份t的中心死亡率。
表示第i个人群的附加年龄因子,表示不同人群对数死亡率的均值。
和
是附加时间因子,反映了第i个人群对数死亡率随时间的变化趋势,
和
是从所有数据群组中提取出来的共同年龄因子,代表年龄对附加时间因子
和
的敏感程度。
是随机误差项。
为了满足参数估计结果的唯一性,需要满足以下约束条件:
.
2) 参数估计
共同年龄效应(CAE)模型中,
都是需要估计的参数。本文采用极大似然方法(MLE)对共同年龄效应(CAE)模型进行参数估计,该方法假定死亡人数
服从参数为
的泊松分布,
,即:
(7)
其中,
,
表示第i个人群年龄为x年份为t的死亡人数,
表示第i个人群年龄为x年份为t的平均暴露人数。
假设每一年龄的死亡率相互独立,则CAE模型的似然函数可以表示为:
(8)
对上式取对数,可以得到CAE模型的对数似然函数:
(9)
其中,
为常数。
通过使得对数似然函数达到极大,可以求得参数的估计值,由于某些交叉项的存在,运算复杂,所以本文采用牛顿迭代法进行,公式如下:
(10)
其中,
是第n次迭代参数,
。
设待估参数的初值分别为:
(11)
可得如下具体的迭代表达式:
(12)
(13)
(14)
(15)
(16)
其中,
。当对数死亡率的实际值和估计值的差的绝对值小于指定的偏差时,就得到该模型的参数估计值。
3. 基于6国数据的比较分析
3.1. 基于欧洲五国数据训练模型
由于Kleinow等人的原始数据里有大量的欧洲国家死亡率数据,且欧洲五国具有相近的地理位置,会有更多的共性,所以本文基于欧洲五国死亡率数据,测试模型的效果。本文采用的原始数据来源于人类死亡率数据库,选取Austria,Denmark,France,UK,Sweden的1948到2018年的,18到98岁的整体死亡率数据。其中,1948~2007年的数据用于训练模型,2008~2018年的数据用于测试模型。其中很关键的一步就是提取它们的共同年龄效应。
首先,由极大似然估计法,即式(12)~(16),拟合模型和估计参数,参数估计结果如图1所示。
图1中,Austria,Denmark,France,UK,Sweden分别对应的线的颜色是:黑色,绿色,红色,紫色和蓝色。
表示不同人群对数死亡率的平均水平,所以5个国家的
曲线都是随着年龄增长而增大到一定的值。
和
是附加时间因子,反映了不同人群对数死亡率随时间的变化趋势,其中前者持续下降,反应了死亡率随时间改善的趋势,后者普遍都是先升后降。
和
是提取的所以国家的共同年龄因子。
![](//html.hanspub.org/file/18-2621893x75_hanspub.png?20211110165612470)
Figure 1. Parameter estimation of CAE model based on data from the 5 countries
图1. CAE模型基于5国数据的参数估计
CAE模型中死亡率被分解为时间效应和年龄效应。对于时间项
和
,可以采取带漂移项的随机游走模型对数据进行拟合,预测
和
在将来11年的预测值。结果如图2。
![](//html.hanspub.org/file/18-2621893x80_hanspub.png?20211110165612470)
Figure 2. Estimated value of time term in the next 10 years
图2. 时间项未来10年的估计值
在时间项已知的情况下,由公式
(17)
就可以预测出当前时刻
之后的中心死亡率。全年龄段死亡率预测结果如下图3所示。本文选取了不同城市不同年份的死亡率作图,其中实际死亡率是红色,预测死亡率是蓝色。可以看出,CAE模型对这5个国家整体死亡率数据的拟合和预测效果良好。
![](//html.hanspub.org/file/18-2621893x83_hanspub.png?20211110165612470)
Figure 3. Comparison of actual and projected mortality rates for different countries in different years
图3. 不同国家不同年份实际和预测死亡率对比
如下图4,是不同国家不同年份的实际和预测的对数死亡率。可以看出在11年的预测区间内,对数死亡率之间的差距特别小,说明对老年数据的拟合和预测效果较好。而前期对数死亡率值有部分偏差,主要是由于前期部分死亡率太小,导致其对数变动大。
![](//html.hanspub.org/file/18-2621893x84_hanspub.png?20211110165612470)
Figure 4. Actual and projected logarithmic mortality rates for different countries in different years
图4. 不同国家不同年份的实际和预测的对数死亡率
如下图5,是法国年龄为75,85,95岁的人的实际和预测死亡率。由图可知年龄越大,死亡率越高。
![](//html.hanspub.org/file/18-2621893x85_hanspub.png?20211110165612470)
Figure 5. Mortality rates of people aged 75, 85, 95 years in France
图5. France年龄分别为75、85、95岁的人的死亡率
接下来采用AFE (绝对拟合误差)来评估CAE模型对5个国家的拟合和预测效果。AFE表达式为:
。
结果如下表1所示,计算所得的5个AFE值如下。
![](Images/Table_Tmp.jpg)
Table 1. AFE values of 5 countries
表1. 5国的AFE值
可以发现AFE的值都不是很大,说明拟合效果整体比较良好。且对UK的拟合最好,对Austria的拟合误差最大,为3.103497。
3.2. 共同年龄效应模型在中国数据上的应用
共同年龄效应(CAE)模型是基于国外人口死亡率数据提出的,本文前面使用欧洲五国数据测试模型效果,效果良好。现在希望把共同年龄效应模型应用到国内,观察效果是否良好。良好的话就可以用它来拟合和预测我国死亡率。本文采用中国的男性和女性的1995到2019年的,0到89岁的整体死亡率数据。其中,1995~2010年的数据用于训练模型,2011~2019年的数据用于测试模型。接下来将会分别使用Lee-Carter模型和CAE模型来处理中国男女性死亡率数据。然后比较两个模型的拟合和预测效果。
3.2.1. Lee-Carter模型处理中国男女性死亡率数据
由于使用Lee-Carter模型处理中国数据时,WLS进行参数估计的效果最好,所以本文使用WLS来进行参数估计。
如下图6是使用WLS进行参数估计的结果。画出了a_wls,b_wls,k_wls的值,图中黑色线是男性死亡率,红色线是女性死亡率。由a_wls图像可知男性死亡率普遍高于女性死亡率,结果符合我国实际。且男女性对数死亡率都是先减小后增大的。k_wls也是随着年份在降低,说明死亡率在不断改善,不过改善的趋势比较缓慢。
![](//html.hanspub.org/file/18-2621893x87_hanspub.png?20211110165612470)
Figure 6. Parameter estimates of the Lee-Carter model for male and female mortality in China
图6. Lee-Carter模型对中国男女性死亡率的参数估计值
由于Lee-Carter模型将死亡率的变化分解为随时间而变化的时间因子和不随时间而变化的年龄因子。因此采用带漂移项的随机游走模型对数据进行拟合,并预测时间项。如下图7是对时间项进行预测的结果。
![](//html.hanspub.org/file/18-2621893x88_hanspub.png?20211110165612470)
Figure 7. Predicted value of time term k
图7. 时间项k的预测值
当得到预测的时间项时,就可以用
来算出未来一段时间的预测死亡率。从而得到全年龄段死亡率。如下图8,画出2015年的男性和2013年的女性的实际死亡率和用Lee-Carter模型预测的死亡率。其中黑色线表示男性,红色线表示女性。
![](//html.hanspub.org/file/18-2621893x90_hanspub.png?20211110165612470)
Figure 8. Actual and projected mortality rates for men and women
图8. 男性和女性的实际和预测死亡率
3.2.2. 共同年龄效应模型处理中国男女性数据
使用共同年龄效应(CAE)模型拟合中国男女性数据,提取中国男性和女性死亡率的共同年龄效应
和
。首先,根据极大似然估计法,即式(12)~(16),拟合模型和估计参数,参数估计结果如下图9所示。黑色线代表男性,红色线代表女性。由a[x,i],可知男性死亡率高于女性死亡率。由于k1[t,i],k2[t,i]随着年份有很强的下降的趋势,说明死亡率有所改善。B1和B2则是提取的中国男女性死亡率的共同趋势。
![](//html.hanspub.org/file/18-2621893x93_hanspub.png?20211110165612470)
Figure 9. Estimation results of male and female data parameters processed by CAE model in China
图9. CAE模型处理中国男女性数据参数估计结果
由于CAE模型将死亡率的变化分解为时间因子和年龄因子,共同年龄效应。因此采用带漂移项的随机游走模型对数据进行拟合,并预测时间项。如下图10是对时间项进行预测的结果。
![](//html.hanspub.org/file/18-2621893x94_hanspub.png?20211110165612470)
Figure 10. Predicted value of time term in the next 10 years
图10. 时间项在未来10年的预测值
当得到预测的时间项时,就可以用
来算出未来一段时间的预测死亡率。从而得到全年龄段死亡率。如下图11,画出用CAE模型的2015年的男性和女性的实际和预测死亡率。其中红色线表示实际死亡率值,蓝色线代表预测的死亡率值。
![](//html.hanspub.org/file/18-2621893x96_hanspub.png?20211110165612470)
Figure 11. Actual and predicted mortality rates for males and females in a CAE model
图11. CAE模型下男性和女性的实际和预测死亡率
3.3. 模型对比
为了比较模型的拟合效果,画出它的标准残差图。如下图12所示。由图可知Lee-Carter模型和共同年龄效应(CAE)模型都较好得捕捉到了年龄效应和时间效应。Lee-Carter模型的残差图整体比较稳定,CAE模型对年龄效应和时间效应的提取更集中一点,虽然存在部分残差比较大的点,但在具有共同年龄效应的数据对象增多的条件下,它的优势才能更好得显现出来。故CAE模型的拟合效果是比较好的。
(a) Lee-Carter模型,男性
(b) CAE模型,男性
(c) Lee-Carter模型,女性
(d) CAE模型,女性
Figure 12. Lee-Carter model, standard residual chart of CAE model for male and female mortality in China
图12. Lee-Carter模型,CAE模型对中国男女性死亡率的标准残差图
如下图13分别画出实际的,Lee-Carter模型预测的,CAE模型预测的男性和女性的死亡率。红色是男性,蓝色是女性。由图可知男性死亡率普遍高于女性死亡率。
![](//html.hanspub.org/file/18-2621893x101_hanspub.png?20211110165612470)
Figure 13. Actual, Lee-Carter, CAE model mortality values
图13. 实际,Lee-Carter,CAE模型下死亡率值
继续使用AFE (绝对拟合误差)来比较这2个模型对数据的拟合效果,AFE的计算公式为:
。由公式得到如下表2,由表2,CAE模型对中国男性和女性的绝对拟合误差,都小于LC模型对中国男性和女性的绝对拟合误差。所以,CAE模型对中国男女性数据的拟合效果良好。
![](Images/Table_Tmp.jpg)
Table 2. AFE values of Chinese male and female data processed by the two models
表2. 两模型处理中国男女性数据的AFE值
再研究两模型对中国男女性死亡率数据的预测效果。分性别画出2015年男女性实际,CAE,Lee-Carter预测的男女性死亡率。如下图14所示。可知对男女性死亡率的预测效果都比较好,其中LC模型对男女性死亡率预测有偏大的倾向,相比之下,除了某些超高年龄的死亡率值外,CAE模型的预测值和实际值比较接近。可知CAE模型对中国男女性数据的拟合和预测效果良好。
![](//html.hanspub.org/file/18-2621893x103_hanspub.png?20211110165612470)
Figure 14. Actual male and female mortality rates, Lee-Carter, CAE, 2015
图14. 2015年男女性实际,Lee-Carter,CAE预测的男女性死亡率
接下来分别计算了男性,女性死亡率在两个模型的死亡率预测残差的绝对值,并分别作出了男女性在2014年和2019年的死亡率残差绝对值图,如下图14所示。黑色线是CAE模型,红色线是lc模型。由图15可知,在预测时间区间的两端,lc模型的残差较小,在预测区间的中间,CAE模型的残差较小。这个可能是由于处理的对象比较少,提取的共同年龄因子也比较小的缘故,当处理对象增多时,效果应该会得到改善。而且LC模型对较高年龄段的预测有待改善。从图中可以看出,两个模型预测的残差值在60岁之前普遍比较稳定,在60岁之后出现波动,到了高龄波动更大。CAE模型的残差在60岁之后普遍落到lc模型之下,距离0值更近一些。即预测残差相对较低,所以CAE模型对中国男女性死亡率数据的预测效果是比较好的。
![](//html.hanspub.org/file/18-2621893x104_hanspub.png?20211110165612470)
![](//html.hanspub.org/file/18-2621893x105_hanspub.png?20211110165612470)
Figure 15. Prediction residuals based on male and female mortality in CAE model and LC model
图15. CAE模型和lc模型基于男女性死亡率的预测残差
4. 总结
本文首先采用欧洲的Austria、Denmark、France、UK、Sweden五个国家的死亡率数据,检验共同年龄效应模型。发现其对欧洲五国的数据拟合和预测效果良好。然后,首次将该模型运用到中国男女性死亡率数据,提取中国男女性死亡率数据的共同因子。分别用Lee-Carter模型的WLS (最小二乘估计)和CAE模型的MLE (极大似然估计)以及牛顿迭代法进行了参数估计,并预测死亡率。由死亡率对照图、标准残差图、绝对拟合误差值、残差图,可以发现CAE模型对中国的死亡率数据处理更加集中,效果更好。随着具有共同年龄效应的数据对象的增加,CAE模型的效果也会越来越好。还可以尝试给CAE模型添加队列效应,或者研究省份、镇、县之间的死亡率。死亡率下降带来的长寿风险给我国的基本养老体系和保险公司等带来了很大的损失,因此有必要提高死亡率的预测精度,帮助保险公司、政府、企业等减少长寿风险带来的损失。
基金项目
国家自然科学基金资助项目:随机动态死亡率模型的统计性质及应用研究(12061066),甘肃省自然科学基金资助项目:高龄动态随机死亡率模型的构建及其应用研究(20JR5RA528)。
NOTES
*通讯作者。