1. 引言
随着我国经济的发展,私家车的数量越来越多,汽车保险在产险公司的比重也变得越来越大。关于车险定价方法的研究始终处于重要位置 [1]。在传统的车险费率厘定中,广义线性模型(GLM)为主流方法。该方法最早由Nelder和Wedderburn提出 [2],1989年被McCullagh和Nelder引入到精算学领域,促进了非寿险精算法发展。随着我国一系列车险改革政策的出台,保险公司在车险产品定价上的主动权变得越来越大,车险行业的发展越来越快,行业之间的竞争也越来越激烈。与此同时,在信息时代的浪潮下,越来越多的车险数据集变得更加复杂和高维。这就给统计研究者带来了新的挑战,传统的广义线性模型无法准确地对庞大而复杂的数据进行精准的刻画。所以要寻找更加有效的方法来解决这些问题。
随着机器学习的发展,国内外学者开始将相关算法引入车险损失预测。在国外,Liu等(2014)利用AdaBoost预测索赔强度,经过与广义线性模型、BP神经网络和SVM的对比,发现AdaBoost的预测精度最优,方差相对较小 [3]。Noll等人(2018)利用GLM、回归树、提升法和神经网络对法国某第三方责任保险数据集的索赔频率进行预测,结果表明机器学习算法可以更好地处理特征变量间的交互影响 [4]。在国内,张连增等(2018)利用提升算法对回归树及广义线性模型进行改进,得到更为精准的车险索赔频率预测模型 [5]。曾宇哲等人(2019)为了更全面地比较广义线性模型与机器学习方法在车险索赔频率预测问题上的效果,利用深度学习、随机森林、支持向量机、XGBoost等机器学习方法在7个车险数据集进行了测试。研究结果显示在所有的数据集上XGBoost的预测效果一致地优于广义线性模型 [6]。
奖惩系统为根据历史索赔数据对保费进行调整的方法。传统的奖惩系统存在一些不足,如只考虑了索赔次数,转移规则较为简单。Tan (2015)根据投保人目前所处的奖惩等级及历史索赔次数制定了一种动态转移规则,使得奖惩系统更为合理 [7]。近年来将索赔额加入到奖惩系统中的相关研究越来越多,如Gómez-Déniz (2016)给索赔额划定一个固定额,并以该固定额为界限,基于二元分布假设对给定转移规则下的奖惩系数进行计算 [8]。国内关于该方法的研究较少,孟生旺(2013)比较了不同分布假设下的最优奖惩系统,发现基于负二项—贝塔分布的奖惩系统具有最优的应用价值 [9]。2018年,孙志强指出我国现有奖惩系统存在仅考虑索赔次数、转移规则简单及惩罚比较温和的问题,利用累积索赔额构建更为合理的奖惩系统 [10]。本文利用包含两层Stacking模型在内的三种集成算法和广义线性模型对累积索赔额进行了预测,并对各算法的RMSE和MAE进行比较,本文还利用累积索赔额建立了一种新的奖惩系统转移规则,将之与Stacking模型结合可以更合理地开发新的保险产品。
2. 理论基础
本文的主要工作是预测车险保单的累积索赔额。假设有N份汽车保单,每份保单的观测值为
,其中
为第i份保单的解释变量,假设其为p维向量,
为保单的累积索赔额,大于0且连续。
2.1. 建模使用方法
2.1.1. 广义线性模型
广义线性模型是对线性回归模型的进一步推广,广义线性模型因变量的分布为指数分布族,在经过一个函数变换后,拟合值可被表示为参数的线性组合。
本文选取伽马回归为广义线性模型的代表,对累积索赔额进行预测。伽马回归的因变量a服从伽马分布 [11],即:
,
其中参数
为形态参数,决定分布曲线的形状,参数
为尺度参数,决定分布曲线的陡度。
而伽马回归的定义如下:
其中
为
的均值,
为离散参数,与分布的方差有关。
2.1.2. 随机森林
随机森林(RF)是在Bagging的基础上实现的 [12]。Bagging (bootstrap aggregating)是由Breiman提出的一种并行集成算法 [13]。该算法通过对数据进行多次有放回的抽样得到新样本,将每个样本经过弱学习器训练后的结果整合,生成一个强学习器。
随机森林先利用Bootstrap抽样从原始数据集中有放回地抽取多个不同的数据集。不同的是,RF构建的树是“不相关的”。即RF在建立决策树时所用的特征是从所有的特征中随机选取的。本文以该算法作为Bagging的代表,其具体步骤见下:
1) 对包含n个样本的训练集T进行Bootstrap抽样,得到B个样本容量为n的训练样本集,用于构建决策树;
2) 在树的每个节点,从所有p个随机变量中选择m (m < p)个随机变量,然后从中选择最优分裂变量。重复以上操作,直到节点的样本大小达到指定的最小限制;
对于所研究的回归问题,最终的预测结果为所有决策树的预测结果取均值。
2.1.3. GBDT
Boosting是串行算法的一种,它首先利用基学习器训练初始训练集,然后根据其性能对样本分布进行调整,使有误差的样本在后续得到更多的关注 [14]。然后再利用基学习器对调整后的样本进行训练,重复以上操作,直到基学习器的数量达到预定值。常见的Boosting包括AdaBoost和GB,本文选取GBDT作为Boosting的代表。
GBDT是梯度提升方法与决策树的结合 [15]。在GBDT的迭代中,有以下假设:
1) 在
轮迭代得到的强学习器是
,损失函数是
;
2) 第j轮迭代的目标是找到一个弱学习器
,使得本来的损失
最小。其中,利用损失函数的负梯度来拟合本轮损失的近似值。
对于本文研究问题,我们选取的损失函数为平方损失:
,
在这种情况下,第b棵树损失函数的负梯度为:
各叶子节点的最佳负梯度拟合值为:
K表示第b棵树的第j个节点中的样本数量。
2.2. 两层Stacking模型
Stacking (Stacked Generalization)是一种对异质学习器进行集成的分层模型 [16]。它通常由两层组成,一般把在第0层的学习器称为初级学习器,在第1层的学习器称为元学习器。对于该模型,我们首先按照以下原则训练初级学习器:
1) 将训练集T划分为K部分
;
2) 在第k次训练时,取出
,用各基学习器训练
;
3) 迭代K次,利用K次的结果得到与训练集行数相同的预测结果。
在完成上述步骤后,将初级学习器的预测结果作为新的特征输入元分类器,可以得到最终结果。
在初级学习器的选取上,本文遵循减小学习器间相关性和增强可比性的原则,选择了随机森林和GBDT。因为在上一层已经存在复杂的非线性转换,所以在选择元学习器时可以选择较为简单的广义线性模型,还可以避免过拟合的发生。
综上可以得到Stacking优于其他模型的原因,一是在训练初级学习器时采用了交叉验证的思想,从而可以充分利用数据,增强算法的鲁棒性;二是集成不同的学习器,使模型泛化能力得到提高。
2.3. 评价指标
本文选取均方根误差(RMSE)及平方绝对误差(MAE)为模型的评价指标。均方根误差实际上描述了数据的离散程度,它可以解决数据中量纲不一致的问题,从而更好地对数据进行感知。平方绝对误差可以更好地反映预测值误差的实际情况。这两个指标常用来作为衡量机器学习模型预测结果的标准。一般情况下,RMSE及MAE的值越小,代表模型的预测精度越高。
在样本容量为n的数据集T上,假设
为真实的累积索赔额,
为学习器h预测出的累积索赔额。RMSE表示
与
之间的关系,可以用来衡量
和
的偏差,能够将预测的精密度很好地反映出来。
RMSE的计算公式为:
.
MAE的计算公式为:
.
3. 数据介绍
3.1. 数据集描述
本文数据来源于法国某保险公司。数据集中涵盖了许多与所研究问题相关的特征,与人的相关的因子包括驾驶执照年龄、性别、婚姻状况等,与被保险车辆相关的因素包括车的品牌、车的用途及引擎类型等。对变量的具体描述见表1。
![](Images/Table_Tmp.jpg)
Table 1. Feature variable information table for the dataset
表1. 数据集的特征变量信息表
本文对数据集的特征进行进一步的分析,得到数值型变量及分类型变量的描述性统计分析,分别如表2和表3所示。
![](Images/Table_Tmp.jpg)
Table 2. Descriptive statistics for numerical variables
表2. 数值型变量的描述性统计分析
![](Images/Table_Tmp.jpg)
Table 3. Descriptive statistics for categorical variables
表3. 分类型变量的描述性统计分析
因变量的分布频率直方图如图1。
![](//html.hanspub.org/file/54-2622201x36_hanspub.png?20220527101646890)
Figure 1. The distribution frequency of the dependent variable
图1. 因变量的分布频率
3.2. 数据预处理
为了消除量纲不一致带来的不利影响,本文对数值型变量进行了离差标准化,将结果映射到0-1。离差标准化的公式为:
为原始数据集中第i个样本第m维的数值,
为标准化后的数值,
为原始数据集中的最小值,
对应原始数据集中的最大值。
对于因变量,本文对其进行了单位化处理:
其中
,
为第i份保单所对应的暴露数,即保单存续期,
为剔除
后的模型因变量。
4. 实证结果分析
本文将数据集按照五种不同的比例进行训练集及测试集的划分,在每种比例下,利用四种算法建模得到的RMSE (以万为单位)如表4,利用四种算法建模得到的MAE (以万为单位)如表5。其中GR表示伽马回归,RF表示随机森林,Sta表示两层Stacking模型。
![](Images/Table_Tmp.jpg)
Table 4. RMSE of four algorithms under different partition ratios
表4. 不同划分比例下四种算法的RMSE
![](Images/Table_Tmp.jpg)
Table 5. MAE of four algorithms under different partition ratios
表5. 不同划分比例下四种算法的MAE
对比各算法在不同划分比例下的表现,可以看出:
1) 在任一划分比例下,无论是以RMSE还是MAE为指标,三种集成学习算法的效果均优于传统广义线性模型。
2) 在训练集与测试集的划分比例为9:1时,各模型的算法精度最高。随着训练集的比重增加,模型的预测效果变得越来越好。
3) 在划分比例为8:2和9:1时,在以RMSE及MAE为评价指标时,所构建的两层Stacking模型效果最优。
5. 定价研究
在进行车险的产品定价时,需要考虑奖惩系统。奖惩系统由费率等级、转移规则和奖惩系数三个要素组成。传统的转移规则仅考虑了索赔次数,存在一些不足,如可能会使消费者感到不公平,难以形成良性的激励,还可能使保险公司的盈利降低。针对此问题,本文利用累积索赔额制定了一种新的转移规则,并与传统只考虑索赔次数的转移规则做了比较。
假设一个奖惩系统中的费率等级从1开始,最高可到S等,当费率等级越高时,惩罚力度越大。新投保的车龄进入一个处于中间水平的等级,即初始费率等级。现有文献通过索赔次数确定的奖惩系统的转移规则如下:如果被保险车辆未发生索赔,则在续保时,费率等级下降一等,直到最低等级。在被保险车辆发生索赔时,每发生一次索赔,费率等级就上升两级,直到最高等级 [17]。
![](Images/Table_Tmp.jpg)
Table 6. A comparison of the two rules
表6. 两种规则的比较
本文制定的转移规则如下:假设被保险车辆发生z次索赔,当前所处的费率等级为s,
,累积索赔额为A,当
时,表示被保险车辆未在保单年发生索赔,续保时费率等级会下降一级,即下一保单年的等级
。当
时,假设该保单组合内的平均累积索赔额为
,则续保时,费率等级按照如下公式进行计算:
直到
达到最高等级,
表示四舍五入。
我国现行车险奖惩系统包括8个等级,假设某车险保单的平均累积索赔额为10,476.65,并可以得到各保单的索赔次数及累积索赔额,则可以利用保单数据对两个转移规则进行比较如表6。
从表6可看出,本文制定的转移规则对累积索赔额较高的车主惩罚力度较大,可增加保险公司的盈利,同时也可以使消费者感到更加公平。
在不断进行车险改革的大数据时代背景下,保险公司可先利用两层Stacking模型将累积索赔额预测出来,再利用该转移规则制定更为合理的奖惩系统。
6. 小结
在车险领域,随着行业大数据的积累,车险数据集的样本容量变得更加庞大,特征变得更加高维,传统的广义线性模型无法对车险数据进行充分精准地刻画,本文利用集成学习对车险的累积索赔额进行预测,发现包含所提出模型在内的三种集成方式均优于传统的广义线性模型。本文还利用累积索赔额制定了一种新的转移规则,使奖惩系统变得更为合理。在利用Stacking对累积索赔额进行预测后,再利用本文所制定的转移规则,可以帮助保险公司研发更适应时代发展的车险产品。但本文还存在一些不足,如数据集中的特征变量依旧相对较少,未来可以寻找特征更为丰富的车险数据集;现今还衍生了一些新的集成学习算法,可以将其加入到研究中。