1. 研究背景及意义
互联网的飞速发展为金融机构提供了新的工作方法和服务方向。互联网金融是一种利用互联网技术和服务,将金融和互联网有效结合的模式,通常定义为互联网公司从事金融活动,如微信支付、蚂蚁金服、京东白条等。截至2020年底,我国手机网络支付用户规模达8.54亿,占手机网民86.4%,全国数字支付交易规模突破200万亿元 [1]。
互联网金融在国内实现跨越式发展的同时也面临着风险,目前最主要的是信用风险,表现为借款人无法按期、足额还款等。造成这种现象的主要原因是:互联网金融平台的主要服务对象通常是传统金融模式无法服务的企业和个人,他们通常收入不稳定、自身贫困、偿还能力不强;目前我国的信用登记机制还不够完善,平台并不能对借款人的真实信用状况做出准确的评估。信用风险一旦发生会对互联网金融平台造成不可逆的影响,给投资者和借贷平台带来严重损失,因此需要对借款人的信用风险进行准确评估。
数据分析方法已在信用风险评估领域有深入研究。基于互联网大数据个人信用风险评分系统能够预测网络借款人的违约风险 [2]。利用数据挖掘技术对借款人的交易数据进行探索,来评估借款人的信用风险,可以降低信用风险,有效保障平台和投资者的利益,并且能够在一定程度上为互联网金融行业的稳定发展提供保障。
2. 文献综述
构建信用风险评估模型的方法主要包括统计方法和非统计方法。统计方法是通过构建统计模型描述信用风险问题中的函数关系,从而实现风险评估的量化分析方法。Moscatelli M等(2020)发现线性判别分析(LDA)在预测非金融公司的破产等方面表现良好并应用广泛 [3]。方匡南等(2014)将Lasso-Logistic模型引入个人信用评估 [4],韦勇凤等(2019)利用Group-Lasso方法对某商业银行信用卡数据进行变量选择,构建基于Logistic回归的信用评分模型 [5]。由于Logistic回归没有对非线性或复杂交互进行考虑,并且对异常值和缺失数据不敏感,而对Logistic回归的弹性网络正则化可改善此问题 [3]。王小燕等(2021)将弹性网络(Elastic Net)的惩罚项与Logistic结合构建了PIPL模型评估贷款信用风险 [6],Dayu Xu等(2020)在特征选择时使用弹性网络来减少弱相关或不相关的变量 [7]。
因为实际应用中的数据无法达到统计方法需要的严格假定条件,所以具有局限性。非统计方法是利用计算机技术的不需要严格假定条件的机器学习技术。Bekhet H A等(2014)利用人工神经网络(ANN)和Logistic回归对约旦商业银行贷款决策进行信用风险评估,发现在识别违约用户方面人工神经网络优于Logistic回归 [8]。王程龙等(2016)发现决策树在构建P2P平台信用评级体系方面表现出适用性强、精度高、可解释性强的优势 [9]。单一的方法会因数据结构、特征选择、研究问题等不同而表现出不同的精度,此问题可通过集成学习方法改进 [10]。Gang Wang等(2010)以Logistic回归、决策树等为基学习器,对Bagging、Boosting和Stacking集成思想进行比较性能评估 [10],Li Yiheng等(2020)进一步研究随机森林、AdaBoost、XGBoost、LightGBM和Stacking在信用风险评估领域的表现,结果表明除AdaBoost外集成学习优于单个学习器 [11],Zhenya Tian等(2020)选取梯度提升决策树(GBDT)进行信用风险评估 [12]。莫赞等(2019)针对UCI中数据集将GBDT分别与Logistic回归和支持向量机(SVM)结合后利用Bagging集成 [13]。白鹏飞等(2017)等以Logistic回归为基准,选用随机森林、XGBoost和SVM建立信用预测模型并进行投票加权融合 [14]。为减少相关性较弱的变量对模型效果的影响,操玮等(2018)发现利用随机森林选取相对重要性较高的变量比用全变量构建模型的精度高 [15],周永圣等(2020)构建XGBoost-RF模型,先利用XGBoost筛选重要特征后再利用随机森林建模,预测效果在AUC值的表现上有所改进 [16]。
综上所述,Logistic回归在构建信用预测模型中不仅是应用广泛的单一学习器,而且也可以作为集成方法的基学习器 [3] [10] [11]。在该方法的基础上,加入惩罚项的改进算法Lasso-Logistic、弹性网络等也是经典的统计方法 [3] [4] [5] [6]。集成方法可以将多个单一学习器的缺点进行改进,其中的研究重点随机森林是Bagging方法中Random Patches的代表 [11] [14] [15] [16]。Gang Wang等(2010)研究表明Bagging在文中数据集上表现均优于Boosting [10],而在已有的文献中,学者多是研究Bagging方法的某一分支。本文以逐步Logistic回归、弹性网络为基准,探究Bagging集成方法的三种算法思想Bagging、Random Sbuspace和Random Patches在互联网金融的信用风险评估领域的表现。
3. 模型建立
3.1. 逐步Logistic回归
逐步Logistic回归(Step-LR)是将Logistic回归和逐步回归思想相结合的算法。Logistic回归是一种最常见的广义线性模型,以违约概率本身的两个值作为因变量Y,信用良好的借款人Y = 0,违约借款人Y = 1。借款人的特征变量为
,违约概率表示为
(1)
假设选择了n个借款人作为样本,
,
表示第i个样本的观测值,其中
。则Logistic回归的损失函数为
(2)
逐步回归的基本思想是将自变量逐个引入回归方程,引入的条件是其偏回归平方和经检验后是显著的。每引入一个自变量后要对已经选入的解释变量逐个进行t检验,剔除偏回归平方和不显著的自变量。此过程迭代至回归方程中既无新变量引入也无旧变量删除为止。
3.2. 弹性网络
弹性网络(Elastic Net)是一种使用L1、L2范数作为先验正则项训练的线性回归模型,损失函数为
(3)
用来调节L1和L2范数的凸组合,λ用来调节模型复杂度的惩罚项系数。
3.3. Bagging方法
Bagging方法是并行集成的代表,根据抽样策略不同分为Bagging (仅对样本集抽样)、Random Subspace (仅对特征集抽样)和Random Patches (既对样本集抽样也对特征集抽样),而极端随机树(Extremely Randomized Trees, ET)、随机森林(Random Forest)分别是Random Subspace和Random Patches在决策树上的算法特例。
Bagging算法使用全部特征,通过一次并行采样获得大量数据子集训练基学习器,并组合基学习器预测结果进行输出。
当数据集有限但特征较多时,为了保证基学习器之间的差异性,选择对特征进行采样而使用全样本集进行训练,即为Random Subspace算法,其中的算法特例是极端随机树(Extremely Randomized Trees, ET)。极端随机树在分支阈值选择时用的方法并非递归二叉分裂,而是随机选取分叉的阈值。
当样本量与特征量都有限时,只对样本集或特征集采样都无法获得有足够差异的基学习器,此时需要同时对二者进行采样,即为Random Patches算法,随机森林(Random Forest, RF)为代表算法。随机森林在特征集中随机选择一定规模的特征子集,再从中选择最优的特征进行划分。
4. 数据选择与处理
本文使用的数据集来自于中国某互联网金融平台,共有13,681条样本,包含12,151个正常还款用户和1530个有违约记录用户。廖理等(2015)借助P2P数据研究发现高学历借款者按期还款概率更高 [17],说明个人信息可以作为预测违约的特征。本文通过指标转换、数值型指标标准化,选择了包含个人信息、资产信息、借款信息三大类的18个特征作为解释变量;特征“标的状态”作为被解释变量,取“0”代表“好”用户(正常还款用户),“1”代表“坏”用户(有违约记录用户),具体特征的指标说明如表1所示。
![](Images/Table_Tmp.jpg)
Table 1. Description of characteristic indicators
表1. 特征指标说明
在该互联网金融平台上,信用额度是指借款人单笔借款的上限,则(信用额度 × 成功借款次数)为借款人借款总额上限,而数据集中776条样本的借款总额大于其上限,本文将此类样本定义为异常样本,其余为正常样本。
5. 结果分析
本文选取不同的训练集和测试集比例,分别对全样本数据集和正常样本数据集进行分类测试。为降低实验误差,对每一种算法在不同集合划分比例下重复实验50次,选取F1-score、Accuracy、FPR和AUC为指标对结果进行分析,得到以下结论。
5.1. 全样本数据集结果
对于全样本数据集进行建模,得分如表2~5所示。
从前三种指标观测,Bagging集成方法优于Logistic回归,其中随机森林最佳,Logistic回归中弹性网络得分略低于逐步Logistic回归。回归。从AUC值观测,逐步Logistic回归得分最高,其次是弹性网络,Bagging集成方法略低于与逐步Logistic回归。在训练集与测试集划分比例为8:2时,各算法表现最好。
![](Images/Table_Tmp.jpg)
Table 2. F1-score of full sample dataset
表2. 全样本数据集F1-score
![](Images/Table_Tmp.jpg)
Table 3. Accuracy of full sample dataset
表3. 全样本数据集Accuracy
![](Images/Table_Tmp.jpg)
Table 4. FPR of full sample dataset
表4. 全样本数据集FPR
![](Images/Table_Tmp.jpg)
Table 5. AUC of full sample dataset
表5. 全样本数据集AUC
5.2. 正常样本数据集结果
去除异常样本,对正常样本数据集进行建模,各算法的违约用户识别效果如表6~9所示。
从AUC指标观测,Logistic算法仍然比Bagging集成方法表现优秀,其中得分最高的是逐步Logistic回归,Bagging集成中表现最好的是Bagging和随机森林,其在不同划分数据集比例下的均值与逐步Logistic回归相差0.0007。从其余指标来看,Logistic回归明显比Bagging集成效果差。按8:2划分时训练集与测试集比例时,各算法得分最高。
![](Images/Table_Tmp.jpg)
Table 6. F1-score of normal sample dataset
表6. 正常样本数据集F1-score
![](Images/Table_Tmp.jpg)
Table 7. Accuracy of normal sample dataset
表7. 正常样本数据集Accuracy
![](Images/Table_Tmp.jpg)
Table 8. FPR of normal sample dataset
表8. 正常样本数据集FPR
![](Images/Table_Tmp.jpg)
Table 9. AUC of normal sample dataset
表9. 正常样本数据集AUC
5.3. 不同数据集的预测精度比较
由于各算法之间的Accuracy、FPR和AUC得分相近,且上述结果表明在两种数据集下,训练集与测试集按照8:2划分最准确,所以本文选择在训练集与测试集划分比例为8:2时的F1-score作为观测两种数据集测精度的指标,如图1所示。正常样本数据集在逐步Logistic回归和随机森林上的F1-score比全样本数据集的表现好,而在弹性网络、Bagging、极端随机树上表现不如全样本数据集。由于在F1-score、Accuracy和FPR上随机森林是最为突出的算法,逐步Logistic回归在AUC值最高,且随机森林和逐步Logistic回归在去掉异常样本建模后精度有所提高。总体来看,识别异常样本后,利用正常样本数据集进行分析对违约用户识别的预测效果有所提升。
注:此图中展示的是正常样本集与全样本集下F1-score的差值。
Figure 1. F1-score of different datasets
图1. 不同数据集的F1-score
5.4. 特征重要性
由于在F1-score、Accuracy和FPR指标下,Bagging集成方法中的随机森林得分最高,逐步Logistic回归的AUC比Bagging集成方法表现优秀,且对正常样本数据集以8:2划分训练接和测试集来建模的随机森林和逐步Logistic回归最为突出,所以本文针对随机森林和逐步Logistic回归,观察模型结果,分析其关于重要特征的筛选,如图2、表10所示。
![](//html.hanspub.org/file/18-2622203x16_hanspub.png?20220419090348112)
Figure 2. Feature importance of random forest
图2. 随机森林特征重要性
从图2可以看出,随机森林根据均值精度和均值节点纯度所得到的特征重要性排序中,前8个自变量相同,第9个自变量在均值精度观测下为房贷,在均值节点纯度观测下为学历。综合来看,逐步Logistic回归和随机森林得到的重要特征基本保持一致,筛选出的特征为还清比率、公司规模、年利率、标的总额、工作性质、借款成功率、工作时间,说明在构建模型中上述变量起到重要作用。
从表10结果看出,AIC值相比于原来的Logistic回归模型有所减小,且Fisher评分算法的迭代次数在合理区间内,说明逐步Logistic回归模型结果符合预测要求。变量显著性方面,性别、公司规模、工作性质、工作时间、车产、标的总额、借款成功率、还清比率、年利率9个自变量在95%的显著性水平上不能拒绝原假设,说明其对识别违约用户具有重要影响。
![](Images/Table_Tmp.jpg)
Table 10. The summary of step Logistic regression results
表10. 逐步Logistic回归模型结果摘要
注:*、**、***分别表示在5%、1%和0.1%的水平上显著。
6. 结论与展望
本文以中国某互联网金融平台数据集作为样本集,对经典的信用风险评估模型Logistic回归和集成方法Bagging进行分析研究,得出了以下结论与启示:
1) 本文对全样本数据集、正常样本数据集划分为不同比例的训练集与测试集,通过重复实验,发现在训练集与测试集划分比例为8:2,且去除异常样本后,预测效果达到最优;
2) Bagging集成方法在F1-score、Accuracy和FPR观测下效果比逐步Logistic回归和弹性网络有明显提升,其中随机森林表现最优且最稳定,但在AUC指标下略低于逐步Logistic回归,这说明Bagging集成方法在信用风险评估中可以对预测精度提高起到一定作用;
3) 本文研究Bagging集成方法中效果最佳的算法随机森林的特征重要性,并与逐步Logistic回归结果进行对比,发现其结果保持一致,筛选出的重要特征为还清比率、公司规模、年利率、标的总额、工作性质、借款成功率、工作时间。
本文选择我国互联网金融数据,研究逐步Logistic回归、弹性网络以及Bagging集成方法在信用风险评估领域的应用效果,发现逐步Logistic回归相比于弹性网络更能提高预测精度,Bagging集成方法普遍优于传统方法,且其中随机森林精度最高、稳定性最优,说明Bagging集成方法在该问题上有一定的研究价值。研究逐步Logistic回归和随机森林的特征重要性,发现其筛选出的特征一致。基于目前的结果,进一步的计划是将本文研究方法在互联网金融的更多应用场景上进行测试,修改模型,以提高泛化能力。