The Comparison of Financial Fraud Identification Methods Based on Two Types of Boosting
作者: 范宇晨:北京信息科技大学理学院,北京
关键词: XGBoostCatBoost超参数选择财务造假识别XGBoost CatBoost Super Parameter Selection Identification of Financial Fraud
摘要: 针对财务造假问题,使用XGBoost和CatBoost两类boosting方法进行财务造假识别。对于超参数选择,通过GridSearchCV对两类boosting方法预训练,寻找最优超参数。将超参数应用于两类boosting方法上,从时间、准确度和性能的角度对比分析方法识别效果。结果表明,CatBoost方法相比于XGBoost方法,财务造假识别准确率更高,性能更优。
Abstract: In order to solve the financial fraud problem, XGboost and CatBoost methods are used to identify financial fraud. For the selection of super parameters, GridSearchCV is used to pre-train the two kinds of boosting methods to find the optimal super parameters. Super parameters are applied to two types of boosting methods, and the recognition effects of the methods are compared and analyzed from the perspectives of time, accuracy and performance. The results show that the CatBoost method has higher accuracy and better performance than the XGBoost method in identifying financial fraud.
文章引用:范宇晨. 基于两类Boosting的财务造假识别方法对比[J]. 应用数学进展, 2021, 10(12): 4227-4233. https://doi.org/10.12677/AAM.2021.1012449

1. 财务造假识别研究现状

财务造假识别是一个世界性的难点和热点问题。目前,财务造假识别方法多以经验法和线性模型为基础,如Beneish的M-score方法 [1]、Altman的Z-score方法 [2] 以及基于舞弊三角理论 [3] 的一些方法。此外,少量的研究者也在新领域对财务造假识别开展探索性研究。Qin [4] 构建了向量机和逻辑回归模型,提高了财务造假识别模型的泛化和解释能力;Zheng [5] 等将优化LVQ神经网络模型应用于财务造假识别,通过实证研究验证了模型相较于传统模型具有精准度优势。

2. boosting决策树模型研究现状

以boosting决策树模型 [6] 为基础的GBT方法,在很多分类和回归挑战中都被认为是最先进、有效的。XGBoost [7] 和CatBoost [8] 作为GBT的改进方法,在各个领域表现优异。Paleczek [9] 等使用XGBoost方法进行糖尿病检测,结果与其他常用算法相比,XGBoost表现出最高的性能和召回率;Thongsuwan [10] 等用XGBoost方法改进CNN深度学习网络,构建了一个新的深度学习模型,简化了网络训练时误差反向传播过程并很好地处理了多数据集分类问题。针对CatBoost,很多学者对其进行探索性研究,比如将其应用于大气PM2.5的预报 [11]、新能源车满意度影响分析 [12] 等,都取得了不错的成效。

3. 方法的选择


4. boosting决策树模型

4.1. XGBoost模型

XGBoost模型由Chen [7] 等提出,是对GBT (Gradient Boosting Tree)方法的优化。GBT模型结构图如图1所示,给定原始数据集 D = { ( X i , Y i ) } ,其中 X i 为特征指标数据, Y i 为标签数据。将 X i 输入约定的弱学习器(决策树)中,得到输出 h 1 ( X i ) ,计算误差 L ( h 1 ( X i ) , Y i ) 。对于减少误差L,GBT采用梯度下降的方式,训练弱学习器 h * ( X i ) 以拟合L负梯度,将 h * ( X i ) 作为增量迭代,直至 L ( h * ( X i ) , Y i ) 减小至限定的范围。训练后的弱学习器 h * ( X i ) ,经过加权组合得到强学习器 ρ h * ( X i ) ~ Y i ,其中 ρ 为加权系数。XGBoost模型对GBT的优化主要体现在两个方面:1) XGBoost模型在处理误差L上采用二阶泰勒展式,同时为了防止过拟合,对误差L进行了正则化处理。2) XGBoost模型在弱学习器训练方面考虑了决策树的复杂度,不同于ID3、CART等决策树分裂叶子节点的方式,提出使用Gain增益作为分裂决策树节点的依据。XGBoost模型相较于GBT模型,提高了泛化能力及稳定性。

Figure 1. Diagrammatic figure of GBT

图1. GBT模型图

4.2. CatBoost模型

CatBoost模型最早由Yandex公司提出,是继XGBoost之后一类新型boosting方法。CatBoost主要改进了GBT中存在的预测偏移问题 [8]。GBT在每次训练弱学习器过程中,由于使用的是同一个的数据集,对误差L负梯度的估计并非是无偏估计,因此CatBoost提出Ordered boosting排序算法,在训练数据前,打乱数据排列同时交叉训练弱学习器,以得到误差L负梯度的无偏估计,减少弱学习器拟合的偏差,提高模型的泛化能力。

5. 财务造假识别


5.1. 财务数据集来源

本文的训练样本来源于Bao [13] 等在github上公布的数据。该数据中财务欺诈样本来源于AAER数据库,由加州大学伯克利分校编制管理,相应的财务指标数据来源于COMPUSTAT基本年度数据库。数据文件“uscecchini28.csv”中包含1990~2014年美国上市公司财务造假标签数据和财务指标数据,总计146,045条记录数据。其中,造假标签数据“misstate”由布尔型变量(0, 1)描述,财务指标由28个基本财务指标和14个财务比率构成,具体见表1

Table 1. Composition of financial indicators

表1. 财务指标构成

5.2. 识别模型的训练

依据Bao [13] 对数据集的拆分,考虑2008年后美国政策和经济形势发生变化,本文选取1990~2002年的数据作为模型训练样本集,2003~2008年的数据作为测试集,用训练样本集训练财务造假识别模型。数据训练环境为kaggle云平台,python3.6环境及一些公开源包,如sklearn、matplotlib等。

5.2.1. XGBoost模型训练

考虑到模型的超参数对训练效果的影响,在模型参与大规模训练前,本文选用sklearn包中的组件GridSearchCV进行参数选择。GridSearcgCV是调参利器,只需给定参数范围和小样本数据集,就可对模型在小规模数据集上执行K折验证和参数的网格搜索,找到优质的参数。针对XGBoost,本文随机选取训练样本集中4000条数据作为GridSearchCV的调参样本,执行n = 5的K折交叉验证,对给定范围的参数值打分,最终得到范围内最优参数,见表2

Table 2. Optimal hyper parameter of XGBoost

表2. XGBoost最优超参数


5.2.2. CatBoost模型训练

同样,在CatBoost模型训练前也需要对超参数进行调优。选取4000条数据作为调参样本,执行n = 5的K折交叉验证和打分,得到CatBoost模型的最优超参数,见表3。确定的超参数作为CatBoost模型的训练超参数,然后输入样本进行训练。

Table 3. Optimal hyper parameter of CatBoost

表3. CatBoost最优超参数

5.3. 结果分析


Table 4. Efficiency and accuracy of the model

表4. 模型的效率和精度


Figure 2. Curve of AUC-ROC

图2. AUC-ROC曲线


6. 结束语

针对财务造假识别,本文使用XGBoost和CatBoost这两类boosting方法对比分析。以Yang Bao等整理公布的1990~2014年美国上市公司财务造假数据为基础,划分训练集和测试集,作为两类boosting方法模型的数据源。




