1. 引言
随着电子银行的发展和在线支付方式的完善,信用卡的使用量和发行量也在逐步增加,导致信用卡诈骗等欺诈行为日益增多,每年都会造成极大的经济损失。因此,银行等金融机构应当高度重视并配备具有自动检测欺诈行为的系统 [1]。信用卡欺诈自动检测系统的核心在于对当前的交易性信用卡支付数据建立数学模型,并利用该模型对新到来的交易行为进行决策,判断客户是否存在欺诈,故信用卡欺诈检测从本质上来说是个二分类问题。近年来,许多学者对信用卡欺诈检测进行了研究和创新,积累了丰硕的学术成果。
随着人工智能的迅猛发展,基于机器学习相关算法的反欺诈研究已经成为学术研究领域的一个重要课题,得到了众多学者的关注。利用不同的算法、切入不同的角度进行研究与创新,对信用卡欺诈行为进行检测是一个新的研究方向,其中的算法有模糊LOF算法 [2]、SVM算法 [3]、集成学习算法 [4]、深度学习相关算法 [5] 等。目前,学者们对于集成学习、深度神经网络算法应用较多,实证检验效果也较好。刘铭等 [6] 在传统的模糊神经网络的基础上,结合灰狼算法,提出了一种改良的模糊神经网络算法,建立了信用卡客户违约预测模型,并且通过实验证明了模型的准确性、高效性。
吴文龙 [7] 利用WGAN-KDE方法改善了医保数据类别不平衡的问题,结合自编码器提取数据特征,最后利用GBDT算法检测医保欺诈行为。琚春华等 [8] 结合smote算法和KNN算法改善样本分布不均问题,并且搭建了KNN-smote-LSTM信用卡欺诈检测模型,极大改善了误分类问题。凌晨添 [9]、郭涛 [10] 都改进了前馈神经网络模型,并且对信用卡问题进行了检测,证明了改进算法的实用性、可行性。相较于传统的机器学习算法,深度学习的相关算法以其在信用卡欺诈检测领域的运用更具有优越性。
由于单一算法存在泛化能力不强,精度不高等问题,本文基于信用卡欺诈问题,结合大数据背景,应用深度学习相关算法,研究信用卡客户的交易行为,构建嵌入法–卷积神经网络的信用卡欺诈检测数学模型,与单一算法模型相比,改善了过拟合现象,提高了准确度,降低了误分类概率,对金融机构信用卡欺诈识别与检测具有较好的适用性和可行性。
2. 算法理论
2.1. 嵌入法
嵌入法的主要思想是:通过机器学习算法计算数据特征对于结果的影响,然后根据影响程度的大小选取主要的特征。基于惩罚项和树模型是嵌入特征选择法中运用最为广泛的两种方法 [11]。
2.1.1. 基于惩罚项的特征选择法
逻辑回归模型是一种用来处理离散分类问题的非线性模型,可表示为
,从形式来看,属于逻辑斯蒂分布 [12]。其中,变量X取值为数值变量,变量Y为类别变量。对于二分类问题,输入实例X,可以求得
和
,通过比较条件概率值,将实例X分到较大条件概率值的一类。
岭回归是机器学习算法中的一种回归算法,主要解决的是数据存在多重线性、数据特征多于标签的问题。主要思想与线性回归相似,不同的是岭回归是在线性回归优化目标上,加上了L2范数惩罚项。所以,岭回归无需使用t检验来判别变量是否显著,可以通过其变量系数的大小判别特征对结果的影响程度。
SVM中文名为支持向量机,属于监督学习算法,在分类和预测领域应用较多。其主要思想是将数据映射到一个高维度的空间,寻找支持向量构成的最大间隔的超平面对数据进行划分。SVM比单一的机器学习算法,具有更高的分类准确率,更好的泛化能力,所以在分类及预测问题中应用较为广泛。
2.1.2. 基于树模型的特征选择法
随机森林属于集成算法,是随机生成的多棵决策树的集合,这些决策树都是自由生长的,未经过剪枝处理。主要思想是利用Bootstrap抽样法,有放回的从训练集中随机抽取数据构成单一决策树,通过多次抽样,将单一决策树构成多棵决策树的森林。
AdaBoost算法是提升算法的一种,属于有监督的集成学习算法,广泛应用于分类和回归问题。主要思想是利用训练集训练出一系列决策树,即基分类器,然后将这些基分类器加权组合在一起,得到最终的提升树。算法中,权重的更新是通过前一轮的损失函数的大小来确定的,分类问题是误判率决定,回归问题是残差。
GBDT算法是梯度提升树中的常用算法。主要思想和和AdaBoost算法相似,不同的是GBDT算法在训练模型时,使用损失函数的负梯度值作为本轮基础模型损失值的近似,然后将这个近似值用于下一轮模型的训练。
2.2. 卷积神经网络
卷积神经网络是由Hubel和Wiesel在研究猫脑皮层中用于感受和选择的神经元时,发现其局部连接神经元可以降低全连接神经网络的复杂性,继而提出的 [13]。和普通的神经网络不同的地方在于,卷积神经网络利用卷积层和池化层作为数据集的特征选择器。普通的神经网络采用的是全连接结构,即每个神经元与相邻层之间的神经元全部连接在一起;卷积神经网络采用的是局部连接的结构,即每个神经元与邻层部分相关神经元连接。卷积神经网络的基本框架为:输入层、卷积层、池化层、全连接层、输出层,如图1所示。
3. 模型构建与分析
本文利用机器学习的方法构建模型,但是样本数据标签类别分布不均衡,所以先通过ADASYN采样改善标签不平衡的问题,选择基于惩罚项的特征选择法(逻辑回归、岭回归、SVM三种模型)和树模型的特征选择法(随机森林、AdaBoost、GBDT模型)分别对数据进行特征选取,找出每个模型中影响信用卡欺诈的特征及其重要性,选择最终特征时采用投票法。再将选出的特征来构建卷积神经网络模型,对信用卡客户的欺诈行为进行预测,最后将该模型与常见的逻辑回归模型、SVM模型、AdaBoost模型、GBDT模型相比较。本文主要思路如图2所示。为了全面做出评价,本文评价指标采用Accuracy、Recall、Kappa、F1、Precision、AUC,所选指标能全面的评价处分类模型的优劣。
![](//html.hanspub.org/file/11-2622073x10_hanspub.png?20220216165759487)
Figure 1. Convolutional neural network architecture
图1. 卷积神经网络结构
3.1. 数据来源
本文使用的数据集来自Kaggle网站信用卡欺诈公共数据集,该数据集记录的是欧洲信用卡交易活动,在近28万条数据中,存在492笔欺诈行为,类别分布不平衡。数据集包含了31个特征,其中输入特征29个,输出特征1个,Time、Amount与研究没有多大关系,将其剔除。特征“Class”是标签,包含2类,表示是否有欺诈行为,存在欺诈行为时用1表示,反之用0表示。
3.2. 数据预处理
本研究涉及到的解释变量特征中存在量纲和数量级差异,需要对数据进行处理。本研究主要考虑对各个指标采用Min-max的方法,将指标进行归一化处理,公式为:
为指标标准化后数据,
为指标的最大值,
为指标的最小值。用归一化方法将指标数值映射在[0, 1]之间,方便后续研究的进行。
3.3. 模型构建
3.3.1. 特征选取
由于该样本数据属于不平衡数据,即有欺诈行为的客户所占比例较少,所以需要先利用ADASYN采样方法对数据重采样,让数据分布均衡,再进行特征的选择。特征选取的方法有过滤法、嵌入法、混合法等。其他大多方法都是将模型训练与特征选取分开进行的,而嵌入法是将两者同时进行的,所以在很多的领域应用较为广泛。为避免单一方法的局限性,本文采用两种嵌入法进行特征的选取,选出票数多的特征作为影响信用卡欺诈行为的主要特征。
第一种是基于惩罚项的特征选择法,采用逻辑回归算法、岭回归算法、SVM算法进行特征的选取。简单的线性回归模型以均方误差作为损失函数,当数据量较少,数据特征较多时,容易造成模型的过拟合现象,对分析的结果造成极大的影响。为缓解过拟合的问题,损失函数引入惩罚项,即L1范数或者L2范数,降低数据维度的同时,选取出重要的特征。
第二种是基于树模型的特征选择法,采用随机森林算法、AdaBoost算法、GBDT算法进行数据特征的选取,然后根据特征的重要性,选择靠前的一些特征。
每种算法选取出排名靠前的10个特征,然后根据特征的重要性进行打分,第一个特征为10分,第二个特征为9分,以此类推。使用投票法进行选择,选择票数大于等于3票的特征作为影响信用欺诈的主要特征,每种特征6次得分的均值大小作为特征重要性,然后再计算出主要特征重要性的排名。
3.3.2. 卷积神经网络
根据该数据集特征提取的结果,建立信用卡欺诈检测的卷积神经网络模型来对目前客户交易行为进行检测。将处理好的输入变量做标准化处理,标签转换为独热编码,随机划分7数据的75%集作为训练集,25%作为验证集。以keras框架搭建一个卷积神经网络模型,结构如图3所示,优化器为Adam,学习率为10−6,卷积层激活函数为tanh,池化函数为maxpooling,损失函数为binary_crossentropy,训练轮数epoch为2000。损失函数loss从0.6292降到了0.042,如图4所示,说明该神经网络结构有效。
3.4. 结果分析
本文采用嵌入特征选择法来选择特征,结果如表1、表2所示。
![](//html.hanspub.org/file/11-2622073x16_hanspub.png?20220216165759487)
Figure 3. Scheme of the structure for fraud detection in convolutional neural networks
图3. 卷积神经网络欺诈检测结构图
![](//html.hanspub.org/file/11-2622073x17_hanspub.png?20220216165759487)
Figure 4. Convolutional neural network loss map
图4. 卷积神经网络损失图
![](Images/Table_Tmp.jpg)
Table 1. Features selected based on each model of the embedding method
表1. 基于嵌入法各模型选取的特征
![](Images/Table_Tmp.jpg)
Table 2. The main characteristics, feature importance and the number of main feature votes affecting credit fraud
表2. 影响信用欺诈主要特征、特征重要性及主要特征票数
由表1、表2和图5可知,影响信用卡欺诈的主要因素共有13个,按照其重要性,从高到低分别为:V4、V7、V14、V17、V12、V5、V8、V27、V21、V11、V22、V3、V10。在嵌入特征选取算法中,选出的各个特征的差异比较明显,说明能够为每个特征分配更好的权重。银行等金融机构可以根据特征的重要性提出针对性的举措,用于防范信用卡欺诈交易行为的发生,减少不必要的经济损失。
![](//html.hanspub.org/file/11-2622073x18_hanspub.png?20220216165759487)
Figure 5. Impact on the main characteristics of credit card fraud importance sorting and ticket count chart
图5. 影响信用卡欺诈主要特征重要性排序及票数图
将提取的特征输入到卷积神经网络进行训练,建立嵌入法–卷积神经网络信用卡欺诈检测模型,将该模型与逻辑回归模型、SVM模型、AdaBoost模型、GBDT模型相比较,评价指标采用Accuracy、Recall、Kappa、F1、Precision、AUC。表3表示不同模型在该数据集上的欺诈检测比较。
![](Images/Table_Tmp.jpg)
Table 3. Comparison results of different models
表3. 不同模型的比较结果
从表3的实验结果,可以看出嵌入法–卷积神经网络模型在Accuracy、Recall、Kappa、F1、Precision、AUC等综合评价指标上都有较好的效果。其中,Kappa系数相对于SVM模型提高了0.3208,其他指标都有不同程度的提高,说明该模型在类别预测的能力较强,精度、准确度较高,可以被应用于信用卡欺诈检测领域。虽然该模型的欺诈检测的精度较高,但是还是需要与客户信用卡实际检查的结果进行验证,才可以最终确定客户的交易行为是否存在信用卡欺诈。因此,本文的信用卡欺诈检测模型可以对客户的交易行为进行有效的监督,为银行等金融机构反欺诈提前预警,减少欺诈行为的发生。
3.5. 模型评价
本文的模型是在对现实多数实例的调研、文献查阅、大量数据进行分析和处理后建立的,并且建模过程严格按照科学探索过程来对问题进行研讨。本文模型有如下创新点:
1) 对于训练数据类别不平衡问题使用了ADASYN采样,一定程度上解决了客户存在信用卡欺诈行为过少的问题,减轻模型的欠拟合问题,使模型挖掘到了数据背后的大部分规律。
2) 使用嵌入法进行特征选择,减少特征的维度,并且能够同时考虑模型的训练、特征之间的相关性,以及特征和模型之间的相关性,效果优于使用过滤方法的卡方检验,相关系数等方法,得到的结论也更有说服力。使用特征打分机制和投票机制,考虑同一个特征在不同模型中出现的次数与最后的得分的均值,以均值大小来衡量选出特征的重要程度,筛选出来的最终影响特征可信度高,也更具有代表性。
3) 引入深度学习框架,构建嵌入法–卷积神经网络模型,利用神经网络的优越性改变单一模型的局限性,设置K折交叉验证,通过Accuracy、Recall、Kappa、F1、Precision、AUC的结果,综合验证了模型的预测准确度和稳定性,证明模型更具有代表性,泛化效果更好。通过对模型的层层检验和比较,使模型更加可靠的同时能适应更加复杂的实际情况,模型简洁实用,可移植性强。
4. 结束语
随着金融领域的高速发展和信用交易方式的多样化,信用卡的使用量和发行量也逐步增加,信用卡诈骗等欺诈行为与日俱增,对整个社会造成极大的经济损失。对信用卡欺诈行为精准识别、快速检测已经是金融领域的迫切需求。在本文中,提出了一种基于嵌入法–卷积神经网络的信用卡欺诈检测方法,进行信用卡欺诈检测。通过实例验证,本文模型相对于其他模型,在准确率、召回率、Kappa、AUC等评价指标上都有不同程度的提高,证明了本文模型分类精度高、结果准确,可以应用于信用卡欺诈行为检测,为银行等金融机构提供预警,减少经济损失。未来,该方法也可应用于大数据的各个领域,但要将该模型应用于实践,还需要对方法进行广泛的研究与优化。