1. 引言
1.1. 研究背景和意义
在金融领域中,信用评分模型是银行以及其他金融机构评估申请人信用风险的重要工具之一,拥有一个良好有效的信用评分模型,可以帮助金融机构根据所给出的申请人的信用评分,通过分析给出未来申请人是否违约的概率,违约概率与信用评分有关[1]。随着金融市场的不断发展和创新,传统的信用评分模型面临着诸多挑战,如模型的准确性、稳定性和解释性等方面的局限性。因此,基于主成分分析的信用评分模型成为了研究的热点之一。
在现代金融领域中,信用评分模型是金融机构用于评判申请人的信用风险水平的重要工具。随着金融市场的发展,信用评分模型的研究和应用也相应地变得更加重要。其中,基于主成分分析的信用评分模型具有其独特的研究意义和现实意义。
首先,研究主成分分析法在信用评分模型中的应用具有重要的理论价值。主成分分析是一种统计方法,它通过降维技术将多个变量转换为少数几个主成分,以此来揭示数据的内在结构。在信用评分模型中应用主成分分析,可以有效地从众多可能影响信用风险的因素中提取出最具代表性的几个变量,从而简化模型构建过程,提高模型的解释能力和预测准确性。这种方法有助于金融机构更好地理解和评估借款人的信用风险,为信用评分提供了一种新的视角。
其次,从实践的角度来看,基于主成分分析的信用评分模型对于提高金融机构的风险管理能力具有显著的意义。随着经济全球化和互联网金融的发展,金融市场的参与者和交易种类越来越多,风险管理的复杂性和难度也随之增加。在这种背景下,传统的信用评分模型往往因变量选择的主观性和模型构建的复杂性而限制了其应用范围和效果。而基于主成分分析的信用评分模型,通过客观地选取主要成分作为评分指标,不仅能提高评分的准确性和效率,还能适应不断变化的市场环境,为金融机构提供更为灵活和有效的风险管理工具。
此外,该研究还具有重要的社会价值。一个科学、公正的信用评分系统能够促进金融市场的公平竞争,提高金融服务的可获取性,从而促进经济的健康发展。对于借款人而言,一个透明、合理的信用评分模型能够激励其改善信用行为,提高自身的信用等级。对于金融机构来说,准确的信用评分可以减少坏账风险,提高资本的使用效率。因此,基于主成分分析的信用评分模型研究不仅有助于优化金融机构的风险管理,还有助于建立更加健康、稳定的金融市场环境。
综上所述,基于主成分分析的信用评分模型具有重要的研究意义和价值。它能够提高信用评分的准确性和可靠性,提取影响信用评分的主要因素,改善金融机构的风险管理水平,促进金融市场的稳定和健康发展。因此,进一步深入研究和应用基于主成分分析的信用评分模型具有重要的理论和实践意义。
1.2. 信用评分模型研究动态分析
2004年,左子叶与朱扬勇基于数据挖掘聚类方法建立了信用评级方法[2];2010年,丁东洋等学者基于贝叶斯方法对违约概率和信用评级进行了研究[3];2015年,史小康等学者将两类有偏logistic分布应用在信用评分模型中[4];2017年,沈霞运用因子分析法与定性打分法相结合的方式对我国P2P网贷平台信用进行评级分析[5]。
在金融领域,信用评分模型是一种重要的工具,用于评估个人或实体的信用风险。通过对各种信用相关因素进行分析和建模,信用评分模型可以帮助金融机构、信贷机构和其他组织更准确地预测借款人违约的可能性,从而制定更合理的信贷政策和风险管理策略。信用评分的概念最早可以追溯到20世纪初。在那个时候,银行和贷款机构主要依赖人工审核来决定贷款申请的批准与否。这一过程不仅效率低下,而且充满了主观性,导致信贷决策的不一致性和偏见。
19世纪50年代,随着统计学和计算技术的发展,信用评分模型开始出现。这些早期的模型尝试通过统计方法预测借款人违约的可能性。最具代表性的是1958年,FICO创建了第一个信用评分系统[6],标志着信用评分模型向自动化和量化评估的重大转变。19世纪70年代,随着计算机技术的进步和数据处理能力的提高,信用评分模型得到了进一步的发展。这一时期,信用评分开始自动化处理,减少了人为干预,提高了信贷决策的速度和准确性。1989年,FICO分数正式成为美国信贷评分标准,这一分数系统通过收集个人的信用历史、债务水平、还款记录等信息来评估信用风险。
近年来,随着机器学习和人工智能技术的飞速发展,信用评分模型正在经历前所未有的变革。通过利用深度学习、神经网络等先进技术,现代信用评分模型能够识别复杂的模式和关系,预测个体的信用行为,从而提供更加个性化和精准的评分。此外,非传统数据(如社交媒体活动、在线行为习惯等)的使用也日益增多,为评估个体的信用风险提供了更多维度[7]。
信用评分模型在金融行业的应用已经非常广泛。除了传统的银行信贷业务外,信用评分模型还被应用于消费金融、保险、电商等领域。随着互联网和大数据技术的发展,越来越多的新型数据(如社交网络数据、移动设备数据等)被引入到信用评分模型中,以提高模型的预测性能和精度。
1.3. 主成分分析的优势与局限性
主成分分析(PCA)是一种统计方法,它通过线性变换将一组可能相关的变量转换成一组线性不相关的变量,这组新的变量称为主成分。PCA的目的是减少数据集的维度,同时保留数据中最重要的变异性信息。主成分分析通过找到数据方差最大的方向来确定第一个主成分,然后寻找与第一个主成分正交(线性无关)且方差最大的方向作为第二个主成分,依此类推。通过选择几个最重要的主成分(即特征值最大的几个特征向量),可以将原始高维数据转换为低维数据,以简化后续分析和处理。
主成分分析的优势主要有:(1) 降维和复杂性简化。主成分分析能够通过减少变量数量来降低信用评分模型的复杂度,这有助于简化模型的解释和实施,同时保留了数据中最重要的信息。(2) 去除多重共线性。在信用评分数据中,许多变量往往是高度相关的。主成分分析通过转换成线性无关的主成分,有助于减少或消除变量间的多重共线性问题,从而提高模型的稳定性和准确性。(3) 突出重要特征。主成分分析通过提取主要的成分来突出数据中的重要特征,这有助于识别和理解影响信用风险的关键因素。
主成分分析的局限性主要有:(1) 信息损失。虽然主成分分析有助于降低数据维度,但这个过程可能会导致一些信息的损失。当去除较小的主成分时,那些可能对信用评分有微小但重要影响的信息可能会被忽略。(2) 结果解释困难。主成分分析生成的主成分是原始变量的线性组合,这些新的主成分可能缺乏直观的业务解释,使得模型结果难以向非技术利益相关者解释。(3) 对异常值敏感。主成分分析对数据中的异常值非常敏感,这些异常值可能会对主成分的计算产生重大影响,从而影响信用评分模型的准确性和可靠性。(4) 非线性关系问题。主成分分析基于线性假设,如果原始数据中存在非线性关系,PCA可能无法有效捕捉这些关系,导致重要的信息未被充分利用。
主成分分析作为一种经典的数据降维技术,在信用评分模型中发挥着重要作用。通过提取数据的主要结构和模式,主成分分析可以帮助简化模型、提高解释性,并改善模型的性能。未来,随着技术的不断进步和理论的不断完善,主成分分析在信用评分领域的应用将会更加广泛和深入。
2. 信用评分指标体系
对上市公司建立准确的信用评分模型,可以预估上市公司未来的违约率,为了能够准确衡量这个违约率,首先确定具有代表性的指标,构建合理的指标体系[8]。指标体系的建立是进行风险评估预测或评价研究的前提与基础,它是将抽象的研究对象按照其本质属性和特征的某一方面的标识分解成为具有行为化、可操作化的结构,并对指标体系中每一构成元素(即指标)赋予相应权重的过程[9]。我国上市公司是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司[10]。由《证券法》法第五十五条、五十六条规定:公司不能不按照规定公开其财务状况,或者对财务会计报告作虚假记载。因此我选择了上市公司作为研究对象[11]。
在指标的初始选择中,本文以广东省部分上市公司的2022年财务报表数据作为研究对象,而已经退市的公司,则选用退市年前1年的财务报表数据[12]。根据全面性、系统性、科学性和可操作性相结合的风险评估指标选取原则,构建出了如表1所示的指标体系。
Table 1. Indicator system
表1. 指标体系
序号 |
准则层 |
|
指标层 |
单位% |
1 |
盈利能力 |
成本费用利润率X1 及其费用比重X4 |
主营业务成本率X2 及其费用比重X5 |
销售净利率X3 及其费用比重X6 |
2 |
偿还能力 |
清算价值比率X7 |
流动比率X8 |
速动比率X9 |
3 |
成长能力 |
主营业务收入增长率X10 |
净利润增长率X11 |
总资产增长率X12 |
4 |
营运能力 |
经营现金流量净额对流动负债比率X13 |
经营现金流量净额对销售收入比率X14 |
|
3. 主成分分析模型
3.1. 主成分分析模型的建立步骤
在构建主成分分析模型之前,我想先讲述一下主成分分析模型的建立步骤。首先需要收集合适准确的数据,确保数据的质量和完整性,数据的质量直接影响到主成分分析模型的准确性。而在收集完数据之后,需要对数据进行预处理,如果数据缺失的话可以通过插值法进行填充,数据标准化可以使不同特征具有相同的尺度。在对数据预处理之后,需要对数据进行KMO和巴特利特球形检验,来判断数据指标之间的关联度和显著性水平,KMO取样适切性量数需要大于0.6且在0%的显著性水平下巴特利特显著性检验通过,说明所建立的指标间具有一定的关联度,可以进一步进行因子分析。再然后进行主成分分析,计算相关系数矩阵求得特征根,将特征根代入公式,最后通过加权平均得分算出各上市公司的信用评分。
3.2. 适应性检验
在对数据进行因子分析之前,需要先进行KMO和巴洛特利检验,以判断数据指标之间的关联度和显著性水平。由表2所示,KMO取样适切性量数为0.651大于0.6且在0%的显著性水平下巴特利特显著性检验通过,说明所建立的指标间具有一定的关联度,可以进一步进行主成分分析。
Table 2. KMO and Bartlett tests
表2. KMO和巴特利特检验
KMO 取样适切性量数 |
0.709 |
巴特利特球形检验 |
近似卡方 |
579.08 |
自由度 |
91 |
显著性 |
0 |
3.3. 主成分分析
根据主成分分析的原理,构建以下模型
通过SPSS进行主成分分析,对标准化后的指标整理成矩阵Z,进行相关系数矩阵计算后求得R的特征根,根据SPSS可得到如表3所示的总方差解释表和如图1所示的碎石图。
Table 3. Total variance explanation table
表3. 总方差解释表
成分 |
初始特征值 |
|
|
提取载荷平方和 |
|
|
|
总计 |
方差百分比 |
累积% |
总计 |
方差百分比 |
累积% |
1 |
4.966 |
35.472 |
35.472 |
4.966 |
35.472 |
35.472 |
2 |
3.035 |
21.676 |
57.148 |
3.035 |
21.676 |
57.148 |
3 |
1.98 |
14.145 |
71.293 |
1.98 |
14.145 |
71.293 |
4 |
1.211 |
8.65 |
79.944 |
1.211 |
8.65 |
79.944 |
5 |
0.997 |
7.123 |
87.067 |
|
|
|
6 |
0.705 |
5.032 |
92.099 |
|
|
|
7 |
0.417 |
2.976 |
95.076 |
|
|
|
8 |
0.264 |
1.882 |
96.958 |
|
|
|
9 |
0.165 |
1.182 |
98.14 |
|
|
|
10 |
0.123 |
0.881 |
99.021 |
|
|
|
11 |
0.075 |
0.538 |
99.559 |
|
|
|
12 |
0.038 |
0.274 |
99.832 |
|
|
|
13 |
0.022 |
0.156 |
99.989 |
|
|
|
Figure 1. Gravel picture
图1. 碎石图
从表3中可以看到第一主成分的特征值为4.966,解释了总变异的35.472%,第二主成分的特征值为3.035,解释了总变异的21.676%,第三主成分的特征值为1.98,解释了总变异的14.145%,第四主成分的特征值为1.211,解释了总变异的8.65%,前四个主成分累计解释了总变异的79.944%。碎石图1通过按特征值大小排列形成散点图,说明前四个特征值都大于1,从第五个开始都小于1。说明前五个主成分可以解释总变异的极大部分,写出主成分F1、F2、F3、F4。
通过如表4所示的成分得分系数矩阵,可以得出各主成分F1、F2、F3、F4的计算公式。将数据代入主成分计算公式中,计算各上市公司的主成分得分,并通过加权平均算出总得分。结果如表5所示。从表5中所算出的因子总得分可以看出,退市公司的因子得分基本偏低,说明该主成分模型基本适用。
Table 4. Component score coefficient matrix
表4. 成分得分系数矩阵
单位:% |
1 |
2 |
3 |
4 |
成本费用利润率 |
0.18 |
−0.092 |
0.089 |
−0.099 |
主营业务成本率 |
0.001 |
−0.068 |
0.447 |
0.184 |
销售费用/营业总收入 |
−0.022 |
0.022 |
0.456 |
−0.054 |
管理费用/营业总收入 |
−0.073 |
0.212 |
0.227 |
0.35 |
财务费用/营业总收入 |
−0.124 |
0.177 |
−0.094 |
0.106 |
销售净利率 |
0.153 |
−0.163 |
0.087 |
−0.174 |
有形资产/负债合计 |
0.155 |
0.185 |
−0.036 |
0.138 |
主营业务收入增长率 |
0.085 |
−0.16 |
−0.091 |
0.36 |
净利润(N年,增长率) |
0.038 |
−0.121 |
−0.038 |
0.454 |
资产总计(N年,增长率) |
0.056 |
−0.225 |
−0.034 |
0.314 |
流动比率 |
0.158 |
0.185 |
−0.02 |
0.14 |
速动比率 |
0.159 |
0.188 |
−0.019 |
0.124 |
经营活动产生的现金流量净额/营业收入 |
0.11 |
0.003 |
0.093 |
−0.352 |
经营活动产生的现金流量净额/流动负债 |
0.162 |
0.135 |
−0.015 |
−0.051 |
Table 5. Factor scores of each company
表5. 各公司因子得分
证券代码 |
证券简称 |
F1 |
F2 |
F3 |
F4 |
F |
002212.SZ |
天融信 |
−0.51 |
0.23 |
2.42 |
1.14 |
0.31 |
300586.SZ |
美联新材 |
0.67 |
−0.96 |
−0.09 |
1.37 |
0.14 |
000534.SZ |
万泽股份 |
−0.16 |
−0.26 |
3.40 |
0.79 |
0.44 |
002741.SZ |
光华科技 |
−0.17 |
−0.81 |
−0.52 |
0.92 |
−0.23 |
601515.SH |
东峰集团 |
0.03 |
0.09 |
0.30 |
−0.61 |
0.02 |
002292.SZ |
奥飞娱乐 |
−0.58 |
0.15 |
0.92 |
0.30 |
−0.02 |
300057.SZ |
万顺新材 |
−0.02 |
−1.31 |
−0.93 |
2.32 |
−0.22 |
002759.SZ |
天际股份 |
0.41 |
−1.10 |
−0.06 |
0.53 |
−0.06 |
300791.SZ |
仙乐健康 |
0.39 |
0.28 |
0.36 |
0.13 |
0.26 |
002167.SZ |
东方锆业 |
−0.19 |
−0.96 |
−0.25 |
0.82 |
−0.24 |
000100.SZ |
TCL科技 |
−0.29 |
−0.31 |
−0.58 |
−0.57 |
−0.30 |
000333.SZ |
美的集团 |
−0.15 |
−0.47 |
0.30 |
−0.38 |
−0.15 |
000507.SZ |
珠海港 |
−0.21 |
−0.22 |
−0.03 |
−0.64 |
−0.18 |
000523.SZ |
红棉股份 |
−0.71 |
0.08 |
−0.31 |
−0.80 |
−0.35 |
000576.SZ |
甘化科工 |
0.06 |
0.18 |
1.45 |
1.89 |
0.43 |
000690.SZ |
宝新能源 |
−0.15 |
−0.06 |
−0.81 |
−1.05 |
−0.27 |
000651.SZ |
格力电器 |
−0.05 |
−0.62 |
0.29 |
−0.39 |
−0.15 |
000823.SZ |
超声电子 |
−0.03 |
−0.13 |
−0.16 |
−0.41 |
−0.10 |
002017.SZ |
东信和平 |
0.18 |
−0.83 |
0.44 |
0.78 |
0.01 |
002027.SZ |
分众传媒 |
0.64 |
0.03 |
2.34 |
−2.55 |
0.34 |
833994.BJ |
翰博高新(退市) |
−0.10 |
−0.52 |
−0.77 |
0.00 |
−0.26 |
833874.BJ |
泰祥股份(退市) |
3.17 |
2.35 |
−0.48 |
−0.02 |
1.57 |
832317.BJ |
观典防务(退市) |
2.84 |
2.21 |
−0.66 |
1.28 |
1.51 |
600723.SH |
首商股份(退市) |
−0.73 |
0.88 |
0.43 |
−1.57 |
−0.14 |
600068.SH |
葛洲坝(退市) |
−0.33 |
−0.35 |
−0.77 |
−0.41 |
−0.34 |
000418.SZ |
小天鹅A(退市) |
−0.02 |
−0.54 |
0.06 |
−0.54 |
−0.16 |
600680.SH |
*ST上普(退市) |
−2.02 |
2.13 |
−0.25 |
−0.01 |
−0.29 |
600270.SH |
外运发展(退市) |
0.41 |
−0.48 |
−0.75 |
0.13 |
−0.05 |
000916.SZ |
华北高速(退市) |
0.41 |
0.08 |
−0.62 |
−0.98 |
−0.01 |
600005.SH |
武钢股份(退市) |
−0.35 |
−0.30 |
−0.90 |
−0.45 |
−0.36 |
000024.SZ |
招商地产(退市) |
−0.18 |
−0.83 |
−1.02 |
0.30 |
−0.36 |
300186.SZ |
大华农(退市) |
0.75 |
1.20 |
0.33 |
−0.24 |
0.55 |
601268.SH |
*ST二重(退市) |
−3.03 |
2.93 |
−0.94 |
1.47 |
−0.44 |
600832.SH |
东方明珠(退市) |
0.48 |
−0.98 |
−0.64 |
−0.16 |
−0.15 |
601299.SH |
中国北车(退市) |
−0.13 |
−0.61 |
−0.70 |
−0.01 |
−0.28 |
000527.SZ |
美的电器(退市) |
−0.37 |
−0.05 |
−0.09 |
−1.18 |
−0.26 |
000602.SZ |
金马集团(退市) |
0.01 |
−0.13 |
−0.71 |
−1.20 |
−0.23 |
4. 主成分模型验证
上文我们已经得到了主成分模型,但是这个主成分模型是否准确还需要验证。因此,我将依靠原数据所得出的主成分数据,构建一个决策树模型,通过判断决策树模型的精确度,以此来判断该主成分模型的准确度。
4.1. 决策树模型在信用评分中的应用优势与局限性
决策树通过一系列的问题对数据进行分割,逐步缩小问题的范围,直至达到决策。这些问题通常是关于数据特征的是非问答,决策树的每个分支代表一个可能的答案,每个节点代表一个决策规则。这种方法的优点是模型易于理解和解释,可以直观地表示为一棵树。
在信用评分领域,决策树模型通常用于评估借款人的信用风险,预测借款人是否可能违约。通过分析借款人的历史信用记录、收入水平、就业情况、负债比率等信息,决策树可以帮助金融机构做出是否批准贷款的决策。
决策树模型在信用评分中的应用优势有:(1) 可解释性强。决策树模型的结果易于理解,金融机构可以直接根据模型生成的树状图解释每一次贷款审批的决策过程。(2) 能够处理非线性关系。相比于传统的线性模型,决策树能够处理数据之间的非线性关系,对于复杂的信用评分系统尤为重要。(3) 无需大量预处理。决策树对数据的要求不高,不需要进行复杂的数据转换或规范化处理。
决策树模型在信用评分中的应用局限性有:(1) 过拟合风险。决策树模型容易过拟合,特别是树的深度很大时。过拟合会导致模型在训练集上表现良好,但在未知数据上表现差。(2) 稳定性差。小的数据变化可能导致生成的决策树结构完全不同,影响模型的稳定性。(3) 处理连续变量易丢失信息。虽然决策树能处理连续变量,但其方式是通过将连续变量划分为不同的区间,这可能会导致信息的丢失。
综上所述,决策树模型因其简洁的逻辑和良好的可解释性,在信用评分领域得到了广泛应用。尽管存在过拟合和稳定性的挑战,但通过适当的参数调整和模型优化,决策树依然是信用评分领域的一个强大工具。随着机器学习技术的不断发展,结合决策树的新算法和模型正在不断地被开发和应用,以提高信用评分的准确性和效率。
4.2. 决策树模型的构建
通过使用Python软件,依靠上文从主成分分析中所得出的主成分数据,构建决策树模型,并以50%比例构建训练集。得到如图2所示的决策树模型图,如图3所示的ROC曲线图以及如表6所示的分类报告。以上结果可知整体准确率为79%,模型吻合度良好,不存在过拟合和欠拟合现象。因此,主成分模型同样准确。
Figure 2. Decision tree model (D is delisting, L is not delisting)
图2. 决策树模型图(D为退市,L为不退市)
Figure 3. ROC curve diagram
图3. ROC曲线图
Table 6. Classification report
表6. 分类报告
|
精确度 |
召回率 |
F1分数 |
样本数量 |
退市 |
0.71 |
0.71 |
0.71 |
7 |
不退市 |
0.83 |
0.83 |
0.83 |
12 |
精确度 |
|
|
0.79 |
19 |
宏平均 |
0.77 |
0.77 |
0.77 |
19 |
加权平均 |
0.79 |
0.79 |
0.79 |
19 |
5. 总结与展望
我国是市场经济体制,随着我国市场经济的快速发展,我国上市公司的良好信用成了我国市场经济稳健发展的重要前提,本文以广东省部分上市公司为研究对象,根据其财务报表数据,对其信用评分进行了研究。
本文首先通过查找各公司当年的财务报表来收集数据,接着通过SPSS自行进行数据预处理,通过主成分分析得出各成分得分系数,构建主成分模型并算出各上市公司的因子总分。而为了检验该模型的稳定性,又根据主成分分析所得出的主成分数据用Python构建决策树模型,并根据此模型验证了主成分分析模型准确度良好。
本文利用主成分分析研究了我国上市公司的信用评分,但研究依然存在一些不足之处。第一,原始数据中可能存在异常数据,而SPSS的数据预处理中并没有考虑到这一点,探究辨别异常数据的方法是以后建立信用评分模型的一个研究方向;第二,这次选择的数据可能样本量过少,之后的研究可以适当扩大研究样本量,从而增加模型的准确性。
NOTES
*通讯作者。