基于主成分分析的信用评分模型研究
Research on Credit Scoring Models Based on Principal Component Analysis
DOI: 10.12677/sa.2024.133064, PDF, HTML, XML, 下载: 13  浏览: 26 
作者: 周炜堉, 龚 平*:广东外语外贸大学数学与统计学院,广东 广州
关键词: 信用评分模型主成分分析Credit Scoring Model Principal Component Analysis
摘要: 信用评分是确保金融机构安全借贷和减少坏账风险的重要工具,其中主成分分析(PCA)能提高处理贷款数据的精确度和效率,进而提升信用评分模型的预测能力。本文首先介绍了研究背景和意义,探讨了信用评分模型的发展与现状,分析了PCA在信用评分中的应用优势及局限。通过分析上市公司数据构建指标体系和主成分分析,计算因子得分,并利用主成分数据构建决策树模型以验证PCA模型的准确性。最后,文章总结了研究成果并对未来的研究方向进行了展望。
Abstract: Credit scoring is a crucial tool for financial institutions to lend safely and reduce the risk of bad debts, where principal component analysis (PCA) enhances the accuracy and efficiency of processing loan data, thus improving the predictive power of credit scoring models. This article begins with an introduction to the background and significance of the study, discusses the development and current state of credit scoring models, and analyzes the advantages and limitations of applying PCA in credit scoring. By examining data from listed companies to construct an indicator system and performing PCA to calculate factor scores, the study further validates the accuracy of the PCA model through the construction of a decision tree model based on principal component data. Finally, the paper concludes with a summary of the findings and a perspective on future research directions.
文章引用:周炜堉, 龚平. 基于主成分分析的信用评分模型研究[J]. 统计学与应用, 2024, 13(3): 639-648. https://doi.org/10.12677/sa.2024.133064

1. 引言

1.1. 研究背景和意义

在金融领域中,信用评分模型是银行以及其他金融机构评估申请人信用风险的重要工具之一,拥有一个良好有效的信用评分模型,可以帮助金融机构根据所给出的申请人的信用评分,通过分析给出未来申请人是否违约的概率,违约概率与信用评分有关[1]。随着金融市场的不断发展和创新,传统的信用评分模型面临着诸多挑战,如模型的准确性、稳定性和解释性等方面的局限性。因此,基于主成分分析的信用评分模型成为了研究的热点之一。

在现代金融领域中,信用评分模型是金融机构用于评判申请人的信用风险水平的重要工具。随着金融市场的发展,信用评分模型的研究和应用也相应地变得更加重要。其中,基于主成分分析的信用评分模型具有其独特的研究意义和现实意义。

首先,研究主成分分析法在信用评分模型中的应用具有重要的理论价值。主成分分析是一种统计方法,它通过降维技术将多个变量转换为少数几个主成分,以此来揭示数据的内在结构。在信用评分模型中应用主成分分析,可以有效地从众多可能影响信用风险的因素中提取出最具代表性的几个变量,从而简化模型构建过程,提高模型的解释能力和预测准确性。这种方法有助于金融机构更好地理解和评估借款人的信用风险,为信用评分提供了一种新的视角。

其次,从实践的角度来看,基于主成分分析的信用评分模型对于提高金融机构的风险管理能力具有显著的意义。随着经济全球化和互联网金融的发展,金融市场的参与者和交易种类越来越多,风险管理的复杂性和难度也随之增加。在这种背景下,传统的信用评分模型往往因变量选择的主观性和模型构建的复杂性而限制了其应用范围和效果。而基于主成分分析的信用评分模型,通过客观地选取主要成分作为评分指标,不仅能提高评分的准确性和效率,还能适应不断变化的市场环境,为金融机构提供更为灵活和有效的风险管理工具。

此外,该研究还具有重要的社会价值。一个科学、公正的信用评分系统能够促进金融市场的公平竞争,提高金融服务的可获取性,从而促进经济的健康发展。对于借款人而言,一个透明、合理的信用评分模型能够激励其改善信用行为,提高自身的信用等级。对于金融机构来说,准确的信用评分可以减少坏账风险,提高资本的使用效率。因此,基于主成分分析的信用评分模型研究不仅有助于优化金融机构的风险管理,还有助于建立更加健康、稳定的金融市场环境。

综上所述,基于主成分分析的信用评分模型具有重要的研究意义和价值。它能够提高信用评分的准确性和可靠性,提取影响信用评分的主要因素,改善金融机构的风险管理水平,促进金融市场的稳定和健康发展。因此,进一步深入研究和应用基于主成分分析的信用评分模型具有重要的理论和实践意义。

1.2. 信用评分模型研究动态分析

2004年,左子叶与朱扬勇基于数据挖掘聚类方法建立了信用评级方法[2];2010年,丁东洋等学者基于贝叶斯方法对违约概率和信用评级进行了研究[3];2015年,史小康等学者将两类有偏logistic分布应用在信用评分模型中[4];2017年,沈霞运用因子分析法与定性打分法相结合的方式对我国P2P网贷平台信用进行评级分析[5]

在金融领域,信用评分模型是一种重要的工具,用于评估个人或实体的信用风险。通过对各种信用相关因素进行分析和建模,信用评分模型可以帮助金融机构、信贷机构和其他组织更准确地预测借款人违约的可能性,从而制定更合理的信贷政策和风险管理策略。信用评分的概念最早可以追溯到20世纪初。在那个时候,银行和贷款机构主要依赖人工审核来决定贷款申请的批准与否。这一过程不仅效率低下,而且充满了主观性,导致信贷决策的不一致性和偏见。

19世纪50年代,随着统计学和计算技术的发展,信用评分模型开始出现。这些早期的模型尝试通过统计方法预测借款人违约的可能性。最具代表性的是1958年,FICO创建了第一个信用评分系统[6],标志着信用评分模型向自动化和量化评估的重大转变。19世纪70年代,随着计算机技术的进步和数据处理能力的提高,信用评分模型得到了进一步的发展。这一时期,信用评分开始自动化处理,减少了人为干预,提高了信贷决策的速度和准确性。1989年,FICO分数正式成为美国信贷评分标准,这一分数系统通过收集个人的信用历史、债务水平、还款记录等信息来评估信用风险。

近年来,随着机器学习和人工智能技术的飞速发展,信用评分模型正在经历前所未有的变革。通过利用深度学习、神经网络等先进技术,现代信用评分模型能够识别复杂的模式和关系,预测个体的信用行为,从而提供更加个性化和精准的评分。此外,非传统数据(如社交媒体活动、在线行为习惯等)的使用也日益增多,为评估个体的信用风险提供了更多维度[7]

信用评分模型在金融行业的应用已经非常广泛。除了传统的银行信贷业务外,信用评分模型还被应用于消费金融、保险、电商等领域。随着互联网和大数据技术的发展,越来越多的新型数据(如社交网络数据、移动设备数据等)被引入到信用评分模型中,以提高模型的预测性能和精度。

1.3. 主成分分析的优势与局限性

主成分分析(PCA)是一种统计方法,它通过线性变换将一组可能相关的变量转换成一组线性不相关的变量,这组新的变量称为主成分。PCA的目的是减少数据集的维度,同时保留数据中最重要的变异性信息。主成分分析通过找到数据方差最大的方向来确定第一个主成分,然后寻找与第一个主成分正交(线性无关)且方差最大的方向作为第二个主成分,依此类推。通过选择几个最重要的主成分(即特征值最大的几个特征向量),可以将原始高维数据转换为低维数据,以简化后续分析和处理。

主成分分析的优势主要有:(1) 降维和复杂性简化。主成分分析能够通过减少变量数量来降低信用评分模型的复杂度,这有助于简化模型的解释和实施,同时保留了数据中最重要的信息。(2) 去除多重共线性。在信用评分数据中,许多变量往往是高度相关的。主成分分析通过转换成线性无关的主成分,有助于减少或消除变量间的多重共线性问题,从而提高模型的稳定性和准确性。(3) 突出重要特征。主成分分析通过提取主要的成分来突出数据中的重要特征,这有助于识别和理解影响信用风险的关键因素。

主成分分析的局限性主要有:(1) 信息损失。虽然主成分分析有助于降低数据维度,但这个过程可能会导致一些信息的损失。当去除较小的主成分时,那些可能对信用评分有微小但重要影响的信息可能会被忽略。(2) 结果解释困难。主成分分析生成的主成分是原始变量的线性组合,这些新的主成分可能缺乏直观的业务解释,使得模型结果难以向非技术利益相关者解释。(3) 对异常值敏感。主成分分析对数据中的异常值非常敏感,这些异常值可能会对主成分的计算产生重大影响,从而影响信用评分模型的准确性和可靠性。(4) 非线性关系问题。主成分分析基于线性假设,如果原始数据中存在非线性关系,PCA可能无法有效捕捉这些关系,导致重要的信息未被充分利用。

主成分分析作为一种经典的数据降维技术,在信用评分模型中发挥着重要作用。通过提取数据的主要结构和模式,主成分分析可以帮助简化模型、提高解释性,并改善模型的性能。未来,随着技术的不断进步和理论的不断完善,主成分分析在信用评分领域的应用将会更加广泛和深入。

2. 信用评分指标体系

对上市公司建立准确的信用评分模型,可以预估上市公司未来的违约率,为了能够准确衡量这个违约率,首先确定具有代表性的指标,构建合理的指标体系[8]。指标体系的建立是进行风险评估预测或评价研究的前提与基础,它是将抽象的研究对象按照其本质属性和特征的某一方面的标识分解成为具有行为化、可操作化的结构,并对指标体系中每一构成元素(即指标)赋予相应权重的过程[9]。我国上市公司是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司[10]。由《证券法》法第五十五条、五十六条规定:公司不能不按照规定公开其财务状况,或者对财务会计报告作虚假记载。因此我选择了上市公司作为研究对象[11]

在指标的初始选择中,本文以广东省部分上市公司的2022年财务报表数据作为研究对象,而已经退市的公司,则选用退市年前1年的财务报表数据[12]。根据全面性、系统性、科学性和可操作性相结合的风险评估指标选取原则,构建出了如表1所示的指标体系。

Table 1. Indicator system

1. 指标体系

序号

准则层


指标层

单位%

1

盈利能力

成本费用利润率X1

及其费用比重X4

主营业务成本率X2

及其费用比重X5

销售净利率X3

及其费用比重X6

2

偿还能力

清算价值比率X7

流动比率X8

速动比率X9

3

成长能力

主营业务收入增长率X10

净利润增长率X11

总资产增长率X12

4

营运能力

经营现金流量净额对流动负债比率X13

经营现金流量净额对销售收入比率X14


3. 主成分分析模型

3.1. 主成分分析模型的建立步骤

在构建主成分分析模型之前,我想先讲述一下主成分分析模型的建立步骤。首先需要收集合适准确的数据,确保数据的质量和完整性,数据的质量直接影响到主成分分析模型的准确性。而在收集完数据之后,需要对数据进行预处理,如果数据缺失的话可以通过插值法进行填充,数据标准化可以使不同特征具有相同的尺度。在对数据预处理之后,需要对数据进行KMO和巴特利特球形检验,来判断数据指标之间的关联度和显著性水平,KMO取样适切性量数需要大于0.6且在0%的显著性水平下巴特利特显著性检验通过,说明所建立的指标间具有一定的关联度,可以进一步进行因子分析。再然后进行主成分分析,计算相关系数矩阵求得特征根,将特征根代入公式,最后通过加权平均得分算出各上市公司的信用评分。

3.2. 适应性检验

在对数据进行因子分析之前,需要先进行KMO和巴洛特利检验,以判断数据指标之间的关联度和显著性水平。由表2所示,KMO取样适切性量数为0.651大于0.6且在0%的显著性水平下巴特利特显著性检验通过,说明所建立的指标间具有一定的关联度,可以进一步进行主成分分析。

Table 2. KMO and Bartlett tests

2. KMO和巴特利特检验

KMO 取样适切性量数

0.709


巴特利特球形检验

近似卡方

579.08

自由度

91

显著性

0

3.3. 主成分分析

根据主成分分析的原理,构建以下模型

Y= β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 + β 7 X 7 + β 8 X 8      + β 9 X 9 + β 10 X 10 + β 11 X 11 + β 12 X 12 + β 13 X 13 + β 14 X 14 +c.

通过SPSS进行主成分分析,对标准化后的指标整理成矩阵Z,进行相关系数矩阵计算后求得R的特征根,根据SPSS可得到如表3所示的总方差解释表和如图1所示的碎石图。

Table 3. Total variance explanation table

3. 总方差解释表

成分

初始特征值



提取载荷平方和




总计

方差百分比

累积%

总计

方差百分比

累积%

1

4.966

35.472

35.472

4.966

35.472

35.472

2

3.035

21.676

57.148

3.035

21.676

57.148

3

1.98

14.145

71.293

1.98

14.145

71.293

4

1.211

8.65

79.944

1.211

8.65

79.944

5

0.997

7.123

87.067




6

0.705

5.032

92.099




7

0.417

2.976

95.076




8

0.264

1.882

96.958




9

0.165

1.182

98.14




10

0.123

0.881

99.021




11

0.075

0.538

99.559




12

0.038

0.274

99.832




13

0.022

0.156

99.989




Figure 1. Gravel picture

1. 碎石图

表3中可以看到第一主成分的特征值为4.966,解释了总变异的35.472%,第二主成分的特征值为3.035,解释了总变异的21.676%,第三主成分的特征值为1.98,解释了总变异的14.145%,第四主成分的特征值为1.211,解释了总变异的8.65%,前四个主成分累计解释了总变异的79.944%。碎石图1通过按特征值大小排列形成散点图,说明前四个特征值都大于1,从第五个开始都小于1。说明前五个主成分可以解释总变异的极大部分,写出主成分F1、F2、F3、F4。

通过如表4所示的成分得分系数矩阵,可以得出各主成分F1、F2、F3、F4的计算公式。将数据代入主成分计算公式中,计算各上市公司的主成分得分,并通过加权平均算出总得分。结果如表5所示。从表5中所算出的因子总得分可以看出,退市公司的因子得分基本偏低,说明该主成分模型基本适用。

Table 4. Component score coefficient matrix

4. 成分得分系数矩阵

单位:%

1

2

3

4

成本费用利润率

0.18

−0.092

0.089

−0.099

主营业务成本率

0.001

−0.068

0.447

0.184

销售费用/营业总收入

−0.022

0.022

0.456

−0.054

管理费用/营业总收入

−0.073

0.212

0.227

0.35

财务费用/营业总收入

−0.124

0.177

−0.094

0.106

销售净利率

0.153

−0.163

0.087

−0.174

有形资产/负债合计

0.155

0.185

−0.036

0.138

主营业务收入增长率

0.085

−0.16

−0.091

0.36

净利润(N年,增长率)

0.038

−0.121

−0.038

0.454

资产总计(N年,增长率)

0.056

−0.225

−0.034

0.314

流动比率

0.158

0.185

−0.02

0.14

速动比率

0.159

0.188

−0.019

0.124

经营活动产生的现金流量净额/营业收入

0.11

0.003

0.093

−0.352

经营活动产生的现金流量净额/流动负债

0.162

0.135

−0.015

−0.051

Table 5. Factor scores of each company

5. 各公司因子得分

证券代码

证券简称

F1

F2

F3

F4

F

002212.SZ

天融信

−0.51

0.23

2.42

1.14

0.31

300586.SZ

美联新材

0.67

−0.96

−0.09

1.37

0.14

000534.SZ

万泽股份

−0.16

−0.26

3.40

0.79

0.44

002741.SZ

光华科技

−0.17

−0.81

−0.52

0.92

−0.23

601515.SH

东峰集团

0.03

0.09

0.30

−0.61

0.02

002292.SZ

奥飞娱乐

−0.58

0.15

0.92

0.30

−0.02

300057.SZ

万顺新材

−0.02

−1.31

−0.93

2.32

−0.22

002759.SZ

天际股份

0.41

−1.10

−0.06

0.53

−0.06

300791.SZ

仙乐健康

0.39

0.28

0.36

0.13

0.26

002167.SZ

东方锆业

−0.19

−0.96

−0.25

0.82

−0.24

000100.SZ

TCL科技

−0.29

−0.31

−0.58

−0.57

−0.30

000333.SZ

美的集团

−0.15

−0.47

0.30

−0.38

−0.15

000507.SZ

珠海港

−0.21

−0.22

−0.03

−0.64

−0.18

000523.SZ

红棉股份

−0.71

0.08

−0.31

−0.80

−0.35

000576.SZ

甘化科工

0.06

0.18

1.45

1.89

0.43

000690.SZ

宝新能源

−0.15

−0.06

−0.81

−1.05

−0.27

000651.SZ

格力电器

−0.05

−0.62

0.29

−0.39

−0.15

000823.SZ

超声电子

−0.03

−0.13

−0.16

−0.41

−0.10

002017.SZ

东信和平

0.18

−0.83

0.44

0.78

0.01

002027.SZ

分众传媒

0.64

0.03

2.34

−2.55

0.34

833994.BJ

翰博高新(退市)

−0.10

−0.52

−0.77

0.00

−0.26

833874.BJ

泰祥股份(退市)

3.17

2.35

−0.48

−0.02

1.57

832317.BJ

观典防务(退市)

2.84

2.21

−0.66

1.28

1.51

600723.SH

首商股份(退市)

−0.73

0.88

0.43

−1.57

−0.14

600068.SH

葛洲坝(退市)

−0.33

−0.35

−0.77

−0.41

−0.34

000418.SZ

小天鹅A(退市)

−0.02

−0.54

0.06

−0.54

−0.16

600680.SH

*ST上普(退市)

−2.02

2.13

−0.25

−0.01

−0.29

600270.SH

外运发展(退市)

0.41

−0.48

−0.75

0.13

−0.05

000916.SZ

华北高速(退市)

0.41

0.08

−0.62

−0.98

−0.01

600005.SH

武钢股份(退市)

−0.35

−0.30

−0.90

−0.45

−0.36

000024.SZ

招商地产(退市)

−0.18

−0.83

−1.02

0.30

−0.36

300186.SZ

大华农(退市)

0.75

1.20

0.33

−0.24

0.55

601268.SH

*ST二重(退市)

−3.03

2.93

−0.94

1.47

−0.44

600832.SH

东方明珠(退市)

0.48

−0.98

−0.64

−0.16

−0.15

601299.SH

中国北车(退市)

−0.13

−0.61

−0.70

−0.01

−0.28

000527.SZ

美的电器(退市)

−0.37

−0.05

−0.09

−1.18

−0.26

000602.SZ

金马集团(退市)

0.01

−0.13

−0.71

−1.20

−0.23

4. 主成分模型验证

上文我们已经得到了主成分模型,但是这个主成分模型是否准确还需要验证。因此,我将依靠原数据所得出的主成分数据,构建一个决策树模型,通过判断决策树模型的精确度,以此来判断该主成分模型的准确度。

4.1. 决策树模型在信用评分中的应用优势与局限性

决策树通过一系列的问题对数据进行分割,逐步缩小问题的范围,直至达到决策。这些问题通常是关于数据特征的是非问答,决策树的每个分支代表一个可能的答案,每个节点代表一个决策规则。这种方法的优点是模型易于理解和解释,可以直观地表示为一棵树。

在信用评分领域,决策树模型通常用于评估借款人的信用风险,预测借款人是否可能违约。通过分析借款人的历史信用记录、收入水平、就业情况、负债比率等信息,决策树可以帮助金融机构做出是否批准贷款的决策。

决策树模型在信用评分中的应用优势有:(1) 可解释性强。决策树模型的结果易于理解,金融机构可以直接根据模型生成的树状图解释每一次贷款审批的决策过程。(2) 能够处理非线性关系。相比于传统的线性模型,决策树能够处理数据之间的非线性关系,对于复杂的信用评分系统尤为重要。(3) 无需大量预处理。决策树对数据的要求不高,不需要进行复杂的数据转换或规范化处理。

决策树模型在信用评分中的应用局限性有:(1) 过拟合风险。决策树模型容易过拟合,特别是树的深度很大时。过拟合会导致模型在训练集上表现良好,但在未知数据上表现差。(2) 稳定性差。小的数据变化可能导致生成的决策树结构完全不同,影响模型的稳定性。(3) 处理连续变量易丢失信息。虽然决策树能处理连续变量,但其方式是通过将连续变量划分为不同的区间,这可能会导致信息的丢失。

综上所述,决策树模型因其简洁的逻辑和良好的可解释性,在信用评分领域得到了广泛应用。尽管存在过拟合和稳定性的挑战,但通过适当的参数调整和模型优化,决策树依然是信用评分领域的一个强大工具。随着机器学习技术的不断发展,结合决策树的新算法和模型正在不断地被开发和应用,以提高信用评分的准确性和效率。

4.2. 决策树模型的构建

通过使用Python软件,依靠上文从主成分分析中所得出的主成分数据,构建决策树模型,并以50%比例构建训练集。得到如图2所示的决策树模型图,如图3所示的ROC曲线图以及如表6所示的分类报告。以上结果可知整体准确率为79%,模型吻合度良好,不存在过拟合和欠拟合现象。因此,主成分模型同样准确。

Figure 2. Decision tree model (D is delisting, L is not delisting)

2. 决策树模型图(D为退市,L为不退市)

Figure 3. ROC curve diagram

3. ROC曲线图

Table 6. Classification report

6. 分类报告


精确度

召回率

F1分数

样本数量

退市

0.71

0.71

0.71

7

不退市

0.83

0.83

0.83

12

精确度



0.79

19

宏平均

0.77

0.77

0.77

19

加权平均

0.79

0.79

0.79

19

5. 总结与展望

我国是市场经济体制,随着我国市场经济的快速发展,我国上市公司的良好信用成了我国市场经济稳健发展的重要前提,本文以广东省部分上市公司为研究对象,根据其财务报表数据,对其信用评分进行了研究。

本文首先通过查找各公司当年的财务报表来收集数据,接着通过SPSS自行进行数据预处理,通过主成分分析得出各成分得分系数,构建主成分模型并算出各上市公司的因子总分。而为了检验该模型的稳定性,又根据主成分分析所得出的主成分数据用Python构建决策树模型,并根据此模型验证了主成分分析模型准确度良好。

本文利用主成分分析研究了我国上市公司的信用评分,但研究依然存在一些不足之处。第一,原始数据中可能存在异常数据,而SPSS的数据预处理中并没有考虑到这一点,探究辨别异常数据的方法是以后建立信用评分模型的一个研究方向;第二,这次选择的数据可能样本量过少,之后的研究可以适当扩大研究样本量,从而增加模型的准确性。

NOTES

*通讯作者。

参考文献

[1] 王旭拓, 卫雨婷, 张焕焕. 基于Kolmogorov-Smirnov (KS)统计量的信用评分模型选择方法[J]. 数理统计与管理, 2024(1): 100-116.
[2] 左叶子, 朱扬勇. 基于数据挖掘聚类技术的信用评分评级[J]. 计算机应用与软件, 2004, 21(4): 1-3+101.
[3] 丁东洋, 周丽莉. 基于贝叶斯方法的信用评级模型构建与违约概率估计[J]. 统计与信息论坛, 2010, 25(9): 8-15.
[4] 史小康, 常志勇. 两类有偏logistic分布在信用评分模型中的应用[J]. 统计与决策, 2015(4): 19-23.
[5] 沈霞. 我国P2P网贷平台信用评级研究[J]. 西部金融, 2017(1): 66-69.
[6] 饶逸飞.小微企业信用评分激发商业银行贷款意愿与实现方法研究[D]: [博士学位论文]. 大连: 东北财经大学, 2022.
https://doi.org/10.27006/d.cnki.gdbcu.2022.001280
[7] 杜梦甜. 个人用户守信行为与企业对策的博弈研究[D]: [硕士学位论文]. 北京: 北京邮电大学, 2020.
https://doi.org/10.26969/d.cnki.gbydu.2020.002035
[8] 甯懿楠, 杨爽, 李云飞. 上市公司信用风险评估指标体系的构建[J]. 内江师范学院(自然科学版), 2017(12): 59-63.
[9] 艾志刚, 陈黄平. 绿色建筑的生态效率评价方法探讨[J]. 城市建筑, 2013(16): 137-138.
[10] 邢文英. 企业股份制及股份合作制百问百答[M]. 北京: 中国言实出版社, 1997.
[11] 佚名. 中华人民共和国公司法[J]. 会计之友, 2006(2): 1-17.
[12] 连旭. 基于不同分类的上市公司退市风险研究[D]: [硕士学位论文]. 杭州: 浙江大学, 2023.
https://d.wanfangdata.com.cn/thesis/ChJUaGVzaXNOZXdTMjAyNDAxMDkSCUQwM