基于图卷积网络的中小企业信用风险预测

doi:10.12677/FIN.2024.142062

期刊菜单

基于图卷积网络的中小企业信用风险预测
Credit Risk Prediction for Small and Medium-Sized Enterprises Based on Graph Convolutional Networks

DOI: 10.12677/FIN.2024.142062, PDF, HTML, XML,
作者: 赵美, 张小宁, 董萍萍：同济大学经济与管理学院，上海
关键词: 图卷积网络；信用风险；中小企业；供应链金融；Graph Convolutional Networks； Credit Risk； Small and Medium-Sized Enterprises (SMEs)； Supply Chain Finance

摘要: 长期以来中小企业一直存在融资难的问题，供应链金融被提出作为解决该问题的一个重要方案。如何更准确地评估供应链金融背景下的中小企业的信用问题成为一大难点。本文提出了一种基于图卷积网络的中小企业信用风险预测方法，该方法充分考虑了整个供应链网络的信息。首先，以化学制药行业为背景构建了包含420家核心企业、一级供应商和二级供应商的供应链网络，然后构建两层图卷积神经网络，将企业财务、基本信息等特征以及供应关系数据作为输入，企业是否ST或破产清算等作为标签训练，使其学习供应链网络间的复杂非线性关系并对末端中小企业进行风险预测。最后对比了SVM、AdaBoost等传统机器学习模型，实验结果表明，本文所提出的模型预测效果较好，为供应链金融背景下的中小企业信用风险预测提供了新思路。

Abstract: For a long time, small and medium-sized enterprises (SMEs) have faced challenges in accessing financing, with supply chain finance proposed as a significant solution to address this issue. Accurately assessing the credit of SMEs within the context of supply chain finance has been a major challenge. This paper proposes a credit risk prediction method for SMEs based on graph convolutional networks, which takes into account information across the entire supply chain network. Firstly, this paper constructed a supply chain network comprising 420 core enterprises, primary suppliers, and secondary suppliers within the context of the pharmaceutical industry. Secondly, a two-layer graph convolutional neural network was developed. It utilized features such as financials, basic information, and supply relationship data as inputs, while training on labels indicating whether companies are flagged as “ST” (Special Treatment) or subjected to bankruptcy liquidation. This enabled the model to learn complex nonlinear relationships among the supply chain networks and predict risks for SMEs at the end of the chain. Comparative analyses were conducted with traditional machine learning models like SVM and AdaBoost. Experimental results demonstrated the effectiveness of the proposed model, offering new insights into credit risk prediction for SMEs within the domain of supply chain finance.

文章引用：赵美, 张小宁, 董萍萍. 基于图卷积网络的中小企业信用风险预测[J]. 金融, 2024, 14(2): 575-588. https://doi.org/10.12677/FIN.2024.142062

1. 引言

近年来，我国市场经济改革迅速推进，企业间竞争日益激烈。在经营规模、经营理念、信用评级和资产管理等因素的综合影响下，获取银行信贷成为企业发展的当务之急，直接影响着企业的融资能力和未来发展。然而，中小微企业长期以来面临着融资难的困境。尤其是新冠肺炎疫情的蔓延，给全球供应链和产业链带来了巨大的冲击。中小微企业因资金回流困难、运营成本上升、现金流紧张等问题，更加迫切地需要融资支持以渡过难关。在这种情况下，供应链金融成为缓解融资难题的重要手段备受政府和企业关注。2021年3月5日，十三届全国人大四次会议的《政府工作报告》中提出了“创新供应链金融服务模式”的重要内容，凸显了供应链金融创新在国家发展战略中的地位。政府和企业纷纷探索新的供应链金融服务模式，这意味着供应链金融已逐步成为我国经济发展的重要支撑。

供应链金融的核心在于以中小企业相关联的核心企业信用作为担保，将供应商、制造商和零售商整合为一个协调统一的体系，为中小企业提供全方位的融资或增信，从而优化供应链并提升整体竞争力。然而，这种模式下位于供应链远端的中小企业往往难以获得融资支持。若中小企业发生信用风险并扩散至核心企业，将对其经营造成严重影响，进而干扰整个供应链的平稳运作。因此，供应链金融中中小企业信用问题突出。如何有效识别中小企业的信用风险，加强风险管理，已成为供应链金融业务亟须解决的现实问题。有效的信用风险识别和管理可以有助于减少不良影响，维护整个供应链的稳定和持续性发展。

供应链金融背景下中小企业信用风险预测的是当前研究的一个重要问题，现有的研究方法包括传统机器学习方法和一些列数据驱动技术，然而，这些方法在处理复杂非线性特征方面存在一定局限性。传统的机器学习方法常常难以有效提取供应链金融中各个参与方之间复杂的非线性特征，例如，供应链金融涉及多个环节和参与方，其间的关联和相互作用相当复杂。传统机器学习方法在分析这些复杂关系时存在局限，无法充分捕捉企业之间的动态互动、交易关系和潜在风险。因此，这些方法在提高信用风险预测精度和全面性方面存在挑战。此外，现有方法难以有效处理供应链金融背景下数据的特殊性。供应链金融数据通常具有高度动态性、异质性和不确定性，这对传统方法提出了更高的要求。传统机器学习方法可能无法充分利用这些数据的潜在信息，导致预测模型的鲁棒性和准确性受到限制。因此，本论文旨在探索新的研究方法以克服传统机器学习方法的局限性，更好地提取和分析供应链金融环境中的复杂非线性特征，以改善对中小企业信用风险的预测能力。通过引入先进的图卷积神经网络算法，提取供应链网络中各个节点的复杂非线性空间特征，期望能够有效克服传统方法的不足，提升预测模型的准确性和可靠性，为中小企业信用风险预测提供更可靠的决策支持。

本文的贡献主要体现在以下三个关键方面：首先，在数据收集和供应链网络构建方面，本文考虑了更为详细的数据，包括核心企业、一级供应商和二级供应商等，并充分考虑了这些企业之间复杂的关系。此外，本文还关注了供应链中节点和边的拓扑结构，从而更全面地描述了供应链网络。其次，在神经网络模型的构建方面，本文引入了图卷积神经网络(GCN)作为信用风险评估工具。GCN具有强大的非线性特征学习能力，能够有效处理供应链网络数据，提高了模型的性能和效率。最后，本文运用化学制药行业上的供应链网络数据，将所提出的方法与传统机器学习模型(如SVM、AdaBoost等)进行了对比，并采用KS和F1值作为模型评价指标。实验结果显示，本文所提出的方法在信用风险评估方面表现出良好的性能和效果，相较于传统模型具有明显优势。

2. 文献综述

目前，国内外关于供应链金融背景下的中小企业信用风险研究主要集中于评价指标体系和评价方法两方面。

针对评价指标体系，Zhao et al. (2022) [1] 和Li & Guo (2021) [2] 采用了不同的方法和因素选择，以应对供应链金融下的中小企业信用风险。Zhao et al.通过定性定量筛选，从中小企业能力、核心企业能力、融资目标情况、第三方物流企业、供应链状况和外部环境等方面选取了46个评价指标，构建了一套综合的评价指标体系。与此同时，Li & Guo则运用两阶段贝叶斯判别模型，将内部财务因素、内部非财务因素、外部环境、公司声誉以及抵押品担保系数等因素融合，形成了另一套多维度评价指标体系。韩琴(2019) [3] 的研究认为核心公司的信用状况与融资企业的信用状况相互影响，共同塑造了企业的还款能力。而邓爱民(2016) [4] 等学者则侧重于第三方物流企业对供应链金融的影响，提出了考虑第三方物流企业信用能力、竞争能力以及与供应链协调的合作能力和信用记录等因素的评价指标体系。这些不同研究的评价指标体系涵盖了从企业内部能力到外部环境因素的多个维度，充分考虑了供应链金融下中小企业信用风险评估的多样性和复杂性。

针对评价方法，目前对于供应链上中小企业信用风险评价模型的研究主要可分为两大类。首先是基于主观或主客观相结合的方法构建评价指标体系，例如Fan (2021) [5] 基于供应链金融和风险相关理论，采用模糊综合评价法建立了针对风险评价的指标体系。Huang et al. (2021) [6] 则运用灰色关联分析方法构建了中国家电行业的供应链金融信用风险评价模型。另一类研究采用基于数据驱动的方法构建信用风险评价模型，如Zhu et al. (2019) [7] 、Zhang et al. (2019) [8] 和Sang (2021) [9] 。这些研究借助于新技术的发展，包括大数据、云计算和人工智能等，使得信用风险评价方法更为全面和准确。Zhu提出了RS-MultiBoosting这一增强混合集成机器学习方法，以提高中小企业信贷风险预测的准确性。另一方面，Zhang利用修正的KMV模型和Copula函数来衡量供应链中单个融资企业和融资企业组合(上下游)的信用风险。而Sang则提出了一种利用反向传播神经网络(BPNN)预测中国中小企业信用风险的新方法。这些研究方法在评价模型的构建上各有侧重，一些采用传统的主观或客观相结合的方法，而另一些则更倾向于数据驱动的技术手段。这种多样性的方法为我们提供了不同的思路和选择，对于供应链金融中小企业信用风险评价提供了广泛的视角和理论基础。

GCN在近年备受研究者关注，得益于其在处理图结构数据方面的强大功能。其主要优势在于有效捕捉复杂的非线性特征，这使得其在多个领域取得了创新性应用，尤其是个人信贷风险预测和企业信用风险预测。在个人信贷风险预测方面，Cheng et al. (2019) [10] 利用图注意力机制获取供应链网络上的节点表示，并设计目标函数，使具有相似网络特征的节点表示更为相似。Xu et al. (2021) [11] 则基于用户多种关系构建网络，并运用图神经网络预测用户信用特征。在企业信贷风险预测方面，Zhang et al. (2022) [12] 基于企业间供应关系构建供应链网络，利用图神经网络(GNN)模型研究供应链企业间的风险传播模型。另一方面，Wu et al. (2023) [13] 构建上市公司供应链网络，并运用GNN对企业行业进行分类。值得注意的是，图卷积目前主要应用于个人信贷风险预测问题，而在对企业进行信用风险评价方面应用较少。这主要由两个因素造成：一是企业关系数据难以获取，二是非上市企业标签难以获得，导致样本类别极度不平衡，这给利用该方法带来了一定挑战。因此，尽管GCN在个人信贷风险预测中展现出了潜力，但在企业信用风险评价方面仍需克服上述不足才能更广泛地应用于该领域。

综上所述，国内外学者在供应链金融的风险评价开展了大量的研究，取得了一系列有价值的研究成果，但对供应链上末端中小企业的评估仍无能为力，因此本文建立供应链网络，旨在通过供应链网络，将大企业的信用赋予供应链远端的中小企业，为中小企业增信，解决中小企业融资难问题。

3. 评价指标体系

本文研究的核心为如何利用供应链网络上的核心企业为供应链末端中小企业增信。因此，在设计指标体系时不仅要考虑中小企业的特征，同时也应包含企业所处供应链网络结构特征。本文借鉴了张发明等(2019) [14] 提出的评价指标体系，将企业特征信息分为“硬信息”和“软信息”。“硬信息”为企业的财务数据，包括盈利能力、偿债能力、经营能力和成长能力，“软信息”则主要为企业的基本信息，主要包括成立年限、注册资本等。另外，为了评估供应链网络的结构特征，本文借鉴了匡海波等(2020) [15] 提出的指标体系中的供应链运营状况指标，同时考虑到数据的可得性，主要设计了供应数量和供应比率等指标。本文最终建立的指标体系如表1和表2所示，主要包含企业的财务数据、企业的基本信息和供应链网络关系数据等3个一级指标，其中，企业的财务数据包括盈利能力、偿债能力、经营能力和成长能力4个二级指标和应计利润与总资产比、净资产报酬率等30个三级指标。

Table 1. Index system (1)

表1. 指标体系(1)

Table 2. Index system (2)

表2. 指标体系(2)

4. 模型构建

4.1. 基本原理

4.1.1. SMOTE过采样

SMOTE (Synthetic Minority Over-sampling Technique)是一种过采样方法，通过生成合成实例来平衡数据集，特别是对于少数类样本。其基本原理可由以下式(1)表示。在此方法中，假设给定一个少数类实例，SMOTE从同一类中选择k个最近邻，其中k是用户定义的参数。然后通过结合所选实例及其邻居的属性，并引入一定的随机性，创建合成实例。这些合成实例位于连接原始实例与其邻居在特征空间中的线段上，从而扩展了少数类的样本空间。

$X_{i k}^{M i n o - S M O T E} = X_{i}^{M i n o} + r a n d (0, 1) * X_{i k}^{N e a r} - X_{i}^{M i n o}$ (1)

4.1.2. 图卷积网络

图卷积网络(Graph Convolutional Network, GCN)是一种用于处理图结构数据的深度学习模型。在GCN中，图由节点和边构成，每一个节点代表一个实体，每一条边代表节点之间的关系。GCN的核心思想在于其能够将节点的特征与其相邻节点的特征进行信息传递和聚合，通过多层的卷积操作来学习节点的特征。GCN通过图结构进行信息传递，学习节点的低维表示，使节点的表征能够全局图结构的信息，

从而实现节点分类、图分类、链接预测等任务。GCN采用了谱域卷积方法，其原理如式(2)所示。 ${\hat{D}}^{- \frac{1}{2}} \hat{A} {\hat{D}}^{- \frac{1}{2}}$

对邻接矩阵进行了归一化处理，将邻接矩阵转换成了对称归一化的形式，用于保留图结构中节点之间的关系信息。 $H^{l}$ 代表第l层的节点特征，为节点特征矩阵与权重矩阵的乘积，用于将节点特征进行线性变换。表示ReLU激活函数，用于引入非线性。 $H^{l + 1}$ 表示经过当前层的信息聚合和特征变换后得到的新的节点表示矩阵。

(2)

Figure 1. Principles of graph convolutional network

图1. 图卷积网络原理

Thomas et al. (2016) [16] 提出了一种在图结构数据上进行半监督学习的图卷积网络方法，如图1所示。该方法基于卷积神经网络的思想，能够有效地学习图数据中的节点表示并完成节点分类任务。该方法包含两层图卷积，其原理如式(3)、式(4)所示。GCN包含两层卷积，首先对输入特征进行卷积操作，得到新的节点特征表示，然后对卷积后的结果应用ReLU激活函数，引入非线性，接着再次进行图卷积操作，得到最终节点表示，最后添加softmax层，得到输出分类结果。GCN采用交叉熵作为损失函数，损失函数的计算如式(5)所示。

$Z = f (X, A) = softmax (\hat{A} ReLU (\hat{A} X W^{(0)}) W^{(1)})$ (3)

$\hat{A} = {\hat{D}}^{- \frac{1}{2}} \hat{A} {\hat{D}}^{- \frac{1}{2}}, \hat{A} = A + I$ (4)

其中，代表 $\hat{A}$ 的度矩阵，。 $W^{l}$ 是第l层神经网络的权重。

(5)

其中，L表示整体损失函数， $y_{l}$ 表示样本l的真实标签，F表示类别的数量， $Y_{l f}$ 表示样本l是否输入类别f，若属于则为1，否则为0。 $Z_{l f}$ 表示模型对样本l预测为类别f的概率。

4.2. 模型构建

现有的基于数据驱动的企业信用风险评价模型可以分为两大类，即传统的机器学习方法和深度学习算法模型。传统的机器学习方法如SVM (支持向量机)和AdaBoost等在一定程度上已经被应用于企业信用风险评估。然而，随着深度学习技术的兴起，GCN(图卷积网络)等深度学习方法也逐渐引起了广泛关注。本文选择采用GCN深度学习方法，并将本文提出的方法与SVM和AdaBoost等传统机器学习方法进行对比实验，验证模型的有效性。GCN作为一种能够学习邻居节点信息的深度学习方法，能够将供应链网络上核心企业的信用信息传递给中小企业，从而实现为中小型企业增信的目标。因此本文选择采用GCN来构建模型，研究框架如图2所示，主要包括供应网络构建、数据预处理和GCN模型三部分。

Figure 2. Model framework

图2. 模型框架

一是供应链网络构建过程，本文主要通过企业间的供应关系来定义供应链网络。首先将企业划分为核心企业、一级供应商企业和二级供应商企业。以核心企业为基准，寻找一级供应商，然后再以一级供应商为基准，寻找一级供应商的一级供应商。最终构造成一个包含核心企业和一二级供应商的供应链网络。其中节点表示企业，节点的属性为根据企业财务数据(包括盈利能力、偿债能力、成长能力和经营能力)、企业基本数据(包括成立年限和注册资本)等指标，边表示企业之间的供应关系，边的属性为节点之间的连接权重，其物理意义是供应商的供应比。

二是数据预处理阶段，主要包括数据清洗、相关性分析和SMOTE过采样过程。中小型企业由于信息披露不全面，收集到的数据往往存在大量的缺失值，同时在数据采集的过程中也会发生数据重复和异常情况，因此本文的数据清洗工作主要包括填充缺失值、删除重复值和处理异常值。其次，为了避免指标之间的多重共线性，本文选择采用皮尔逊相关系数(Pearson Correlation Coefficient)计算指标之间的相关性，并剔除相关性较强的指标。最后，信贷数据存在严重类别不平衡问题，即发生信用风险的企业占企业总数比率较小，会使得预测结果不准确，因此需要通过增加负样本的数量来平衡数据集。SMOTE (Chawla N V. et al., 2002) [17] 作为一种有效的过采样方法在企业信用风险预测问题中被频繁使用，本文选择了SMOTE过采样方法来增加发生信用风险的企业数量。

三是GCN模型部分。在GCN中，模型被分为输入、特征提取、预测输出三个模块。在输入模块，输入数据为图数据，既包含企业节点的特征矩阵H，同时还包含了企业节点之间的关联信息，企业之间的供应关系信息以邻接矩阵的形式A作为输入。在特征提取模块，将邻接矩阵A和特征矩阵H输入到GCN单元通过图卷积表示以进行特征提取，企业节点学习到邻接节点的信息。在预测输出模块，GCN通过softmax层实现判断企业是否发生违约风险的二分类问题，并采用交叉熵作为损失函数。

5. 实验分析

5.1. 数据收集

本文以化学制药行业企业为研究对象，构建了一个包含70家核心企业，120家一级供应商企业和230家二级供应商企业的数据集。其中，数据来源于企查查网站¹和wind数据库²。

数据收集策略主要分为四步。首先确定核心企业，核心企业为规模大、信誉好、抗风险能力强的企业。设置注册资本、企业类型和成立年限等筛选条件，框定注册资本大于2000万成立时间超过10年且为上市公司的企业作为核心企业，最终选定了70家企业作为核心企业。其次确定核心企业的一级供应商和二级供应商。本文从招投标公告数据中获取供应关系数据，主要包括供应时间、供应数量和供应比例等数据，共匹配到约120家一级供应商企业和230家二级供应商企业。接着，搜集核心企业和供应商企业的基本信息和财务信息，上述信息均来自wind数据库。最后，考虑数据可获得性，本文选用了2017年的药品供应商的供应数据，并将2018年企业是否被标记为ST、是否连续两年净利润为负或破产清算等作为评价指标，若发生则将其标签设置为1，否则设置为0。

5.2. 供应链网络构建

从企业的招投标公告和企业年报信息中获取了大量数据，并利用这些数据挖掘了企业之间的供应关系，进而构建了一个具有丰富信息的供应链网络。本文的构建方法遵循以下步骤：首先，将每个企业视作网络图中的一个节点。这些节点代表着各个企业实体，包含了其基本信息特征和财务特征。这一步的关键在于数据的收集和整理，以确保后续分析能够基于充分而准确的信息展开。其次，利用这些企业间的供应关系构建了网络图中的边。这些边直观地展示了企业之间的供应联系，边的方向性描述了供应关系的方向，边的权重则根据供应比例而设定。这种权重设置能够突出不同供应关系的重要性，为后续的分析提供了更为精细的数据基础。至此，构建了一个庞大的供应链网络图，如图3所示。整个网络由420个节点和267条边组成，展示了供应链的复杂性和多样性。这个网络图中，节点代表了企业实体，而边则直观地展示了企业间的供应关系。这种图形化呈现有助于深入理解供应链网络中不同企业之间错综复杂的联系。节点和边之间的关系性使我们能够更全面地把握供应链中各环节的联系和依赖关系，为后续的深入分析和决策提供了重要的信息基础。

Figure 3. Enterprise supply chain network

图3. 企业供应链网络

5.3. 实验设计

本文首先对数据清洗，包括处理重复值、缺失值和异常值，以及数据归一化等操作，处理后共得到364个样本和25个特征。中小企业由于信息披露不完善，会存在部分数据缺失的情况，针对此种情况，本文利用中小企业与核心企业的供应关系，对缺失的中小企业进行加权平均填充。而对于数据缺失较多的企业和重复值，直接删除数据。另外，采用箱线法识别异常值，并按照处理缺失值的方法对异常值进行处理。

接着计算25个指标特征的皮尔逊相关系数进行相关性分析。皮尔逊相关系数是一种用于衡量两个连续变量之间线性关系强度和方向的统计量，取值范围在−1到1之间，如式(6)。当相关系数 $| r | > 0.7$ 时，认为两个变量之间具有较强的线性相关性。样本变量之间的皮尔逊相关系数计算结果如图4所示，可以发现营业利润率和营业成本率、流动比率和速动比率、资本累计率和权益增长率、总资产三年平均增长率和净资产三年平均增长率之间相关性较高，相关系数 $| r | > 0.7$ ，选择对营业利润率、流动比率、资本累计率和总资产三年平均增长率等4个变量进行剔除，剔除后共剩余21个变量作为模型的指标特征。

$r = \frac{\sum^{} (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sqrt{\sum^{} {(X_{i} - \bar{X})}^{2} \sum^{} {(Y_{i} - \bar{Y})}^{2}}}$ (6)

其中， $X_{i}$ 和 $Y_{i}$ 是样本中的两个变量值，和 $\bar{Y}$ 分别是X和Y的均值。

最后，考虑到样本未发生信用风险企业与发生风险企业数量之比为330:34，即存在信用风险的企业仅占企业总数的10%，样本数据存在类别极其不平衡问题。因此采用SMOTE方法对样本进行过采样处理，用来增加存在信用风险企业的样本数量，将正负样本比控制在8:2左右，最终得到企业样本总数422家，未发生信用风险企业与发生风险企业数量之比为340:82。

Figure 4. Heatmap of feature correlation analysis

图4. 特征相关性分析热力图

在模型训练的过程，由于各指标之间的量纲差异，往往会使得模型在训练过程中出现过拟合或者梯度消失的状况，因此需要对数据进行归一化处理，来消除量纲不一致的影响。本文对数据采用最大最小归一化处理，处理过程如式(7)所示。

(7)

本文将数据集划分为按照8:1:1划分训练集、验证集和测试集，将338个数据用来进行训练，将42个数据进行测试。图卷积的输入为企业节点的特征向量H和邻接矩阵A，特征向量H的维度为338 × 21，邻接矩阵H的维度为338 × 338。另外，一般而言两层图卷积层的模型已经可以很好地对节点进行分类，本文构建了两层的图卷积网络，每一层的神经元的数量分别设置为32、32。最后接sigmoid激活函数作为模型的输出。采用Pytorch框架进行实现，选择Adam作为优化器，将学习率设为0.01，正则化项系数设置为5e⁻⁴，模型选用交叉熵损失函数。

5.4. 对照模型

本文将SVM和AdaBoost作为基准模型。SVM和AdaBoost作为经典的机器学习模型，在企业信用风险评价领域被广泛应用。SVM适用于线性和非线性分类问题，能够处理高维数据，且在小数据集上表现良好，对于特征空间中的异常点具有较好的鲁棒性。AdaBoost用于处理复杂问题，能够有效地降低偏差并提高泛化能力，但对噪声和异常值较为敏感。

由于所采用的基准模型的数据输入为非图结构数据，因此本文设计了三种数据集来满足GCN模型和基准模型的需要，如表3所示。数据集1和数据集2作为SVM和AdaBoost模型的输入，数据集3作为GCN模型的输入。其中，数据集1包含企业基本信息和企业的基本财务指标，模型的输入维度为21 × 338；数据集2则将中小企业的核心企业的特征作为自身的特征进行评价，包括企业基本信息、企业财务数据、核心企业基本信息、核心企业财务数据、供应关系数据等指标，模型的输入维度为42 × 338。数据集3是按照供应关系构成了供应链网络图数据，包含企业基本信息、企业财务数据、供应关系数据等指标，模型的输入维度为21 × 338。实验将数据集1输入到基准模型和数据集2输入到基准模型分别与数据集3输入到GCN模型进行对比，观察GCN模型的性能。

Table 3. Dataset

表3. 数据集

6. 结果分析

6.1. 评价指标

关于模型的性能评价指标，现有研究表明综合多个评价指标有利于更加准确地比较不同模型的性能(Lessmann S. et al., 2015) [18] 。由于未发生信用风险企业与发生风险企业的比例不均衡，本文选择了AUC，KS和F1值作为模型的评价指标，如式(8)、式(9)和式(10)所示。AUC值是计算ROC曲线下方的面积，是信用评价中最为常用的评价指标。KS指标用于衡量好坏样本累计分布之间的差值，可以有效评估模型风险区分能力。在信用评估过程中，将一个信用好的企业评估为信用差的企业，对于信贷机构来说，只是客户未来贷款利息的损失，如果将一个信用差的企业评估为信用好的企业，则面临借款者违约风险，对信贷机构造成无法收回本金和利息的损失，因此本文选择F1作为评价指标，来充分反映发生信用风险企业预测的准确率。总体而言，AUC，KS和F1指标的值越大，则表明评价模型的效果越好。

$AUC = \int_{0}^{1} TPRd (FPR)$ (8)

$KS = \max (TPR - FPR)$ (9)

, , $Recall = \frac{TPR}{TPR + FNR}$ (10)

其中，TPR表示真正例率，即召回率，FPR表示假正例率，FNR表示假负例率。

6.2. 实验结果和分析

图5展示了GCN模型的训练过程，结果显示GCN模型训练到200轮时，模型开始收敛。表4和表5分别展示了数据集1和数据集2在四种分类算法模型的整体分类结果，表6则展示了数据集3在GCN模型的整体分分类结果，即模型的KS、AUC值和F1值等三种评估指标。结果表明，所有模型在分类企业信用风险方面表现出了有效性，其中最低的AUC值为74%。本文所提出的GCN模型相较于传统的SVM和AdaBoost等其他模型表现更优，且AUC值、KS值和F1等三种模型性能评价指标具有一致性，这表明GCN能够对企业的信用风险进行准确的预测。模型取得了良好的效果是由于GCN模型能够充分挖掘邻居节点的信息，并在特征提取方面表现良好。GCN模型通过利用图结构数据中节点之间的关系，能够更好地捕获企业间复杂的相互影响和连接，从而提高了风险评估的准确性和精度。

Figure 5. Training process of GCN model

图5. GCN模型训练过程

Table 4. Dataset 1-experimental results

表4. 数据集1-实验结果

Table 5. Dataset 2-experimental results

表5. 数据集2-实验结果

Table 6. Dataset 3-experimental results

表6. 数据集3-实验结果

7. 结论

目前对供应链金融信用风险的评估主要依赖于企业一级供应商的财务指标，将这些指标作为评价企业信用风险的依据。然而，这种方法在处理多级供应商问题上存在一定局限性。针对供应链金融背景下的多级中小型供应商信用风险的借贷问题，本文结合图卷积网络方法，提出了一种SMOTE + GCN信用风险评价模型，该模型可以充分利用整个供应链网络上企业信息，为中小企业增信，解决了供应链金融背景下的多级中小型供应商企业增信难问题。首先，本文构建了化学制药行业供应链网络数据集。选择了化学制药行业70家核心企业和350家中小型供应商企业作为研究对象，收集了企业的基本数据、财务数据和供应关系数据，构建了包含420个节点267对关系的供应链网络。其次，本文对现有信用风险评价指标体系做了进一步扩充。在前人研究的基础上，增加了供应比例、供应金额、企业注册资本等指标，丰富了现有的供应链金融企业信用风险评价指标体系。最后，本文创新性地使用GCN来提取供应链网络上企业节点的特征，并且考虑到类别不平衡问题，使用SMOTE方法解决负样本较少的问题。采用AUC，KS和F1作为模型性能评价指标，本文将所提出的SMOTE + GCN模型与Adaboost和SVM等多种先进方法相比，结果表明所提出的模型性能有较大提升，是深度学习方法在供应链金融领域的一次开创性的尝试。对于第三方物流机构，可以基于现有的掌握的企业供应链信息，利用本文所提出的企业信用风险评价模型，对供应链上的企业进行风险评估，开展供应链金融服务。对于银行等金融机构，可以基于企业的交易数据，利用本文所提出的信用评价模型对中小企业信用风险进行评估，进一步提升对中小企业的风险评估能力。

企业间的供应关系会随着时间动态变化，是一个动态变化的系统。如何处理动态的数据，构建基于动态交易关系的供应链网络，并针对动态网络上的节点进行预测，使得模型能够适应快速变化的交易环境，是未来继续研究的方向之一。另一个重要的研究方向是对供应链金融业务所产生的大量非结构化数据的提取和利用。这些数据来自诸如交易记录、市场趋势等多方面信息。如何从这些海量数据中提炼出有用的信息，并将其转化为企业节点的特征，对于风险管理和商业决策具有重要意义。这种转化有助于了解和预测金融风险，提高金融决策的准确性和效率。最后，在评估企业信用风险时，主要依赖于企业的财务信息。然而在实际交易中，涉及的数据要复杂得多，来源也更加多样。因此，将这些多源异构的非结构化数据纳入信用风险评估的过程中是非常重要的。这需要开发新的方法和模型，使得这些非结构化数据可以更好地融入信用评估体系中，以更全面、准确地评估企业的信用风险。

NOTES

¹https://www.qcc.com/。

²https://www.wind.com.cn/mobile/Home/zh.html。

参考文献

[1]	Zhao, Y.D., Yang, M.Y., Peng, X.H. and Li, G. (2022) Research on SMEs’ Credit Risk Evaluation Index System from the Perspective of Supply Chain Finance––R-Cluster and Coefficient of Variation Based on Panel Data. Procedia Com-puter Science, 214, 613-620. [Google Scholar] [CrossRef]
[2]	Li, Z. and Guo, L. (2021) Construc-tion of Credit Evaluation Index System for Two-Stage Bayesian Discrimination: An Empirical Analysis of Small Chinese Enterprises. Mathematical Problems in Engineering, 2021, Article ID: 8837419. [Google Scholar] [CrossRef]
[3]	韩琴. 供应链金融视角下的中小企业信用风险评价指标体系构建[J]. 时代金融, 2019(9): 171-172.
[4]	邓爱民, 文慧, 李红, 文小平. 供应链金融下第三方物流信用评价研究[J]. 中国管理科学, 2016, 24(S1): 564-570.
[5]	Xuan, F. (2021) Regression Analysis of Supply Chain Financial Risk Based on Machine Learning and Fuzzy Decision Model. Journal of Intelligent & Fuzzy Systems, 40, 6925-6935. [Google Scholar] [CrossRef]
[6]	Huang, X., Sun, J. and Zhao, X. (2021) Credit Risk Assessment of Sup-ply Chain Financing with a Grey Correlation Model: An Empirical Study on China’s Home Appliance Industry. Com-plexity, 2021, Article ID: 9981019. [Google Scholar] [CrossRef]
[7]	Zhu, Y., Zhou, L., et al. (2019) Forecasting SMEs’ Credit Risk in Sup-ply Chain Finance with an Enhanced Hybrid Ensemble Machine Learning Approach. International Journal of Production Economics, 211, 22-33. [Google Scholar] [CrossRef]
[8]	Zhang, M., Zhang, J., et al. (2019) Quantifying Credit Risk of Sup-ply Chain Finance: A Chinese Automobile Supply Chain Perspective. IEEE Access, 7, 144264-144279. [Google Scholar] [CrossRef]
[9]	Sang, B. (2021) Application of Genetic Algorithm and BP Neural Network in Supply Chain Finance under Information Sharing. Journal of Computational and Applied Mathemat-ics, 384, Article ID: 113170. [Google Scholar] [CrossRef]
[10]	Cheng, D., Tu, Y., et al. (2019) Risk Assessment for Net-worked-Guarantee Loans Using High-Order Graph Attention Representation. Proceedings of the Twenty-Eighth Interna-tional Joint Conference on Artificial Intelligence AI for Improving Human Well-Being, Macao, 2020, 5822-5828. [Google Scholar] [CrossRef]
[11]	Xu, B., Shen, H., et al. (2021) Towards Consumer Loan Fraud Detec-tion: Graph Neural Networks with Role-Constrained Conditional Random Field. Proceedings of the AAAI Conference on Artificial Intelligence, 35, 4537-4545. [Google Scholar] [CrossRef]
[12]	Zhang, C., Chen, J., Shu, T., et al. (2022) Enterprise Event Risk De-tection Based on Supply Chain Contagion. Proceedings of 2022 IEEE 9th International Conference on Data Science and Advanced Analytics (DSAA), Shenzhen, China, 13-16 October 2022, 1-10. [Google Scholar] [CrossRef]
[13]	Wu, D., Wang, Q. and Olson, D.L. (2023) Industry Classification Based on Supply Chain Network Information Using Graph Neural Networks. Applied Soft Computing, 132, Article ID: 109849. [Google Scholar] [CrossRef]
[14]	张发明, 李艾珉, 韩媛媛. 基于改进动态组合评价方法的小微企业信用评价研究[J]. 管理学报, 2019, 16(2): 286-296.
[15]	匡海波, 杜浩, 丰昊月. 供应链金融下中小企业信用风险指标体系构建[J]. 科研管理, 2020, 41(4): 209-219.
[16]	Kipf, T.N. and Welling, M. (2016) Semi-Supervised Classification with Graph Convolutional Networks. https://arxiv.org/abs/1609.02907
[17]	Chawla, N.V., Bowyer, K.W., et al. (2002) SMOTE: Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research, 16, 321-357. [Google Scholar] [CrossRef]
[18]	Lessmann, S., Baesens, B., et al. (2015) Benchmarking State-of-the-Art Clas-sification Algorithms for Credit Scoring: An Update of Research. European Journal of Operational Research, 247, 124-136. [Google Scholar] [CrossRef]

为你推荐

友情链接