1. 引言
2020年十四五规划提出加快数字规划建设数字中国,数字普惠金融是将普惠金融数字化,为人民提供更加便利的金融服务。数字普惠金融指数是反映数字普惠金融发展水平的综合指标,从2012年到2018年我国的数字普惠金融水平整体呈上升趋势,如下图1所示,但发展水平仍然有待提高[1]。为了加快数字普惠金融发展水平,本文将关注点放到我国发展水平的区域差异性,以期政府可以采取更多的措施补齐短板,缩小区域差异性,使数字普惠金融发展水平整体提高。
然而对数字普惠金融的研究,主要集中在数字普惠金融的发展历程,指标测算以及对经济,创新,企业等产生的影响,对数字普惠金融的区域差异性进行研究的学者较少,但了解区域差异性可以对数字普惠金融的发展起到积极的作用。已经存在的对我国各省的数字普惠金融差异性的研究多半都是使用某一年的数据进行聚类分析,虽然可以体现出我国当年各省的数字普惠金融水平差异,但缺少时间维度,没有体现出近些年我国数字普惠金融发展的综合水平差异。多指标面板数据包含时间,样本,指标三个维度,可以更好地,更全面地反映我国各省近些年数字普惠金融的发展。因此,本文将多指标面板数据聚类应用到数字普惠金融方面。
Figure 1. Development trends in the level of digital inclusive finance
图1. 数字普惠金融水平发展趋势
2. 文献综述
聚类属于无监督学习,可将无标签的样本分为不同的类别,目前已被广泛应用到模式识别,客户分类,数据预处理等方面。聚类算法包括普通的系统聚类法,动态聚类法,以及与智能算法相结合的聚类算法等等。虽然聚类算法发展比较成熟,但对多指标面板数据聚类算法的研究及其应用仍然较少。吕晨[2] (2020年)对于反映企业财务状况的多指标面板数据先用主成分分析提取特征降维,将多指标面板数据结构转换为时间序列数据,然后利用系统聚类方法进行聚类。党耀国等人[3] (2016年)针对聚类常用的欧式距离存在的缺点,定义了可以反映出时间特性的特征,包括全时绝对量特征,全时波动特征,全时峰度特征,全时偏度特征和全时趋势特征,利用改进的特征提取后运用动态聚类方法对我国各地区的交通事故进行了聚类。林秀梅等人[4] (2016年)利用吸引子传播聚类融合半监督学习,对多指标面板数据聚类,并与AP模型,SOM神经模型和系统聚类结果进行了比较,证明了智能信息处理的多指标面板数据聚类结果更加精确。任娟[5] (2013年)利用因子分析提取多指标面板数据中的重要信息,然后对提取出的公共因子进行有序聚类分析。郑宾云[6] (2008年)对多指标面板数据聚类提出了“欧式时空距离”新概念以及将截面数据的离差平方和函数扩展到可以反映时间维度的离差平方和函数,然后对企业生产效率进行了实证分析,证明了方法的可行性。
通过对以上学者研究成果的学习与借鉴,本文将多指标面板数据聚类应用到数字普惠金融方面,以期可以对提高全国数字普惠金融发展水平提供思路。
3. 多指标面板数据的数据结构及特征
3.1. 多指标面板数据结构
面板数据是将横截面数据与时间序列数据整合起来的一种数据类型,有时间序列和截面两个维度,分为单指标面板数据和多指标面板数据。单指标面板数据与截面数据相似,可以用一个二维表来表示。多指标面板数据比单指标面板数据结构复杂,是一种三维结构数据,在平面上可将其转换为多个二维数据表示。多指标面板数据的表示方法如表1所示:
Table 1. Multi-indicator panel data
表1. 多指标面板数据
个体 时间 |
1 |
2 |
3 |
|
k |
|
m |
1 |
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
t |
|
|
|
|
|
|
|
表中,
表示时间i,第j个样品的第n个指标所对应的样本数据
其中,
表示在时间i,样本k的所有指标的观测值
表示在时间i,第n个指标所有样本的观测值
表示第k个样本的第n个指标所有时间的观测值。
3.2. 多指标面板数据的数字特征
1) 样本k在时间i内的均值和方差分别为
2) 时间i,第n个指标所有样本的均值和方差分别为
3) 第k个样本的第n个指标的均值和方差分别为
4) i时刻总体样本的均值和方差分别为
5) 样本j的均值向量和方差分别为
6) 指标n的均值向量和方差分别为
4. 聚类方法
4.1. 聚类数目k值的确定
聚类算法属于无监督学习,聚类数目需要人为确定,聚类数目过多过少都会对聚类结果产生负面影响。手肘法可以确定最优k值,当聚类数目小于最佳聚类数时,增加k值会使SSE大幅度减少;当聚类数目大于最佳聚类数目时,虽然聚类数目越多聚合程度会提高,但SSE值下降的幅度会骤减,逐渐趋于平行。
误差平方和SSE:
(4-1)
式子中i表示第i类,总共有k类,
表示在i类中第j个样本,i类中总共有n个样本,
表示第i类n个样本的均值(也称为i类的质心)。
由图2可知各地区的数字普惠金融差异最佳可分为4类。
4.2. 系统聚类法
聚类方法有K-means聚类,模糊聚类,动态聚类以及与智能算法相结合的聚类,其中系统聚类法是聚类分析方法中使用最多的,主要内容包括点与点之间的距离和类与类之间的距离。点与点之间的距离
Figure 2. Number of clusters k value
图2. 聚类数目k值
包括欧式距离,切比雪夫距离,明氏距离,绝对值距离,类与类之间的距离包括最短距离法,最长距离法,重心法,离差平方和法。考虑数据的特点以及分布,选择欧式距离来描述样本与样本之间的距离,Ward方法来衡量类与类之间的距离。
1) x点与y点的欧式距离:
(4-2)
2) Ward方法:
假设将n个样本分为k类
,
表示类
中第i个样本
表示类
中样本的个数,
是类
的重心,类
中的样本的离差平方和为:
,整个类内离差平方和为:
。
4.3. 多指标面板数据聚类
加入时间维度,点与点之间的距离变为横截面与横截面的距离,将欧式距离拓展,面与面之间的距离也即面中所有的点距离求和[7]。同时,需要考虑样本指标值随时间的变化速度和样本指标值随时间的波动程度。使用到的距离公式分别为全时“绝对量”距离,全时“增长速度”距离,全时“变异系数”距离,全时“综合”距离。
样本
与
之间的全时“绝对量”距离为:
(4-3)
样本
与
之间的全时“增长速度”距离为:
(4-4)
样本
与
之间的全时“变异系数”距离为:
(4-5)
样本
与
之间的全时“综合”距离为:
(4-6)
4.4. 聚类结果与分析
本文采用北京大学数字普惠金融指数数据,选取的指标为“数字金融覆盖广度”“数字金融使用深度”“普惠金融数字化程度”。指标是北京大学金融研究中心根据24个具体指标计算出的一级指标,因此三个指标可以充分反应每个地区的数字普惠金融水平。基于2012~2018年每个省的数字普惠金融指数数据,首先对我国31个省市每年的数字普惠金融水平运用系统聚类方法进行聚类,然后将每个省7年的数字普惠金融水平综合考虑,运用多指标面板数据聚类方法进行聚类[8]。本文截面数据的聚类使用的软件为python,多指标面板数据聚类使用的软件为R语言。聚类结果如下表2所示:
Table 2. Clustering results
表2. 聚类结果
|
|
First |
Second |
Third |
Fourth |
截面数据 |
2012 |
3,25,27,28 |
2,4,6,7,15,19,23,24,26,29,30 |
5,11,13,14,16,17,20,21,22 |
0,1,8,9,10,12,18 |
2013 |
2,3,4,6,7,15,19,23,24,25,26,27,28,29,30 |
5,11,13,14,16,17,20,21,22 |
1,9,12,18 |
0,8,10 |
2014 |
4,23,25,27,28 |
2,3,6,7,15,19,24,26,29,30 |
1,5,9,11,12,13,14,16,17,18,20,21,22 |
0,8,10 |
2015 |
4,23,27,28,29 |
2,3,6,7,15,19,24,25,26,30 |
5,11,13,14,16,17,20,21,22 |
0,1,8,9,10,12,18 |
截面数据 |
2016 |
2,6,17,25,27,28,29,30 |
3,4,7,15,19,23,24 |
1,5,11,13,14,16,20,21,22,26 |
0,8,9,10,12,18 |
2017 |
3,4,23,25,27,28,29,30 |
2,5,6,7,11,13,14,15,17,19,20,21,22,24,26 |
1,9,12,16,18 |
0,8,10 |
2018 |
3,4,6,7,23,25,27,28,29,30 |
2,5,11,13,14,15,17,19,20,21,22,24,26 |
1,9,12,16,18 |
0,8,10 |
多指标面板数据 |
2,3,4,6,7,15,19,23,24,25,26,27,28,29,30 |
5,11,13,14,17,20,21,22 |
1,9,12,16,18 |
0,8,10 |
注:0北京市;1天津市;2河北省;3山西省;4内蒙古自治区;5辽宁省;6吉林省;7黑龙江省;8上海市;9江苏省;10浙江省;11安徽省;12福建省;13江西省;14山东省;15河南省;16湖北省;17湖南省;18广东省;19广西壮族自治区;20海南省;21重庆市;22四川省;23贵州省;24云南省;25西藏自治区;26陕西省;27甘肃省;28青海省;29宁夏回族自治区;30新疆维吾尔自治区。
多指标面板数据聚类树状图如图3所示。
Figure 3. Multi-indicator panel data clustering tree diagram
图3. 多指标面板数据聚类树状图
如图3所示,可以将我国31个省市的数字普惠金融分为四类,第一类为数字普惠金融发展水平不好的地区有西藏,青海,甘肃,贵州,新疆,河北,吉林,云南,河南,黑龙江,广西,内蒙古,宁夏,山西,陕西;第二类为数字普惠金融发展水平一般的地区有海南,重庆,辽宁,山东,安徽,江西,湖南,四川;第三类为数字普惠金融发展水平较好的地区有天津,湖北,江苏,福建,广东;第四类为数字普惠金融发展水平最好的地区有北京,上海,浙江。由表2可知,截面数据的聚类结果显示,个别地区在不同的年份所属的类别也不一样,缺乏稳定性。多指标面板数据聚类将所有年份综合考虑,既排除了单个年份聚类结果的偶然性,也排除了个别城市聚类结果的波动性,使结果更具可靠性与稳定性,短期内可依据这个聚类结果制定相应的政策措施,减少我国数字普惠金融发展水平的区域差异性。
5. 结论与建议
本文根据数字金融覆盖广度、数字金融使用深度、普惠金融数字化程度三个综合性指标将31个省市的数字普惠金融发展水平基本分为4类。不难看出,我国数字普惠金融区域差异性较大,且发展好的省份偏少,大部分省份尤其西部地区发展水平较低。
如何根据这4类地区的经济发展水平,人口密度以及网民覆盖率等等影响因素提高我国整体数字普惠金融发展水平,减少区域差异性都是我们的政府、企业和学界应关注的重要内容。本文希望通过对全国各个地区的数字普惠金融发展水平进行聚类分析,能使得每个地区对自己的定位有一个清晰的认识,使同类地区的联系和各自的特点更加清楚,让各界对这些地区的关注有的放矢。同时,政府也应该大力补齐短板,使数字普惠金融发展水平较差的地区加快发展。同时,也应不断提高数字普惠金融的监管。数字技术与金融业务的加速融合下,金融机构间的互联互通更频繁,系统内的耦合度和关联性更加紧密,金融风险可以进一步地突破时间和空间上的局限,表现为更强的复杂性,传染性和跨地域性特征,使得传统监管难以适应这些新变化。因此,监管机构也应该与时俱进,创建新的监管模式,使数字普惠金融可以健康发展。