1. 引言
随着经济的快速发展,客户用电服务需求呈现出多样化的趋势。为满足用电客户对服务多样化的需求,供电企业不断引入新型的缴费方式,积极引导用电客户采用新型缴费渠道缴费 [1] 。受内外形势所迫,电网企业充分认识到转型迫在眉睫,正通过在营销环节打造面向市场的“入口+平台”,扩大核心资源能力,拓展产业布局 [2] 。近年来,客户关系管理受到越来越广泛的重视。任何高效的客户关系管理都将以扎实的客户细分为基础,其理论依据在于顾客需求的异质性和企业需要在有限资源的基础上进行有效市场竞争 [3] 。赵铭等利用K-均值聚类方法,对商业银行基金理财客户进行研究,并依据分类结果制定出相应的个性化营销方案 [4] 。褚格林研究了移动数据业务发展背景下电信客户的细分,并针对不同客户群体初步讨论了相应的市场策略 [5] 。郭崇慧和赵作为应用SOM神经网络对汽车4S店客户进行聚类,提出客户群在群数量及群属性上随时间变化的分析方法和客户个体的分群演变分析方法 [6] 。蔡淑琴等利用模糊C均值聚类方法,基于在线客户评论对客户进行细分研究 [7] 。
客户细分根据细分维度的不同,也对应有不同的细分方法,采用传统的人口统计指标来分析客户,该方法操作简便,但是只适合用于了解客户结构,难以进行客户行为分析。近些年客户行为指标如近度、频度和值度,即RFM模型在客户行为分析和客户细分中得到了广泛运用 [8] [9] [10] ,但是关于用电客户细分的研究较少。宋才华等利用从电网公司用电客户细分现状与应用需求出发,提出三种客户细分模型,并构建了三步客户细分机制 [11] 。赵莉等建立了家庭用电信息的数据维度模型,利用K-均值算法对家庭用户进行聚类 [12] 。胡晓雪等采用当月用电量和当前欠费总额等当前价值指标、电量增长贡献率和历史同期电费增长率等潜在价值指标和地域分布指标,构建电力客户细分指标体系 [13] 。刘晓焜提出外在属性、内在属性和消费行为三种电力客户细分方式 [14] 。上述研究中,对缴费方式的描述多为传统的描述统计分析,指标较为单一,数据量少,结果的可解释性不强。
本文采用真实的用电客户缴费行为数据进行全面的指标体系构建,在传统RFM模型的基础上,提出适用于用电客户细分的WFM指标体系,更加真实全面。在方法上,由于真实的用电客户缴费行为数据量较大,且存在大量异常数据指标,并且由于缴费次数、预存电费次数等指标互相之间存在一定的关联性,故采用SOM神经网络聚类算法对用电客户缴费行为进行细分。自组织映射(Self-Organizing Map, SOM)人工神经网络,是一种无监督的自组织竞争网络 [15] [16] ,近年来SOM神经网络被国内外学者广泛应用于各个领域的研究 [6] [8] [13] [17] 。为了优化聚类效果,实验中通过聚类优度分析获取最优聚类簇个数,然后再使用SOM神经网络对用电客户进行聚类,对各类群体的属性与总体属性进行比较分析,得到客户细分结果。用电客户缴费行为细分及挖掘过程如图1所示。
2. 用电客户缴费行为细分指标体系
通过国家电网电力营销数据库,共获取地区用户信息数据、应收电费数据、实收电费数据及用户缴费明细数据,具体数据表间关系如图2所示。分析上述电力营销数据库中的数据,从中选择出适合于分析用电客户缴费行为的聚类特征,每个数据表的第一个属性为该数据表的主键(Primary Key, PK)。依据对电力系统营销业务的理解,通过实收电费数据和应收电费数据获取是否存在欠费的信息,通过实收电费数据和用户缴费明细数据获取本月是否存在预存情况。
根据用电客户缴费频率较高、缴费方式选择多样化、欠费惩罚因子较低等缴费行为特点,本文提出一种新的指标体系。该体系继承了RFM模型中F指标和M指标,并且将F指标扩展为AF指标和PF指标。另外,新增W指标,W指标具体包含W1,W2,W3,W4四种细分形式,以下将该客户细分指标体系称为WFM模型,具体内容如表1所示。
本文客户细分指标体系WFM模型中各客户细分指标的具体含义如下:
1) W指标为用电客户不同的缴费方式,具体有W1、W2、W3和W4三种方式。W1指标为电力机构坐收使用频次,该指标在一定程度上反映了客户的缴费习惯,该习惯较为传统且使用频次高。W2指标为电
![](//html.hanspub.org/file/5-1580506x10_hanspub.png)
Figure 1. The process of subdivision and mining of electricity customers’ payment behavior
图1. 用电客户缴费行为细分及挖掘过程
![](//html.hanspub.org/file/5-1580506x11_hanspub.png)
Figure 2. Relationship between data tables
图2. 数据表间关系
![](Images/Table_Tmp.jpg)
Table 1. Comparison between RFM model and WFM model
表1. RFM模型与WFM模型对比
力机构自助缴费终端使用频次,该指标在一定程度上反映了客户相对前卫的缴费习惯。W3指标为金融机构代收使用频次,该指标在一定程度上反映了客户相对较前卫的缴费方式,其缴费信用较好,欠费风险小。W4指标为非金融机构代收使用频次,该指标在一定程度上反映了客户与时俱进的缴费理念和方式。
2) F指标分为实际缴费次数和预存缴费次数。涂莹等将用电客户缴费时间纳入电费回收风险模型中进行研究,并证明了其相关关系 [18] 。本研究中AF指标为实际缴费次数,虽然电费每月都会有收缴,但是客户的缴费频率却不是每月一次,该指标在一定程度上能够反映客户的缴费行为和缴费积极性。PF指标为预存缴费次数,具体指客户实际缴纳金额大于当月应收金额,该指标在一定程度上能够反映客户的缴费行为和缴费信用度。
3) M指标为缴费金额,本文所选客户均为低压居民,电价基本趋于稳定,所以电费的高低可以在一定程度上反映客户的用电稳定性。
3. 基于SOM神经网络的用电客户聚类
3.1. 聚类优度分析
考虑用电客户缴费行为数据所采用的数据量纲不同,且差异较大。因此,在对数据聚类之前首先进行具体指标值的归一化,本文所选归一化方法为最大最小值法,即:
(1)
其中,x为待归一化指标数据,min为指标数据的最小值,max为指标数据的最大值。X*为归一化后所得值。K-均值聚类的最终目标是最小化每一个类内部的差异,最大化类之间的差异。设聚类结果组内平方和为within_ss,组间平方和为between_ss。聚类结果组内差距越小,组间差距越大,则表明聚类结果越好。采用聚类优度指标P来测量聚类效果,即:
(2)
P越大代表聚类优度越高,即聚类结果越好。根据实际情况,选取相对较高的聚类优度P*所对应的的聚类类别数K*,对实际数据进行分析。
3.2. SOM神经网络聚类算法
SOM神经网络的网络结构比较简单,由输入层和竞争层构成,输入层有N个神经元;竞争层有M个神经元。其中N为指标体系中所选指标数,M为聚类类别数,即M = K*。网络的连接权重为
;约束条件为:
。网络的P个二值(0、1)输入学习模式为:
;与其对应的竞争层输出模式为:
,其中
。
Step 1:初始化,按约束条件
,赋予
[0, 1]内的随机值;
Step 2:任选P个模式中的一个模式
提供给网络的输入层;
Step 3:计算竞争层各神经元的输入值
,
;
Step 4:按“优胜劣汰”的原则以
中最大值所对应的神经元作为胜者,将其输出状态为1,而其它所有神经元的输出状态置为0,即:
;
;若出现
的现象,则按统一约定取左边的神经元为获胜神经元;
Step 5:修正与获胜神经元相连的各连接权重,而其它所有连接权重保持不变
其中,
,
为学习系数,一般为0.01~0.03,m为第k个学习模式向量
中元素为1的个数;
Step 6:选取另一个学习模式,回到Step 3,直到P个学习模式全部提供给网络;
Step 7:返回Step 2,直到各连接权的调整量变得很小为止。
4. 应用实例
4.1. 数据预处理与模型参数设定
应用实例数据来自国网蒙东赤峰市供电公司,从宁城县用电客户两年半(2014年1月1日至2016年6月30日)时间内的缴费记录中,删除噪声数据,即删除相同CHARGE_ID错误数据;此外,为确保实验用户用电的连读性,数据预处理时将新立户和注册销户的用电客户数据剔除。基于应用实例数据周期是30个月,在原始数据异常值剔除时,限制实际缴费频次AF在10到60次之间,缴费金额M在450到5000元之间,噪声数据共计16,677条。最终获取唯一CHARGE_ID用电客户连续缴费明细数据69,305条。所有用电客户属性均为低压用电居民,原始数据基本描述性统计如表2所示。
由于本文所采用的数据量纲不同,且差异较大,例如缴费数据最大为4997元,缴费次数只有几十次。因此,在对数据聚类之前首先对原始数据C0进行归一化得到标准化数据C1。为获取聚类所需预设聚类类别数,首先将数据使用K-均值方法进行聚类,并对聚类结果进行聚类优度测试,选择相对合理的聚类簇个数。将K取值设为从1到20进行聚类实验,测试聚类优度如图3所示。在聚类类别K = 10类时已经基本趋于稳定,在此基础上增加聚类类别不能得到更好的聚类效果。当聚类类别数K = 10类时聚类优度为P = 0.976,再增加一类聚类类别,聚类优度的提升值为仅为0.1%,考虑到本文所采用的实验数据较多,97.6 %的聚类优度可以接受,故选定最优聚类类别数为10类,即K* = 10。
SOM神经网络的输入层有N个神经元;竞争层有M个神经元。本文中N = 7,分别为WFM模型中的七个细分指标,实验数据聚类类别数M = K* = 10,即将用电客户聚为10类。
4.2. 计算结果分析
SOM神经网络聚类分析共得到10类不同属性的客户群,每类客户群具体的用电客户数量如图4所示。其中,第三类(cluster 3)和第五类(cluster 5)的数量较多,均达到11,000个用户以上;第九类相对较少,只有3268个用户。可以直观看出,SOM神经网络聚类的十个客户群,在数量上存在一定的差异。为分析每个客户群具体指标的差异,采用比较每一个聚类群体细分指标均值和总体细分指标均值的变动情况来分析,具体数据分析如表3所示。
![](Images/Table_Tmp.jpg)
Table 2. The distribution of WFM model indicators in application data
表2. 应用实例数据中WFM模型指标分布情况
![](//html.hanspub.org/file/5-1580506x33_hanspub.png)
Figure 3. Selection of optimal number of clustering
图3. 选择最优聚类类别数
![](//html.hanspub.org/file/5-1580506x34_hanspub.png)
Figure 4. Clustering results of SOM neural network
图4. SOM神经网络聚类结果
![](Images/Table_Tmp.jpg)
Table 3. Index analysis of SOM neural network clustering results
表3. SOM神经网络聚类结果指标分析
结合电力客户缴费行为具体分析,可以将SOM神经网络聚类的10类结果总结为四大类群体,即前卫高信用型客户、前卫一般客户、传统高信用型客户、传统一般客户,即前卫类型客户比传统型客户采用电力机构自动终端缴费或非金融机构代收等新兴缴费渠道的频次更高,信用型客户比一般客户的缴费频次和电费预存频次更高。
由表3中可以看出,第二类(cluster2)和第七类(cluster7)客户缴费频次都非常高,用电量较大,而且预存电费的次数也高于平均水平,特别是第七类客户预存电费次数超出平均水平的两倍,说明此类客户信用度极高。电力机构自助终端缴费和非金融机构代收两种缴费方式均超过平均水平,迎合了现在互联网时代发展的趋势,将此类客户统一划分为前卫高信用型客户。
第三类(cluster3)客户从缴费频次和预存电费频次来看都显著低于平均水平,用电量较少,但是缴费方式较新颖,电力机构自助缴费终端的比例在所有类别中属于最高,传统的电力机构坐收方式不常使用,将此类客户统一划分为前卫一般客户。
第五类(cluster5)、第九类(cluster9)和第十类(cluster10)客户他们的缴费频次和电费预存频次都非常高。在缴费方式上,电力机构自助缴费终端等新上线缴费方式都低于平均水平,但是传统的电力机构坐收使用率却非常高。说明此类客户在缴费方式的选择方面还是比较保守,但是缴费积极性很高,将该类客户统一划分为传统高信用客户。
最后,第一类(cluster1)、第四类(cluster4)、第六类(cluster6)和第八类(cluster8)客户缴费次数和预存电费次数都普遍低于平均水平。各种新上线缴费方式使用不积极,特别是电力机构自助缴费终端低于平均数水平。将次大类客户统一划分为传统一般型客户。
将上述四大类客户群体数据合并统计分析,如图5所示。从图中可以看出,该数据采集地区,传统型客户占多数,传统高信用型客户和传统一般客户型共占比67%,前卫高信用型客户与前卫一般型客户占比16%,说明该地区的在缴费方式的信息化推进方面还处于比较不发达阶段,大部分客户采用传统的缴费方式缴费,这与内蒙古赤峰市宁城县的经济发展现状相吻合,再次验证了计算结果的可靠性。
4.3. 营销策略建议
结合电力公司管理实际背景以及电力客户缴费行为数据挖掘结果,针对传统一般型客户、传统高信用型客户、前卫一般型客户和前卫高信用型客户四大类典型客户群体,给出如下营销策略建议:
1) 对于传统一般型客户,电力公司应该采取积极主动的方式尽力争取,让这类群体意识到各类互联网缴费方式的便利性,同时,可以推出预存电费奖励机制,鼓励客户及时缴纳电费和预存电费,提高客
户信用度。
2) 对于传统高信用型客户,电力公司应该抓住机会积极推广自助缴费终端、手机客户端缴费包括支付宝、电力E行、移动“和生活”、电信“翼支付”付等方式,让这部分客户多接触全新的缴费模式。同时,基于此类客户的历史缴费信用较好,可以给这类客户一定的欠费额度。
3) 对于前卫一般型客户,他们对于新兴事物的接受能力较强,电力公司在推出新的缴费方式时可以优先通过各种宣传方式通知他们试用。同时,也要告诉给他们一定的缴费和预存缴费的激励措施,确保电费收缴的及时性。
4) 对于前卫高信用型客户,从分类结果来看,此类客户不仅能够快速接受新兴缴费方式而且信用度较高,预存电费的频率高,对传统电力机构坐收资源的占用量少。基于此,电力公司可以采取保持其积极性的措施,如新客户端试用免单、预存电费年终积分兑换等形式,维持该类客户的积极性和信用度。
5. 结束语
本文依据电力客户缴费行为数据分析与挖掘的应用研究背景,在理解传统RFM模型的基础上,建立了一套适用于电力客户细分的指标体系,该指标体系由传统RFM模型的三个指标扩展为WFM模型七个指标。利用SOM神经网络聚类算法对客户进行聚类分析,通过聚类优度分析获取最优聚类簇个数。依据指标选择将聚类结果划分为十类,接着将所得初步聚类结果属性与总体属性进行对比分析,依据聚类群体各指标平均值相对于总体指标平均值的上升或下降情况,对初步聚类结果进行再次的合并,得到四类用电客户细分结果。分析四类用电客户群体的不同特征,为电力公司提出相应的缴费渠道营销策略,进一步提升电力公司电费收缴工作的效率。
本文所用数据均来自用电客户实际缴费记录,数据量较大,时间周期较长,分析结果可信度高。由聚类结果缴费方式指标可以得出,该地区用电客户中传统型用户约占67%,说明该地区的在缴费方式的信息化推进方面还处于比较不发达阶段,大部分用电客户采用传统的缴费方式缴费,这与内蒙古赤峰市宁城县的经济发展现状相吻合,也验证了计算结果的合理性和可靠性。在接下来的研究中将进一步细化用电客户聚类特征选取,例如W指标中W4非金融机构代收,包含支付宝、微信等新兴缴费方式,进行更加具体的细分研究,准确定位客户信用和缴费渠道的使用。同时,进一步完善用户信用评价指标,构建用电客户信用动态评价体系。为电力公司提供更加精准的电费收缴建议,助力新兴用电客户缴费渠道的建设与推广。
基金项目
国家自然科学基金资助项目:“动态数据挖掘中的演化聚类模型与算法研究”(71171030)。
NOTES
*通讯作者。