基于动态对比和聚类算法的贵州省区域CPI时序科普分析

doi:10.12677/SA.2023.122037

期刊菜单

基于动态对比和聚类算法的贵州省区域CPI时序科普分析
Temporal Popular Science Analysis of Regional CPI in Guizhou Province Based on Dynamic Comparison and Clustering Algorithm

DOI: 10.12677/SA.2023.122037, PDF, HTML, XML, 科研立项经费支持
作者: 吴明珍, 晏榛：兴义民族师范学院，数学科学学院，贵州兴义
关键词: 贵州省区域CPI；CPI运行状态；ARIMA模型；层次聚类法；Guizhou Province Regional CPI； CPI Running State； ARIMA Model； Hierarchical Clustering Method

摘要: 区域居民消费价格指数(Consumer Price Index, CPI)是区域宏观经济分析和政策指定的重要参考指标。不同区域的CPI存在一定的差异，但目前对区域CPI的研究文献较少。文章针对贵州省及其各区域的CPI时序数据，使用对比分析与聚类的方法对贵州省各区域CPI时序的运行状态进行了分析，并普及相关科学知识。研究结果表明：贵州省各区域CPI的运行状态存在一定的差异，又从聚类结果中能看到相同的趋势。这对贵州省经济区域协调发展与物价调控政策制定提供了一定的理论依据。

Abstract: Regional Consumer price index (CPI) is an important reference index for regional macroeconomic analysis and policy designation. There are some differences in CPI in different regions, but there are few studies on regional CPI at present. Aiming at the CPI time series data of Guizhou Province and its regions, this paper analyzes the running state of CPI time series of each region in Guizhou Province by using comparative analysis and clustering method, and popularizes relevant scientific knowledge. The results show that there are certain differences in the running state of CPI among different regions in Guizhou Province, and the same trend can be seen from the clustering results. This provides a theoretical basis for the coordinated development of regional economy and the formulation of price control policies in Guizhou Province.

文章引用：吴明珍, 晏榛. 基于动态对比和聚类算法的贵州省区域CPI时序科普分析[J]. 统计学与应用, 2023, 12(2): 346-354. https://doi.org/10.12677/SA.2023.122037

1. 引言

居民消费价格指数(Consumer Price Index, CPI)是指一篮子消费商品及服务项目的价格水平在特定时间段内的变化相对数。不仅反映通货膨胀程度，而且代表消费品及服务的总体价格对居民生活水平的实际影响。CPI关系到诸多政策的制定与调整，是政府实施宏观调控的重要参考指标。根据地区的“宾大效应”推理，省级各地区之间、城市与农村之间的价格水平应会存在一定的差异 [1] 。区域CPI是衡量该区域总体消费价格水平变动的关键指标，也是区域宏观经济决策与核算的重要指标。

贵州省各地区经济发展程度、发展水平、资源禀赋等情况存在明显差异，要维持物价稳定，提高政策的针对性和有效性必须因地制宜的制定政策。准确分析各地区价格水平的特点和变化规律可以提高价格调控的针对性和有效性，有利于疫情下贵州省各区域经济的可持续发展，从而使贵州省经济真正实现高质量的增长。因此，研究贵州省各区域CPI运行状况的实证分析对政府把握地区经济动态发展趋势与差异具有重要意义。

本文结构如下：第1节对CPI相关研究内容与研究方法进行综述。第2节说明了研究数据的来源以及对数据进行了简单的描述性统计分析。第3节使用ARIMA模型对贵州省各区域的CPI运行状态数据进行了动态对比分析。第4节使用聚类方法进一步分析了贵州省各区域CPI时间序列的异同。第5节给出了研究结论与相关建议。

2. 文献综述

已有大量文献对CPI进行了相关的研究。根据研究目标或手段的不同，相关的研究可以粗略地分成两大类。第一类从动态角度出发，运用时间序列或机器学习等方法对CPI时序数据进行建模分析，研究CPI的运行状态以及CPI的预测。第二类是从结构视角出发，研究CPI波动的内因与外因以及与各影响因素之间的传导机制。在文献 [2] 中，王振中等提供了一个对中国CPI的系统分析，包括CPI的动态结构和可预测性，以及中美CPI的量化比较。

针对第一类，伊力扎提·艾热提 [3] 综合比较研究了中国消费者价格指数预测模型选择的问题，研究结果表明我国的CPI存在一定的季节性；通过条件异方差模型可以提高预测精度；通过引入外在的驱动因素来构建协整模型可以进一步保证预测的准确性。陈逸东与陆忠华 [4] 针对CPI的预测值滞后于真实值的现象，提出一种基于卷积神经网络–长短期记忆(CNN-LSTM)深度网络的CPI预测模型，预测结果相较于传统方法有较小的均方根误差和平均绝对百分比误差，且预测结果的定向精度和Pearson相关系数显著高于传统方法。邵明振等 [4] 使用BP神经网络和ARMA模型对我国月度CPI进行了建模分析与预测，实验结果表明BP神经网络方法有更好的预测精度。第一类这种单变量模型忽略了其他经济变量对CPI预测的有用信息。

针对第二类，李博英和王璇子 [5] 建立了碳排放强度对CPI影响的向量自回归(VAR)模型，对中国2000年至2020年的时间序列数据进行了实证研究。其研究表明碳排放强度与CPI互为格兰杰因果，而且碳排放强度对CPI的影响在前期较大，随后逐渐趋于平稳。张伟 [6] 利用地区购买力平价(Purchase Power Parity, PPP)方法测算和推算了我国31个省级地区的居民消费地区PPP，以反映各地区居民消费价格水平的差距和变动。钟妙 [7] 建立了VAR模型研究法定存款准备金率对CPI的影响，其结果表明法定存款准备金率在短期内干扰甚至决定CPI的走向，但长期无效。魏璐和钱存华 [8] 建立向量误差纠正模型研究了外汇储备粮、金融机构贷款额和固定资产投资额对我国CPI的影响。目前关于CPI的相关研究还包括大数据背景下的实时CPI指数编制方法与使用。

综上所述，目前针对CPI的研究方法能够有效进行预测与分析影响CPI运行的各种因素。但是，研究不同区域CPI时序的异同的文献较少。本文结合贵州省的经济发展形式，提出了研究贵州省及其各区域CPI时序的动态分析与聚类分析方法。

3. 数据说明

本文使用2017年1月至2021年12月(共60期)贵州省及其所辖九大区域的月度同比CPI数据(上年同月 = 100)。数据来源于贵州省统计局官网。使用Python绘制得到贵州省及其各区域的月度同比CPI时序图如图1所示。

Figure 1. Time series chart of monthly year-on-year CPI in Guizhou Province and its regions

图1. 贵州省及其各区域月度同比CPI时序图

4. 贵州省及其各区域CPI时序的动态科普分析

为了了解贵州省及其各区域CPI时序在动态运行上的差异，本节对各CPI时序进行时间序列建模分析与模型对比。

4.1. 各区域CPI时序的平稳性检验

从图1可以看出，贵州省各区域CPI的时序走势大致趋同，但又有区别。此外，这些时序图在直观上是非平稳的。为保证各区域CPI时序数据平稳性检验的可靠性，本文采用了四种单位根检验方法：ADF检验、PP检验、KPSS检验与DFGLS检验。其中，ADF检验、PP检验和DFGLS检验的原假设均为存在单位根(即假设序列是非平稳序列)，而KPSS检验的原假设是不存在单位根(即假设序列是弱平稳序列)。所有假设检验均使用软件Python 3.9实现。假设检验结果如表1所示。表中所有检验的结果均是在模型设定为含有截距项(trend = 'c')且为5%显著性水平下所得。

Table 1. The stability test results of CPI time series in Guizhou Province and other regions

表1. 贵州省及各区域CPI时序的平稳性检验结果

虽然KPSS检验在所有区域的P值均大于0.05，表明在该显著性水平下无法拒接原假设，即各个CPI时序均是弱平稳的。此外，DFGLS检验在贵阳市、六盘水市、安顺市、毕节市和黔东南州5个区域的P值也表明相应的CPI时序是弱平稳的。但是，PP检验的在所有区域序列的P值均拒绝了原假设，表明各个CPI序列是非平稳的。而且除了毕节市外，ADF检验在其他城市的P值也表明相应的CPI时序是非平稳的。另外，通过综合对比各个区域序列的各类假设检验结果发现：六盘水市和毕节市的CPI序列是比较趋近于平稳的；遵义市、铜仁市和黔南州的CPI序列是相对比较不平稳的。

4.2. 各区域CPI时序的季节性检验

各区域的CPI时序还可能存在季节性，需要进一步对各CPI时序的季节性特征进行检验。如果存在季节性，则应当采用季节性模型对其进行建模预测分析。通过绘制季节性图可以直观看出各区域CPI时序是否存在季节性。经过实验发现，贵州省及其各区域的CPI时序均不存在明显的季节性特征，这从第4.3节使用auto_arima自动寻优建模的结果中得到进一步验证。贵州省的CPI时序的季节性图如图2所示。本文已省略其余CPI时序的季节性图。

4.3. 各区域CPI时序的ARIMA模型

根据4.1与4.2的分析结论，各区域的CPI时序数据适用于使用自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model, ARIMA)进行建模分析，而且考虑到该模型十分简单，只需要内生变量而不需要借助其他外生变量，是对时间序列数据进行分析和预测时比较完善和精确的算法。ARIMA模型是Box与Jenkins于上世纪70年代开发的用于非平稳时间序列的建模与预测方法 [9] 。模型ARIMA(p,d,q)的建模思路是：首先将非平稳的时间序列 $X_{t}$ 经过d阶差分变换为平稳时序 $Y_{t}$ ，然后对 $Y_{t}$ 建立自回归滑动平均模型ARMA(p,q)：

$Y_{t} = c + \sum_{i = 1}^{p} β_{i} Y_{t - i} + ε_{t} + \sum_{i = 1}^{q} θ_{i} ε_{t - i}$ (1)

其中c为常数项， $β_{i} (i = 1, 2, \dots, p)$ 是自回归模型系数， $θ_{i} (i = 1, 2, \dots, q)$ 为滑动平均模型系数， $ε$ 为白噪声序列，p为自回归模型的阶数，q为滑动平均模型的阶数。

Figure 2. CPI seasonal map of Guizhou Province

图2. 贵州省的CPI季节性图

由于各区域CPI时序在不同的平稳性假设检验理论下呈现不同的结果以及避免对所有CPI时序建模的繁琐过程，本文使用Python的第三方包pmdarima 2.0.2版本中的auto_arima函数对各区域CPI时序的ARIMA模型参数进行自动网格搜索，找出AIC值最低的参数。实验时均将CPI时序的最后5期作为测试数据，其余为模型的训练数据。各区域CPI时序的ARIMA模型的拟合结果如表2所示。

Table 2. ARIMA(p,d,q) model of CPI time series for each region in Guizhou Province

表2. 贵州省各区域CPI时序的ARIMA(p,d,q)模型

4.4. 各区域CPI时序的ARIMA模型预测

从表2中可知，各区域CPI时序的ARIMA模型的AIC值存在一定的差异，AIC值最低的是毕节市，最高的是六盘水市。分别使用3.3节中拟合得到的ARIMA模型对后5期的CPI进行预测，并与测试集的结果进行对比计算平均绝对误差。各区域的预测结果如表3所示。

Table 3. Forecast results of ARIMA(p,d,q) model for CPI time series in each region of Guizhou Province

表3. 贵州省各区域CPI时序的ARIMA(p,d,q)模型预测结果

5. 各区域CPI时序的聚类分析

通过第4节对贵州省及其各区域CPI时序的动态对比分析。我们发现各区域CPI时序在相同的建模标准下得到的最优拟合模型以及预测结果存在一定的差异。

本节使用聚类方法对各区域的CPI时序进一步进行分析。在研究聚类算法前，首先要明确聚类的目的。本文的聚类目的是将CPI时序的动态相关关系更接近的聚在一组。动态相关关系描述了时间序列的形成过程，揭示了时间序列的本质特征，可以挑选同一簇内有代表性的序列来估计整个簇内序列的特征，这在海量序列数据的研究中具有重要意义。时间序列聚类问题的定义如下：把n个时间序列的集合记为 $X = (X_{1}, X_{2}, \dots, X_{n})$ ，其中第i个时间序列为 $X_{i} = (X_{i 1}, X_{i 2}, \dots, X_{i n})$ ， $T_{i}$ 为第i个时间序列的长度。聚类目标是把n个时间序列聚到 $C = {C_{1}, C_{2}, \dots, C_{k}} (k ≪ n)$ 。无需进行数据集的标准化。聚类问题的关键从技术层面角度来看侧重于对聚类算法的改进，而从理论层面来看更侧重于对距离度量的选取。

5.1. CPI时序的DTW距离测度

为了确定时间序列之间的相似性及对时间序列进行分类，需要测量时间序列之间的距离。动态时间规整(Dynamic Time Warping, DTW)在数据挖掘中通常作为时间序列之间距离的测量方法。它使用动态规划算法找到两个时间序列之间的最佳对齐。作为时间序列相似性度量，它通过允许时间序列的“弹性”变换来检测具有不同相位的相似形状，从而最大限度地减少时间偏移和失真的影响，因此获得了广泛的应用，包括语音识别、手势识别、机器人、制造和医学等。

DTW的基本思想描述如下。任意给定两个时间序列：

$X = x_{1}, x_{2}, \dots, x_{i}, \dots, x_{| X |}$ ， (2)

$Y = y_{1}, y_{2}, \dots, y_{i}, \dots, y_{| Y |}$ ， (3)

它们的长度分布为 $| X |$ 和 $| Y |$ 。定义它们之间的一条规整路径为：

$P = p_{1}, p_{2}, \dots, p_{k}, \dots, p_{K}$ ， (4)

其中K为该路径的长度，且满足 $\max (| X |, | Y |) \leq K \leq | X | + | Y |$ 。规整路径P中的第k个元素 $p_{k} = (p_{k 1} - p_{k 2})$ ，其中 $p_{k 1}$ 是来自时间序列的一个索引， $p_{k 2}$ 是来自时间序列的一个索引。要求：

a) $p_{1} = (1, 1), p_{k} = (| X |, | Y |)$ ；

b) 若 $p_{k} = (i, j)$ 且 $p_{k + 1} = (i^{'}, j^{'})$ ，则 $i \leq i^{'} \leq i + 1, j \leq j^{'} \leq j + 1$ 。

评价规整路径的指标被定义为规整路径的距离。规整路径P的距离被定义为：

$D i s t (P) = \sum_{k = 1}^{K} D i s t (p_{k}) = \sum_{k = 1}^{K} \sqrt{{(p_{k 1} - p_{k 2})}^{2}}$ ， (5)

具有最小距离的规整路径称为最优规整路径，记为 $P^{*}$ 。那么，时间序列X与Y之间的距离被定义为最优规整路径的距离，即：

$D T W (X, Y) = D i s t (P^{*})$ (6)

通过使用动态规划方法可以找到X与Y之间的最优规整路径，以获得它们之间的距离。本文使用文献 [10] 中提出的FastDTW算法求得贵州省各区域CPI时序的DTW距离矩阵如下表4。

Table 4. DTW distance matrix of CPI time series in Guizhou Province

表4. 贵州省各区域CPI时序的DTW距离矩阵

5.2. 基于DTW距离的凝聚式层次聚类方法

度量两个簇间距离的方法有很多，例如最小距离、最大距离、平均距离、中心距离、类平均距离、离差平方和距离等。本文在得到表4中各区域CPI时序之间的DTW距离矩阵之后，使用Ward方法进行迭代更新聚类矩阵。每次迭代选择距离最小的两个簇进行合并，直至最后聚成一类，并使用Python实现得到聚类树图，如图3所示。

Figure 3. The cluster tree of CPI time series of each region in Guizhou Province

图3. 贵州省各区域CPI时序的聚类树图

按图3中红色虚线划分标准，可以将贵州省各区域CPI时序的运行状况分为四类，分别是{贵阳市，铜仁市}、{六盘水市，遵义市}、{黔东南州}与{毕节市，黔西南州，安顺市，黔南州}。

6. 结语

本文首先使用ARIMA模型从动态的视角对比分析了贵州省各区域CPI的运行状况与变动趋势，研究发现各区域的CPI时序在同一建模假设下存在一定的差异。然后，基于DTW距离的凝聚式层次聚类方法给出了各区域CPI时序的聚类结果，更进一步展示了各区域CPI时序之间的异同。需要说明的是，本文的重点是想研究贵州省各区域CPI时序运行状况之间的异同，通过原始数据分析发现使用简单精确的ARIMA模型就能够较好的建模各区域的CPI时序数据，因此没有考虑使用诸如机器学习等更复杂的方法来建模，这是本文的缺陷所在，因此有待进一步探索其他建模方法。此外，研究城市CPI与农村CPI之间的差异，以及从CPI的影响因素的结构性差异来分析各区域CPI的异同也是本文的进一步研究方向。这对研究中国各地区之间CPI运行规律的差异有一定的启示意义。

致谢

本文作者感谢黔西南州科技计划项目对本研究的资助，以及感谢审稿人的宝贵意见。

基金项目

黔西南州科技计划项目“贵州区域CPI运行状态分析研究”。

参考文献

[1]	邵明振, 陈磊, 宋雯彦. 我国月度居民消费价格指数的预测方法与应用[J]. 统计与决策, 2012(14): 30-31.
[2]	王振中, 陈松蹊, 涂云东. 中国居民消费价格指数的动态结构研究及中美量化比较[J]. 数理统计与管理, 2021(1): 109-126.
[3]	伊力扎提∙艾热提. 中国消费者价格指数预测模型的选择[J]. 统计与决策, 2022, 38(4): 68-73.
[4]	陈逸东, 陆忠华. 基于卷积长短时记忆网络的CPI预测[J]. 计算机工程与应用, 2022, 58(9): 256-262.
[5]	李博英, 王璇子. 碳排放强度对居民消费价格指数的影响研究[J]. 统计与信息论坛, 2022, 37(10): 65-74.
[6]	张伟. 地区购买力平价与2015-2019年省级地区居民消费价格水平——基于84个主要城市的研究[J]. 统计研究, 2022, 39(10): 119-132.
[7]	钟妙. 法定存款准备金率对居民消费价格指数影响的实证[J]. 统计与决策, 2020, 36(23): 155-159.
[8]	魏璐, 钱存华. 关于对可能影响CPI的几个因素的研究[J]. 数理统计与管理, 2014, 33(1): 122-127.
[9]	Box, G.E.P., Jenkins, G.M., Reinsel, G.C., et al. (2015) Time Series Analysis: Forecasting and Control. John Wiley & Sons, Hoboken.
[10]	Salvador, S. and Chan, P. (2007) Toward Accurate Dynamic Time Warping in Linear Time and Space. Intelligent Data Analysis, 11, 561-580. [Google Scholar] [CrossRef]

为你推荐

友情链接