1. 引言
广义的财政收入 [1] 是指政府为社会提供公共物品与服务、实施公共政策和履行其职能的需要,依据一定的权力原则而筹集的一切资金的总和,它是衡量一国政府财力的重要指标,是实现国家职能的财力保证,在推动经济社会高质量发展和人民群众高品质生活中扮演着至关重要的作用,因此对其进行研究分析很有必要,可为我国财政预算提供一定的理论依据。
近年来,国内外许多学者纷纷运用不同统计方法深入研究分析我国财政收入与地方财政收入。根据预测模型的不同主要分为两类:单一型和组合型。2006年文献 [2] 利用BP神经网络原理预测税收;文献 [3] 讨论了组合预测模型在地方财政收入中的应用;文献 [4] 在2011年给出基于主成分分析的支持向量机税收预测模型,通过我国2001~2004年税收数据进行验证;2016年文献 [5] 提出了灰色RBF神经网络的多因素财政收入预测模型,并以安徽省的财政收入数据为例衡量构建的模型;文献 [6] 在2018年指出一种组合预测方法——Lasso-GRNN神经网络模型对地方财政收入进行分析预测。通过分析发现组合模型在一定程度上可以弥补单一模型的短板,提高结果的可信度。
除此之外,众多学者关于财政收入影响因素的探讨,大部分都是先构建我国财政收入或地方财政收入与待测定的影响要素之间的多元线性回归模型,再使用最小二乘法对所建的回归模型进行系数估计问题,以此来判断彼此之间的关联度,如文献 [7] [8] [9]。由于模型的结果对数据具有较高的依赖程度,而且在普通最小二乘估计法下求得的解往往表现为局部最优解,由此一来,对于之后步骤的检验恐怕就会失去本应表达的意义。
综合考虑,为得到更为准确的预测结果,本文在已有研究的基础上,借由R统计软件进行编程,以1994~2019年我国财政收入和相关特征数据为实例,在Lasso特征选择的基础上,集中讨论灰色GM(1,1)模型和支持向量回归(Support Vector Regression, SVR)的组合预测模型。
2. 研究方法
首先,对于多维数据的分析与处理,通常的做法是进行变量的选取工作,筛选变量的方法通常有主成分分析法、最小二乘回归法、逐步回归法、岭回归、Lasso回归等多种方法。Lasso (Least Absolute Shrinkage and Selection Operator)回归方法是Robert Tibshirani [10] 在1996年提出的一种新型的变量选择方法。这种技术是一种收缩估计方法,通过构造惩罚函数压缩模型特征系数使得模型稀疏表达,达到特征选择的目的,进而更好处理变量间的多重共线性问题。Lasso方法既结合了子集选择法的优势又囊括了岭回归的优点,相比于传统的变量筛选方法,它能够很好的克服传统方法在变量选择问题中存在的短板,所以该技术在统计学、经济学、医药卫生等领域受到越来越多的关注与重视,详细可参考文献 [11] [12] [13] [14] [15]。文献 [16] 对这几种常用方法进行了探讨,并得出Lasso回归在预测准确性和模型可解释性上更优于其他方法结论,所以本文利用Lasso方法来做变量筛选,降低变量的个数。
其次,灰色预测法是一种对既包括已知信息又包含不确定信息的系统进行有效预测的方法,在小样本数据集上表现优良。灰色预测是基于灰色模型展开预测分析的,在诸多灰色模型中,应用最广泛的是GM(1,1)模型,它能依据已知的微量信息进行模型的设计和预测,进而挖掘系统中隐含的运行变化趋势。灰色预测方法在信息技术、农业科技、电力工业、文化经济等领域都有很广泛的应用背景,可参考文献 [17] [18] [19] [20]。另外,支持向量回归在时间序列预测上具有很多明显优势,被广泛应用,具体详见文献 [21] [22]。
综上,本文研究的主要思路与方法如下:首先利用函数计算财政收入、第一产业增加值,工业增加值,建筑业增加值,年末总人口,社会消费品零售总额和受灾面积这七个特征间的Pearson相关系数矩阵;运用Lasso回归法筛选重要特征;接着对单个特征构建灰色预测模型,获得未来两年的预测值;然后再对2019年以前的训练样本构建支持向量回归预测模型,得到2020年和2021年的财政收入预测值;最后给出模型评价与分析。
3. 研究过程与分析
3.1. 收集数据
因为在1994年我国的财政体制发生了重大转变,出现了“分税制”财政体制,这就破坏了财政收入相关数据的关联性,1994年前后的数据不能统一作比较,目前并没有恰当的方法来调整数据发生的变动,因此本文仅收集1994~2019年我国财政收入和相关特征数据,如附表1所示。其中,数据均来源中华人民共和国国家统计局:《中国统计年鉴(1999~2020)》 [23]。为方便研究,将各个特征命名如表1所示。
3.2. 相关性分析选取关键特征
相关性分析是指对两个或若干个彼此具有关联性的特征元素进行分析,以此作为判断两个特征因素关联程度的度量标准。在统计学中,往往通过相关函数计算Pearson相关系数来进行相关性分析。表2展示了财政收入7个特征间的Pearson相关系数矩阵。
Table 2. Pearson correlation coefficient matrix
表2. Pearson相关系数矩阵
由表2可知,受灾面积(x6)与财政收入(y)的线性关系不显著,呈现负相关。其余特征均与财政收入呈现高度的正相关关系,按照相关性大小排列依次是x1,x3,x4,x5和x2。与此同时,各个特征之间存在严重的多重共线性,例如特征x1与x3,x4存在严重的共线性,x5与除了x2和x6以外的其他特征有严重的共线性,x6与其他五个特征的共线性不明显。除此之外,x3和x4之间存在完全的共线性。
3.3. 选取关键特征
Lasso回归方法以降阶为主要思想,对特征的系数进行压缩估计并使某些系数变为0,从而达到筛选特征的目的,是一种常用的正则化方法。由表2可知财政收入与各个变量存在严重的多重共线性,这里借用Lasso原理和方法实现关键特征识别是恰当的,Lasso回归系数结果如表3所示。从表3可看出,影响财政收入的关键影响因素是第一产业增加值(x1),建筑业增加值(x3)和社会消费品零售总额(x4)。
Table 3. The coefficient table of Lasso regression
表3. Lasso回归系数表
3.4. 构建预测模型
基于GM(1,1)预测模型,首先对按照Lasso回归法选取出的三个重要特征:第一产业增加值(x1),建筑业增加值(x3)和社会消费品零售总额(x4)构建灰色预测模型,得到三个特征在2020年和2021年的预测值和后验差检验判别模型精度的结果如表4所示。其中,2020年第一产业增加值,建筑业增加值和社会消费品零售总额预测值分别为82,954.97亿元、102,828.20亿元和578,391.60亿元;2021年第一产业增加值,建筑业增加值和社会消费品零售总额对应的预测值依次是89,800.96亿元、116,399.20亿元和652,459.30亿元。接着将表4的预测结果代入财政收入所构建的支持向量回归预测模型,可得到1994~2021年财政收入的预测值,如表5所示。将财政收入真实值与预测值进行对比,结果如图1所示。
表4显示第一产业增加值,建筑业增加值和社会消费品零售总额这三个特征通过灰色预测模型输出的预测精度等级良好,由图1可观察出建立的预测模型很好地拟合了这26年的财政收入的变化情况,都说明构建的模型具备可行性与可靠性。
Table 4. The results of the grey forecasting model
表4. 灰色预测模型结果
Table 5. The value of revenue forecast from 1994 to 2021
表5. 1994~2021年财政收入的预测值
Figure 1. Result of comparing the predicted values to actual values in fiscal revenue
图1. 财政收入真实值与预测值对比图
3.5. 评价预测模型
使用R2值、调整的R2值、平均百分比误差对模型进行检验,检验结果如表6所示。由此表可以看出,平均百分比误差较小,具体值为0.1984144,R2值(0.9957771)与调整的R2值(0.9954099)都特别接近1,由此说明上述建立的支持向量回归模型拟合效果表现优良,可用于对财政收入的预测分析问题中。
Table 6. The results of the model evaluation indicator
表6. 模型评价指标结果
4. 结论与评价
因为影响我国财政收入的因素多种多样,而且这些因素彼此之间总是存在多重共线性问题,本文运用Lasso回归方法选择影响财政收入的关键性指标,从Lasso的参数估计系数可以看出影响我国财政收入的六个变量(第一产业增加值,工业增加值,建筑业增加值,年末总人口,社会消费品零售总额和受灾面积)中,第一产业增加值、建筑业增加值,和社会消费品零售总额是表现最为重要的因素,其中第一产业增加值的系数值最大,可见第一产业增加值是影响一个国家经济的最主要原因,因为我国自古以来就是农业大国。农业是人类的生存之本,我国国情决定农业是国民经济的基础与保障,是经济社会发展的“压舱石”。因此,在十四五规划的开局之年,更要持续推进农业绿色、高质、高效发展。
其次建筑业增加值对我国财政收入的影响次之,表明建筑业是我国国民经济的支柱产业,对社会经济发展做出了卓越贡献,因此,在信息飞速发展的时代,要借助数字化、智能化建造技术,促进建筑业转型升级,实现高质量发展,打造“中国建造”品牌。
在变量筛选的基础上,把灰色GM(1,1)模型和支持向量回归模型相结合,以1994~2019年相关数据为例对我国的财政收入做预测分析,通过真实值与预测值的对比图以及R2值、调整的R2值和平均百分比误差验证了所建预测模型的优越性和可靠性。
通过对我国财政收入的预测分析,建议我国政府要着重调整对第一产业、建筑业以及社会消费品零售这几个方面的鼓励政策,加大对第一产业和建筑业的投入力度,努力做好财源建设的优化。具体建议如下:
第一,“农,天下之大业也。”要大力推动中国特色社会主义乡村振兴。优先解决“三农”问题,优先发展农业农村,提高农民合作经济组织的发展;促进多方资源下沉基层,建立健全乡村人才引进制度,加快乡村创新创业队伍建设;缩小城乡区域发展差距,加快农业农村现代化建设步伐,为实现全面建设社会主义现代化国家增添活力!
第二,我国建筑业企业数量繁多,要促进建筑业精益化、智能化、绿色化、工业化“四化”融合发展,升级产业链,提高科技创新能力,努力实现“中国建造”向“中国制造”及“中国创造”的大阔步迈进;借助智能、云端计算等新手段,实现人机合力,提高劳动生产率和产业利用率,推动智能化建筑业领域的发展;立足全球,打造中国建造特色品牌,全面促进建筑业全球化发展,提高中国建筑品牌的国际形象。
第三,在当前疫情的大背景下,优先巩固疫情防控,促进产业转型与升级,刺激消费市场回暖,促进国民经济持续高质量发展。对于政府来说,适当出台减租免租政策,减少零售企业这些中小微企业的资金压力,降低新冠疫情导致的不良影响;对于企业来说,合理发放优惠券,积极发展夜间经济,刺激居民消费;积极响应政府政策,抓住时代机遇,转型升级产业,提高改进技术,顺应消费潮流。
基金项目
特别感谢北京建筑大学2021年度研究生创新项目(项目编号:PG2021018)对本文的资助。
参考文献
附录
Table 1. The data of fiscal revenue from 1994 to 2019
附表1. 1994~2019年中国财政收入相关数据