1. 引言
习近平总书记在2020年联合国有关会议上提出[1]:中国将力争于2030年之前实现碳达峰,于2060年之前实现碳中和。国务院于2021年10月26日印发了《2030年前碳达峰行动方案》[2],将碳达峰目标列为2021年八大重点目标之一。可见,碳达峰、碳中和已成为我国经济发展目标中的重中之重,该目标的逐步实现也必将推动中国经济更加健康、稳定、安全的发展。
自第一次工业革命以来,能源消费对环境的影响逐渐引起全球关注。绿色发展、绿色经济、减碳等概念逐渐普及。中国在上世纪经历了粗放式经济发展阶段,导致严重的环境污染。进入21世纪,随着“科学发展观”和“绿水青山就是金山银山”理念的提出,绿色发展已成为社会和学术界关注的热点。
早在2009年,林伯强等[3]就利用传统的环境库兹涅茨模拟与LMDI和STIRPAT模型研究了中国二氧化碳的达峰时间,并预测出实现的时间约为2020年左右。朱永彬等[4]则在限定技术发展速度条件下预测中国碳达峰时间应在2040年之前。渠慎宁等[5]则基于STIRPAT模型对中国碳排放时间序列数据进行了回归,并在限定经济社会发展速度情况下,认为碳达峰时间会出现在2020~2045年之间。通过限制指标变化预测碳排放总量有一定意义,但对于实际碳排放预测没有太大实际价值。杜强等[6]使用一个改进的IPAT模型对中国2010~2050年的碳排放总量进行了预测,认为中国碳排放总量将于2030年达峰,并在2030~2050年期间以2.09%速度减少。进一步地,杜强等[7]于2013年将全国各省分成五个群体,针对每个群体分别使用Logistic回归模型研究了逐年累计碳排放量与人均累计排放量,并对中国各省碳排放进行了预测。黄蕊等[8]基于STIRPAT模型,结合多个经济社会指标,在固定各指标变化速度情况下使用岭回归方法对江苏省碳排放进行了研究。王勇等[9]对STIRPAT模型进行了改进,提出了门限-STIRPAT模型,并用其探究了中国超大城市碳达峰影响因素,认为人口、GDP、能源强度对碳排放影响最大,能源强度对碳排放影响还呈现阶段性特征,这为本文中碳排放预测指标体系建立以及STIRPAT模型的改进提供了借鉴。还有很多相关的工作例如:刘凯诚[10]使用改进之后的KAYA模型对碳达峰条件进行了探索。李晓易等[11]针对交通运输领域碳达峰、碳中和实现路径进行了研究,提出“分类施策、远近结合、先易后难、控增量调存量、积极稳妥推进、梯次有序达峰”的路径策略。
从现有文献可以看出,目前关于碳排放问题的研究主要是针对中国整个国家,而单独省份或地区层面的碳排放研究较少。然而中国幅员辽阔,南北经济差异较大,基于中国整个国情的碳排放预测并不适合某个省份的碳排放计划,得到的预测结果也很难在具体的省份得到验证。为此本文将针对性地对特定省份的碳排放问题进行研究,研究结果可为相似经济发展水平的省份提供建设性的政策启示。除此之外,以上作者在预测上多选择根据以往经验人为限制社会影响指标,进而对未来的碳排放做出预测,主观因素较大,并不能准确预测出未来实际碳排放。
影响碳排放的因素有很多,并且可能相互关联,因此对多因素进行分解、研究各因素对碳排放的影响差异,是进行碳排放预测必不可少的首要任务。LDMI分解模型以及STIRPAT模型被证明是处理多影响因素分解的有效方式之一。另外,碳排放预测模型的使用是研究“双碳”目标的重要组成,预测结果的正确性直接关系到该省份或地区的经济发展战略。因此本文将改进STIRPAT分解模型,提出多种预测模型,利用数学建模的理论与方法,对碳排放、碳达峰等问题进行系统研究。根据预测结果和分析,为具体省份未来碳排放政策提出合理的建议和展望。
2. 碳排放模型与指标
2.1. LMDI分解模型和STIRPAT模型
LMDI (对数平均迪氏指数法,Logarithmic Mean Divisia Index)是基于指数分解法(IDA)发展而成的一种因素分解法,这种方法以对数的形式对影响碳排放的多种因素进行加权,同时消除分解残差,具有完全分解因子、无残差项等主要优势。LMDI分解模型通常与Kaya恒等式[12]联合使用。Kaya恒等式于1989年由日本经济学家Yoichi Kaya [13]在IPCC会议上提出。Kaya认为,碳排放总量主要取决于一个国家的能源消费、国民生产总值和人口数量,所以将碳排放量分解为这些影响因素互相关联的形式,其表达式为:
(1)
式中,
——碳排放量(单位:百万吨),
——能源总消费量(单位:万吨),
——国民生产总值(单位:亿元),
——人口总数(单位:万人)。
另一方面,基于1970年Ehrlich和Holden提出的IPAT恒等式[14],Thomas Dieta和Eugene Rosa [15]提出了STIRPAT (Stochastic Impacts by Regression on Population, Affluence, and Technology)模型,该模型常用于评估人类行为对环境产生的影响,特别是常用于反映人口、富裕程度、技术等因素对环境的综合影响。因该模型中引入了随机性,扩展了IPAT恒等式的应用范畴,使得该模型可以更加深入的探索不同自变量与因变量之间的关系,应用更具有广泛性和成熟度,因此成为环境压力评价的一个重要工具。其表达式如下:
(2)
式中:I——环境影响,P——人口(population),A——财富(affluence),T——技术(technology),
——参数,
——误差项。
2.2. 碳排放预测指标体系
基于LMDI分解思想和STIRPAT模型,本文将以河北省为例,以该省1997~2021年内能源消费的碳排放数据为主要依据[16],建立表1所示的预测指标体系。之后对STIRPAT模型进行改进,定性定量的分析碳排放与各项因素的关联性,并根据改进的STIRPAT模型对河北省未来的碳排放量进行预测。改进的STIRPAT模型如下:
(3)
其中,
为碳排放量,
为对应指标的待定指数系数,
为未知常数项系数,
为误差项。对(3)式两边同时取对数运算,将乘积幂次形式转变为求和形式,有
(4)
公式(4)即为本文提出的改进STIRPAT模型。
Table 1. Carbon emission projection indicator system
表1. 碳排放预测指标体系
一级指标 |
二级指标 |
字符表示 |
人口 |
人口总量 |
α1 |
经济 |
GDP全年总量 |
α2 |
第三产业GDP |
α3 |
能源技术 |
能源消费总量 |
α4 |
煤炭消费比例 |
α5 |
石油消费比例 |
α6 |
天然气消费比例 |
α7 |
其他能源消费比例 |
α8 |
碳排放 |
全年碳排放总量 |
C |
3. 碳排放预测模型
本文使用数据来自《河北统计年鉴》[16],部分数据样本如表2所示。首先利用数据对改进STIRPAT模型中的各项指标进行预测。在数学建模理论中有多种预测模型和方法,每种方法均有自己独特的优势和适用的场景,对同一问题的分析也有可能得到相差各异的结果[17]。本文将采用多种预测模型对河北省2035年前碳排放量进行预测,并分析河北省碳达峰的预计时间。预测方法分为两种类型,分别对应两种预测思路。图1给出了两种不同类型预测模型的工作流程。
Table 2. Carbon emission driver indicator system data
表2. 碳排放驱动因素指标体系数
年份 |
人口 |
GDP/亿元 |
第三产业/亿元 |
能源消费总量万吨标准煤 |
煤炭 |
石油 比例 |
天然气比例 |
一次电力及其他能源所占比例 |
CO2排放(mt) |
2003 |
6769 |
6333.6 |
2346.8 |
15297.89 |
92.78 |
6.49 |
0.66 |
0.07 |
320.69 |
2004 |
6809 |
7588.6 |
2787.1 |
17347.79 |
91.14 |
8.01 |
0.75 |
0.1 |
365.68 |
2005 |
6851 |
8773.4 |
3304.2 |
19835.99 |
91.82 |
7.45 |
0.61 |
0.12 |
408.93 |
续表
2006 |
6898 |
10043 |
3869.3 |
21794.09 |
91.59 |
7.64 |
0.67 |
0.1 |
409.11 |
2007 |
6943 |
12152.9 |
4566.4 |
23585.13 |
92.36 |
6.87 |
0.68 |
0.09 |
453.98 |
2008 |
6989 |
14200.1 |
5261.8 |
24321.87 |
92.31 |
6.67 |
0.94 |
0.08 |
481.98 |
2009 |
7034 |
15306.9 |
6020.7 |
25418.79 |
92.51 |
6.21 |
1.21 |
0.07 |
511.06 |
2010 |
7193.6 |
18003.6 |
7060 |
26201.41 |
89.71 |
7.75 |
1.51 |
1.03 |
569.37 |
2011 |
7231.86 |
21384.7 |
8406.4 |
28075.03 |
89.09 |
8.12 |
1.66 |
1.13 |
623.46 |
2012 |
7262 |
23077.5 |
9243.8 |
28762.47 |
88.86 |
7.48 |
2.04 |
1.62 |
642.31 |
2013 |
7287.59 |
24259.6 |
9939.3 |
29664.38 |
88.69 |
7.22 |
2.23 |
1.86 |
657.72 |
2014 |
7322.9 |
25208.9 |
10567.3 |
29320.21 |
88.46 |
6.98 |
2.54 |
2.02 |
624.59 |
2015 |
7345.2 |
26398.4 |
11778.4 |
31036.73 |
88.83 |
5.99 |
3.13 |
2.05 |
639.37 |
2016 |
7374.99 |
28474.1 |
13059.3 |
31458.05 |
87.33 |
6.23 |
3.42 |
3.02 |
614.57 |
2017 |
7409.14 |
30640.8 |
14732.8 |
32082.56 |
86.05 |
6.14 |
3.94 |
3.87 |
541.90 |
2018 |
7426.37 |
32494.6 |
16252 |
32185.24 |
83.61 |
6.47 |
5.49 |
4.43 |
595.29 |
2019 |
7446.56 |
34978.6 |
18066.5 |
32545.43 |
81.96 |
5.86 |
6.61 |
5.57 |
593.43 |
2020 |
7463.84 |
36013.8 |
18368.4 |
32782.76 |
80.51 |
5.67 |
7 |
6.82 |
589.56 |
2021 |
7448 |
40391.3 |
19996.7 |
32590.07 |
76.58 |
6.63 |
7.59 |
9.2 |
579.36 |
![]()
Figure 1. Ideas for total carbon emission forecast in Hebei Province
图1. 河北省碳排放总量预测思路
3.1. 时序型预测方法
碳排放数据本身就是一列时序数据,于是可以考虑选用相应的时序模型进行预测。时序预测方法包括传统的数值类型预测方法以及机器学习预测方法。本文使用ARIMA模型、灰色预测方法和LSTM循环神经网络对碳排放进行预测。
3.1.1. ARIMA (自回归综合移动平均模型)
是一种广泛应用于时间序列预测的统计模型,由George E. P. Box和Gwilym M. Jenkins [18]在1970年代初期提出,并在之后不断完善。
ARIMA模型结合了自回归(AR)、差分(I)和移动平均(MA)的概念。ARIMA模型包含三个参数(p, d, q),分别对应AR模型的项数p、使数据变平稳的差分次数d、以及移动平均项数q,这些参数均可通过观察自相关图(ACF)和偏自相关图(PACF)来选择合适的p、d和q值,对应的模型为:
(5)
式中
为原始时间序列
经过d次差分后的序列,c为常数项,
为自回归部分的参数,表示过去值对当前值的影响。
为移动平均部分的参数,表示过去误差项对当前值的影响。
为时间序列在时刻
的误差项,通常假设它们是独立同分布的随机变量。ARIMA 模型充分利用了数据本身的时序信息,用相对简单的线性形式进行预测,具有稳定性好、准确性高、适用性强等诸多优点。经过分析,河北省碳排放数据采用可确定三个参数值为ARIMA(2, 2, 1)。
Table 3. Comparison of predicted effects
表3. 预测效果对比
MSE参数值灰色预测 |
ARIMALSTM |
人口总量/万人 |
2775 |
1845 |
668 |
GDP/亿元 |
1,366,853 |
370,576 |
5,206,193 |
第三产业 |
779,842 |
116,558 |
127,061 |
能源消费总量 |
5,894,940 |
796,383 |
231,751 |
煤炭 |
6.669 |
4.29 |
6.41 |
石油 |
0.375 |
0.65 |
0.42 |
天然气所占比例 |
1.04 |
0.476 |
0.16 |
其他能源所占比例 |
1.5 |
0.96 |
1.13 |
3.1.2. 灰色预测模型
灰色系统是由华中科技大学的邓聚龙教授[19]于80年代初创立,该系统作为新兴的横断学科,在短短的二十年里已得到了长足的发展。灰色预测方法(Grey Forecasting Method)是一种基于灰色系统理论的预测方法,用于处理具有少量数据、缺乏完整信息或非线性灰色机理性关系的问题。该方法多应用于经济、工程、管理和其他领域的预测和决策分析中。
3.1.3. LSTM模型
长短时记忆网络(LSTM)预测方法是一种特殊的循环神经网络(RNN),该模型于1997年由Hochreiter S, Schmidhuber J [20]共同提出,并在数据预测、自然语言领域广泛应用。RNN循环神经网络同样包括输入层、隐藏层、输出层,相比于传统神经网络不同的是,RNN隐藏层还包含自传播过程,这使得RNN能很好地提取时序变量中的时序信息。但传统的RNN存在梯度消失或梯度爆炸的问题,导致对长序列的建模能力较弱。为了解决这个问题,本文使用LSTM预测方法进行预测。LSTM通过在RNN中创建记忆门、输入门和输出门进而降低计算维度,从而完成对长序列的预测任务。
ARIMA(2, 2, 1)模型、灰色预测模型、LSMT模型预测结果的均方误差见表3,其中均方误差的MSE的计算公式为:
(6)
这里我们取1997~2021年碳排放数据中前80%数据作为训练集,后20%数据作为测试集,表中加黑的数据是当前指标得到的最小均方误差,对应的预测模型即为对应当前指标的最佳预测模型。例如驱动指标人口总数,适合于该指标因素的最优预测模型为LSMT模型。
3.2. 回归型预测方法
完成各项驱动指标的预测后,本文将基于改进的STIRPAT模型(4)采用回归型预测方法包括BP神经网络回归方法[21]、Lasso回归方法[22]、岭回归方法[23]等对河北省2022~2035年的碳排放总量进行预测,具体预测流程见图2。为检验回归模型的有效性,本文将指标预测数据的75%作为训练数据,余下的25%作为检验数据进行拟合优度检验。
改进的STIRPAT模型(4)可改写为
(7)
式中
分别对应公式(4)中的驱动指标因素。
Figure 2. Flowchart for total carbon emissions projection
图2. 碳排放总量预测流程图
3.2.1. BP神经网络回归
BP神经网络回归是一种使用反向传播算法(Backpropagation)进行训练的神经网络模型,由于具有结构简单、工作状态稳定、易于硬件实现等优点在众多的神经网络模型中BP网络的应用最为广泛[21],可用于回归问题。它可以学习输入与输出之间的非线性映射关系,并用于对新的输入数据进行回归预测。BP神经网络回归的基本结构包括输入层、隐藏层和输出层。输入层接受输入数据的特征,隐藏层包含一层或多层神经元,输出层产生回归结果。图3给出了BP神经网络的具体结构。
以单层BP神经网络为例,预测模型可表示为下式
(8)
其中
为模型输出,
分别为输入层到隐藏层和隐藏层到输出层的激活函数,
分别为输入层到隐藏层和隐藏层到输出层的权重矩阵,
为偏置常数。模型会根据输出层结果计算损失函数对模型参数进行前馈调整。
Figure 3. BP neural network prediction structure
图3. BP神经网络预测结构
3.2.2. 岭回归
岭回归分析是一种专门用于共线性数据分析的有偏估计方法,它实际上是一种改良的最小二乘法[22]。在岭回归中,损失函数由两部分组成:平方误差项和正则项。平方误差项用于拟合数据,而正则项则对模型的系数进行惩罚,使得系数的平方和尽可能小。
当输入特征之间存在高度相关性时,岭回归方法可以发挥其优势处理多重共线性,岭回归通过约束系数的平方和,能很好地避免这一问题,提高了模型的稳定性。
3.2.3. Lasso回归
Lasso回归(Least Absolute Shrinkage and Selection Operator Regression)是一种线性回归的方法,可用于特征选择,由Tibshirani R [23]于1996年提出,并在机器学习与统计学中有广泛的应用。它通过在损失函数中加入正则项来实现这一点。Lasso回归更倾向于选择与目标变量有强相关的特征变量,这种特点会使得Lasso回归方程中一些特征的系数为零。相比较岭回归,Lasso回归倾向于对系数较小的变量特征进行惩罚,进而优化回归模型,使其变得简单。
4. 预测结果对比与分析
4.1. 碳排放驱动因素指标时序预测结果与分析
前面我们根据均方误差值最小分别选择了驱动因素的最佳预测模型,以方便我们在之后对碳排放总量进行回归型预测。图4与图5给出了八个驱动因素的预测结果。
由图4可以看出,与碳排放正相关的人口总量以及能源消费总量随时间增长逐渐达到峰值,呈现典型的S型曲线特征。值得注意的是,河北省的第三产业GDP以及其在总体GDP中所占比例在持续增长。根据预测:2035年河北省第三产业GDP比例将达到61.4%。
从图5中可以发现,与河北省碳排放正相关的煤炭、石油在之后的预测中都有明显的下降,预测结果显示:至2035年,煤炭使用在全部的能源消费中所占比例由2010年的89.7%降至2035年的64.5%,石油所占比例也从7.8%降至4.6%,而与碳排放负相关的绿色能源天然气和一次能源及其它能源,在能源消费中的使用比例分别从2010年的1.5%、1.0%跃升至5.7%和16.2%。这表明从能源消费角度看,河北省的能源结构正向更加绿色更加健康的方向调整。
Figure 4. Population, GDP, tertiary sector, energy consumption forecasts
图4. 人口、GDP、第三产业、能源消费量预测图
Figure 5. Projected energy consumption structure
图5. 能源消费结构预测图
4.2. 河北省碳排放总量预测结果与分析对比
本文使用两种类型共六种方法对河北省2022~2035年的碳排放情况做了预测,并使用其中未参与训练的20%数据对六种预测模型进行了评估。表4集中展示了六种预测方法对应的检验均方根误差RMSE和拟合优度R2。
参数反映在所有预测方法中预测效果最好的为Lasso回归,其均方根误差RMSE和拟合优度R2均表现最优,分别为16.06和0.98,其中均方根误差RMSE和拟合优度R2计算公式为:
(9)
Table 4. Comparison of predicted effects
表4. 预测效果对比
预测方法类型时序预测方法 |
RMSE R2 |
时序类型预测方法 |
ARIMA时序预测 |
35.42 |
0.97 |
LSTM时序预测 |
18.13 |
0.82 |
灰色预测 |
79.54 |
0.79 |
回归类型预测方法 |
BP神经网络回归 |
23.11 |
0.98 |
Lasso回归 |
16.06 |
0.98 |
岭回归 |
22.01 |
0.97 |
需要指出的是,这里的预测效果并不能完全反应十五年后结果的预测精度。事实上,随着预测时间的增加,预测精度会越来越低。但由于未来信息是未知的,所以本文使用25%的碳排放数据进行检验,从而对几种预测方法做出比较。回归类型预测方法中,三种回归方法都得到了相应的回归参数和回归方程。
BP神经网络回归没有一个明确的回归方程来表示输入与输出之间的关系,而是通过训练网络的参数来学习这种关系。最终训练得到的模型隐藏层层数为2层,第一层有5个神经元,第二层有10个神经元。
Lasso回归方法最终得到回归方程为:
(10)
岭回归方法最终得到回归方程为:
(11)
图6与图7分别给出了两种类型预测方法的碳排放预测结果。
Figure 6. Projected carbon emission profiles by time series type
图6. 时序类型碳排放预测曲线图
Figure 7. Regression type carbon emission projection curves
图7. 回归类型碳排放预测曲线
时序类型的三种方法在预测趋势上呈现出很大的不同。灰色预测指出2022~2036年碳排放将呈现近似线性增长态势,并于2035年河北省全省碳排放量将达到1025百万吨;LSTM预测结果显示河北省碳排放总量将于2023年左右达到峰值,为589.6百万吨,之后逐年下降,至2035年碳排总量降低至458.6百万吨;而ARIMA预测结果显示河北省碳排总量将在之后15年逐年降低,但下降趋势逐渐放缓,2035年最终降至248.9百万吨。灰色预测的结果呈逐年上升趋势与灰色预测的特点有关,灰色预测只能提取最近一段时间的变化趋势,对于短时间的预测有良好的效果,对于长时间的预测则有明显的缺陷。
回归类型的三种方法在预测趋势上呈现出很强的相似性,均显示河北省碳排放总量正在逐年下降,其中BP神经网络回归预测至2035年河北省碳排放总量将达到411.2百万吨;岭回归与Lasso回归结果相近,预测至2035年河北省碳排放总量分别为489.7百万吨与456.8百万吨。三种回归方法在峰值出现的时间上基本一致,均预测河北省将在2023年附近出现碳达峰现象。
4.3. 结论与建议
本文通过改进的STIRPAT模型,对河北省的碳排放及碳达峰进行了预测分析。主要研究发现如下:
1) 碳排放趋势:在六种预测模型的预测结果中,除了灰色预测对碳排放的预测结果呈逐渐递增趋势外,其余模型均显示河北省的碳排放总量将呈现下降趋势。
2) 碳达峰时间:预测结果显示,河北省的碳排放总量预计在2023年达到峰值,随后逐渐下降。河北省碳排放能在2035年之前完成达峰要求。
3) 在碳排放预测方法中回归预测方法效果明显优于时序预测方法,其中Lasso回归预测效果最佳。灰色预测方法仅能提取最近一段时间的变化趋势,对于较长时间的预测效果不够理想。
根据预测,河北省作为能源消费大省,能够率先通过调整产业结构,不断提高第三产业比例,优化能源消费结构,提高绿色能源使用比例,并提前实现碳排放达峰任务,这对于全国实现2035碳达峰目标意义重大。
1) 河北省应继续优化产业结构,减少高能耗、高污染产业的比重,积极发展第三产业和高技术产业,以实现经济与环境的双赢。
2) 增加清洁能源和可再生能源的使用比例,减少对煤炭等传统能源的依赖,推动能源结构向绿色、低碳方向转型。
3) 未来研究可以对比更多预测模型,增加更多变量,以提高预测的效果。同时,开展不同省份间的对比研究,以制定更精准的减碳策略。特别是针对经济发展水平和能源消费结构相似的省份,进行深入研究有助于推广最佳实践经验。
通过这些措施,河北省不仅能够提前实现碳达峰目标,还将为全国的碳减排工作提供宝贵经验和示范效应。