基于Lasso-GA-SVR的区域物流业碳排放预测：以天津市为例

doi:10.12677/SD.2023.135175

期刊菜单

基于Lasso-GA-SVR的区域物流业碳排放预测：以天津市为例
Carbon Emission Prediction of Regional Logistics Industry Based on Lasso-GA-SVR: Taking Tianjin City as an Example

DOI: 10.12677/SD.2023.135175, PDF, HTML, XML, 科研立项经费支持
作者: 成圆, 刘晓杰^*, 徐梦雨：天津商业大学管理学院，天津
关键词: 物流业；碳排放预测；遗传算法；支持向量回归；Logistics Industry； Carbon Emission Prediction； Genetic Algorithm； Support Vector Regression

摘要: 本文以天津市2000~2020年物流业的碳排放量数据作为研究对象，首先通过Lasso特征变量选择模型确定影响物流业碳排放的主要指标，然后将筛选出的指标值作为输入变量，建立基于遗传算法的支持向量机模型，以此构建Lasso-GA-SVR模型来预测天津市物流业的碳排放量。将该模型与Lasso-GS-SVR和PCA-GA-SVR模型进行对比，结果表明Lasso-GA-SVR模型具有更好的预测效果，据此利用该模型预测2021年天津市物流业碳排放量。

Abstract: This article takes the carbon emissions data of the logistics industry in Tianjin from 2000 to 2020 as the research object. Firstly, the Lasso feature variable selection model is used to determine the main indicators that affect the carbon emissions of the logistics industry. Then, the selected indi-cator values are used as input variables to establish a support vector machine model based on ge-netic algorithm, and a Lasso-GA-SVR model is constructed to predict the carbon emissions of the logistics industry in Tianjin. Comparing this model with the Lasso-GS-SVR and PCA-GA-SVR models, the results show that the Lasso-GA-SVR model has better predictive performance. Finally, the proposed Lasso-GA-SVR model is used to predict the carbon emissions of Tianjin’s logistics industry in 2021.

文章引用：成圆, 刘晓杰, 徐梦雨. 基于Lasso-GA-SVR的区域物流业碳排放预测：以天津市为例[J]. 可持续发展, 2023, 13(5): 1549-1558. https://doi.org/10.12677/SD.2023.135175

1. 引言

随着中国工业化程度的持续提升，化石能源的广泛使用使得我国碳排放量日益增长，温室气体排放总量连续多年位居全球前列。长期以来，我国物流业具有明显的高投入、高消耗、低产出的粗放式增长特征 [1] 。据统计，全国每年90%以上的汽油消耗和60%以上的柴油消耗均来自于物流业，同时物流业也是五大行业中唯一表现出碳强度持续上升且呈现稳定增长趋势的行业 [2] 。天津作为环渤海地区乃至中国北方的重要港口城市，其物流业的碳排放量在整体区域碳排放量中占据着相当高的比例。运用科学的方法对天津市物流业的碳排放量进行分析与预测，不仅有利于天津市在“双碳”目标约束下推进物流业的节能减排，还可以为其实现低碳经济转型提供决策依据。本文选取2000年至2020年天津市物流业的碳排放量数据作为研究对象，建立Lasso-GA-SVR组合预测模型，并利用该模型预测2021年天津市的碳排放量，同时通过对比多个组合模型来验证该模型的可行性和有效性。

2. 文献综述

目前针对碳排放的分析与预测问题，国内外学者做出了大量极具贡献性的研究，其中碳排放量的预测根据模型不同大致分为两类：一类是使用单一的预测模型，如刘淳森等 [3] 根据我国1990~2019年的指标数据建立LSTM碳排放模型，并设立低碳、基准及高碳三种情景进行预测；潘崇超等 [4] 建立了LMDI分解模型及STIRPAT预测模型对2030年我国钢铁行业碳排放进行预测；潘思羽和张美玲 [5] 采用BP神经网络对甘肃省三大产业及城乡消费碳排放量进行预测；雷玉桃等 [6] 基于碳强度学习曲线对中国制造业27个部门的碳减排潜力进行估算，并采用情景分析法对制造业的碳排放量进行预测。另一类则是使用组合预测模型，如刘炳春等 [7] 选取八个社会经济指标，运用PCA-SVR组合模型对我国CO₂排放量进行预测，模型的均方根误差为0.90；Lu等 [8] 采用改进的PSO算法对BP神经网络模型进行优化，据此预测中国2017~2035年重化工行业的碳排放量；徐勇戈和宋伟雪 [9] 运用模糊布谷鸟搜索算法优化SVM模型进行碳排放量的预测；唐晓灵和刘嘉敏 [10] 基于PSO-LSTM模型对我国建筑业碳排放峰值进行预测，并将其与BP神经网络和原始的LSTM模型预测精度进行对比，结果表明组合模型的拟合预测效果更优；吕欣曼等 [11] 基于OGM (1, N)、BP神经网络和偏最小二乘回归模型利用方差倒数法构建了一种变权多元组合预测模型，实证结果显示其预测精度高达99.764%，具有很好的预测性能。经研究相关文献发现，组合模型可以弥补单一模型的不足，具有更好的预测效果。

3. 相关理论

3.1. Lasso特征变量选择

Lasso回归方法是由Robert Tibshiran基于惩罚最小二乘思想提出的一种处理复共线性数据的有偏估计方法。该方法通过压缩估计值、产生稀疏解，将不重要的变量估计值为零用以评估解释变量的重要性，可解决多重共线性、模型过拟合等多种问题。鉴于碳排放各影响因子间具有较强的多重共线性，本文采用Lasso回归分析以进行特征变量的选择。这样的Lasso回归算法就是在传统的最小二乘估计上对模型的系数施加一个惩罚，定义为：

$\begin{matrix} \hat{β} = \arg_{β} \min {‖ y - x β ‖}^{2} + λ \sum_{j = 1}^{p} | β_{j} | \end{matrix}$ (1)

式中， $λ \sum_{j = 1}^{p} | β_{j} |$ 为参数惩罚项。当λ较大，即对参数的惩罚较大时，表明回归系数中非零的数量较少，保留的变量则越少；当λ较小时，保留的变量则越多。

3.2. SVR支持向量回归

支持向量回归(Support Vector Regression, SVR)是SVM对回归问题的一种运用，目标是找到一个最优函数，使得模型与真实数据之间误差最小。其基本思想是将数据映射到高维空间中，通过寻找最优的超平面来实现回归。该方法适用于复杂的非线性回归问题，具有较高的预测精度，且能够在小样本情况下进行有效的回归分析。基本思想可解释如下。

给定训练样本 $D = {(x_{1}, y_{1}), \dots, (x_{i}, y_{i}), \dots, (x_{n}, y_{n})}, x_{i} \in R^{n}, y_{i} \in R, i = 1, 2, \dots, m$ ，其中x_i为n维输入，y_i为输出值，则支持向量机回归函数是非线性函数：

$\begin{matrix} f (x) = ω^{T} ϕ (x) + b \end{matrix}$ (2)

式中， $ϕ (x)$ 为特征变量，b为偏移常量，系数ω和b可以通过最小值函数来得到：

$\begin{matrix} R (f) = \frac{{‖ ω ‖}^{2}}{2} + C \frac{1}{n} \sum_{i = 1}^{n} | y_{i} - f (x_{i}) | \end{matrix}$ (3)

式中 ${‖ ω ‖}^{2}$ 为描述函数，C为惩罚系数，选取 $| y_{i} - f (x_{i}) | = \max {0, | y - f (x) | - ε}$ ，ε为不敏感损失系数，其值越小，支持向量越多。最小化(3)式，引入松弛变量ξ_i和 $ξ_{i}^{*}$ 可将优化目标表示为：

$\begin{matrix} \min \frac{{‖ ω ‖}^{2}}{2} + C \frac{1}{n} \sum_{i = 1}^{n} (ξ_{i} + ξ_{i}^{*}) \end{matrix}$ (4)

$\begin{matrix} s . t . {\begin{matrix} y_{i} - ω^{T} ϕ (x) - b \leq ε + ξ_{i}, i = 1, 2, \dots, n \\ ω^{T} ϕ (x) + b - y_{i} \leq ε + ξ_{i}^{*}, i = 1, 2, \dots, n \\ ξ_{i}, ξ_{i}^{*} \geq 0, i = 1, 2, \dots, n \end{matrix} \end{matrix}$ (5)

引入Lagrange乘子a，a^*和核函数，将上述优化问题转化为其对偶问题：

$\begin{matrix} \max z = \sum_{i = 1}^{n} y_{i} (a_{i}^{*} - a_{i}) - \sum_{i = 1}^{n} y_{i} (a_{i}^{*} + a_{i}) ε - \sum_{i = 1}^{n} \sum_{j = 1}^{n} (a_{i}^{*} - a_{i}) (a_{j} - a_{j}^{*}) K (x_{i}, x_{j}) \end{matrix}$ (6)

$\begin{matrix} s . t . {\begin{matrix} \sum_{i = 1}^{n} a_{i} - a_{i}^{*} = 0 \\ 0 \leq a_{i}, a_{i}^{*} \leq C \end{matrix} \end{matrix}$ (7)

求解上述问题，最终SVR可表示成

$\begin{matrix} f (x) = \sum_{i = 1}^{n} (a_{i} - a_{i}^{*}) K (x_{i}, x_{j}) = 0 \end{matrix}$ (8)

其中， $K (x_{i}, x_{j}) = ϕ (x_{i}) ϕ (x_{j})$ 为核函数。

Lasso-GA-SVR的实现步骤如下：

(1) 对数据进行预处理及标准化。

(2) 采用Lasso回归模型选取特征变量，并将数据集划分为训练集和测试集。

(3) 设定初始种群及迭代次数，根据适应度函数进行遗传算法的选择、重组、变异环节，以得到最佳参数C和g。

(4) 创建SVR模型，使用优化后的超参数及测试数据集对模型进行训练。

(5) 将训练好的模型应用于新数据集中进行仿真预测，并将预测值反归一化处理，同时评估模型性能。

4. 数据指标选取

4.1. 数据来源

本文选取天津市2000~2020年的时间序列数据进行实证分析，其中碳排放因子数据、能源消耗量、能源折算标准煤参考系数以及影响因子数据分别来源于《中国统计年鉴》《中国能源统计年鉴》和《天津市统计年鉴》。由于天津市物流业的能源消耗数据无法直接得到，且物流业85%以上的产值来自交通运输、仓储和邮政业，能很大程度上代表物流业的发展情况，因此结合前人研究，本文选择采用交通运输、仓储和邮政业代表物流业的相关数据。

4.2. 碳排放量的测算

根据《中国能源统计年鉴》统计，物流业能源消耗主要包括原煤、汽油、煤油、柴油、燃料油、液化石油气、天然气和电力8种。本文采用《IPCC国家温室气体清单指南(2006)》中自上而下的计算方法核算由能源消耗直接产生的物流业碳排放量，计算方法如下：

$\begin{matrix} C = \sum E_{i} \times F_{i} \times K_{i} \end{matrix}$ (9)

式中：C为物流业碳排放量(万吨)；E_i为第i类能源实物消费量；F_i为第i类能源折算标准煤系数；K_i为第i类能源碳排放系数。能源折算标准煤系数及碳排放系数如表1所示。

Table 1. Conversion standard coal coefficients and carbon emission coefficients of various energy sources

表1. 各类能源折算标准煤系数及碳排放系数

4.3. 物流业碳排放指标体系构建

物流业碳排放受经济发展、居民消费和交通运输等多方面因素共同影响，为确保数据精度和合理性，本文选取了社会消费品零售总额、物流产业产值、邮电业务总量等20个因子指标，并归纳为经济规模、经济结构、物流发展水平、物流需求规模和物流供给能力5大类别，如表2。原数据集中有部分指标存在缺失值，本文采用插值法对其进行缺失值处理。

Table 2. Categories and indicators of carbon emission impact factors

表2. 碳排放影响因子类别和指标

5. 实证分析

5.1. 多重共线性检验

Table 3. VIF values of carbon emission impact factors

表3. 碳排放影响因子VIF值

多重共线性表现为解释变量之间存在的相关关系。其中方差膨胀因子(Variable Inflation Factors, VIF)是多重共线性检验的重要方法之一，其通过分析解释变量能够被回归方程中其它全部解释变量所揭示的程度来衡量变量之间的相关密切程度。方差膨胀因子越大，表明解释变量之间的多重共线性越强，反之则越弱，通常将方差膨胀因子等于10作为判断边界。其计算公式如下：

$\begin{matrix} V I F_{j} = \frac{1}{1 - R_{j}^{2}}, j = 1, 2, \dots, n \end{matrix}$ (10)

其中， $R_{j}^{2}$ 是以x_j为因变量时对其他自变量回归的可决系数。为分析碳排放影响因子之间的相关性强弱，利用MATLAB对每个解释变量的VIF值进行求解如表3。

综上，多重共线性检验共选取了20个解释变量，分别是地区生产总值(x₁)、社会消费品零售总额(x₂)、人均GDP (x₃)、第一产业占比(x₄)、第二产业占比(x₅)、第三产业占比(x₆)、物流产业产值(x₇)、贸易进出口总值(x₈)、铁路营业里程(x₉)、公路里程(x₁₀)、公路营运汽车拥有量(x₁₁)、邮电业务总量(x₁₂)、城镇居民可支配收入(x₁₃)、货运量(x₁₄)、货物周转量(x₁₅)、客运量(x₁₆)、旅客周转量(x₁₇)、物流业从业人数(x₁₈)、物流业固定投资(x₁₉)、互联网上网人数(x₂₀)。由上表可得，碳排放影响因子的值均大于10，表明各解释变量间具有较强的相关性。

5.2. Lasso特征变量选择模型

运用Lasso回归方法选取9个回归系数显著不为0的变量作为主要影响因素(如表4)，即x₄、x₁₀、x₁₁、x₁₂、x₁₄、x₁₅、x₁₆、x₁₈、x₁₉，剔除地区生产总值(x₁)、社会消费品零售总额(x₂)、人均GDP(x₃)、第二产业占比(x₅)、第三产业占比(x₆)、物流产业产值(x₇)、贸易进出口总值(x₈)、铁路营业里程(x₉)、城镇居民可支配收入(x₁₃)、旅客周转量(x₁₇)、互联网上网人数(x₂₀) 11个变量。这是因为第一产业主要包括农业、矿业等传统产业，通常来讲，一个区域的第一产业占比越高，其在一定时期内生产的总值则相对越少，因此第一产业占比与地区生产总值和人均GDP均有较强的相关性。而第一产业占比、第二产业占比和第三产业占比共同构成了一个地区的产业结构，因此同样剔除这两个变量。铁路和公路作为交通运输的重要组成部分，具有不同的优势和特点，它们之间相互联系，具有较强的相关性。

Table 4. Lasso regression coefficients

表4. Lasso回归系数

综上，本文共选取第一产业占比(x₄)、公路里程(x₁₀)、公路营运汽车拥有量(x₁₁)、邮电业务总量(x₁₂)、货运量(x₁₄)、货物周转量(x₁₅)、客运量(x₁₆)、物流业从业人数(x₁₈)、物流业固定投资(x₁₉) 9个变量作为影响天津市物流业碳排放量的主要因素。

5.3. Lasso-GA-SVR模型预测

将Lasso模型选取出的9个变量作为SVR模型中的输入变量，以天津市的碳排放量数据作为输出变量。将2000~2019年的数据作为训练样本，2020年的数据作为测试样本。为提高模型精度、降低数据误差及噪声影响，首先对数据进行[0, 1]归一化处理。归一化公式为：

$\begin{matrix} x^{'} = \frac{x - \min (x)}{\max (x) - \min (x)} \end{matrix}$ (11)

式中x'为归一化处理后的数据，为数据原始值，max(x)和min(x)分别表示样本数据的最大值和最小值。

使用遗传算法对SVR模型中的参数进行初始化，寻找惩罚因子C和核函数参数g的最优参数组合，指定惩罚因子C的范围为0~100，核函数参数g的范围为0~100。依据问题复杂程度、数据集大小及目标精度设定种群数量为20，最大迭代次数为200，交叉概率为0.7，变异概率为0.1。经选择、交叉、变异多次迭代，选择适应度最高的个体DNA并进行解码，得到最优超参数C = 55.914，g = 0.039291，交叉验证均方误差MSE = 0.012244%，种群个体适应度曲线如图1所示。

Figure 1. Fitness curve

图1. 适应度曲线

从适应度曲线图可以看出，随着遗传代数的增加，最佳适应度曲线和平均适应度曲线逐渐下降且在小范围内波动，收敛性较好，表明种群整体及个体的适应度不断提高，此时种群个体基本处于全局最优解附近。利用训练好的Lasso-GA-SVR模型对数据集进行拟合分析，得反归一化后的预测值与实际值对比如图2所示。由图2可得，模型预测值与实际值相差较小，模型拟合程度较好。

Figure 2. Comparison between Lasso-GA-SVR predicted values and true values

图2. Lasso-GA-SVR预测值与真实值的比较

为检验本文提出的Lasso-GA-SVR模型的预测效果，将Lasso-GA-SVR模型与Lasso-GS-SVR和PCA-GA-SVR模型做比较研究，得组合模型预测效果的对比结果如表5所示。

Table 5. Prediction effect of combined models

表5. 组合模型的预测效果

由表5可得，Lasso-GS-SVR、Lasso-GA-SVR和PCA-GA-SVR预测模型的相对误差分别为3.697%、2.006%和7.014%，其中Lasso-GA-SVR模型的表现最好，其绝对误差和相对误差均低于其他两个模型。由此可以看出，相比主成分分析法及网格搜索参数寻优法，Lasso特征变量选择和遗传算法的模型组合显著提高了SVR模型的预测精度。三组模型的预测效果图如图3所示，从该局部放大图中可以看出，相比于Lasso-GS-SVR和PCA-GA-SVR模型，Lasso-GA-SVR模型在2020年的碳排放量预测中，与真实值之间的误差更小，模型预测性能更好。

Figure 3. Comparison of combination prediction models

图3. 组合预测模型的比较

总体而言，2000年至2020年天津市物流业所产生的碳排放量整体呈上升趋势，但近几年增长速率逐渐减缓。值得注意的是，2020年的碳排放量相较于2019年明显减少，这是因为对物流业碳排放增长具有抑制作用的第一产业占比、公路营运汽车拥有量、客运量以及物流业固定投资相比2019年皆有所提高，因此碳排放量受这些因素的影响出现了下降情形，这也验证了上文指标选取的合理性和有效性。

采用Lasso-GA-SVR模型对天津市物流业2021年的碳排放量进行预测，其中各影响指标数值通过二次指数平滑法进行预估。将2000~2020年的数据集作为训练样本，2021年的数据作为测试样本，训练该组合模型得到最优参数组合为C = 95.5535，g = 0.011253，此时交叉验证均方误差MES = 0.007779%，模型预测效果良好，误差率较低，拟合结果如图4所示。

由图4可以看出虽然在个别点上具有较大的误差，但整体预测效果良好。2021年天津市物流业的碳排放量预测值为374.41万吨，略高于2020年的碳排放量，这一增长主要源于公路里程、货运量和物流从业人数这三个关键指标相较2020年处于一个更高水平，其对物流业碳排放量的增长均具有正向作用。而对碳排放量增长具有抑制作用的物流业固定投资有所降低，这在一定程度上导致了碳排放量的升高。因此，建议天津市在推动物流业发展的同时强化交通运输节能减排工作，贯彻落实运输车辆污染排放标准，在物流过程的各节点中进行人力、资源投入的优化，同时加强对物流行业低碳技术的研发和应用，从而提高规模效率，降低碳排放。

Figure 4. Comparison between Lasso-GA-SVR predicted values and true values

图4. Lasso-GA-SVR预测值与真实值的比较

6. 结论

由于物流业碳排放受多方面因素共同影响，且一些影响因素之间存在多重共线性问题，因此本文采用Lasso回归法选取影响物流业碳排放的主要指标，在此基础上采用遗传算法对支持向量机模型进行寻优以预测区域物流业碳排放量，以天津市为例进行实证研究，分析结果表明：(1) Lasso-GA-SVR模型的交叉验证均方误差为0.000 122 44，相对误差和绝对误差分别为0.020 057 824和6.936 896 296，相较于Lasso-GS-SVR和PCA-GA-SVR具有更高精度，学习能力和推广能力更强，适合对区域物流业进行碳排放预测。(2) 按重要性对Lasso筛选后的9个变量进行排序，结果表明影响天津市物流业碳排放的主要因素有第一产业占比、物流业从业人数、公路营运汽车拥有量、物流业固定投资、公路里程、邮电业务总量、货物周转量、货运量及客运量。其中第一产业占比是最重要的因素，可见产业结构是影响能源消耗总量的重要因素。物流业从业人数影响次之，其对天津市碳排放增长具有较强的正向影响作用，由此可见物流业在发展中投入过高会产生资源消耗浪费、碳排放量增加的现象。(3) 预测结果表明，区域物流业碳排放总量整体呈上升趋势，但随着时间推移，碳排放量增长率逐步降低。以天津市为例，2021年物流业碳排放量预测值为374.41万吨，这表明尽管社会面临着较大的温室气体减排压力，但仍存在一定减排空间。

基金项目

天津商业大学大学生创新创业训练计划项目(项目编号：202210069311)。

NOTES

^*通讯作者。

参考文献

[1]	徐斌, 陈宇芳, 沈小波. 清洁能源发展、二氧化碳减排与区域经济增长[J]. 经济研究, 2019, 54(7): 188-202.
[2]	张立国. 物流业能源消耗与碳排放研究进展[J]. 技术经济与管理研究, 2016(1): 119-123.
[3]	刘淳森, 曲建升, 葛钰洁, 等. 基于LSTM模型的中国交通运输业碳排放预测[J]. 中国环境科学, 2023, 43(5): 2574-2582.
[4]	潘崇超, 王博文, 侯孝旺, 等. 基于LMDI-STIRPAT模型的中国钢铁行业碳达峰路径研究[J]. 工程科学学报, 2023, 45(6): 1034-1044.
[5]	潘思羽, 张美玲. 基于BP神经网络的甘肃省二氧化碳排放预测及影响因素研究[J]. 环境工程, 2023, 41(7): 61-68+85. [Google Scholar] [CrossRef]
[6]	雷玉桃, 张萱, 孙菁靖. 中国制造业部门碳减排潜力估算及预测[J]. 统计与决策, 2023, 39(4): 168-173.
[7]	刘炳春, 符川川, 李健. 基于PCA-SVR模型的中国CO2排放量预测研究[J]. 干旱区资源与环境, 2018, 32(4): 56-61.
[8]	Lu, C., Li, W. and Gao, S.B. (2020) Driving Determinants and Prospective Prediction Simulations on Carbon Emissions Peak for China’s Heavy Chemical Industry. Journal of Cleaner Production, 251, Article 119642. [Google Scholar] [CrossRef]
[9]	徐勇戈, 宋伟雪. 基于FCS-SVM的建筑业碳排放预测研究[J]. 生态经济, 2019, 35(11): 37-41.
[10]	唐晓灵, 刘嘉敏. 基于PSO-LSTM网络模型的建筑碳排放峰值预测[J]. 科技管理研究, 2023, 43(1): 191-198.
[11]	吕欣曼, 殷克东, 李雪梅. 灰色多元变权组合预测模型及其应用[J]. 统计与决策, 2022, 38(14): 25-29.

为你推荐

友情链接