NGSAII-GPR模型在碳排放短期预测中的应用

doi:10.12677/CSA.2018.811195

期刊菜单

NGSAII-GPR模型在碳排放短期预测中的应用
The Application of NGSA II-GPR Model in Short-Term Carbon Emission Forecasting

DOI: 10.12677/CSA.2018.811195, PDF, HTML, XML,
作者: 石达顺^*：深圳市中金岭南有色金属股份有限公司，广东韶关；唐朝晖, 王阳, 牛亚辉：中南大学信息科学与工程学院，湖南长沙
关键词: 灰色理论；聚类分析；关联性分析；GPR；NGSAII；Grey Theory； Clustering Analysis； Relational Analysis； Gaussian Process Regression； NGSAII

摘要: 针对于采矿过程中以电机为研究对象的碳排放来源的复杂性以及其影响因素的多样性引起的碳排放短期预测精度不高的问题，结合灰色理论提出一种基于NGSAII-GPR模型的铅锌矿采矿过程碳排放预测方法。首先，对碳排放来源及其影响因素进行分析，采用灰色理论进行聚类分析以归并同类因素；其次，根据灰色关联性分析得到主要影响因素；最后，为解决超参数优化确定问题，将带精英策略的非支配排序遗传算法(NGSAII)引入到高斯过程回归(GPR)模型，提出了一种基于NGSAII-GPR的预测模型。经实验证明，相较于其他超参数优化确定方法，NGSAII能更好地对超参数进行优化确定，且相较于其他常规预测模型，NGSAII-GPR能更精确的预测铅锌矿采矿过程的碳排放量，其预测误差更小。

Abstract: Considering the low forecasting accuracy problem caused by the complexity of the carbon emission sources from the motor and the diversity of its impacts during the lead-zinc mine mining process, a carbon emission forecasting method for lead-zinc mine mining process is proposed based on improved Gaussian process regression model combined with the grey theory. Firstly, the sources of carbon emission and their impacts are analyzed and the grey theory is used to cluster and merge the similar impacts. Then, the grey relational analysis is applied to obtain the main impacts. Finally, In order to solve the problem of hyperparameter optimization, the non-dominated sorting genetic algorithm (NGSA II) with elite strategy (NGSA II) is introduced into the Gauss process regression (GPR). Meanwhile the NGSAII-GPR Model is proposed. The result shows that NGSA II can better optimize the hyperparameter when compared with other methods. In addition NGSAII-GPR Model can be used to forecast the short-term carbon emission of lead-zinc mine mining process with high accuracy and minimum error compared with other forecasting models.

文章引用：石达顺, 唐朝晖, 王阳, 牛亚辉. NGSAII-GPR模型在碳排放短期预测中的应用[J]. 计算机科学与应用, 2018, 8(11): 1762-1772. https://doi.org/10.12677/CSA.2018.811195

1. 引言

人类生产活动导致的温室气体排放，特别是化石燃料燃烧所产生的碳排放是导致全球气候上升的主要原因 [1]。工业生产活动当中产生的大量的碳使得碳排放问题显得尤为突出 [2]。如今，与碳排放相关的研究层出不穷，包括碳成本 [3] 、碳排放量计算 [4] 以及碳交易市场 [5] 等，但对于具体的某工业生产过程的碳排放研究却寥寥无几。实际上对碳排放量的准确预测能合理使用碳排放设备，提高经济效益，节能减排。而对矿山企业来说，以采矿过程为主，因而将其作为研究重点。

Xiuli Liu等用灰色预测与神经网络反向传播的组合预测模型来预测西班牙经济部门的能源消费 [6]，但并未对研究对象的影响因素进行具体的分析，从而会影响预测精度。张俊深等用GM(1,1)与BP神经网络的组合模型对能源消费进行预测 [7]，因其研究范围为国家级大地区，该方法不适用于局部地区，其预测效果不理想。Rigoberto等用环境库兹涅茨曲线和物流增长模型对碳排放量进行了预测 [8]，但长期预测对于矿山企业不具有实际价值，且该方法在短期预测上无法得到满意的预测效果。

高斯过程回归(GPR)是一种基于贝叶斯框架的非参数概率预测的机器学习方法，适用于高维度、小样本、非线性的复杂时间序列问题 [9]。在建模过程中，协方差函数的超参数将直接影响模型的精度，因而研究如何优化确定超参数是十分有价值的。Dongdong Kong等利用共轭梯度法对高斯过程回归模型中的超参数进行优化确定 [10]，但该方法依赖于初始点，且难以确定迭代次数因而其超参数优化确定的结果不理想。Debin Fang等在高斯过程回归模型的超参数优化确定中应用了粒子群算法 [11]。但由于该算法很大程度上取决于控制参数，因而精度不高，从而影响模型的预测效果。甘迪等将遗传算法引入到高斯过程回归模型中实现超参数优化确定 [12]，由于遗传算法没有保持种群的多样性，因而容易陷入局部最优，影响模型性能。为了解决以上问题，本文提出了一种基于精英策略的非支配排序遗传算法(NSGAII)的高斯过程回归(GPR)预测模型，NSGAII算法不仅能够保证种群的多样性，还能在降低计算复杂度的同时提高种族质量，将上一代的优秀个体遗传到下一代，增加全局最优的搜索能力后得到最优超参数，结合高斯过程回归模型进而得到了预测精度更高的预测模型，使得模型更具有可靠性，形成一种新的采矿过程碳排放量预测方法。

2. 采矿过程碳排放量影响因素分析

采矿过程可概括为爆破、提升、通风、排水及压风。所涉及的碳排放设备包括提升机、风机、水泵及其附属设备等。根据调研结果可得采矿过程的碳排放设备的能耗主要来源为电机的电耗，因此要对具体的生产过程中电机的启停状况进行具体分析，进而得到碳排放量的影响因素。采矿简化流程如图1所示：

Figure 1. Simplified mining flow chart

图1. 采矿简化流程图

通过对采矿流程的分析后，可以得出以下几点碳排放量的影响因素：

1) 爆破时长：爆破会使得设备的电机停转，减少电机耗电量，因而减少碳排放量，此过程也是采矿过程的特殊所在。

2) 工作时长：各个生产设备的工作时长的不同，使得电机的耗电量有所不同，会对碳排放量产生影响。

3) 产量：采掘的矿石总产量的大小意味着生产设备的电机电耗不同，从而对碳排放量产生影响。

4) 检修时长：检修期间会使生产设备停产，表明其耗电量减少而导致碳排放量有所下降。

5) 碳排放系数：本文定义碳排放系数为总耗电量与总产量的比值，即碳排放系数=总耗电量/总产量，表示生产单位矿石所消耗的电量。在总产量一定的情况下该系数越小，碳排放量越小。

2.1. 碳排放量影响因素聚类分析

由于考虑过多的影响因素会给后续预测的建模带来较大的困难，因此要对上述影响因素进行聚类分析。通过对影响因素的分析可得，工作时长，爆破时长以及检修时长均为同类因素，因此对此三种影响因素可以进行聚类分析。本文采取的是灰色聚类分析，其主要是用于同类因素的合并，从而简化复杂问题，删减不必要的因素 [13]。建立上述三个影响因素的指标关联矩阵如表1所示：

Table 1. The incidence matrix table of the influencing factors

表1. 影响因素的关联矩阵表

由指标关联矩阵可以得出：根据具体要求选取临界值为0.7，可以将检修时长与工作时长归为一类，爆破时长归为另一类。

2.2. 碳排放量影响因素相关性分析

为了了解各影响因素对碳排放量的影响是否显著，本文采用灰色关联性分析来对各影响因素的显著性进行定量分析。由于数据样本的大小对灰色关联性分析结果影响不大，并且计算量相对较小，更具便捷性，其量化结果一般与定性结果一致 [14]。因此采用此方法进行相关性分析较为合适。通过灰色相关性的计算公式得到相关性分析的结果来选取相对显著的影响因素，并进行建模。灰色相关性分析结果如表2所示：

Table 2. Correlation analysis results

表2. 相关性分析结果

综合关联度既包含了两者的相似程度与变化速率的相近度，能够更加全面的表示序列之间的联系。在临界值为0.7的条件下，结合影响因素的聚类结果及相关性分析的综合关联度大小可以得到三个主要影响因素：工作时长，碳排放系数，产量。将主要影响因素作为输入，以碳排放量作为输出建立改进的高斯过程回归预测模型。

3. NSGAII -GPR预测模型

3.1. GPR高斯过程回归模型

对于一个给定的训练数据集D以及n个观测值， $D = {(x_{i}, y_{i}) | i = 1, \dots, n}$ ，其中 $x_{i}$ 是维数为D的输入向量，记为 $x_{i} \in R^{D}, X = {x_{i} | i = 1, \dots, n}$ ，是目标输出即因变量，记为 $y^{i} \in R, y = {y_{i} | i = 1, \dots, n}$ ，问题可描述为根据给定集合D，预测出在新的输入 $x_{i}^{*}$ 下所得到的输出 $y_{i}^{*}$ ，即通过归纳法得到可以进行预测的函数关系f。高斯过程可以用均值函数和协方差函数表示 [15]。根据高斯过程的相关定义可以得到 $f (x_{i}), i = 1, \dots, n$ ，服从高斯分布，且其联合分布同样也服从概率分布，可记为：

$y = f (x) ~ G P (m (x), K (x, x^{'}))$ (1)

其中

$m (x) = E (f (x))$ (2)

为均值函数

$\begin{matrix} K (x, x^{'}) = E [{f (x) - m (x)} {f (x^{'}) - m (x^{'})}] \\ = [\begin{matrix} k (x_{1}, x_{1}) & \dots & k (x_{1}, x_{n}) \\ ⋮ & ⋱ & ⋮ \\ k (x_{n}, x_{1}) & \dots & k (x_{n}, x_{n}) \end{matrix}] \end{matrix}$ (3)

为协方差函数。而在实际应用中需考虑高斯噪声 $ε ~ G P (0, σ_{n}^{2})$ ， $ε$ 相对于 $f (x)$ 完全独立。由贝叶斯概率理论，在给定训练数据集 $D = (X, y)$ 中建立起先验分布函数，因此可得加入噪声后的训练输出分布为

$y = f (X) + ε ~ G P (0, K (X, X) + σ_{n}^{2} I)$ (4)

其中，I为的单位矩阵， $K (X, X)$ 为Gram矩阵，矩阵元素为 $K_{i j} = k (x_{i}, x_{j}), i, j = 1, \dots, n$ ，协差矩阵

$cov (X, X) = K (X, X) + σ_{n}^{2} I$ (5)

训练数据集 $D = (X, y)$ 和测试集 $D_{*} = (X_{*}, y_{*})$ 的联合分布如下所示

$[\begin{matrix} y \\ y_{*} \end{matrix}] ~ G P (0, [\begin{matrix} K (X, X) + σ_{n}^{2} I & K (X, X_{*}) \\ K (X_{*}, X) & K (X_{*}, X_{*}) \end{matrix}])$ (6)

此时可得到后验分布。根据贝叶斯概率公式可以得到高斯过程回归的预测方程为：

$P (y_{*} | X_{*}, X, y) = G P ({y^{'}}_{*}, cov (y_{*}))$ (7)

${y^{'}}_{*} = K (X_{*}, X) {[K (X, X) + σ_{n}^{2} I]}^{- 1} y$ (8)

$cov (y_{*}) = K (X_{*}, X_{*}) - K (X_{*}, X) {[K (X, X) + σ_{n}^{2} I]}^{- 1} K (X, X_{*})$ (9)

其中 ${y^{'}}_{*}$ 为预测方程的均值，即为高斯过程回归的输出预测值， $cov (y_{*})$ 为高斯过程回归的方差。由于平方指数(SE)函数的强光滑性与电机对象的拟合度并不高，相较之下M5/2函数的光滑性在以电机为研究对象的物理过程建模中更具有现实意义，因而选用M5/2为协方差函数，其表达式为

$K_{M5/2} = θ (1 + \frac{\sqrt{5} r}{l} + \frac{5 r^{2}}{3 l^{2}}) \exp (- \frac{\sqrt{5} r}{l})$ (10)

其边缘似然函数可由先验分布表示为

$P (y | X, θ) = \int P (y | f, X, θ) P (f | X, θ) d f$ (11)

其中 $θ = (θ_{1} \dots θ_{m})$ 为超参数集合。先验分布取对数后可得

$\log P (y | X, θ) = - \frac{1}{2} y^{T} {(K + σ_{n}^{2} I)}^{- 1} y - \frac{1}{2} \log | K + σ_{n}^{2} I | - \frac{n}{2} \log 2 π$ (12)

对式(12)求偏导可得

$\frac{d}{d θ_{j}} \log P (y | X, θ) = \frac{1}{2} y^{T} K^{- 1} \frac{d K}{d θ_{j}} K^{- 1} y - \frac{1}{2} t r (K^{- 1} \frac{d K}{d θ_{j}})$ (13)

$j = 1, \dots, m$ ，其中tr表示矩阵对角线元素之和。

3.2. NSGAII带精英策略的非支配排序遗传算法

非支配排序遗传算法(NSGA)是在传统的遗传算法上演变而来的，主要是在选择之前对种群进行了分层，其分层的依据为个体之间的支配关系。

对于极大化目标优化问题，f(X)为目标函数，X，X'均属于解集U，若X支配X' [16]，则同时满足以下条件： $\forall k \in 1, \dots, m : f_{k} (X) \leq f_{k} (X^{'}), \exists k \in 1, \dots, m : f_{k} (X) < f_{k} (X^{'})$ 。

带精英策略的非支配排序遗传算法(NSGAII)是一种以Pareto最优为基准的遗传算法 [17]，是在NSGA的基础上对种群的分层进行进一步改进，将上一代的优秀个体遗传到下一代，从而保证种群的质量，增加全局最优的搜索能力。除此以外，提出拥挤度的概念来代替NSGA中的共享半径，提高了计算效率，更快的收敛到最优 [18]。将拥挤度定义为在种群中给定个体的周围密度，通常用id表示拥挤度，其表示包含个体i本身但不包含其他个体的最小正方形的大小 [19]。NSGAII算法具体的流程如下:

1) 随机产生初始种群P0，大小为M，计算目标函数值并按照支配定义对于P0中的每一个个体进行非支配排序分层得到P1。

2) 对非支配排序分层后的每层种群个体进行拥挤度计算。

3) 通过选择、交叉、变异等基本遗传算法步骤后得到子代S1，大小为M。

4) 将第i代产生的Si与Pi组合为Ai，大小为2M。此时对组合集Ai进行非支配排序并计算拥挤度。将排序后的第一层子集即父代与子代中最好的个体优先放入Pi + 1中，若第一层子集大小小于M，则将下一层子集向Pi + 1中充填，当子集大小大于M时，则再依据拥挤度大小选择较不拥挤即id大的个体充填，直到Pi + 1大小为M停止。

5) 得到Pi + 1后重复上述步骤，直到满足终止条件后结束。NSGAII的流程示意图如图2所示 [20] ：

Figure 2. NSGAII process schematic

图2. NSGAII 的流程示意图

3.3. NSGAII-GPR预测模型

对于高斯过程回归模型，协方差函数的超参数将直接影响模型的精度。因此在确定了协方差函数的表达式后，需要对方程中的超参数进行优化确定，本文采用NSGAII进行参数的优化确定，算法的具体流程如下：

1) 对样本数据初始化处理，即将所采集的数据分为两部分，一部分为训练集 $D t r a i n = (X, y)$ ，另一部分为测试集 $D t e s t = (X_{*}, y_{*})$ 。

2) 根据高斯过程回归的理论知识及已确定的协方差函数M5/2，用训练集 $D t r a i n$ 初步构建相应的预测方程。

3) 预测方程的超参数优化确定，根据目标函数式(12)执行NSGAII算法流程。

4) 将测试集 $D t e s t$ 中 $X_{*}$ 作为输入，输出值 ${y^{'}}_{*}$ ，将每种预测结果与测试值 $y_{*}$ 做比较。具体的算法流程图如下所示：

4. 模型验证

本文采集了某大型铅锌矿山企业的采矿部门近32个月的数据，通过影响因素分析后整理出32组样本数据如下表所示，并将前26组数据作为训练集，后6组数据作为测试集对模型进行验证。原始数据如表3所示。

根据表中数据，将产量、碳排放系数与工作时长作为模型的输入，由于在实际运用中对于碳排放量的直接测量相对困难，所以采用耗电量与碳排放量的换算公式来计算得到实际的碳排放量数据。在本实验中将耗电量作为采集的原始数据，将换算公式计算后得到的碳排放量作为模型的输出，并与测试值作比较得到误差大小。为了验证该模型的可靠性，本文采用共轭梯度法、粒子群算法及遗传算法三种常用的超参数优化确定方法进行建模，其预测结果如图4所示。

根据表4与图4进行分析可得，相较于其他的超参数优化确定方法，带精英策略的非支配排序遗传算法(NSGAII)有着明显的优势，基于NSGAII的高斯过程回归模型能够将预测误差降低到6.3%，能够获得较为理想的预测结果。

为了进一步验证改进的高斯过程回归预测模型的可靠性，本文将选取灰色预测模型GM(1, 1)，支持向量机SVM以及人工神经网络三种常用的预测模型来进行实验对比。其对比实验结果如表5所示。

Figure 3. Process schematic of the NSGAI-GPR prediction model

图3. NSGAII -GPR预测模型的流程示意图

Table 3. Raw data of mining process

表3. 采矿过程原始数据

Figure 4. Experimental results of different super parameter optimization methods

图4. 不同超参数优化确定方法的实验结果

Table 4. Experimental results of different super parameter optimization methods

表4.不同超参数优化确定方法的实验结果

Figure 5. Experimental results of different prediction methods

图5. 不同预测方法的实验结果

分析上述实验结果可知，用NSGAII-GPR模型进行预测大型铅锌矿山企业的采矿过程碳排放量的均误差为6.3%，相较于其他常用的预测模型有着明显的优势，其预测精度更高，误差更小。因此相较于其他常规模型，该模型更加可靠，模型性能更好。

Table 5. Experimental results of different prediction methods

表5. 不同预测方法的实验结果

5. 结束语

本文采用了高斯过程回归模型，并在此基础上对超参数的优化确定进行了改进，进而得到NSGAII-GPR模型，从实验结果来看，NSGAII-GPR模型有着较高的预测精度，能够很好地预测采矿过程的碳排放量。为企业进行碳排放量的计划和管理提供了有效的帮助，能更好的进行企业规划及生产设备调度与工况选择，带来更高的经济效益，积极响应国家政策，达到节能减排的目的。

参考文献

[1]	武娴, 关伟, 许淑婷. 环渤海地区碳排放的省域比较与因素分解[J]. 资源与环境, 2015, 31(9): 1100-1104.
[2]	王少剑, 刘艳艳, 方创琳. 能源消费CO2排放研究综述[J]. 地理科学进展, 2015, 34(2): 151-164.
[3]	Khosravi, A., Andrew, L.L.H. and Buyya, R. (2017) Dynamic VM Placement Method for Minimizing Energy and Carbon Cost in Geographically Distributed Cloud Data Centers. IEEE Transaction on Sustainable Computing, 2, 183-196.
[4]	Li, X., Zhang, P., Li, S.D., et al. (2016) Study on Calculation Method of Carbon Emission in Utilization of ACCC Conductor in New or Modified Power Lines. China International Conference on Electrici-ty Distribution, Xi’an, 10-13 August 2016.
[5]	Diabat, A., Abdallah, T., Al-Refai, A., et al. (2013) Strategic Closed-Loop Facility Location Problem with Carbon Market Trading. IEEE Transactions on Engineering Management, 60, 398-408. [Google Scholar] [CrossRef]
[6]	Liu, X., Moreno, B. and García, A.S. (2016) A grey Neural Network and In-put-Output Combined Forecasting Model Primary Energy Consumption Forecasts in Spanish Economic Sectors. Energy, 115, 1042-1054. [Google Scholar] [CrossRef]
[7]	张俊深, 袁程炜. 基于BP神经网络与修正GM(1,1)模型的能源消费组合预测[J]. 统计与决策, 2016(5): 90-93.
[8]	Perez-Suarez, R. and Lopez-Menendez, A.J. (2015) Growing Green Forecasting Kuznets Curves and Logistic Growth Models CO2 Emissions with Environmental. Environmental Science & Policy, 54, 428-437. [Google Scholar] [CrossRef]
[9]	方德斌, 董博. 基于GPR模型的中国“十三五”时期碳排放趋势预测[J]. 技术经济, 2015, 34(6): 106-113.
[10]	Kong, D.D., Chen, Y.J. and Li, N. (2018) Gaussian Process Regression for Tool Wear Prediction. Mechanical Systems and Signal Processing, 104, 556-574. [Google Scholar] [CrossRef]
[11]	Fang, D.B., Zhang, X.L., Yu, Q., et al. (2018) A Novel Method for Carbon Dioxide Emission Forecasting Based on Improved Gaussian Processes Re-gression. Journal of Cleaner Production, 173, 143-150. [Google Scholar] [CrossRef]
[12]	甘迪, 柯德平, 孙元章, 等. 基于集合经验模式分解和遗传-高斯过程回归的短期风速概率预测[J]. 电工技术学报, 2015, 30(11): 138-147.
[13]	Liu, K., Shen, X.L., Tan, Z.F., et al. (2012) Grey Clustering Analysis Method for Overseas Energy Project Investment Risk Decision. Systems Engineering Procedia, 3, 55-62. [Google Scholar] [CrossRef]
[14]	Li, X.M., Hipel, K.W. and Dang, Y.G. (2015) An Improved Grey Relational Analysis Approach for Panel Data Clusting. Expert System with Application, 42, 9105-9116. [Google Scholar] [CrossRef]
[15]	王鑫, 李红丽. 台风最大风速预测的高斯过程回归模型[J]. 计算机应用研究, 2015, 32(1): 59-62.
[16]	Zhang, J.X., Ma, Y.Z., Yang, T.H., et al. (2017) Estimation of the Pareto Front in Stochastic Simulation through Stochastic Kriging. Simulation Modelling Practice and Theory, 79, 69-86. [Google Scholar] [CrossRef]
[17]	Xue, X.S. and Wang, Y.P. (2017) Improving the Efficiency of NSGA-II Based Ontology Aligning Technology. Data & Knowledge Engineering, 108, 1-14. [Google Scholar] [CrossRef]
[18]	姜惠兰, 安星, 王亚微, 等. 基于改进NSGA2算法的考虑风机接入电能质量的多目标电网规划[J]. 中国电机工程学报, 2015, 35(21): 5405-5411.
[19]	陈婕, 熊盛武, 林婉如. NSGA-II算法的改进策略研究[J]. 计算机工程与应用, 2011, 47(19): 42-45.
[20]	Yang, Y., Cao, L.C., Zhou, Q., et al. (2018) Multi-Objective Process Parameters Optimization of Laser-Magnetic Hybrid Welding Combining Kriging and NSGA-II. Robotics and Computer-Integrated Manufacturing, 49, 253-262. [Google Scholar] [CrossRef]

为你推荐

友情链接