1. 引言
太阳能是地球上最重要的可再生能源之一 [1] ,而太阳辐射是太阳能的主要来源。在“双碳”目标下 [2] ,为了更好地了解和利用太阳能资源,研究水平辐照度成为一项重要的任务。水平辐照度(GHI)是指地球表面在水平方向上接收到的太阳辐射总量。研究GHI对多个领域都有着重要的意义。在太阳能光伏发电系统中,GHI是一个关键的参数,因为它表示在某个地区接收到的可利用太阳能辐射总量。这对于评估太阳能电池板的性能和规划太阳能发电厂非常重要 [3] 。
太阳辐照度的预测大致分为三类模型:物理模型、统计模型和机器学习模型。物理模型是基于卫星图像和数值预报来进行预测,但存在复杂性、高计算成本和不确定性的挑战 [4] 。传统的方法是将统计模型用于水平辐射照度的预测,其中自回归(AR)及其变体、自回归移动平均(ARMA)模型等是最普遍的模型 [5] ,尽管这些模型可以有效地处理平稳时间序列,但无法考虑到温度、风速和相对湿度等气象因素对辐照度的影响,因此为了克服该缺陷。季节性ARIMA模型(SARIMAX)应运而生,更加全面的考虑到解释变量对于因变量的影响 [6] 。随着人工智能的不断发展,支持向量回归(SVR) [7] [8] 、K近邻(KNN) [9] 和随机森林(RF) [10] 等机器学习模型也用于辐照度的预测。比起传统的统计模型和物理模型,机器学习模型通常能够更好的拟合数据之间的关系,具有更好的表现力。
为了从复杂时间序列数据中提取有价值信息,分解技术应运而生,其中小波变换是最常用的数据分析技术。该技术的局限性在于预定义基函数的选择,经验模态分解(EMD) [11] 及其变体是自适应方法,EMD的一些流行变体有集成经验模态分解(EEMD) [12] 、完全自适应噪声集合经验模态分解(CEEMDAN) [13] 和改进的CEEMDAN (ICEEMDAN) [14] 等。
为了进一步增加GHI预测的准确性和稳定性,本文提出了一种基于模态分解和机器学习的混合模型EMD-RF-LGBM-XGB。该模型首先对收集的GHI数据利用完全自适应噪声集合经验模态分解(CEEMDAN)进行模态分解,提取不同频率模态分量,以解决数据预处理过程中存在模式混叠问题,利用随机森林(RF)提取最重要的影响因素。通过模态分解(CEEMDAN)和随机森林(RF)的结合得到了一组简单且信息量丰富的预测因子,利用轻量级梯度提升机算法(LGBM)对GHI进行预测得到最初的预测结果,最后计算真实值与预测值的误差,利用极致梯度提升模型(XGB)进行误差修正。实验结果表明,本文所提出的模型在三个地区的表现更加优越。
2. 算法原理
2.1. CEEMDAN模态分解
CEEMDAN是一种改进的经验模态分解方法,用于信号分解,特别是用于处理非线性和非平稳信号。主要创新之处在于引入噪声模拟和统计平均的思想,使得在处理非线性和非平稳信号时具有更好的鲁棒性。CEEMDAN引入自适应噪声,通过多次引入不同噪声模拟的信号进行分解。对于第次噪声辅助的信号,表示为:
(1)
其中
是引入的噪声。
对每个噪声辅助的信号进行CEEMDAN分解,得到一组IMFs。这个过程可以表示为:
(2)
其中,
为第i次分解的第j个IMF,
为第i次分解的剩余项。
对应位置的IMFs进行统计平均,得到最终的IMFs。这个过程可以表示为:
(3)
最终的信号分解为:
(4)
其中,J是分解得到的IMFs的数量,
是剩余项的平均。
2.2. 随机森林(RF)
随机森林用于特征选取具有多个优点,这些优点使得它成为处理高维数据、降低过拟合风险以及提高模型性能的强大工具。构建包含多个决策树的随机森林,每个决策树使用随机抽样的数据子集和随机选择的特征子集。针对每个决策树,计算每个特征的重要性。具体的计算方法取决于使用的指标,如信息增益、基尼不纯度减小等。通常,特征的重要性是通过评估特征在决策树中用于节点分裂的贡献来计算的。对于每个节点m,计算特征j的贡献,对于每个特征j,计算其在整个树中的平均贡献。将所有决策树中每个特征的平均贡献进行累加,得到该特征的总体重要性分数:
(5)
2.3. LGBM模型
LGBM是微软于2017年发布的梯度增强框架。其核心思想是将弱回归树组合成强回归树。我们的目标是学习一个回归函数,使得对于输入的特征向量,能够预测出对应的目标值。在LGBM中,我们的目标是最小化损失函数,损失函数是由模型的预测值和真实值之间的差异构成的,通过调整的参数来最小化损失函数。
(6)
其中是
真实值,
是模型预测值,
是损失函数。
LGBM使用梯度提升算法来逐步逼近最优的
,在第k次迭代中,将当前模型的预测值记作
,则我们的目标是找到一个回归树模型
来拟合残差:
(7)
通过求解这个优化问题,得到了第k棵回归树的参数。然后,我们通过一个学习率
来更新模型的预测值:
(8)
最终预测值是多棵树的组合
(9)
2.4. XGB模型
XGB,全称为Extreme Gradient Boosting,是一种基于梯度提升机(Gradient Boosting)的算法,它在多个方面进行了优化和改进,使其在并行计算效率和预测性能上都非常出色。基于梯度提升框架,在目标函数添加正则化项,控制模型的复杂度,提高泛化能力。
表示包含个n样本,m个特征的数据集,其中预测变量是由k个基本模型组成的加性模型。样本预测结果如下:
(10)
其中
表示预测标签,
表示其中一个样本,给定样本的预测值是
,XGB的目标函数包括传统的损失函数和模型复杂度。如下所示:
(11)
其中l是一个损失函数,它衡量预测值和目标值之间的差异。
是一个正则化项,它降低模型的复杂性,以避免过度拟合。
3. 方法和数据描述
3.1. 数据收集和站点描述
本文数据来源于国家太阳辐射数据库(NSRDB),采用PSM V3模型和Himawari卫星,时间分辨率为1 h,空间分辨率为2 × 2 km,选取了来自中国三个代表城市2019~2020两年的数据,由于夜间太阳辐射强度低或为零,本文只考虑各地区GHI非零的时间段,排除由于太阳辐射强度低或零而导致的剩余时间,前80%的数据用于训练,剩余的数据用于模型的测试。三个地区的详细情况见表1:
GHI是考虑温度(T)、相对湿度(RH)、太阳天顶角(SZA)、风速(WS)等其他变量作为预测模型的预测变量进行预测的变量。输入预测因子是根据“Pearson相关系数”选择的。在现有的气象资料中,所选变量与目标变量之间存在显著的相关关系。
原始数据中可能存在缺失值和异常值,采用中位数填充来处理,将异常值和缺失值替换为整体数据的中位数,以保持整体趋势。
3.2. 评估指标
在本文中,使用均方根误差(RMSE)和平均绝对误差(MAE)来评估所提出模型的性能。上述性能指标可表述如下:
3.3. CEMDAN-RF-LGBM-XG组合模型
众所周知,GHI受温度、相对湿度和风速等多种气象因素的影响,具有明显的间歇性和波动性。同时GHI的变化可能受到多种因素的复杂交互影响,对GHI的准确预测具有很大的挑战性。
由于原始数据存在波动性和趋势性,为了更好地了解数据的特征,采用CEEMDAN的方法将原始数据的特征列进行分解,希望获得不同频率的模态函数 [14] 。由于分解后的模态函数数目较大,对于模型的计算量是一个较大的挑战,基于此,利用随机森林特征提取的方法对分解后的模态函数进行降维,得到了一组简单且信息量丰富的预测因子,同时使得预测模型的学习变得简单有效,降低计算成本。在此基础上,对所关注的GHI进行预测。在文献中并未找到RF与CEEMDAN的使用。通过CEEMDAN和RF的结合,使得模型的学习变得简单且有效。为了获得模型更好的预测精度,考虑到误差序列还存在未被充分提取的信息,因此将误差序列进行修正,得到更准确的预测效果。根据GHI变化特征,本文提出的组合模型流程如图1所示,具体步骤表述如下:
(1) 分解。利用CEEMDAN将原始多元数据的影响因素依次进行模态分解;
(2) 提取影响因素。将随机森林用于特征选取 [15] ,对分解得到的模态函数利用随机森林进行特征重要性分析,与目标列重构成一个新的数据后进行归一化处理;
(3) 预测。在重构的数据集上,利用网格搜索优化算法确定LGBM模型参数,对GHI进行预测 [16] ,得到初始预测值;
(4) 误差修正。计算真实值与预测值的误差,利用XGB模型进行误差修正,得到误差修正值;
(5) 得到最终结果。将初始预测值与误差修正值结合,求得最终预测结果。
4. 实证分析
本文所用到的模型命名如下表2:
本文利用随机森林对影响因素列分解的模态函数进行特征选取,利用网格搜索优化算法确定选取的特征数目为20,本文所提出的模型用于预测北京、重庆、哈尔滨三个中国不同气候地区的辐照度预测,测试集上的误差指标如图,本文考虑了三种经典的机器学习模型,LGBM是基于集成学习的模型,具有较强的泛化能力。本文将三种模型作为独立模型与基于分解和误差修正的混合模型进行比较,混合模型具有更高的预测精度。
实验结果如下表3所示,在北京地区,模型1相比于LGBM的均方根误差和平均绝对误差分别降低了25.14%、24.45%,模型2相比于SVR的均方根误差和平均绝对误差分别降低了26.09%、35.36%,模型3相比于KNN的均方根误差和平均绝对误差分别降低了18.11%,12.75%;在重庆地区,模型1相比于LGBM的均方根误差和平均绝对误差分别降低了31.19%、33.12%。模型2相比于SVR的均方根误差和平均绝对误差分别降低了28.14%、32.01%,模型3相比于KNN的均方根误差和平均绝对误差分别降低了26.82%、29.42%。在哈尔滨地区,模型1相比于LGBM的均方根误差和平均绝对误差分别降低了23.14%、25.64%,模型2相比于SVR的均方根误差和平均绝对误差分别降低了23.23%、26.30%,模型3相比于KNN的均方根误差和平均绝对误差分别降低了22.32%、17.98%。
![](Images/Table_Tmp.jpg)
Table 3. Performance comparison between mixed model and single model
表3. 混合模型与单一模型性能比较
为了验证模态分解的特征提取的重要性,将模型1与模型4、模型6进行比较,在三个地区上,模型的性能表现如表4所示。经过模态分解和特征筛选的模型1在三个地区的预测精度都得到了提高。CEEMDAN有助于消除序列中产生的非平稳和非线性缺陷,且经过特征筛选后,剔除冗余特征,降低了数据复杂度。
本文将模型1与模型5、模型6和LGBM模型比较,在三个地区上,模型的性能表现如表5所示,通过对比,验证利用XGB模型进行误差修正的有效性。经过误差修正的模型1和模型6在三个地区的预测精度都得到了改善,模型1相比于模型5最小%RMSE (%MAE)提高了3.32% (3.47%),模型6相比于LGBM最小%RMSE (%MAE)提高了8.23% (7.06%)。由此可见,误差修正提高,了模型的预测性能。
![](Images/Table_Tmp.jpg)
Table 4. The importance of modal decomposition and feature screening
表4. 模态分解和特征筛选的重要性
![](Images/Table_Tmp.jpg)
Table 5. The importance of error correction
表5. 误差修正的重要性
5. 结论
本文提出了一种基于模态分解技术CEEMDAN、特征提取技术RF、机器学习模型LGBM和误差修正的混合模型。将提出的模型用于中国三个不同气候地区的GHI预测,相比于单独的机器学习模型具有更高的精度,模态分解将复杂的序列分解为多个模态函数,随机森林对分解的模态函数进行特征提取,降低数据的复杂度,提高运算的效率,LGBM模型相比于梯度增强决策树(Gradient boosting Decision Trees, GBDT)模型在运行时间加速和内存消耗缓解方面具有更好的表现,比传统的机器学习模型具有更好的精度。
本研究的主要发现如下:
1) 本文所提出的模型有效提高了GHI的预测精度,且在不同气候的三个地区上已进行验证,相比于其他模型,本文所提出的模型具有更高的预测精度。
2) 本文所提出的基于模态分解和特征提取的混合模型结构是有效的,与单一模型相比较,混合结构模型均具有更好的表现能力。混合结构模型的均方根误差(平均绝对误差)最高降低了18.46% (18.71%)。
3) 通过对数据进行特征提取,筛选重要特征,达到了过滤冗余特征,降低数据复杂度的目的。
4) 本文利用XGB模型进行误差修正,相比于未进行误差修正的模型,预测精度均有提高,证明误差修正的有效性。
基金项目
贵州省数据驱动建模学习与优化创新团队项目(黔科合平台人才[2020] 5016)。