1. 引言
在很长一段时间里,能源安全问题一直都备受关注。尤其在电力领域,风能占据着重要的地位,由此人们也更加关注可再生资源的发展 [1]。风力发电存在着很大的不确定性,但现代电力系统的驱动更多的需要风力的作用 [2]。如果电力系统中风电所占的比例过大,会严重影响电力形成的性能 [3]。因此,我们需要制定更精确的负荷预测系统,如较差的预测会因为调度比的作用,需要大量的发电机、水库,增加了额外的运营成本;而对一个电力系统风险较为优秀的预测则需要经由代理商购买正确的预测负载,付出高昂的成本 [4]。风速预测数据属于非线性时间序列范畴。
为进一步说明风速数据的非线性特征,我们需要建立相关的数学模型。为了提高风电系统的可靠性,进而实现风电并网,短期风速预测是至关重要的 [2] [3] [5] [6]。人们为了能够更准确地预测风速,曾尝试了很多模型和方法,基本上可以划分为两类。一是物理模型,二是统计模型;例如数值天气预报 [7]、空气相关法 [8] 属于物理预测方法。对于预测模型,其传统输入方式主要包括现场预测(即实地测量风速、风向等数值)和天气预报(即数值天气预报)。如果对一些物理现象或邻近区域考虑不周,可能会导致预测精度不准等问题。为了能够准确地预测风力发电概率,需要考虑多方面因素,如空间相关性。
对于统计模型主要包括时间序列法、人工神经网络法以及组合法等。属于时间序列范畴内的方法,如:自回归移动平均法(ARMA) [9]、自回归综合移动平均(ARIMA) [10] 和自回归综合移动平均与外生变量(ARIMAX)模型 [11] 等。但时间序列模型具有一定局限性,只能处理平稳时间问题。相比较下,神经网络模型能够较好地处理模糊数据、随机数据以及非线性数据等数据类型,尤其在规模结构不明确的信息系统中处理效果优良。在处理风速问题中常用的方法有支持向量机 [12] 和随机森林 [13]、长短时记忆(LSTM) [14]、卷积神经网络(CNN) [15] 等,其中后两种方法属于深度学习范畴。在我们日常生活中,预测风俗的方法多种多样,而且采用不同的预测模型,最终得到的预测信息和预测精度常常存在着差异。因此,我们可以将预测性能优良的模型与良好的评价指标结合应用,相较于单一模型,组合模型能更好地反映出数据的变化规律 [16] [17] [18]。
分位数回归(QR)可以准确地估量被解释变量的条件分布 [19]。在不考虑随机变量分布类型的情况下,我们可以通过一个合适的回归函数来获得响应变量的分布特征 [20]。对于非线性问题,QR方法处理起来难度较大,因此需要深入地探讨QR方法的非线性函数问题 [21]。Taylor [22] 提出了分位数回归神经网络模型(QRNN),模型同时包括神经网络与QR模型的优点,属于一种非参数非线性方法,能够更好地处理自变量与因变量之间的非线性关系 [22] [23]。对于该方法,可以通过已有的R包 [24] 来处理,该R包将Lasso方法与QRNN相结合,基于Lasso方法提取出影响电量预测的重要特征,在此基础上应用QRNN方法进行电量预测;在此基础上,又提出改进的IQRNN [25],将QRNN与深度学习方法相结合,对概率密度的电力负荷进行预测;Cannon [20] 在处理降水尺度任务时应用QRNN方法,实现了对混合离散变量的预测;为了解决变量之间的潜在非线性关系,提出了复合QRNN [26] 方法,经证实该方法灵活有效。
本文主要将支持向量(SV)与QRNN方法相结合 [27],得到相应的预测区间 [28],此模型极大地缩短了运行时间,而且鲁棒性强。本文旨在通过区间预测方法来构建高质量、高覆盖概率的预测区间(PI)。同时,还提出了一种新的风速预测方法。
本文主要利用支持向量(SV)和QRNN的混合模型 [27] 生成预测区间 [28],从而缩短运行时间,提高鲁棒性。区间预测方法主要是构建高质量、高覆盖概率的预测区间(PI)。另一方面,掌握了一种新的风速预测方法。
本文的内容安排如下:第一部分回顾了国内外风速预测的现状和方法;第二部分概述了支持向量机、QRNN和粒子群优化(PSO)的理论。第三部分介绍了所提出的风速预测方法的实现步骤。第四部分介绍了PI的四个评价指标以及实验结果,验证了本文提出的预测方法的有效性。最后,第五节提出了研究结论和未来的研究方向。
2. 基础理论
本文采用混合机器学习方法,SV-QRNN,提出了一种预测精度良好的的风速预测方法,所用到的基本理论在这一节中展开,应用到所发展的预测方法中。
2.1. 支持向量机(SVM)
支持向量机具有良好的泛化能力以避免基于正则化的过拟合,基于核技巧的非线性分类能力,以及基于凸优化的误差全局最小化 [29] [30]。支持向量机利用核函数将低维的输入空间转变为高维空间,构造一个最优的线性分割平面,使样本尽可能的分布在平面的两侧,超平面附近的样本为支持向量。超平面是有方向的,使得支持向量之间的边界最大化。一种想法是,如果我们选择具有最大边际的分离超平面,测试用例的性能就会很好 [31]。超平面用公式(1)表示为:
(1)
其中
为法向量,决定了超平面的方向;b为位移项,表示超平面与原点之间的距离。显而易见,超平面的划分取决于法向量w和位移b。为了求取最优化问题,将最大化问题转化为最小化问题,基本型变为公式(2):
(2)
对于给定的训练样本集
,若
,则有
;若
,则有
。
对公式(2)使用拉格朗日乘子法可得到其“对偶问题”,可以得到最优权向量。利用核函数转换特征空间的维度,最终,超平面可以表示为公式(3):
(3)
这里的
是拉格朗日乘子,
表示核函数,可以看出,模型最优解可通过训练样本的核函数展开 [32]。
2.2. 分位数回归神经网络(QRNN)
2.2.1. 分位数回归
分位数不用考虑变量的分布特征,不仅可以度量回归变量中心分布的情况,还可以预测上尾和下尾的变化 [33]。因变量在不同分位点处的参数值,得到不同的回归曲线,采用这种方法,可以更加全面的刻画数据的分布特征。假设Y是实值随机变量,分布函数为公式(4),
(4)
对于任意
,
(5)
分位数回归通过最小化损失函数来求解参数估计值,损失函数定义为,
(6)
在这里,
为示性函数,
(7)
那么,损失函数可以表示为,
(8)
线性分位数回归模型的简化表达式为:
(9)
是响应变量Y的在解释变量
条件的
分位数。
是回归系数向量。
对于任意给定的样本,
,且
,第
个样本分位数的参数估计值,可由下列式子得到,
(10)
2.2.2. 分位数回归神经网络(QRNN)
分位数回归只学习了不同分位数下的响应变量与输入变量之间的线性关系,然而,现实生活中大多数数据是非线性的。人工神经网络允许估计可能的非线性模型,而不需要指定一个精确的函数形式。Taylor [22] 于2000年提出了QRNN,是目前应用最广泛的是单隐层神经网络 [23] [34],公式(11)如下:
(11)
和
是激活函数,分别被选为sigmoid和linear,
和
是需要被估计的权重参数。然后,类似于等式(11),加上正则化项,通过优化以下目标函数公式(12),可以估计QRNN模型的参数,
(12)
和
是正则化正则化参数,以减少网络的复杂性,从而避免过拟合 [33]。通过交叉验证估计
和
的最优值和隐藏层单元的节点数 [35]。
2.3. 粒子群优化算法(PSO)
粒子群优化算法(PSO),由Kennedy和Eberhart提出 [36],灵感源于对鸟群捕食的行为研究,是通过群体中个体之间的协作和信息共享来寻找最优解。PSO实现原理很简单,只有两个优化参数,速度和位置。每个粒子在搜索空间中单独的搜寻最优解,并与其他粒子共享,找到最优的那个个体极值作为整个粒子群的当前全局最优解,不断更新速度和位置 [33]。在找到局部最优值和全局最优值后,粒子通过下面的公式(13)~(14)来更新自己的速度和位置,
(13)
(14)
和
都是局部最优粒子,
为惯性因子,取值范围为大于等于0,值越大,全局寻优能力越强,局部寻优能力越弱,能获得比固定值更好结果。
和
是学习因子,表示学习能力的大小。rand是在0到1之间的随机数。
是更新之前的速度,
,N是粒子群的总规模,
更新之后的速度,
是更新之前的粒子,
是更新之后的粒子。
3. 短期风速预测方法的实施步骤
在上述知识储备的基础上,提出了复合的短期风速预测框架,同时,优化了SVM的参数并对数据进行了数据筛选。
Step 1对数据进行有监督化处理,将时间序列转变成含有自变量和因变量的形式;
Step 2将处理完的数据分为训练集和测试集;
Step 3得到SVM模型优化完参数之后,假设当前采样时间是t,短期风速时间序列为
,m是短期序列风速的长度。
Step 4先将训练集矩阵Equation (17)输入到SVM算法中,得到支持向量矩阵Equation (18),然后将支持向量输入到QRNN模型中,得到预测结果。
(15)
(16)
Step 5作为Step 3中SV-QRNN模型的输入X,得到的预测值输出Y的表达式为公式(17)。
(17)
如等式(17)所示,预测水平h是样本允许内的任何值,m是不同预测水平,不同的h将产生不同的预测模型和预测效果。
4. 实验与分析
4.1. 实验描述
本案例旨在对风速数据进行预测,对于预测模型的输出结果,首先比较了所提模型与所提方法相关模型的评价指标;其次分析了不同分位数的风速。基于不同分位数的预测风速,构造了具有多个置信水平的预测区间。对于输出不同置信水平下的区间预测,进行了全面的分析。从统计视角出发,对10%~90%置信水平下的预测区间进行PICP-PINAW综合指数评估。此外,研究了不同置信水平的预测区间。
4.2. 基准方法对比
为了证实SV-QRNN方法在风速数据预测上的优越性,我们选择了分位数回归(QR) [19]、分位数支持向量机(QRSVM) [35],进行精度比较。本研究采用最基础的设置选取模型的超参数,他们的描述如表1所示。
4.3. 评价指标
为了评价所提短期风速预测模型的有效性,我们选择了四个常用的区间预测评价方法衡量预测精度,评估模型的预测结果。与点预测想法类似,PIs (区间预测)也是测量预测结果重要评价指标。在本文中,我们使用了四种基于区间预测的评价指标,包括预测区间覆盖概率(PICP) [35] [37]、预测区间归一化平均宽度(PINAW) [38],预测区间标准化均方根宽度(PINRW) [27],综合覆盖宽度标准(CWC) [39]。
(18)
如果
,
;反之
。
和
是第i个预测区间的下确界和上确界。PICP越大表示落入区间范围内的目标值越多。但是太宽的预测区间传递的信息太少,在实践中用处不大。预测区间的宽度决定了其信息量(锐度)。在实际中,有用可靠要求PICP的值不小于的置信水平和预测区间的宽度(PINAW)应该尽可能小 [40]。PINAW (预测区间归一化平均宽度)量化了PI的这方面:
(19)
R等于目标值的最大值减去最小值。PINAW是按目标范围归一化的预测区间宽度的平均值。通过归一化,可以构建针对不同目标的指数函数,从而客观地进行比较。PINAW的值越小越好,在使用极值作为pi的情况下,PINAW将等于1 (最大值)。
与PIMAW方程结构相似,为了对所有预测误差给予不同的权重,宽度评估指标PINRW如下:
(20)
同理,PINRW的值越小,该模型呈现出较好的预测结果。
上述区间预测评价指标,只体现了区间预测的一个方面,需要一个综合评价指标来评估。我们一定是想要PICP大的(区间覆盖概率大)和PINAW小的(PIs宽度窄),从公式可以看出,二者是相互冲突的,CWC处理所有这些问题,以评估预测区间:
(21)
是示性函数,其值取决于PICP的满足程度,
(22)
通常被认为是名义置信水平,其值可以是
。
是缩放因子能区分即使是来自
很小的PICP违规。
和
控制着位置和CWC的间隔量。
4.4. 实验结果及分析
为了建立有效的风速预测系统,我们选取中国甘肃省西北部的酒泉市的风速数据,酒泉市地势平坦开阔,常年风力资源充足,全市年平均风速为5~6.5 m/s。表一给出了数据源的基本信息。酒泉市位于北纬39˚46',东经98˚29',海拔高度为1477.2 m。实验风速数据集的时间跨度为2019年1月1日到2019年12月31日,每隔三小时记录一次风速数据。数据包括风电场最重要的两个特征分别为温度和露点。在我们的实验中,随机抽取数据的80%作为训练集,剩余的20%作为验证集。数据集的统计信息如表1,包括平均值、最大值、最小值、标准差、偏度(Skew.)和峰度(Kurt.)。
Table 1. Statistical information on wind speed data
表1. 风速数据的统计信息
4.5. 预测不同分位数风速数据的区间分析
为了充分体现所提模型的效率和有效性,以及评估复合模型的性能,我们进行了3个相关模型的对比实验,基准模型的参数根据数据量以及数据类型采用基础的设置,比较模型的参数见表2。
在本节中,表3~6依次说明了所获得的区间预测的不确定性评估,包括
,
,
and
四个评价指标,根据比较模型在,风速数据上的表现所获得的度量矩阵,对于使用支持向量做回归模型,我们比较QRNN-SV和QRNN,除了80%的置信水平外,其余所有的
都大于QRNN的
,可以得出SV-QRNN的区间覆盖率比较大。CWC矩阵被设计为同时考虑PICP和PINRW指标,同时考虑了区间覆盖率和区间宽度,验证了预测区间的准确性和清晰度,除了80%的置信水平外,SV-QRNN的区间预测准确度最好,兼容了最大的真值覆盖率和最窄的区间宽度。QRNN模型和SV-QRNN的运行时间分别为127.62 s和104.63 s,展示了不仅QRNN-SV的运行时间速度快并且预测可靠性高;和其他的分位数回归和机器学习相比较,置信水平为90%,50%~10%的SV-QRNN的CWC少于QRNN,但是SV-QRNN和QRNN的置信水平为60%~80%的CWC相差不大,QRSVM的预测时间为7603.84 s,SV-QRNN在保证运行时间效率的前提下,区间预测的准确率也很高。QR的预测区间不是0就是1,预测结果很粗糙。
为了进一步直观地观察风速数据在不同置信水平下的区间预测结果,我们选取了三个预测区间,分别为90%,80%,70%,测试集的前100个风速数据,所提出的模型得到的预测区间(pi)可视化如图1所示。图中以浅蓝色点标记的实际样本,用黑线连接。区间预测结果从90%,80%,70%依次进行覆盖。可以发现,随着区间的缩小,渐渐有蓝色点超出阴影范围,大多数值都落在区间范围内。
Table 3. SV-QRNN model interval prediction evaluation index at 90%~10% confidence level
表3. 在90%~10%置信水平下SV-QRNN模型的区间预测评价指标
Table 4. Interval prediction evaluation index of QRNN model at 90%~10% confidence level
表4. 在90%~10%置信水平下的QRNN模型的区间预测评价指标
Table 5. Interval prediction evaluation index of QRSVM model at 90%~10% confidence level
表5. 在90%~10%置信水平下的QRSVM模型的区间预测评价指标
Table 6. Interval prediction evaluation index of QR model at 90%~10% confidence level
表6. 在90%~10%置信水平下的QR模型的区间预测评价指标
Figure 1. Interval prediction results of SV-QRNN model at 70%~90% confidence level
图1. 在70%~90%置信水平下SV-QRNN模型的区间预测结果
5. 结论
由于风力发电具有很强的不确定性,风速数据的区间预测已经成为一个广泛研究的课题。本研究采用风速数据提出了一种新型的区间复合预测模型SV-QRNN,首先,利用SVM对训练集提取支持向量,然后将支持向量输入到QRNN模型中进行区间预测。最后利用度量区间的评价指标分析模型准确度。实验结果和分析表明,该模型可以选取有效的数据集缩短实验时间,得到风速序列各个分位点的条件分位数,结合条件分位数对区间预测进行估计,可以得出模型的区间估计在区间覆盖率和区间宽度上优于其他模型。
在未来的实验分析中,考虑影响风速的特征因素,用深度学习的方法对特征进行特征选择和提取,将数据信息更充分地用到预测中。
基金项目
国家自然科学基金(11301036);国家自然科学基金(11226335);国家自然科学基金(12026430)。
NOTES
*通讯作者。