1. 引言
在数据统计建模分析中,常要求误差服从正态分布。对于一些误差不满足正态分布的数据,如若直接进行分析,必定会导致实践结果及预测精度的失真[1]。王周伟等(2016) [2]探讨具有自回归误差项的空间自回归模型变量选择问题,证明了残差非正态独立同分布下,空间信息准则是变量选择的高效方法。陈子珍等(2016) [3]在风电预测误差非正态分布的情况下,建立了电力系统的随机最优调度模型。钟义山等(1997) [4]探讨了模型预测误差在非正态分布下的区间估计方法。
非参数回归模型因其建模的灵活性广受关注和探究。经过四十多年的发展,非参数回归模型取得了丰富的理论成果。例如,Kim等(2015) [5]基于核光滑方法和中心极限定理, 研究模型的回归函数的置信区间;杨秀桃和杨善朝(2019) [6]在α混合样本下研究了非参数核回归估计的性质。李双博(2018) [7]通过Bernstein分块法把相依数据转化为渐近独立数据,得到了局部多项式估计的渐近性质;张晓琴等(2021) [8]在异方差模型的估计中引入了局部多项式的非参数估计方法,提出了一种新的异方差估计方法。Lestari等(2012) [9]基于光滑样条方法对多响应变量的非参数回归模型进行估计;彭佳等(2015) [10]将Walsh平均思想与样条方法结合构造出Walsh平均的稳健样条估计,并证明其具有相合性和渐近正态性。Ding和Li (2016) [11]研究了具有ρ混合线性过程误差的回归模型小波估计量的Berry-Esseen界;邓新等(2020) [12]考虑了带有重复测量的非参数回归模型,在NOD误差下得到了回归函数小波估计量的强相合性。
然而,非参数回归模型的区间估计研究成果较少,比如,李晋云和武新乾(2021) [13]讨论了固定设计非参数回归模型的基于样条方法的区间预测;李晋云(2020) [14]进一步探讨了固定设计异方差非参数回归模型的基于样条方法的区间预测。这些文献集中于正态误差情形。
为了探索非正态误差下非参数回归模型的区间估计问题,本文考虑具有厚尾的t分布误差下非参数回归模型的区间估计,并基于小波方法进行数值模拟。
2. 非参数回归模型的区间估计与评价指标
2.1. 非参数回归模型的区间估计
考虑非参数回归模型
,
其中
是响应变量,
是确定性解释变量,
的取值范围是
,
为回归函数或均值函数,
为独立同分布序列,且
服从自由度为
的标准t分布,即
。
易知,显著水平为
的条件下,可得到
的置信区间为
,
其中
为自由度为
的t分布的上侧
分位数。但
通常是未知的函数,在实际应用时需要对它进行估计。假设
的估计为
,此时
的近似置信区间为
。
考虑到小波函数具有良好的局部性质。本文采用小波方法估计函数
。
2.2. 点估计评价指标
平均绝对误差(Mean Absolute Error, MAE)是指对估计误差取绝对值后计算的平均误差,即
,
其中
是第i个观测值的实际值,
是第i个观测值的估计值,n是原始信号采样点个数。
均方误差(Root Mean Squared Error,RMSE)是对估计值和实际值的离差平方和求均值,能够有效度量误差大小。其表达式为
。
平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)是每个绝对误差除以实际值的和以及误差百分率的平均值,即
。
2.3. 区间估计评价指标
估计区间覆盖率(Estimate Interval Coverage Probability,EICP)是用以评估估计区间对真实值覆盖程度的指标,即
,
其中
是布尔值,即当第i个估计值落在该区间估计的上界
和下界
之中时(包含临界值),
取值为1,否则
。EICP的值越接近置信水平,估计的可靠性越理想。
估计区间平均带宽(Estimate Interval Normalized Averaged Width, EINAW)是用以衡量区间估计的平均宽度指标,即
,
其中
是用于归一化的目标值的范围。EINAW的值越小,估计的精度就越高。
覆盖宽度准则(Coverage Width-based Criterion, CWC)是一种综合考虑了估计区间覆盖率和宽度的指标,即
,
其中
,
和
是用以确定惩罚程度的参数,
是由置信水平决定的,例如在95%的置信区间上,
。要想区间估计的质量越高,CWC的值应尽可能的小。
3. 模拟算例
考虑固定设计非参数回归模型
,
其中
,
,
为服从自由度为4的t分布,即
。
易知,在显著性水平为
的条件下,得到
的近似置信区间为
。
分别选取等距采样点数为500、800、1000,使用MATLAB软件对该模型进行小波分解与重构。考虑到在应用中误差分布未知,利用Bootstrap采样得到原信号数据在不同置信度下的区间估计。
具体的流程是:首先,通过小波变换将原始信号按照小波基函数(这里选用紧支集正交小波db.4作为小波估计的基函数)和层数进行多尺度分解,通过逆变换把分解得到的第一层近似系数和细节系数叠加得到重构信号;然后去除第一层时间窗较小的高频系数,将第一层的近似系数作为近似信号进行拟合。最后,将每种方法所得的拟合信号误差进行Bootstrap采样,得到原始信号数据的区间估计。
3.1. 点估计及其误差分析
先考虑n = 500的情形,基于db.4小波基函数对模型的原始信号进行3层分解,图1给出了原始信号、重构所得细节信号和近似信号的对比图。图1中,将近似信号1与细节信号1叠加得到原始信号的拟合方法,称之为重构信号;而近似信号1直接作为原始信号拟合,称为近似信号。这两种方法的拟合效果及拟合的绝对误差如图2所示。
由图2可以看出,重构信号比近似信号的拟合效果更优,从二者之间所得的绝对误差也可以看出,重构信号的误差量级相较于近似信号的误差量级更小,具有更好的拟合效果。
对于n = 800和n = 1000的情形,可得类似的结果。对于不同数量的采样数据,可计算重构信号和近似信号拟合的平均绝对误差MAE、均方误差MSE和平均绝对百分比误差MAPE,具体结果见表1。表1中重构信号和近似信号后面小括号里面的数字表示n的取值。
由表1可知,重构信号拟合的MAE、MSE和MAPE最小,且在n = 800时整体上达到最小,显示了重构信号点估计的优越性。
Figure 1. Approximate and detailed signals reconstructed after decomposition of the original signal
图1. 原始信号分解后重构所得近似和细节信号
Figure 2. Reconstructed signal and approximate signal after original signal decomposition and their errors
图2. 原始信号分解后重构所得信号和近似信号及各自误差
Table 1. Fitting errors of reconstructed signal and approximate signal under different sample size
表1. 不同采样数量下重构信号和近似信号的拟合误差
|
MAE (平均绝对误差) |
MSE (均方误差) |
MAPE (平均绝对百分比误差) |
重构信号(500) |
2.0903e−12 |
2.7563e−12 |
4.6114e−16 |
近似信号(500) |
0.7481 |
1.0088 |
1.6372e−04 |
重构信号(800) |
1.9842e−12 |
2.6490e−12 |
2.8238e−16 |
近似信号(800) |
0.7764 |
1.0350 |
1.1016e−04 |
重构信号(1000) |
2.1388e−12 |
2.8064e−12 |
2.4039e−16 |
近似信号(1000) |
0.7180 |
0.9370 |
8.2148e−05 |
3.2. 区间估计及其对比分析
将估计误差的累积概率分布进行Bootstrap采样,分析计算在85%、90%、95%、99%的置信水平下响应变量的置信区间。图3和图4分别为在采样点数为500时,重构信号和近似信号拟合方法在不同置信度下的置信区间。
为了定量地比较基于重构信号和近似信号构造的区间估计效果,表2、表3和表4分别给出了样本点数n = 500、800和1000时估计区间覆盖率(EICP)、估计区间平均带宽(EINAW)和覆盖宽度准则(CWC)的值。
由表2、表3和表4可以看出,随着采样点数的增加,基于重构信号的区间估计的EICP值减小且远小于置信水平,而基于近似信号的区间估计的EICP值在整体上增加且逐渐接近置信水平;随着采样点数的增加,整体上两种区间估计的EINAW值减小,但基于重构信号的区间估计的EINAW值过小,精度过高而导致区间覆盖率过低。进一步地,随着采样点数的增加,基于重构信号的区间估计的CWC值增加且远大于基于近似信号的区间估计的CWC值。因而,相对于基于重构信号的区间估计,基于近似信号的区间估计较为理想。
Figure 3. Fitted confidence intervals by reconstructed signal
图3. 重构信号拟合的置信区间
Figure 4. Fitted confidence intervals by approximate signal
图4. 近似信号拟合的置信区间
Table 2. Evaluation values of interval estimate for the two fitting methods under sampling points of 500
表2. 在采样点数为500时两种拟合方式区间估计的评价值
|
99% |
95% |
90% |
85% |
重构(EICP) |
0.0660 |
0.0660 |
0.0660 |
0.0660 |
近似(EICP) |
0.9580 |
0.8760 |
0.7840 |
0.7000 |
重构(EINAW) |
1.5942e−14 |
1.5942e−14 |
1.5942e−14 |
1.5942e−14 |
近似(EINAW) |
0.3477 |
0.2183 |
0.1554 |
0.1266 |
重构(CWC) |
1.1599e+20 |
1.2885e+18 |
1.0577e+17 |
8.6818e+15 |
近似(CWC) |
13.9558 |
3.4923 |
11.1402 |
365.1249 |
Table 3. Evaluation values of interval estimate for the two fitting methods under sampling points of 800
表3. 在采样点数为800时两种拟合方式区间估计的评价值
|
99% |
95% |
90% |
85% |
重构(EICP) |
0.0338 |
0.0338 |
0.0338 |
0.0338 |
近似(EICP) |
0.9700 |
0.8800 |
0.7875 |
0.6888 |
重构(EINAW) |
9.1958e−15 |
9.1958e−15 |
9.1958e−15 |
9.1958e−15 |
近似(EINAW) |
0.2091 |
0.1398 |
0.1040 |
0.0904 |
重构(CWC) |
5.8171e+20 |
6.4622e+18 |
5.3045e+17 |
4.3542e+16 |
近似(CWC) |
2.8881 |
1.5597 |
11.5799 |
244.7941 |
Table 4. Evaluation values of interval estimate for the two fitting methods under sampling points of 1000
表4. 在采样点数为1000时两种拟合方式区间估计的评价值
|
99% |
95% |
90% |
85% |
重构(EICP) |
0.0200 |
0.0200 |
0.0200 |
0.0200 |
近似(EICP) |
0.9520 |
0.8920 |
0.7920 |
0.6950 |
重构(EINAW) |
3.3551e−15 |
3.3551e−15 |
3.3551e−15 |
3.3551e−15 |
近似(EINAW) |
0.2092 |
0.0996 |
0.0575 |
0.0487 |
重构(CWC) |
1.1569e+21 |
1.2852e+19 |
1.0549e+18 |
8.6593e+16 |
近似(CWC) |
2.8927 |
3.4132 |
22.2963 |
121.5669 |
4. 结论
针对误差服从t分布的非参数回归模型,本文探讨了小波方法与Bootstrap重采样相结合的区间估计方法。模拟算例表明:与基于重构信号的区间估计相比较,基于近似信号的区间估计是一种较为理想的方法。
NOTES
*通讯作者。