t分布误差下非参数回归模型的区间估计

期刊菜单

t分布误差下非参数回归模型的区间估计
Interval Estimation of Non-Parametric Regression Model with t Distribution Error

DOI: 10.12677/aam.2024.136254, PDF, HTML, XML, 下载: 42 浏览: 80
作者: 高毓^*, 武新乾：河南科技大学数学与统计学院，河南洛阳
关键词: 非参数回归；t分布；小波；Bootstrap；区间估计；Non-Parametric Regression； t Distribution； Wavelet； Bootstrap； Interval Estimation

摘要: 为了探索非正态分布误差下非参数回归模型的区间估计问题，本文考虑了模型误差独立且服从t分布的情形。利用小波方法和t分布的性质，构建响应变量的近似置信区间。考虑到在应用中误差分布未知，利用Bootstrap采样得到原始信号数据的区间估计。模拟算例表明：在区间覆盖率、区间平均带宽和覆盖宽度准则意义下，与基于重构信号的区间估计相比较，基于近似信号的区间估计是一种较为理想的方法。

Abstract: In order to explore the interval estimation problem of non-parametric regression model under non-normal distribution error, the case of independent and t distribution errors is considered in this paper. The approximate confidence interval of response variable is constructed based on wavelet method and the property of t distribution. However, the distribution of error sequence is always unknown. The computable confidence interval is obtained by the bootstrap method. The results of a simulation example show that the interval estimation based on approximate signal is superior to the interval estimation based on reconstructed signal in the sense of interval coverage probability, interval normalized averaged width and coverage width-based criterion.

文章引用：高毓, 武新乾. t分布误差下非参数回归模型的区间估计[J]. 应用数学进展, 2024, 13(6): 2658-2665. https://doi.org/10.12677/aam.2024.136254

1. 引言

在数据统计建模分析中，常要求误差服从正态分布。对于一些误差不满足正态分布的数据，如若直接进行分析，必定会导致实践结果及预测精度的失真[1]。王周伟等(2016) [2]探讨具有自回归误差项的空间自回归模型变量选择问题，证明了残差非正态独立同分布下，空间信息准则是变量选择的高效方法。陈子珍等(2016) [3]在风电预测误差非正态分布的情况下，建立了电力系统的随机最优调度模型。钟义山等(1997) [4]探讨了模型预测误差在非正态分布下的区间估计方法。

非参数回归模型因其建模的灵活性广受关注和探究。经过四十多年的发展，非参数回归模型取得了丰富的理论成果。例如，Kim等(2015) [5]基于核光滑方法和中心极限定理，研究模型的回归函数的置信区间；杨秀桃和杨善朝(2019) [6]在α混合样本下研究了非参数核回归估计的性质。李双博(2018) [7]通过Bernstein分块法把相依数据转化为渐近独立数据，得到了局部多项式估计的渐近性质；张晓琴等(2021) [8]在异方差模型的估计中引入了局部多项式的非参数估计方法，提出了一种新的异方差估计方法。Lestari等(2012) [9]基于光滑样条方法对多响应变量的非参数回归模型进行估计；彭佳等(2015) [10]将Walsh平均思想与样条方法结合构造出Walsh平均的稳健样条估计，并证明其具有相合性和渐近正态性。Ding和Li (2016) [11]研究了具有ρ混合线性过程误差的回归模型小波估计量的Berry-Esseen界；邓新等(2020) [12]考虑了带有重复测量的非参数回归模型，在NOD误差下得到了回归函数小波估计量的强相合性。

然而，非参数回归模型的区间估计研究成果较少，比如，李晋云和武新乾(2021) [13]讨论了固定设计非参数回归模型的基于样条方法的区间预测；李晋云(2020) [14]进一步探讨了固定设计异方差非参数回归模型的基于样条方法的区间预测。这些文献集中于正态误差情形。

为了探索非正态误差下非参数回归模型的区间估计问题，本文考虑具有厚尾的t分布误差下非参数回归模型的区间估计，并基于小波方法进行数值模拟。

2. 非参数回归模型的区间估计与评价指标

2.1. 非参数回归模型的区间估计

考虑非参数回归模型

$y_{i} = g (x_{i}) + ε_{i}, i = 1, 2, \dots, n$ ，

其中 $y_{i}$ 是响应变量， $x_{i}$ 是确定性解释变量， $x_{i}$ 的取值范围是 $[0, 1]$ ， $g (\cdot)$ 为回归函数或均值函数， ${ε_{i}}$ 为独立同分布序列，且 $ε_{i}$ 服从自由度为 $ω$ 的标准t分布，即 $ε_{i} ~ t (ω)$ 。

易知，显著水平为 $α$ 的条件下，可得到 $y_{i}$ 的置信区间为

$[g (x_{i}) - t_{\frac{α}{2}} (ω), g (x_{i}) + t_{\frac{α}{2}} (ω)]$ ，

其中 $t_{\frac{α}{2}} (ω)$ 为自由度为 $ω$ 的t分布的上侧 $\frac{α}{2}$ 分位数。但 $g (x)$ 通常是未知的函数，在实际应用时需要对它进行估计。假设 $g (x)$ 的估计为 ${\hat{g}}_{n} (x)$ ，此时 $y_{i}$ 的近似置信区间为

$[{\hat{g}}_{n} (x_{i}) - t_{\frac{α}{2}} (ω), {\hat{g}}_{n} (x_{i}) + t_{\frac{α}{2}} (ω)]$ 。

考虑到小波函数具有良好的局部性质。本文采用小波方法估计函数 $g (x)$ 。

2.2. 点估计评价指标

平均绝对误差(Mean Absolute Error, MAE)是指对估计误差取绝对值后计算的平均误差，即

$MAE = \frac{1}{n} \sum_{i = 1}^{n} | {\hat{y}}_{i} - y_{i} |$ ，

其中 $y_{i}$ 是第i个观测值的实际值， ${\hat{y}}_{i}$ 是第i个观测值的估计值，n是原始信号采样点个数。

均方误差(Root Mean Squared Error，RMSE)是对估计值和实际值的离差平方和求均值，能够有效度量误差大小。其表达式为

$RMSE = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {| {\hat{y}}_{i} - y_{i} |}^{2}}$ 。

平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)是每个绝对误差除以实际值的和以及误差百分率的平均值，即

$MAPE = \frac{100 %}{n} \sum_{i = 1}^{n} | \frac{{\hat{y}}_{i} - y_{i}}{y_{i}} |$ 。

2.3. 区间估计评价指标

估计区间覆盖率(Estimate Interval Coverage Probability，EICP)是用以评估估计区间对真实值覆盖程度的指标，即

$EICP = \frac{1}{n} \sum_{i = 1}^{n} c_{i}$ ，

其中 $c_{i}$ 是布尔值，即当第i个估计值落在该区间估计的上界 $U_{i}$ 和下界 $L_{i}$ 之中时(包含临界值)， $c_{i}$ 取值为1，否则 $c_{i} = 0$ 。EICP的值越接近置信水平，估计的可靠性越理想。

估计区间平均带宽(Estimate Interval Normalized Averaged Width, EINAW)是用以衡量区间估计的平均宽度指标，即

$EINAW = \frac{1}{η n} \sum_{i = 1}^{n} (U_{i} - L_{i})$ ，

其中 $η$ 是用于归一化的目标值的范围。EINAW的值越小，估计的精度就越高。

覆盖宽度准则(Coverage Width-based Criterion, CWC)是一种综合考虑了估计区间覆盖率和宽度的指标，即

$CWC = EINAW (1 + γ e^{- ς (EICP - μ)})$ ，

其中

$γ = {\begin{matrix} 0 & EICP \geq μ \\ 1 & EICP < μ \end{matrix}$ ，

$ς$ 和 $μ$ 是用以确定惩罚程度的参数， $μ$ 是由置信水平决定的，例如在95%的置信区间上， $μ = 0.95$ 。要想区间估计的质量越高，CWC的值应尽可能的小。

3. 模拟算例

考虑固定设计非参数回归模型

$y_{i} = g (x_{i}) + ε_{i}, i = 1, 2, \dots, n$ ，

其中 $g (x) = 50 x^{3} (1 - x^{3})$ ， $x \in [0, 1]$ ， $ε_{i}$ 为服从自由度为4的t分布，即 $ε_{i} ~ t (4)$ 。

易知，在显著性水平为 $α$ 的条件下，得到 $y_{i}$ 的近似置信区间为

$[\hat{g} (x_{i}) - t_{\frac{α}{2}} (4), \hat{g} (x_{i}) + t_{\frac{α}{2}} (4)]$ 。

分别选取等距采样点数为500、800、1000，使用MATLAB软件对该模型进行小波分解与重构。考虑到在应用中误差分布未知，利用Bootstrap采样得到原信号数据在不同置信度下的区间估计。

具体的流程是：首先，通过小波变换将原始信号按照小波基函数(这里选用紧支集正交小波db.4作为小波估计的基函数)和层数进行多尺度分解，通过逆变换把分解得到的第一层近似系数和细节系数叠加得到重构信号；然后去除第一层时间窗较小的高频系数，将第一层的近似系数作为近似信号进行拟合。最后，将每种方法所得的拟合信号误差进行Bootstrap采样，得到原始信号数据的区间估计。

3.1. 点估计及其误差分析

先考虑n = 500的情形，基于db.4小波基函数对模型的原始信号进行3层分解，图1给出了原始信号、重构所得细节信号和近似信号的对比图。图1中，将近似信号1与细节信号1叠加得到原始信号的拟合方法，称之为重构信号；而近似信号1直接作为原始信号拟合，称为近似信号。这两种方法的拟合效果及拟合的绝对误差如图2所示。

由图2可以看出，重构信号比近似信号的拟合效果更优，从二者之间所得的绝对误差也可以看出，重构信号的误差量级相较于近似信号的误差量级更小，具有更好的拟合效果。

对于n = 800和n = 1000的情形，可得类似的结果。对于不同数量的采样数据，可计算重构信号和近似信号拟合的平均绝对误差MAE、均方误差MSE和平均绝对百分比误差MAPE，具体结果见表1。表1中重构信号和近似信号后面小括号里面的数字表示n的取值。

由表1可知，重构信号拟合的MAE、MSE和MAPE最小，且在n = 800时整体上达到最小，显示了重构信号点估计的优越性。

Figure 1. Approximate and detailed signals reconstructed after decomposition of the original signal

图1. 原始信号分解后重构所得近似和细节信号

Figure 2. Reconstructed signal and approximate signal after original signal decomposition and their errors

图2. 原始信号分解后重构所得信号和近似信号及各自误差

Table 1. Fitting errors of reconstructed signal and approximate signal under different sample size

表1. 不同采样数量下重构信号和近似信号的拟合误差

	MAE (平均绝对误差)	MSE (均方误差)	MAPE (平均绝对百分比误差)
重构信号(500)	2.0903e⁻¹²	2.7563e⁻¹²	4.6114e⁻¹⁶
近似信号(500)	0.7481	1.0088	1.6372e⁻⁰⁴
重构信号(800)	1.9842e⁻¹²	2.6490e⁻¹²	2.8238e⁻¹⁶
近似信号(800)	0.7764	1.0350	1.1016e⁻⁰⁴
重构信号(1000)	2.1388e⁻¹²	2.8064e⁻¹²	2.4039e⁻¹⁶
近似信号(1000)	0.7180	0.9370	8.2148e⁻⁰⁵

3.2. 区间估计及其对比分析

将估计误差的累积概率分布进行Bootstrap采样，分析计算在85%、90%、95%、99%的置信水平下响应变量的置信区间。图3和图4分别为在采样点数为500时，重构信号和近似信号拟合方法在不同置信度下的置信区间。

为了定量地比较基于重构信号和近似信号构造的区间估计效果，表2、表3和表4分别给出了样本点数n = 500、800和1000时估计区间覆盖率(EICP)、估计区间平均带宽(EINAW)和覆盖宽度准则(CWC)的值。

由表2、表3和表4可以看出，随着采样点数的增加，基于重构信号的区间估计的EICP值减小且远小于置信水平，而基于近似信号的区间估计的EICP值在整体上增加且逐渐接近置信水平；随着采样点数的增加，整体上两种区间估计的EINAW值减小，但基于重构信号的区间估计的EINAW值过小，精度过高而导致区间覆盖率过低。进一步地，随着采样点数的增加，基于重构信号的区间估计的CWC值增加且远大于基于近似信号的区间估计的CWC值。因而，相对于基于重构信号的区间估计，基于近似信号的区间估计较为理想。

Figure 3. Fitted confidence intervals by reconstructed signal

图3. 重构信号拟合的置信区间

Figure 4. Fitted confidence intervals by approximate signal

图4. 近似信号拟合的置信区间

Table 2. Evaluation values of interval estimate for the two fitting methods under sampling points of 500

表2. 在采样点数为500时两种拟合方式区间估计的评价值

	99%	95%	90%	85%
重构(EICP)	0.0660	0.0660	0.0660	0.0660
近似(EICP)	0.9580	0.8760	0.7840	0.7000
重构(EINAW)	1.5942e⁻¹⁴	1.5942e⁻¹⁴	1.5942e⁻¹⁴	1.5942e⁻¹⁴
近似(EINAW)	0.3477	0.2183	0.1554	0.1266
重构(CWC)	1.1599e⁺²⁰	1.2885e⁺¹⁸	1.0577e⁺¹⁷	8.6818e⁺¹⁵
近似(CWC)	13.9558	3.4923	11.1402	365.1249

Table 3. Evaluation values of interval estimate for the two fitting methods under sampling points of 800

表3. 在采样点数为800时两种拟合方式区间估计的评价值

	99%	95%	90%	85%
重构(EICP)	0.0338	0.0338	0.0338	0.0338
近似(EICP)	0.9700	0.8800	0.7875	0.6888
重构(EINAW)	9.1958e⁻¹⁵	9.1958e⁻¹⁵	9.1958e⁻¹⁵	9.1958e⁻¹⁵
近似(EINAW)	0.2091	0.1398	0.1040	0.0904
重构(CWC)	5.8171e⁺²⁰	6.4622e⁺¹⁸	5.3045e⁺¹⁷	4.3542e⁺¹⁶
近似(CWC)	2.8881	1.5597	11.5799	244.7941

Table 4. Evaluation values of interval estimate for the two fitting methods under sampling points of 1000

表4. 在采样点数为1000时两种拟合方式区间估计的评价值

	99%	95%	90%	85%
重构(EICP)	0.0200	0.0200	0.0200	0.0200
近似(EICP)	0.9520	0.8920	0.7920	0.6950
重构(EINAW)	3.3551e⁻¹⁵	3.3551e⁻¹⁵	3.3551e⁻¹⁵	3.3551e⁻¹⁵
近似(EINAW)	0.2092	0.0996	0.0575	0.0487
重构(CWC)	1.1569e⁺²¹	1.2852e⁺¹⁹	1.0549e⁺¹⁸	8.6593e⁺¹⁶
近似(CWC)	2.8927	3.4132	22.2963	121.5669

4. 结论

针对误差服从t分布的非参数回归模型，本文探讨了小波方法与Bootstrap重采样相结合的区间估计方法。模拟算例表明：与基于重构信号的区间估计相比较，基于近似信号的区间估计是一种较为理想的方法。

NOTES

^*通讯作者。

参考文献

[1]	郎欣月, 陈梦鑫, 郝军, 等. Box-Cox变换介绍及其R语言实现[J]. 中国卫生统计, 2023, 40(3): 469-472.
[2]	王周伟, 陶志鹏, 张元庆. 非正态分布下具有自回归误差项的空间自回归模型变量选择研究[J]. 统计与信息论坛, 2016, 31(11): 27-32.
[3]	陈子珍, 丁洪起, 李稳良, 等. 风电预测误差非正态分布电力系统优化调度[J]. 控制工程, 2016, 23(6): 937-943.
[4]	钟义山, 郭玉孝, 钟云智. 非正态分布预测模型误差的估计[J]. 生物数学学报, 1997(2): 146-151.
[5]	Kim, S., Zhao, Z. and Shao, X. (2015) Nonparametric Functional Central Limit Theorem for Time Series Regression with Application to Self-Normalized Confidence Interval. Journal of Multivariate Analysis, 133, 277-290. https://doi.org/10.1016/j.jmva.2014.09.017
[6]	杨秀桃, 杨善朝. α混合样本下积分权回归估计的强相合性[J]. 数学杂志, 2019, 39(6): 878-888.
[7]	李双博. 相依函数型数据的局部回归估计的渐近正态性[J]. 统计研究, 2018, 35(6): 117-128.
[8]	张晓琴, 郭雅静, 米子川. 基于局部多项式方法的异方差估计[J]. 数理统计与管理, 2021, 40(6): 1019-1030.
[9]	Lestari, B., Budiantara, I.N., Sunaryo, S. and Mashuri, M. (2012) Spline Smoothing for Multi-Response Nonparametric Regression Model in Case of Heteroscedasticity of Variance. Journal of Mathematics and Statistics, 8, 377-384. https://doi.org/10.3844/jmssp.2012.377.384
[10]	彭佳, 李长青, 王晓燕. 基于Walsh平均的非参数回归模型的稳健估计[J]. 数理统计与管理, 2015, 34(4): 636-646.
[11]	Ding, L. and Li, Y. (2016) The Berry-Esseen Bounds of Wavelet Estimator for Regression Model Whose Errors Form a Linear Process with a Ρ-mixing. Journal of Inequalities and Applications, 2016, Article No, 107. https://doi.org/10.1186/s13660-016-1036-x
[12]	邓新, 桂代运, 许志才. NOD误差下非参数回归模型中小波估计的强相合性[J]. 湖北大学学报(自然科学版), 2020, 42(1): 109-112, 117.
[13]	李晋云, 武新乾. 基于样条方法的固定设计非参数回归模型的区间预测[J]. 统计与决策, 2021, 37(4): 46-50.
[14]	李晋云. 基于样条方法固定设计下非参数回归模型的区间预测[D]: [硕士学位论文]. 洛阳: 河南科技大学, 2020.

为你推荐

友情链接