响应变量缺失下可伸缩的模型平均估计

doi:10.12677/aam.2024.135240

期刊菜单

响应变量缺失下可伸缩的模型平均估计
Scalable Model Averaging Estimation with Missing Responses

DOI: 10.12677/aam.2024.135240, PDF, HTML, XML,
作者: 马跃, 黄彬^*, 刘淑洁：北京化工大学数理学院，北京
关键词: 可伸缩的；模型平均；缺失的响应变量；奇异值分解；渐近最优性；Scalable； Model Averaging； Missing Responses； Singular Value Decomposition； Asymptotic Optimality

摘要: 当响应变量缺失时，本文研究了线性模型的可伸缩的模型平均估计问题。基于逆概率加权方法和奇异值分解对原模型进行转换，所构建的模型平均估计最多只需要选择p个候选模型的权重。利用Jackknife准则选择权重，且权重之和不必限制为1。在一定的条件下证明了所提方法在实现最小二次损失意义下是渐近最优的，并通过数值模拟进一步验证了所提方法在预测效率和计算成本方面的优良性。

Abstract: In this paper, a scalable model averaging method is developed for the linear regression models with response missing. By using inverse probability weighted method and the singular value decomposition to transform the original models, this method enables us to find the optimal weights by considering at most p candidate models. The weights can be selected by Jackknife criterion, and the sum of weights is not necessarily restricted to one. Under some mild conditions, it is shown that the proposed method is asymptotically optimal in the sense of achieving the lowest possible squared error. Some simulation studies are conducted to illustrate the superiority of the proposed method in terms of both predictive efficiency and computational cost.

文章引用：马跃, 黄彬, 刘淑洁. 响应变量缺失下可伸缩的模型平均估计[J]. 应用数学进展, 2024, 13(5): 2520-2529. https://doi.org/10.12677/aam.2024.135240

1. 引言

模型平均是当代统计分析中用于处理模型不确定性和提高预测精度的一种流行且有效的方法。其中，针对频率模型平均(Frequency model Averaging, FMA)的方法和理论研究获得了广泛的关注。Hansen [1] 开创性地提出了Mallows模型平均(MMA)方法，该方法利用极小化Mallows准则来选择嵌套模型的权重，并证明了该方法的渐近最优性。Wan等 [2] 将MMA方法拓展到连续权重和非嵌套模型的情形。当随机误差项为异方差时，Hansen和Racine [3] ，Liu和Okui [4] 分别提出了JMA (Jackknife Model Averaging)和HRCp (Heteroscedasticity Robust Cp)模型平均方法，Zhang等 [5] 进一步将JMA方法拓展到相关数据的情形。基于这些重要工作，很多学者将这些方法扩展到不同的数据类型和不同的模型中。

其中，缺失数据是在很多实际问题研究中经常会遇到的数据类型，因此缺失数据下模型平均估计也得到很多的关注和研究。当响应变量缺失时，Wei和Wang [6] ，Wei等 [7] 提出了线性模型的模型平均估计，并分别利用JMA和HRCp准则选择权重。Zeng等 [8] 扩展到变系数偏线性模型的情形。但是，当协变量的个数p较大时，上述方法可选的候选模型的个数可高达 $2^{p}$ ，这给每个候选模型的估计和权重的选择都带来了极大的困难和挑战。

为了提高估计效率和计算速度，Zhu等 [9] 提出了可伸缩的模型平均估计，该方法利用奇异值分解对模型进行转换，所构建的模型平均估计只需要估计p个权重，且其最小二次损失在渐近意义下不差于传统的模型平均估计。因此，受 [9] 的启发，本文考虑了线性模型在响应变量缺失下的可伸缩的模型平均估计。在响应变量随机缺失(missing at random, MAR)的前提下，我们基于逆概率加权方法和奇异值分解对模型进行转换，使得转换后的模型只需估计p个候选模型，并通过极小化Jackknife准则选择p个权重，从而有效地减轻了计算压力，提高了模型平均的预测效率。而且，在一定的条件下证明了所提模型平均估计方法的渐近最优性，并通过数值模拟实验进一步验证了所提方法的优良性。

2. 模型及估计

2.1. 模型假设和估计方法

考虑线性回归模型：

$y_{i} = μ_{i} + e_{i} = x_{i}^{T} θ + e_{i} = \sum_{j = 1}^{p} θ_{j} x_{i j} + e_{i}, i = 1, \dots, n,$ (1)

其中 $y_{i}$ 是响应变量， $x_{i} = {(x_{i 1}, \dots, x_{i p})}^{T}$ 是预测变量， $θ = {(θ_{1}, \dots, θ_{p})}^{T}$ 是回归系数， $e_{1}, \dots, e_{n}$ 是相互独立且为异方差的随机误差，满足 $E (e_{i} | x_{i}) = 0$ ， $E (e_{i}^{ 2} | x_{i}) = σ_{i}^{2}$ 。我们考虑 $p < n$ 的情形。这里假定预测变量 $x_{i}$ 的值可以被完全观测，响应变量 $y_{i}$ 是随机缺失的，令 $δ_{i}$ 为缺失示性变量，即当 $y_{i}$ 缺失时 $δ_{i} = 0$ ，否则 $δ_{i} = 1$ ，且缺失机制满足MAR条件，即：

$P (δ_{i} = 1 | y_{i}, x_{i}) = P (δ_{i} = 1 | x_{i}) = π (x_{i})$ 。

假设 ${(y_{i}, x_{i}, δ_{i}), i = 1, \dots, n}$ 是独立同分布的。当选择概率函数 $π (x_{i})$ 已知时，记 $z_{π, i} = δ_{i} y_{i} / π (x_{i})$ ，在MAR假设下，易得 $E (z_{π, i} | x_{i}) = μ_{i} = x_{i}^{T} θ$ ，因此有

$z_{π, i} = x_{i}^{T} θ + e_{π, i} = \sum_{j = 1}^{p} θ_{j} x_{i j} + e_{π, i}, i = 1, \dots, n,$ (2)

其中 $e_{π, i} = δ_{i} (μ_{i} + e_{i}) / π (x_{i}) - μ_{i}$ ， $E (e_{π, i} | x_{i}) = 0$ ， $E (e_{π, i}^{2} | x_{i}) = σ_{π, i}^{2} = (σ_{i}^{2} + μ_{ i}^{2}) / π (x_{i}) - μ_{ i}^{2}$ 。模型(2)可表示为矩阵形式：

$z_{π} = μ + e_{π} = X θ + e_{π},$ (3)

其中 $z_{π} = {(z_{π, 1}, \dots, z_{π, n})}^{T}$ ， $μ = {(μ_{1}, \dots, μ_{n})}^{T}$ ， $e_{π} = {(e_{π}_{, 1}, \dots, e_{π, n})}^{T}$ ， $X = {(x_{1}, \dots, x_{n})}^{T}$ 。

对数据生成过程(1)，考虑M个候选模型，相应地，对(3)式，也有M个候选模型：

$z_{π} = X_{m} θ_{m} + e_{π}, m = 1, \dots, M,$ (4)

其中 $X_{m}$ 第m个模型对应的 $n \times k_{m}$ 阶预测矩阵， $θ_{m}$ 是 $k_{m}$ 维回归系数，记 $S_{m}$ 为该模型包含的预测变量的指标集，则 $S_{m}$ 的维度为 $k_{m}$ 。

由于 $π (x_{i})$ 一般都是未知的，故这里对 $π (x_{i})$ 假设一个参数模型 $\bar{π} (x_{i}; α)$ ，其中 $\bar{π} (\cdot; α)$ 是已知的函数， $α$ 是未知的参数向量。记 $\hat{α}$ 为 $α$ 的一个估计量，如极大似然估计量，记 $\hat{π} (x_{i}) = \bar{π} (x_{i}; \hat{α})$ 。因此，当需要估计 $π (x_{i})$ 时，用 $\hat{π} (x_{i})$ 替代上述模型(2)~(4)中的 $π (x_{i})$ ，相应地，记号的下标 $π$ 替换成 $\hat{π}$ ，如： $z_{\hat{π}, i} = δ_{i} y_{i} / \hat{π} (x_{i})$ ， $z_{\hat{π}} = {(z_{\hat{π}, 1}, \dots, z_{\hat{π}, n})}^{T}$ ， $e_{\hat{π}} = {(e_{\hat{π}}_{, 1}, \dots, e_{\hat{π}, n})}^{T}$ 等。

对第m个模型，利用最小二乘(OLS)估计可得到 $θ_{m}, μ$ 的估计 ${\tilde{θ}}_{\hat{π}, m} = {(X_{m}^{T} X_{m})}^{- 1} X_{m}^{T} z_{\hat{π}}$ ， ${\tilde{μ}}_{\hat{π}, m} = P_{m} z_{\hat{π}}$ ，其中 $P_{m} = X_{m} {(X_{m}^{T} X_{m})}^{- 1} X_{m}^{T}$ ， $m = 1, \dots, M$ 。令 $\tilde{w} = {({\tilde{w}}_{1}, \dots, {\tilde{w}}_{M})}^{T}$ 为集合 ${\tilde{W}}^{M} = {\tilde{w} \in {[0, 1]}^{M} : \sum_{m = 1}^{M} {\tilde{w}}_{m} = 1}$ 中的权重向量，可得 $μ$ 的一个模型平均估计 ${\tilde{μ}}_{\hat{π}} (\tilde{w}) = \sum_{m = 1}^{M} {\tilde{w}}_{m} {\tilde{μ}}_{\hat{π}, m} = P (\tilde{w}) z_{\hat{π}}$ ，其中 $P (\tilde{w}) = \sum_{m = 1}^{M} {\tilde{w}}_{m} P_{m}$ 。进一步，利用Jackknife准则 [3] 来选择权重，令

${\tilde{J}}_{\hat{π}} (\tilde{w}) = {‖ z_{\hat{π}} - \tilde{P} (\tilde{w}) z_{\hat{π}} ‖}^{2}$ ，

其中 $\tilde{P} (\tilde{w}) = \sum_{m = 1}^{M} {\tilde{w}}_{m} {\tilde{P}}_{m}$ ， ${\tilde{P}}_{m} = D_{m} (P_{m} - I_{n}) + I_{n}$ ， $I_{n}$ 为n阶单位矩阵， $D_{m}$ 为对角元素为 ${(1 - p_{m, i i})}^{- 1}$ 的n阶对角阵， $p_{m, i i}$ 为 $P_{m}$ 的第i个对角线元素。通过极小化Jackknife准则得到权重向量 ${\tilde{w}}_{\hat{π}} = \arg \min_{\tilde{w} \in {\tilde{W}}^{M}} {\tilde{J}}_{\hat{π}} (\tilde{w})$ ，进一步得到 $μ$ 的响应变量缺失下Jackknife Model Averaging (M-JMA)估计 ${\tilde{μ}}_{\hat{π}} ({\tilde{w}}_{\hat{π}})$ 。由文献 [3] [6] ，在一定的条件下，该M-JMA估计在实现最小二次损失意义下是渐近最优的，因此，该方法得到了广泛的应用，且有很好的预测性能。

但是，当协变量的个数p较大时，可选的候选模型的个数M可高达 $2^{p}$ ，这给每个模型的估计和权重的选择都带了极大的困难和挑战，从而降低了估计效率和计算速度。因此，我们需要尝试新的方法去改进上述模型平均估计。参考文献 [9] ，本文提出了响应变量缺失下可伸缩的模型平均估计，基于逆概率加权和奇异值分解(SVD)将模型进行转换，转换后所构建的模型平均估计只需估计p个一元回归模型和选择p个权重，从而有效地减轻了计算压力，提高了预测精度。

假设 $rank (X) = p$ ，由奇异值分解(SVD)， $X = U D V^{T}$ ，使得 $U^{T} U = V^{T} V = I_{p}$ ，其中 $U$ 是 $n \times p$ 阶的列正交矩阵， $V$ 是p阶正交矩阵， $D$ 是对角线为非负实数的p阶对角矩阵。相应地， $X_{m}$ 可分解为 $X_{m} = U_{m} D_{m} V_{m}^{T}$ ，则候选模型可表示为

$z_{\hat{π}} = U_{m} β_{m} + e_{\hat{π}}, m = 1, \dots, M,$ (5)

其中 $β_{m} = D_{m} V_{m}^{T} θ_{m}$ ，且 $β_{m}$ 的OLS估计为

${\hat{β}}_{\hat{π}, m} = {(U_{m}^{T} U_{m})}^{- 1} U_{m}^{T} z_{\hat{π}} = U_{m}^{T} z_{\hat{π}} = {({\hat{β}}_{\hat{π}, j_{1}}, \dots, {\hat{β}}_{\hat{π}, j_{k_{m}}})}^{T}$ ，

其中 $j_{1}, \dots, j_{k_{m}}$ 是 $S_{m}$ 中的元素， ${\hat{β}}_{\hat{π}, j} = {(u_{(j)}^{T} u_{(j)})}^{- 1} u_{(j)}^{T} z_{\hat{π}} = u_{(j)}^{T} z_{\hat{π}}$ 是一元回归模型 $z_{\hat{π}} = u_{(j)} β_{j} + e_{\hat{π}}$ 的OLS估计， $u_{(j)}$ 是 $U$ 的第j列向量， $1 \leq j \leq p$ ，即 $β_{m}$ 可以通过 $z_{\hat{π}}$ 关于 $U_{m}$ 的每一列做一元线性回归进行估计。从而， $μ$ 可估计为 ${\hat{μ}}_{\hat{π}, m} = U_{m} {\hat{β}}_{\hat{π}, m} = \sum_{j \in S_{m}} u_{(j)} {\hat{β}}_{\hat{π}, j}$ ，故 $μ$ 的模型平均估计为

${\hat{μ}}_{\hat{π}} (\tilde{w}) = \sum_{m = 1}^{M} {\tilde{w}}_{m} {\hat{μ}}_{\hat{π}, m} = \sum_{m = 1}^{M} {\tilde{w}}_{m} (\sum_{j \in S_{m}} u_{(j)} {\hat{β}}_{\hat{π}, j}) = \sum_{j = 1}^{p} (\sum_{m = 1}^{M} {\tilde{w}}_{m} I_{S_{m}} (j)) u_{(j)} {\hat{β}}_{\hat{π}, j}$ ， (6)

其中 $I_{S_{m}} (j)$ 为示性函数，即当 $j \in S_{m}$ 时 $I_{S_{m}} (j) = 1$ ，否则为0。若定义 $w_{j} = \sum_{m = 1}^{M} {\tilde{w}}_{m} I_{S_{m}} (j) \in [0, 1]$ 为权重，则式(6)可看成为p个一元回归模型的预测平均。

令 $w = {(w_{1}, \dots, w_{p})}^{T}$ 为集合 $W = {w_{j} \in [0, 1] : 1 \leq j \leq p}$ 中的权重向量，构造 $μ$ 的模型平均估计量

${\hat{μ}}_{\hat{π}} (w) = \sum_{j = 1}^{p} w_{j} {\hat{μ}}_{(j)} = \sum_{j = 1}^{p} w_{j} u_{(j)} {\hat{β}}_{\hat{π}, j} = H (w) z_{\hat{π}}$ ，

其中 $w \in W$ ， ${\hat{μ}}_{(j)} = u_{(j)} {\hat{β}}_{\hat{π}, j}$ ， $H (w) = \sum_{j = 1}^{p} w_{j} H_{j}$ ， $H_{j} = u_{(j)} u_{(j)}^{T}$ ，注意权重之和 $\sum_{j = 1}^{p} w_{j}$ 无须等于1。进一步，利用Jackknife准则 [3] 来选择权重 $w$ ，令

$J_{\hat{π}} (w) = {‖ z_{\hat{π}} - \hat{H} (w) z_{\hat{π}} ‖}^{2}$ ，

其中 $\hat{H} (w) = \sum_{j = 1}^{p} w_{j} {\hat{H}}_{j}$ ， ${\hat{H}}_{j} = Λ_{j} (H_{j} - I_{n}) + I_{n}$ ， $h_{j, i i}$ 为 $Η_{j}$ 的第i个对角线元素， $Λ_{j}$ 为对角元素为 ${(1 - h_{j, i i})}^{- 1}$ 的n阶对角阵。通过极小化Jackknife准则得到权重向量 ${\hat{w}}_{\hat{π}} = \arg \min_{w \in W} J_{\hat{π}} (w)$ ，进一步得到 $μ$ 的响应变量缺失下Scalable Jackknife Model Averaging (M-SJMA)估计 ${\hat{μ}}_{\hat{π}} ({\hat{w}}_{\hat{π}})$ 。该估计量一个直接的好处是，所选权重个数完成了从到 $2^{p}$ 到p的大幅缩小，极大地降低计算成本，减少计算中的数值误差，从而提高模型平均的预测效率，这在第3节的数值模拟结果中得到了很好的验证。

2.2. 渐近性质

本小节将讨论所提出的M-SJMA估计的渐近性质。为了说明的方便，先引入一些记号和定义。记 $Θ_{α}$ 为 $α$ 的参数空间， $l (α) = E [δ \log \bar{π} (x; α) + (1 - δ) \log (1 - \bar{π} (x; α))]$ 。定义二次损失函数 ${\tilde{L}}_{π} (\tilde{w}) = {‖ {\tilde{μ}}_{π} (\tilde{w}) - μ ‖}^{2}$ ， $\tilde{w} \in {\tilde{W}}^{M}$ ， $L_{π} (w) = {‖ {\hat{μ}}_{π} (w) - μ ‖}^{2}$ ， $w \in W$ ，相应的风险函数 $R_{π} (w) = E [L_{π} (w) | X]$ ，其中 ${\hat{μ}}_{π} (w) = H (w) z_{π}$ 。记 $ξ_{π} = \inf_{w \in W} R_{π} (w)$ 。

接下来，给出证明渐近性质所需要的条件。需要指出的是，所有的大样本条件和结论均是在 $n \to \infty$ 的意义上的。

(C1) $Θ_{α}$ 是有界闭集， $l (α)$ 在 $Θ_{α}$ 中关于 $α$ 有唯一的极大值点 $α_{0}$ ，且 $α_{0}$ 为 $Θ_{α}$ 的内点。 $\bar{π} (x; α)$ 关于 $α$ 二阶连续可微，且 $E {{[\partial \bar{π} (x; α) / \partial α \cdot \partial \bar{π} (x; α) / \partial α^{T}] |}_{α = α_{0}}}$ 为正定矩阵。 $\inf_{α \in Θ_{α}} \bar{π} (x; α) > 0$ 。

(C2)存在常数 $c_{1}, c_{2}$ ，使得 $\max_{1 \leq i \leq n} E (e_{i}^{4}) \leq c_{1}$ 和 $\max_{1 \leq i \leq n} | μ_{i} | \leq c_{2}$ 几乎处处成立。

(C3) $ξ_{π}^{- 1} p \overset{a . s .}{\to} 0$ 。

(C4)存在常数 $c_{3}$ ，使得 $\max_{i, j} u_{i j}^{2} \leq c_{3} n^{- 1}$ ，其中 $u_{i j}$ 为矩阵 $U$ 中的元素。

这里，条件(C1)是极大似然估计量 $\hat{α}$ 具有相合性和渐近正态性所需要的条件。条件(C2)~(C4)是模型平均估计中常用的条件，比如文献 [5] [9] 中都有类似的条件。

定理1：在条件(C1)~(C3)下，当 $n \to \infty$ 时，有 $\frac{\inf_{w \in W} L_{\hat{π}} (w)}{\inf_{\tilde{w} \in {\tilde{W}}^{2^{p}}} {\tilde{L}}_{\hat{π}} (\tilde{w})} \overset{P}{\to} 1$ ，其中 ${\tilde{W}}^{2^{p}}$ 是当 $M = 2^{p}$ 时的权重向量集合 ${\tilde{W}}^{M}$ 。

定理1表明，可伸缩的模型平均方法与传统的 $2^{p}$ 个权重的模型平均方法相比，它们的最小二次损失是渐近相等的。

定理2：在条件(C1)~(C4)下，当 $n \to \infty$ 时，有 $\frac{L_{\hat{π}} ({\hat{w}}_{\hat{π}})}{\inf_{w \in W} L_{\hat{π}} (w)} \overset{P}{\to} 1$ 。

定理3：在条件(C1)~(C4)下，当 $n \to \infty$ 时，有 $\frac{L_{\hat{π}} ({\hat{w}}_{\hat{π}})}{\inf_{\tilde{w} \in {\tilde{W}}^{2^{p}}} {\tilde{L}}_{\hat{π}} (\tilde{w})} \overset{P}{\to} 1$ 。

根据定理1和定理2的结论，定理3显然成立。该定理表明被选出的p个权重 ${\hat{w}}_{\hat{π}}$ 所对应的二次损失渐近等价于不可获得的 $2^{p}$ 个最优权重所对应的二次损失，这说明所提出M-SJMA估计 ${\hat{μ}}_{\hat{π}} ({\hat{w}}_{\hat{π}})$ 在实现最小二次损失意义下是渐近最优的。

3. 数值模拟

本节将通过数值模拟来检验所提M-SJMA方法的有限样本性质。为了更好地评估，我们选取另外两种方法作为比较对象。第一种方法是基于完整数据(Complete Case, CC)分析的SJMA方法( [9] )，记此方法为CC-SJMA。第二种方法是响应变量缺失下的M-JMA方法( [3] [6] )。

考虑数据生成过程为

$y_{i} = μ_{i} + e_{i} = \sum_{j = 1}^{p} θ_{j} x_{i j} + e_{i},$

其中 $p = 5$ ， $θ = {(0.3, 0.6, 0.3, 0.3, 0.3)}^{T}$ ， $x_{i 1} = 1$ ，其余的 $x_{i j}$ 是独立同分布的标准正态随机变量， $e_{i} ~ 0.5 N (0, σ^{2}) + 0.5 N (0, 3 σ^{2})$ ， $i = 1, \dots, n$ ， $j = 2, 3, 4, 5$ 。通过选取合适的 $σ^{2}$ 将 $R^{2}$ 控制在集合 ${0.1, 0.2, \dots, 0.9}$ 上变动，其中：

$R^{2} = \frac{n^{- 1} \sum_{i = 1}^{n} {(μ_{i} - \bar{μ})}^{2}}{σ^{2} + n^{- 1} \sum_{i = 1}^{n} {(μ_{i} - \bar{μ})}^{2}}, \bar{μ} = n^{- 1} \sum_{i = 1}^{n} μ_{i}$ 。

选择概率函数 $π (x_{i})$ 设定为

$π (x_{i}) = Φ (α_{1} + α_{2} x_{i 2})$ ，

其中 $Φ (\cdot)$ 为标准正态分布的分布函数。选取两种不同的 $α$ 的值： $α = {(0.6, 0.5)}^{T}$ 和 $α = {(0, 0.5)}^{T}$ ，使得相应的平均缺失率分别大约为0.3和0.5。对M-JMA方法，考虑所有包含截距项的候选模型，故共有 $M = 2^{5}$ 个候选模型。

为了评估上述三种方法的表现，采用如下的均方误差(Mean Square Error, MSE)作为度量标准，定义如下：

$MSE = \sum_{d = 1}^{D} {‖ μ^{(d)} (w) - μ^{(d)} ‖}^{2} / D$ ，

其中D是试验的重复次数， $μ^{(d)}$ 表示 $μ$ 在第d次试验中的值， $μ^{(d)} (w)$ 是相应于 $μ^{(d)}$ 的模型平均估计。重复次数D设定为200，考虑的样本量为n = 50,150。为了便于比较，考虑基于完全数据的SJMA方法，并将其视为“黄金标准”用于比较中，记此方法为CD-SJMA。我们分别计算了CC-SJMA，M-JMA和所提M-SJMA方法的MSE除以CD-SJMA方法的MSE的比值，并报告最终的比值，模拟结果如图1所示。

Figure 1. The MSE ratios of different model averaging estimators

图1. 不同模型平均估计所对应的MSE比值

Table 1. The computational times (seconds) of different model averaging estimators with different feature dimension p

表1. 不同特征维度p下模型平均估计的计算时间(秒)

从图1中可以看出，本文所提出的M-SJMA方法的MSE在绝大多数情况下都是最小的。在考虑的所有情况下，M-SJMA的表现明显优于CC-SJMA的表现。并且在大部分情况下，M-SJMA都要比M-JMA表现更出色，特别当样本量较大时，如n = 150。这表明随着样本量的增大，M-JMA会因为计算成本增加产生更多的计算误差，从而导致预测精度降低。与M-JMA相比，CC-SJMA的表现大多数都很差。但是当缺失率较低，样本量较大(如n = 150，缺失率 = 0.3)时，M-JMA可能比CC-SJMA表现更差。这也说明当计算量增大时，可伸缩的模型平均方法在预测精度上是优于传统的模型平均方法的。

另外，针对不同的预测变量个数p和样本量n，我们比较了三种方法的计算时间，结果见表1。从表1中可以明显看出，随着p的增大，M-JMA的计算时间呈指数级增长，特别当p大于13时，由于权重向量维度过大，计算机无法进行优化计算。但是，对可伸缩的模型平均方法，如M-SJMA和CC-SJMA，它们的计算时间都非常短。即使当n = 300，p = 25时，M-SJMA和CC-SJMA的计算时间都小于273.3和318.7秒。

总之，模拟结果表明所提M-SJMA方法的有限样本性质要优于另外两种对比的方法。M-SJMA方法在预测精度和计算成本方面均表现优越。

4. 结论

基于逆概率加权，奇异值分解和Jackknife准则，本文研究了响应变量缺失下线性模型的可伸缩的模型平均估计问题。在理论上证明了所提M-SJMA方法的渐近最优性，并通过数值模拟进一步验证了所提方法的有限样本性质。未来可考虑将该方法推广到半参数模型的情况。

附录

定理1的证明：令 $P = U U^{T}$ ，通过使用与文献 [9] 中定理1类似的证明技巧，我们有

$\inf_{\tilde{w} \in {\tilde{W}}^{2^{p}}} {\tilde{L}}_{\hat{π}} (\tilde{w}) \geq {‖ P μ - μ ‖}^{2}$ ，

$\inf_{w \in W} L_{\hat{π}} (w) \leq {‖ P z_{\hat{π}} - μ ‖}^{2} \leq {‖ P μ - μ ‖}^{2} + e_{π}^{T} P e_{π} + {(z_{\hat{π}} - z_{π})}^{T} P (z_{\hat{π}} - z_{π}) + 2 ‖ z_{\hat{π}} - z_{π} ‖ ‖ P e_{π} ‖$ 。

在条件(C1)、(C2)下，存在常数c，使得 $\max_{1 \leq i \leq n} E (e_{π, i}^{4}) \leq c$ ，则

$e_{π}^{T} P e_{π} = E (e_{π}^{T} P e_{π}) + O_{P} {\sqrt{V a r (e_{π}^{T} P e_{π})}} = O_{P} (p)$ 。 (A.1)

另外，由文献 [7] 的引理1，有 ${‖ z_{\hat{π}} - z_{π} ‖}^{2} = O_{P} (1)$ ，可得

${(z_{\hat{π}} - z_{π})}^{T} P (z_{\hat{π}} - z_{π}) \leq λ_{\max} (P) {‖ z_{\hat{π}} - z_{π} ‖}^{2} \leq {‖ z_{\hat{π}} - z_{π} ‖}^{2} = O_{p} (1)$ ，

则有 $\inf_{w \in W} L_{\hat{π}} (w) \leq {‖ P μ - μ ‖}^{2} + O_{P} (p)$ ，且。

结合上述结果和条件(C3)，有

$1 \leq \frac{\inf_{w \in W} L_{\hat{π}} (w)}{\inf_{\tilde{w} \in {\tilde{W}}^{2^{p}}} {\tilde{L}}_{\hat{π}} (\tilde{w})} \leq \frac{{‖ P μ - μ ‖}^{2} + O_{P} (p)}{{‖ P μ - μ ‖}^{2}} \leq 1 + \frac{O_{P} (p)}{{‖ P μ - μ ‖}^{2}} \leq 1 + \frac{O_{P} (p)}{ξ_{π} - O_{P} (p)} = 1 + o_{P} (1)$ ，

故定理1得证。

定理2的证明：记 $A (w) = I_{n} - H (w)$ ， $Σ_{π} = E (e_{π} e_{π}^{T})$ 。经过简单的计算，有

$P H (w) = H (w)$ ， $R_{π} (w) = {‖ A (w) μ ‖}^{2} + t r (H (w) Σ_{π} H (w)) \geq {‖ A (w) μ ‖}^{2}$ ，

$L_{π} (w) - R_{π} (w) = {‖ H (w) e_{π} ‖}^{2} - 2 e_{π}^{T} H (w) A (w) μ - t r (H (w) Σ_{π} H (w))$ 。 (A.2)

首先， $J_{\hat{π}} (w) = {‖ z_{\hat{π}} - \hat{H} (w) z_{\hat{π}} ‖}^{2} = {‖ (z_{\hat{π}} - μ) + (μ - H (w) z_{\hat{π}}) - (\hat{H} (w) - H (w)) z_{\hat{π}} ‖}^{2}$ 可表示为

$J_{\hat{π}} (w) = L_{\hat{π}} (w) + t_{\hat{π}} (w) + {‖ z_{\hat{π}} - μ ‖}^{2} + 2 e_{π}^{T} μ - 2 e_{π}^{T} P μ$ ，

其中

$\begin{matrix} t_{\hat{π}} (w) = {‖ (\hat{H} (w) - H (w)) z_{\hat{π}} ‖}^{2} - 2 {(μ - H (w) z_{\hat{π}})}^{T} (\hat{H} (w) - H (w)) z_{\hat{π}} \\ - 2 {(z_{\hat{π}} - z_{π})}^{T} (\hat{H} (w) - H (w)) z_{\hat{π}} - 2 e_{π}^{T} (\hat{H} (w) - H (w)) z_{\hat{π}} \\ + 2 {(z_{\hat{π}} - z_{π})}^{T} (μ - H (w) z_{\hat{π}}) + 2 e_{π}^{T} {P A (w) μ - H (w) (z_{\hat{π}} - z_{π}) - H (w) e_{π}}, \end{matrix}$

故可知 ${\hat{w}}_{\hat{π}} = \arg \min_{w \in W} L_{\hat{π}} (w) + t_{\hat{π}} (w)$ 。据此，要证定理2成立，只用证：

$\sup_{w \in W} | \frac{L_{\hat{π}} (w)}{R_{π} (w)} - 1 | = o_{P} (1)$ ， (A.3)

$\sup_{w \in W} \frac{| t_{\hat{π}} (w) |}{R_{π} (w)} = o_{P} (1)$ 。 (A.4)

对(A.3)，由于 $L_{\hat{π}} (w) = {‖ H (w) z_{\hat{π}} - μ ‖}^{2} = L_{π} (w) + 2 {(H (w) z_{π} - μ)}^{T} H (w) (z_{\hat{π}} - z_{π}) + {‖ H (w) (z_{\hat{π}} - z_{π}) ‖}^{2}$ ，则有

$| \frac{L_{\hat{π}} (w)}{R_{π} (w)} - 1 | \leq | \frac{L_{π} (w)}{R_{π} (w)} - 1 | + \frac{2 {L_{π} (w)}^{1 / 2} ‖ H (w) (z_{\hat{π}} - z_{π}) ‖}{R_{π} (w)} + \frac{{‖ H (w) (z_{\hat{π}} - z_{π}) ‖}^{2}}{R_{π} (w)}$ ， (A.5)

由(A.2)，若(i) $\sup_{w \in W} {‖ H (w) e_{π} ‖}^{2} / R_{π} (w) = o_{P} (1)$ ；(ii) $\sup_{w \in W} | e_{π}^{T} H (w) A (w) μ | / R_{π} (w) = o_{P} (1)$ ，(iii) $\sup_{w \in W} t r (H (w) Σ_{π} H (w)) / R_{π} (w) = o_{P} ( 1 )$

成立，则有

$\sup_{w \in W} | L_{π} (w) / R_{π} (w) - 1 | = o_{P} (1)$ 。 (A.6)

事实上，由于 $H (w) = \sum_{j = 1}^{p} w_{j} u_{(j)} u_{(j)}^{T} \leq P$ ， $H^{2} (w) = {\sum_{j = 1}^{p} w_{j} u_{(j)} u_{(j)}^{T}}^{2} = \sum_{j = 1}^{p} w_{j}^{2} u_{(j)} u_{(j)}^{T} \leq P$ ，这里的不等号是Loewner序：即矩阵 $A \leq B$ 表示当且仅当 $B - A$ 为半正定矩阵。据此，类似于文献 [9] 中引理1中的证明，由条件(C2)，(C3)和结论(A.1)，可知(i)~(iii)成立。

另外，注意到

${‖ H (w) (z_{\hat{π}} - z_{π}) ‖}^{2} = {(z_{\hat{π}} - z_{π})}^{T} H^{2} (w) (z_{\hat{π}} - z_{π}) \leq {(z_{\hat{π}} - z_{π})}^{T} P (z_{\hat{π}} - z_{π}) \leq {‖ z_{\hat{π}} - z_{π} ‖}^{2}$ , (A.7)

由条件(C2)，(C3)和 ${‖ z_{\hat{π}} - z_{π} ‖}^{2} = O_{p} (1)$ ，不难证明

$\sup_{w \in W} {‖ z_{\hat{π}} - z_{π} ‖}^{2} / R_{π} (w) = o_{P} (1)$ 。 (A.8)

从而，结合(A.5)~(A.8)的结果(A.3)得证。

对(A.4)，我们有

$\begin{matrix} | t_{\hat{π}} (w) | \leq {‖ (\hat{H} (w) - H (w)) z_{\hat{π}} ‖}^{2} + 2 {L_{\hat{π}} (w)}^{1 / 2} ‖ (\hat{H} (w) - H (w)) z_{\hat{π}} ‖ \\ + 2 ‖ z_{\hat{π}} - z_{π} ‖ ‖ (\hat{H} (w) - H (w)) z_{\hat{π}} ‖ + 2 | e_{π}^{T} (\hat{H} (w) - H (w)) z_{\hat{π}} | \\ + 2 {‖ (z_{\hat{π}} - z_{π}) ‖}^{T} {L_{\hat{π}} (w)}^{1 / 2} + 2 | e_{π}^{T} P A (w) μ | + 2 | e_{π}^{T} H (w) (z_{\hat{π}} - z_{π}) | + 2 e_{π}^{T} H (w) e_{π}, \end{matrix}$

这一结果与(A.3)、(A.8)相结合，不难看出，要证(A.4)成立，我们只用证

$\sup_{w \in W} {‖ (\hat{H} (w) - H (w)) z_{\hat{π}} ‖}^{2} / R_{π} (w) = o_{P} (1)$ ， (A.9)

$\sup_{w \in W} | e_{π}^{T} (\hat{H} (w) - H (w)) z_{\hat{π}} | / R_{π} (w) = o_{P} (1)$ ， (A.10)

$\sup_{w \in W} | e_{π}^{T} P A (w) μ | / R_{π} (w) = o_{P} (1)$ ， (A.11)

$\sup_{w \in W} | e_{π}^{T} H (w) (z_{\hat{π}} - z_{π}) | / R_{π} (w) = o_{P} (1)$ ， (A.12)

$\sup_{w \in W} e_{π}^{T} H (w) e_{π} / R_{π} (w) = o_{P} (1)$ 。 (A.13)

记 $Q_{j}$ 为对角元素为 $h_{j, i i} {(1 - h_{j, i i})}^{- 1}$ 的n阶对角阵， $Α_{j} = Ι_{n} - Η_{j}$ ，则 ${\hat{H}}_{j} = H_{j} - Q_{j} A_{j}$ , $j = 1, \dots, p$ 。由条件(C4)可知 $h_{j, i i} = u_{i j}^{2} \leq c_{3} n^{- 1}$ ，且在条件(C1)和(C2)下，有 $n^{- 1} {‖ z_{\hat{π}} ‖}^{2} \leq n^{- 1} ({‖ z_{\hat{π}} - z_{π} ‖}^{2} + {‖ z_{π} ‖}^{2}) = O_{P} (1)$ ， $n^{- 1} {‖ e_{π} ‖}^{2} = O_{P} (1)$ 。因此，我们有

$\begin{array}{l} \sup_{w \in W} {‖ (\hat{H} (w) - H (w)) z_{\hat{π}} ‖}^{2} / R_{π} (w) \\ = \sup_{w \in W} \sum_{j = 1}^{p} \sum_{k = 1}^{p} w_{j} w_{k} z_{\hat{π}}^{T} A_{j} Q_{j} Q_{k} A_{k} z_{\hat{π}} / R_{π} (w) \\ = \sup_{w \in W} \sum_{j = 1}^{p} \sum_{k = 1}^{p} w_{j} w_{k} z_{\hat{π}}^{T} (\frac{A_{j} Q_{j} Q_{k} A_{k} + A_{k} Q_{k} Q_{j} A_{j}}{2}) z_{\hat{π}} / R_{π} (w) \\ \leq \sup_{w \in W} \sum_{j = 1}^{p} \sum_{k = 1}^{p} w_{j} w_{k} λ_{\max} (A_{j} Q_{j} Q_{k} A_{k}) {‖ z_{\hat{π}} ‖}^{2} / R_{π} (w) \\ \leq ξ_{π}^{- 1} p^{2} {(\frac{c_{3} n^{- 1}}{1 - c_{3} n^{- 1}})}^{2} {‖ z_{\hat{π}} ‖}^{2} = O_{P} (ξ_{π}^{- 1} p) = o_{P} ( 1 ) \end{array}$

$\begin{array}{l} \sup_{w \in W} | e_{π}^{T} (\hat{H} (w) - H (w)) z_{\hat{π}} | / R_{π} (w) \\ \leq \sup_{w \in W} \sum_{j = 1}^{p} w_{j} | e_{π}^{T} Q_{j} A_{j} z_{\hat{π}} | / R_{π} (w) \\ \leq \sup_{w \in W} \sum_{j = 1}^{p} w_{j} ‖ Q_{j} e_{π} ‖ ‖ A_{j} z_{\hat{π}} ‖ / R_{π} (w) \\ \leq ξ_{π}^{- 1} p \frac{c_{3} n^{- 1}}{1 - c_{3} n^{- 1}} ‖ e_{π} ‖ ‖ z_{\hat{π}} ‖ = O_{P} (ξ_{π}^{- 1} p) = o_{P} ( 1 ) \end{array}$

$\begin{array}{l} \sup_{w \in W} | e_{π}^{T} P A (w) μ | / R_{π} (w) \\ \leq \sup_{w \in W} ‖ P e_{π} ‖ ‖ A (w) μ ‖ / R_{π} (w) \\ \leq \sup_{w \in W} ‖ P e_{π} ‖ / R_{π}^{1 / 2} (w) = O_{P} (ξ_{π}^{- 1 / 2} p^{1 / 2}) = o_{P} ( 1 ) \end{array}$

$\begin{array}{l} \sup_{w \in W} | e_{π}^{T} H (w) (z_{\hat{π}} - z_{π}) | / R_{π} (w) \\ = \sup_{w \in W} | e_{π}^{T} P H (w) (z_{\hat{π}} - z_{π}) | / R_{π} (w) \\ \leq \sup_{w \in W} ‖ P e_{π} ‖ ‖ H (w) (z_{\hat{π}} - z_{π}) ‖ / R_{π} (w) \\ \leq \sup_{w \in W} {(e_{π}^{T} P e_{π})}^{1 / 2} {{(z_{\hat{π}} - z_{π})}^{T} P (z_{\hat{π}} - z_{π})}^{1 / 2} / R_{π} (w) \\ = O_{P} (ξ_{π}^{- 1} p^{1 / 2}) = o_{P} ( 1 ) \end{array}$

$\sup_{w \in W} e_{π}^{T} H (w) e_{π} / R_{π} (w) \leq \sup_{w \in W} e_{π}^{T} P e_{π} / R_{π} (w) = O_{P} (ξ_{π}^{- 1} p) = o_{P} ( 1 )$

故(A.9)~(A.13)成立，至此(A.4)证毕。进而定理2得证。

参考文献

[1]	Hansen, B.E. (2007) Least Squares Model Averaging. Econometrica, 75, 1175-1189. [Google Scholar] [CrossRef]
[2]	Wan, A.T., Zhang, X. and Zou, G. (2010) Least Squares Model Averaging by Mallows Criterion. Journal of Econometrics, 156, 277-283. [Google Scholar] [CrossRef]
[3]	Hansen, B.E. and Racine, J.S. (2012) Jackknife Model Averaging. Journal of Econometrics, 167, 38-46. [Google Scholar] [CrossRef]
[4]	Liu, Q. and Okui, R. (2013) Heteroscedasticity-Robust C_p Model Averaging. The Econometrics Journal, 16, 463-472. [Google Scholar] [CrossRef]
[5]	Zhang, X., Wan, A.T. and Zou, G. (2013) Model Averaging by Jackknife Criterion in Models with Dependent Data. Journal of Econometrics, 174, 82-94. [Google Scholar] [CrossRef]
[6]	Wei, Y. and Wang, Q. (2021) Cross-Validation-Based Model Averaging in Linear Models with Response Missing at Random. Statistics & Probability Letters, 171, Article ID: 108990. [Google Scholar] [CrossRef]
[7]	Wei, Y., Wang, Q. and Liu, W. (2021) Model Averaging for Linear Models with Responses Missing at Random. Annals of the Institute of Statistical Mathematics, 73, 535-553. [Google Scholar] [CrossRef]
[8]	Zeng, J., Cheng, W. and Hu, G. (2023) Optimal Model Averaging Estimation for the Varying-Coefficient Partially Linear Models with Missing Responses. Mathematics, 11, Article 1883. [Google Scholar] [CrossRef]
[9]	Zhu, R., Wang, H., Zhang, X. and Liang, H. (2023) A Scalable Frequentist Model Averaging Method. Journal of Business & Economic Statistics, 41, 1228-1237. [Google Scholar] [CrossRef]

为你推荐

友情链接