多任务Kriging变量选择的研究与应用

doi:10.12677/AAM.2023.123124

期刊菜单

多任务Kriging变量选择的研究与应用
Research and Application on Variable Selection in Multi-Task Kriging Model

DOI: 10.12677/AAM.2023.123124, PDF, HTML, XML,
作者: 纪洁, 邹晨晨^*：青岛大学数学与统计学院，山东青岛
关键词: 多响应Kriging模型；模型选择；多任务学习；惩罚函数；Multi-Response Kriging Model； Variable Selection； Multi-Task Learning； Penalization

摘要: 本文研究多任务Kriging模型的变量选择问题，并给出多种稀疏化惩罚下多任务Kriging的变量选择算法。数值模拟及实例分析表明，相比单任务的Kriging变量选择，多任务模式能显著提高计算效率而不失模型拟合的准确性；相比LMC及卷积模型，多任务稀疏化Kriging能有效提取任务间的共性信息，极大节约计算成本同时提高预测精度。

Abstract: We study the variable selection in multi-task Kriging model and develop the algorithms for com-monly used penalizations. In numerical simulations, our multi-task penalized approach achieves higher computational efficiency without loss of accuracy and stability compared to the single-task approach. In real data application, multi-task penalized Kriging effectively captures shared features among tasks and thus reduces computational burden compared with the LMC and CONV models.

文章引用：纪洁, 邹晨晨. 多任务Kriging变量选择的研究与应用[J]. 应用数学进展, 2023, 12(3): 1224-1230. https://doi.org/10.12677/AAM.2023.123124

1. 引言

计算机试验通过建立相对低成本的元模型来模拟复杂物理问题中的输入输出关系 [1]。Kriging模型作为一种经典的元模型，其变量选择被广泛的研究和应用 [2]。研究者先后提出Lasso Kriging [3]，惩罚盲Kriging [4]，惩罚盲似然Kriging [5] [6]，随机搜索盲Kriging [7] 及稀疏回归Kriging模型 [8] 等。

目前变量选择的研究普遍基于单任务Kriging模型。对于具有多响应的系统，逐个应用单任务式的变量筛选，一方面容易忽略任务间的关联及共享信息，另一方面未能利用多任务学习计算效率上的优势。多任务的Kriging模型受到越来越多的关注，但截至目前，多任务Kriging变量选择的研究相对有限 [9]。

变量选择对于多任务Kriging模型的意义不仅限于核心特征筛选。多任务学习在Kriging趋势函数部分的正则化惩罚可有效提取任务间共享信息，相比常用于处理多任务高斯过程的线性协同区域模型 (LMC) [10] 和卷积模型(CONV) [11]，稀疏化的多任务Kriging能以更低的计算成本拟合任务间的关联性，同时具备相当甚至更好的预测精度。

本文研究多任务Kriging模型趋势函数部分的变量选择方法。内容安排如下：第二部分介绍多任务 Kriging模型；第三部分介绍多任务Kriging模型变量选择算法；第四部分为数值模拟研究；第五部分为实例应用及分析；第六部分为研究总结。

2. 多任务Kriging模型简述

设系统中有m个输出如下：

$Y_{t} (x) = f^{T} (x) β_{t} + z_{t} (x), t = 1, \dots, m$ (1)

其中 $f (x) = {(f_{1} (x), \dots, f_{p} (x))}^{T}$ 是已知的基函数， $β_{t} = {(β_{t 1}, \dots, β_{t p})}^{T}$ 是待估的系数向量， $z_{t} (x)$ 是零均值、相互独立的高斯过程 $(t = 1, \dots, m)$ 。对于任意给定的两点 $x$ 和 $x^{'}$ ， $Y_{t} (x)$ 和 $Y_{t} (x^{'})$ 的协方差为

$K_{t} (x, x^{'}) = c o v (Y_{t} (x), Y_{t} (x^{'})) = c o v (z_{t} (x), z_{t} (x^{'})) = σ_{t}^{2} R_{t} (x, x^{'})$ (2)

其中 $R_{t} (x, x^{'}) = \exp (- \sum_{h = 1}^{d} θ_{t h} | x_{h} - x_{h^{'}} |)$ ， $θ_{t}$ 是自相关系数。本文采取约束极大似然法估计参数，对数似然函数为

$\ln L = - \frac{1}{2} \sum_{t = 1}^{m} [{(Y_{t} - F (X_{t}) β_{t})}^{T} K_{t}^{- 1} (Y_{t} - F (X_{t}) β_{t}) + \ln | K_{t} |]$ (3)

其中， $X_{t} = {(x_{t 1}, \dots, x_{t n_{t}})}^{T}$ 表示 $n_{t}$ 组观测点的输入， $F (X_{t}) = (f_{j} x_{t i}), i = 1, \dots, n_{t}; j = 1, \dots, p$ 表示 $n_{t} \times p$ 的基函数矩阵， $K_{t}$ 表示第t个任务 $n_{t} \times n_{t}$ 的协方差矩阵， $t = 1, \dots, m$ 。给定 $θ_{t}$ ，最大化(3)式得到 $(β_{t}, σ_{t}^{2})$ 的估计

${\hat{β}}_{t} (θ_{t}) = {(F^{T} (X_{t}) K_{t}^{- 1} F (X_{t}))}^{- 1} F {(X_{t})}^{T} K_{t}^{- 1} Y_{t}$ (4)

${\hat{σ}}_{t}^{2} (θ_{t}) = \frac{{(Y_{t} - F (X_{t}) {\hat{β}}_{t})}^{T} K_{t}^{- 1} (Y_{t} - F (X_{t}) {\hat{β}}_{t})}{n_{t}}$ (5)

将(4) (5)代入(3)式关于 $θ_{t}$ 最大化可得

${\hat{θ}}_{t} = \arg \min_{θ_{t}} {(n_{t} - p) \ln {\hat{σ}}_{t}^{2} (θ_{t}) + \ln | K_{t} | + \ln | F^{T} (X_{t}) K_{t}^{- 1} F (X_{t}) |}$ (6)

在预测点 $x^{*}$ ，最佳线性无偏估计为

${\hat{y}}_{t} (x^{*}) = f^{T} (x^{*}) {\hat{β}}_{t} + k_{t^{*}}^{T} K_{t}^{- 1} (Y_{t} - F (X_{t}) {\hat{β}}_{t}), t = 1, \dots, m$ (7)

其中， $k_{t^{*}} = K_{t} (X_{t}, x^{*}) \in R^{n_{t} \times 1}$ ， $t = 1, \dots, m$ 。

3. 多任务Kriging模型变量选择算法

本文通过惩罚似然法估计模型参数。记 $β = (β_{1}, \dots, β_{m})$ ， $P (λ; β)$ 表示由超参数λ调整的惩罚函数，如Multi-task Lasso [12] 、L₂₁-norm [13] 及Dirty Model [14]。多任务Kriging的变量选择算法步骤如下：

算法3.1

Step 1：设置初值 ${\hat{σ}}_{t}^{(0)}$ ， ${\hat{θ}}_{t h}^{(0)}$ ， $h = 1, \dots, d$ ，代入(2)式得到协方差矩阵 $K_{t}$ ， $t = 1, \dots, m$ ；

Step 2：Cholesky分解 $K_{t}^{- 1} = C_{t}^{T} C_{t}$ ，令 ${\tilde{Y}}_{t} = C_{t} Y_{t}$ ， ${\tilde{F}}_{t} = C_{t} F (X_{t})$ ，最小化下式求解 ${\hat{β}}_{t}^{(1)}$ ， $t = 1, \dots, m$ ，

$\sum_{t = 1}^{m} {‖ {\tilde{Y}}_{t} - {\tilde{F}}_{t} β_{t} ‖}_{2}^{2} + P (λ; β)$ (8)

$λ$ 利用交叉验证调节；

Step 3：将 ${\hat{β}}_{t}^{(1)}$ 代入(3)、(6)式求得更新后的 ${\hat{σ}}_{t}^{(1)}$ ， ${\hat{θ}}_{t}^{(1)}$ ， $t = 1, \dots, m$ ；

Step 4：重复Step 2，Step 3直至收敛。

Multi-task Lasso [12] 通过最小化下式得到 ${\hat{β}}_{t}$ ， $t = 1, \dots, m$ 。

$\min_{β_{t}} \sum_{t = 1}^{m} {‖ {\tilde{Y}}_{t} - {\tilde{F}}_{t} β_{t} ‖}_{2}^{2} + λ \sum_{t = 1}^{m} {‖ β_{t} ‖}_{1}$ (9)

其中， ${‖ β_{t} ‖}_{1} = \sum_{j = 1}^{p} | β_{t j} |$ ，对应修改Step 2里 $P (λ; β) = λ \sum_{t = 1}^{m} {‖ β_{t} ‖}_{1}$ 即可。

L₂₁-norm方法 [13] 对 $β$ 逐行稀疏化筛选，为m个任务选择共享特征，同时实现下述目标函数：

$\min_{β_{t}} \sum_{t = 1}^{m} {‖ {\tilde{Y}}_{t} - {\tilde{F}}_{t} β_{t} ‖}_{2}^{2} + λ \sum_{t = 1}^{m} \sqrt{\sum_{j = 1}^{p} β_{t j}^{2}}$ (10)

对应修改Step 2里 $P (λ; β) = λ \sum_{t = 1}^{m} \sqrt{\sum_{j = 1}^{p} β_{t j}^{2}}$ 即可。

Dirty Model方法 [14] ：Dirty Model的关键思想是将 $β$ 分解为P和Q两个分量， $λ_{1}$ 控制P上的群稀疏正则化， $λ_{2}$ 控制Q上的稀疏正则化，鼓励所有任务选择相同的一组特征(通过组稀疏组件)，目标函数表示为：

$\min_{β_{t}} \sum_{t = 1}^{m} {‖ {\tilde{Y}}_{t} - {\tilde{F}}_{t} (P_{t} + Q_{t}) ‖}_{2}^{2} + λ_{1} {‖ P ‖}_{1, \infty} + λ_{2} {‖ Q ‖}_{1}$ (11)

其中 ${‖ P ‖}_{1, \infty} = \max {‖ P_{j} ‖}_{1, \infty}, {‖ Q ‖}_{1} = \sum_{t = 1}^{m} \sum_{j = 1}^{p} | Q_{t j} |$ ，对应修改Step 2里 $P (λ; β) = λ_{1} {‖ P ‖}_{1, \infty} + λ_{2} {‖ Q ‖}_{1}$ 。

4. 数值模拟研究

我们对单任务Lasso惩罚(Lasso)，多任务Lasso惩罚(MTL)，L₂₁-norm惩罚(L₂₁)以及Dirty Model惩罚(Dirty)下的Kriging模型，拟合效果进行模拟比较,。软件采用MATLAB，以工具箱MALSAR [15] 为主进行多任务计算。基本原理见第三部分。评估从以下5个指标进行：积极变量识别率均值(AEIR)、消极变量识别率均值(IEIR)、模型长度均值(MEAN)、均方根预测误差平均值(MRMSPE)以及均方根预测误差标准差(sd (RMSPE))。AEIR越大越好；IEIR，MRMSPE，sd (RMSPE)越小越好；MEAN越接近真实值越好。

模拟:本研究根据以下三种模型生成响应数据，分别是：

模型I：

$y_{t} = β_{t, 0} + β_{t, 1} x_{1} + β_{t, 2} x_{2} + β_{t, 3} x_{3} + z_{t} (x), t = 1, 2$ (13)

模型II：

$y_{t} = β_{t, 0} + β_{t, 1} x_{1} + β_{t, 2} x_{2} + β_{t, 3} x_{3} + β_{t, 4} x_{1}^{2} + β_{t, 5} x_{2}^{2} + β_{t, 6} x_{3}^{2} + z_{t} (x), t = 1, 2$ (14)

模型III：

$\begin{array}{l} y_{t} = β_{t, 0} + β_{t, 1} x_{1} + β_{t, 2} x_{2} + β_{t, 3} x_{3} + β_{t, 4} x_{1}^{2} + β_{t, 5} x_{2}^{2} + β_{t, 6} x_{3}^{2} + β_{t, 7} x_{1} x_{2} \\ + β_{t, 8} x_{1} x_{3} + β_{t, 9} x_{2} x_{3} + z_{t} (x), t = 1, 2 \end{array}$ (15)

其中， $x = {(x_{1}, \dots, x_{8})}^{T}$ ，对于每个模型，回归系数独立地从 $[- 20, - 10] \cup [10, 20]$ 随机选择。此外，我们随机选择 $p_{k} \times ρ_{k}$ ，其中 $ρ_{p} = 1 / 3$ 是一个模拟参数，相应的回归系数从 $[- 10, 0] \cup [0, 10]$ 中随机选择。 $z (x)$ 是一个中心平稳多元高斯过程，其相关函数由exp相关函数

$R_{t} (x, x^{'}) = \exp (- \sum_{h = 1}^{d} θ_{t h} | x_{h} - x_{h^{'}} |)$ (16)

给出，参数 $θ$ 在[0, 2]上随机生成，过程方差被设置为1。

样本从[0, 1]上通过拉丁超立方抽样取得，对于上述设置运行50次，训练样本量设为50，预测样本量设为500，结果见表1。

Table 1. Variable selection on simulated Multi-task Kriging

表1. 模拟多任务Kriging模型的变量选择

单任务Kriging相比多任务Kriging，预测精度上总体相差不大，多任务对复杂情况表现更稳定，多任务比单任务更省时。

多任务之间比较而言，预测精度上MTL对不同复杂情况的预测更加稳定，而Dirty 和L₂₁模型会随着模型复杂程度增加，其预测精度均出现越来越差和较大的波动；变量识别率上，三者对积极变量的识别率都在80%以上，对消极变脸的识别率，MTL明显更有优势，这是由于Dirty和L₂₁都有强制为不同的任务选择共同变量的特性，这就会出现在任务间存在差异时共享信息中包含不适用本任务信息的情况，从而导致它们的IEIR相对较高；计算上，Dirty Model的运算时间远高于MTL、L₂₁。

由上表可知，当真实模型为多响应高斯过程时，多任务Kriging模型变量选择能够在保证预测精度的同时减少运算时间。相较于Dirty和L21，MTL更稳定，且更能好地简化模型。

5. 实例分析

我们将MTL模型、LMC模型以及CONV模型用于在伊朗德黑兰370栋住宅公寓数据集 [16]，进行分析预测，旨在提供一个关于在设计阶段或施工初期估算任何给定城市的新住房价格的代理模型，该模型将显示与新建筑单元销售价格相关的影响因素。每组观测值由27个输入和2个输出组成，其中，输入变量为房地产单元的物理和财务属性(x₁~x₈)以及相关的经济变量(x₉~x₂₇)，输出变量为实际销售价格以及实际建筑费用。

我们采用5折交叉验证调节惩罚函数，超过75%的任务中明显不重要的输入包括市颁发的建筑许可证总建筑面积x₁₃，时间分辨率下的贷款利率x₁₉和私营部门在建筑开始时的平均建筑成本x₂₀，房地产单元的物理和财务属性(x₁~x₈)为显著重要变量，这与Rafiei [16] 的研究结果一致。

我们比较MTL、LMC、CONV三种模型在测试集上的均方根预测误差平均值。LMC由Multi-output-Gaussian-Process [17] 包实现，CONV由multigp [18] 实现，均采用默认设置。MTL的预测效果最好，LMC次之。模型训练时间上，MTL对多个任务的共性提炼相当于模拟高斯过程不同响应间的相关性，相比LMC和CONV对任务间相关性的挖掘方式，大大提高了运算效率，同时预测更加精准(见表2)。

Table 2. The comparison of prediction results and training model time of three models

表2. 三个模型的预测结果及训练模型时间比较

6. 总结

在单任务Kriging模型相关研究的基础上，本文研究了多任务Kriging模型的变量选择问题，并给出了该模型的与建筑销售和实际费用实例相关的试验。模拟结果和实例验证表明，与LMC和COMV相比，多任务Kriging模型变量选择方法能够提高拟合模型的准确性并有效降低其运算成本。多任务Kriging模型能够筛选出对新房市场更具影响的因素，并筛除不重要变量，简化模型，充分借鉴多任务之间的相关信息，本研究使用相对较少样本来训练模型，可有效减轻收集数据所带来的成本问题，可操作性更强，同时可训练出泛化性能更好的新住房价格的代理模型。

NOTES

^*通讯作者。

参考文献

[1]	Liu, H., Cai, J. and Ong, Y.S. (2018) Remarks on Multi-Output Gaussian Process Regression. Knowledge-Based Sys-tems, 144, 102-121. [Google Scholar] [CrossRef]
[2]	Lee, H., Lee, D.J. and Kwon, H. (2018) Development of an Optimized Trend Kriging Model Using Regression Analysis and Selection Process for Optimal Sub-set of Basis Functions. Aerospace Science and Technology, 77, 273-285. [Google Scholar] [CrossRef]
[3]	Park, I. (2021) Lasso Kriging for Efficiently Selecting a Global Trend Model. Structural and Multidisciplinary Optimization, 64, 1527-1543. [Google Scholar] [CrossRef]
[4]	Hung, Y. (2011) Penalized Blind Kriging in Computer Experi-ments. Statistica Sinica, 21, 1171-1190. [Google Scholar] [CrossRef]
[5]	Zhang, Y., Yao, W., Ye, S. and Chen, X. (2019) A Regularization Meth-od for Constructing Trend Function in Kriging Model. Structural and Multidisciplinary Optimization, 59, 1221-1239. [Google Scholar] [CrossRef]
[6]	Zhang, Y., Yao, W., Chen, X. and Ye, S. (2020) A Penalized Blind Likelihood Kriging Method for Surrogate Modeling. Structural and Multidisciplinary Optimization, 61, 457-474. [Google Scholar] [CrossRef]
[7]	Huang, H., Lin, D.K., Liu, M.Q. and Zhang, Q. (2020) Variable Selection for Kriging in Computer Experiments. Journal of Quality Technology, 52, 40-53. [Google Scholar] [CrossRef]
[8]	Shao, W., Deng, H., Ouyang, L. and Ge, Q. (2022) A Type-II Maximum-Likelihood Approach to Gaussian Scale Mixture-Based Sparse Regression Kriging. Computers & Industrial Engineering, 168, Article ID: 108028. [Google Scholar] [CrossRef]
[9]	Zhu, J. and Sun, S. (2014) Multi-Task Sparse Gaussian Processes with Improved Multi-Task Sparsity Regularization. Pattern Recognition: 6th Chinese Conference, Changsha, 17-19 No-vember 2014, 54-62. [Google Scholar] [CrossRef]
[10]	Liu, H., Ding, J., Xie, X., Jiang, X., Zhao, Y. and Wang, X. (2022) Scalable Multi-Task Gaussian Processes with Neural Embedding of Coregionalization. Knowledge-Based Systems, 247, Article ID: 108775. [Google Scholar] [CrossRef]
[11]	Luo, Y. and Mesgarani, N. (2019) Conv-Tasnet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation. IEEE/ACM Transactions on Audio, Speech, and Lan-guage Processing, 27, 1256-1266. [Google Scholar] [CrossRef]
[12]	Thung, K.H. and Wee, C.Y. (2018) A Brief Review on Mul-ti-Task Learning. Multimedia Tools and Applications, 77, 29705-29725. [Google Scholar] [CrossRef]
[13]	Argyriou, A., Evgeniou, T. and Pontil, M. (2008) Convex Mul-ti-Task Feature Learning. Machine Learning, 73, 243-272. [Google Scholar] [CrossRef]
[14]	Jalali, A., Sanghavi, S., Ruan, C. and Ravikumar, P. (2010) A Dirty Model for Multi-Task Learning. Proceedings of the 23rd International Conference on Neural Information Pro-cessing Systems, 1, 964-972.
[15]	Zhou, J., Chen, J. and Ye, J. (2011) Malsar: Multi-Task Learning via Structural Reg-ularization. Arizona State University, Tempe, Vol. 21, 1-50.
[16]	Rafiei, M.H. and Adeli, H. (2016) A Novel Machine Learning Model for Estimation of Sale Prices of Real Estate Units. Journal of Construction Engineering and Manage-ment, 142, Article ID: 04015066. [Google Scholar] [CrossRef]
[17]	Sadoughi, M., Li, M. and Hu, C. (2018) Multivariate System Reliability Analysis Considering Highly Nonlinear and Dependent Safety Events. Reliability Engineering & Sys-tem Safety, 180, 189-200. [Google Scholar] [CrossRef]
[18]	Alvarez, M.A. and Lawrence, N.D. (2011) Computationally Effi-cient Convolved Multiple Output Gaussian Processes. The Journal of Machine Learning Research, 12, 1459-1500.

为你推荐

友情链接