线性等式约束广义Lasso问题的算法研究

期刊菜单

线性等式约束广义Lasso问题的算法研究
Algorithm Research on Generalized Lasso Problems with Linear Equality Constraints

DOI: 10.12677/orf.2024.143306, PDF, HTML, XML, 下载: 20 浏览: 44
作者: 吴娟娟：上海理工大学理学院，上海
关键词: Lasso问题；邻近点算法；半光滑牛顿算法；Lasso Problem； Proximal Point Algorithm； Semi-Smooth Newton Algorithm

摘要: 随着大数据时代的到来，众多研究领域都涉及到优化问题的求解，其中Lasso问题的求解尤其受到学者们的广泛研究。针对Lasso问题的求解，学者们研发出众多算法。随着应用的场景不同以及对数据的要求不同，带有约束的广义Lasso问题逐渐受到人们关注。本文将已有的快速邻近点算法结合半光滑牛顿算法，应用到对一类含线性等式约束的广义Lasso问题进行求解，并在一定的假设条件下证明了该算法的收敛性。最后，通过数值实验证实了该算法的高效性。

Abstract: With the advent of the big data era, many research fields involve solving optimization problems, among which the solution of the Lasso problem has been widely studied by scholars. Scholars have developed numerous algorithms for solving the Lasso problem. As the application scenarios vary and the data requirements differ, the generalized Lasso problem with constraints has gradually attracted attention. This paper combines existing fast proximal point algorithms with a semi-smooth Newton algorithm to solve a class of generalized Lasso problems with linear equality constraints. The convergence of the algorithm is proved under certain assumptions. Finally, the efficiency of the algorithm is verified through numerical experiments.

文章引用：吴娟娟. 线性等式约束广义Lasso问题的算法研究[J]. 运筹与模糊学, 2024, 14(3): 694-706. https://doi.org/10.12677/orf.2024.143306

1. 引言

零和约束Lasso问题在生物领域有着广泛的应用背景。这种约束模型适用于许多生物学问题，尤其是在基因组学和生物信息学领域。例如：文献[1]中考虑具有零和约束的Lasso问题，如下：

$\begin{array}{l} \min_{x} \frac{1}{2} {‖ A x - y ‖}^{2} + λ {‖ x ‖}_{1} \\ s .t . \sum_{i = 1}^{n} x_{i} = 0, \end{array}$ (1)

其中 $‖ \cdot ‖$ 表示欧式范数， ${‖ \cdot ‖}_{1}$ 表示 $l_{1}$ 范数， $x \in R^{n}$ 为变量， $A \in R^{m \times n}$ ， $y \in R^{m}$ ， $λ \in R$ 均为给定量。在一些组成数据的回归模型中，即表示整体百分比或比例的数据中，需要这种特殊结构的约束。

由于约束的特殊性，该类优化问题通常出现在许多不同的领域，例如地质学、生物学、生态学和经济学。如：在微生物组分析中，数据集通常是标准化的，并产生成分数据[2] [3]。因此，设计求解该类问题的高效算法具有更加广泛的应用价值。为了使求解该类问题的算法具有广泛的应用性，现考虑求解如下更一般的等式约束广义Lasso问题：

$\begin{array}{l} \min_{x} \frac{1}{2} {‖ A x - y ‖}^{2} + h (x) \\ s .t . A (x) = b, \end{array}$ (2)

其中非光滑项函数 $h (x) : = λ {‖ x ‖}_{1}$ ， $‖ \cdot ‖$ 表示欧式范数， ${‖ \cdot ‖}_{1}$ 表示 $l_{1}$ 范数， $x \in R^{n}$ 为变量 $A \in R^{m \times n}$ ， $y \in R^{m}$ ， $λ \in R$ 均为给定量；约束中的 $A : R^{n} \to R^{s}$ 表示线性映射；向量 $b \in R^{s}$ 。

近年来，许多学者利用该问题的特殊结构，建立了良好的算法用来求解模型(1)。例如，Lin等人于2014年在[4]中提出了一种通过循环坐标下降的拉格朗日方法解决子问题；而Altenbuchinge等人于2017年在[5]中提出了基于变量随机选择的坐标下降策略。对于复合凸优化问题，Li [6]等人提出了一种快速邻近点算法求解复合凸优化问题模型，并基于对偶原理的半光滑牛顿算法高效稳定地求解了邻近点算法所涉及的重要子问题。

此外，考虑到约束套索的更一般形式，2016年Gaines等人在[7]中分析了一种基于二次规划的方法和ADMM方法，2020年Deng等人在[8]中提出了一种半光滑牛顿增广拉格朗日方法，文献[7] [9] [10]中设计了路径算法。

基于以上算法的启发，本文的目标是将邻近点半光滑牛顿算法推广到用于求解带线性等式约束Lasso问题(2)，并通过数值实验证实该算法求解该类带等式约束Lasso问题具有良好性能。

2. 理论知识

本节将讨论凸复合优化问题的一些稳定性性质。在之后的理论分析中可以很容易看出，这些稳定性性质是我们建立邻近点算法快速收敛的关键。

首先，给出邻近映射的定义，这将对分析邻近点算法起着至关重要的作用。

定义1 ([11] Definition 6.1) (proximal mapping)令 $ℋ$ 为有限维实值希尔伯特空间， $h : R \to R \cup {+ \infty}$ 为凸且封闭的函数。给定参数 $t > 0$ ，邻近映射定义如下：

${prox}_{t h} (x) : = \arg \min_{u \in ℋ} {h (u) + \frac{1}{2 t} {‖ u - x ‖}^{2}}, \forall x \in ℋ .$

接下来将给出Moreau包络的具体定义，如下：

定义2 ([11] Definition 6.52) (Moreau envelope)给定适当的闭凸函数 $h : R \to R \cup {+ \infty}$ 且参数 $t > 0$ ，则函数h的Moreau包络为：

$M_{h}^{t} (x) : = \min_{u \in ℋ} {h (u) + \frac{1}{2 t} {‖ u - x ‖}^{2}} .$

其中参数t称为光滑参数。

接下来，将给出有关非光滑性的相关分析的重要结论。

设 $X, Y$ 为两个有限维实向量空间。设 $O$ 为 $X$ 的一个开集，且 $Φ : O \to Y$ 为局部Lipschitz连续函数。由Rademacher定理([12] Theorem 9.60)可知，函数 $Φ (\cdot)$ 在 $O$ 中几乎处处F可微。用 $D_{Φ}$ 表示集合 $O$ 中函数 $Φ$ 均F可微的点集。用 $\partial_{B} Φ (x)$ 表示函数 $Φ$ 在点 $x \in O$ 处的B次微分，定义如下：

$\partial_{B} Φ (x) : = {\lim_{k \to \infty} \nabla Φ (x^{k}) : x^{k} \in D_{Φ}, x^{k} \to x} .$

进一步，函数 $Φ$ 在点x处的Clarke广义Jacobian矩阵是由 $\partial_{B} Φ (x)$ 的凸包定义，即 $\partial Φ (x) : = c o (\partial_{B} Φ (x))$ ，并且用 $\nabla Φ (x^{k}; Δ x)$ 表示函数 $Φ$ 在点x处沿着非零方向 $Δ x \in X$ 的方向导数。

下面回顾一些关于半光滑性的概念。这有助于建立算法局部收敛的超线性速度。类似于[13]和[14]，给出半光滑性的定义。

定义3 (半光滑性质) [13] [14]令 $F : U \subseteq R^{n} \to R^{m}$ 是局部Lipschitz连续的。令 $ℳ (x)$ 为函数族，其中每个函数 $M (x; \cdot)$ 为 $R^{n}$ 到 $R^{m}$ 的映射，并且满足 $M (x; 0) = 0$ 。函数F被称为在点 $\bar{x} \in U$ 处关于 $ℳ$ 是半光滑的，若F在点 $\bar{x} \in U$ 处方向可微且对于任意 $M (\bar{x} + Δ x; \cdot) \in ℳ (\bar{x} + Δ x)$ 有

$F (\bar{x} + Δ x) - F (\bar{x}) - M (\bar{x} + Δ x; Δ x) = o ({‖ Δ x ‖}_{2}),$

其中 $o ({‖ Δ x ‖}_{2})$ 表示当 $Δ x \to 0$ 时 ${‖ Δ x ‖}_{2}$ 的高阶无穷小量。

同样，函数F被称为在点 $\bar{x} \in U$ 处关于 $ℳ$ 是强半光滑的，若F在点 $\bar{x} \in U$ 处方向可微且对于任意 $M (\bar{x} + Δ x; \cdot) \in ℳ (\bar{x} + Δ x)$ 有

$F (\bar{x} + Δ x) - F (\bar{x}) - M (\bar{x} + Δ x; Δ x) = O ({‖ Δ x ‖}_{2}^{2}),$

其中 $O ({‖ Δ x ‖}_{2}^{2})$ 表示当 $Δ x \to 0$ 时 ${‖ Δ x ‖}_{2}^{2}$ 的同阶无穷小量。

在上述理论知识的基础上，将进行优化问题的具体算法设计。

3. 求解等式约束广义Lasso问题(2)

由于问题(2)中 $l_{1}$ 范数的存在，使得问题不易求解，因此考虑采用邻近点算法(PPA)求解问题(2)，邻近点算法求解产生了问题(2)的PPA子问题，此时PPA子问题的目标函数中两个变量可以完全分离，又保证了其强凸性。

3.1. PPA子问题

将问题(2)的目标函数Moreau-Yosida正则化后得PPA子问题：

$\begin{array}{l} \min_{x} \frac{1}{2} {‖ A x - y ‖}_{2}^{2} + h (x) + \frac{1}{2 t} {‖ x - x^{k - 1} ‖}_{2}^{2} \\ s .t . A (x) = b, \end{array}$ (3)

其中 $t > 0$ 是正则化因子， $x^{k - 1} \in R^{n}$ 。

由于问题(2)的目标函数是凸函数，所以加入正则项后可得目标函数

$\frac{1}{2} {‖ A x - y ‖}_{2}^{2} + λ {‖ x ‖}_{1} + \frac{1}{2 t} {‖ x - x^{k - 1} ‖}_{2}^{2}$ 是强凸的，因此在约束准则Slater条件成立的情况下，强对偶性是成立

的，即原始问题与对偶问题的对偶间隙为零，因此可以通过求解(3)的对偶问题的最优可行解，从而得到对应的原始问题(2)的最优可行解 $x^{*}$ 。

3.2. 对偶问题

首先给出PPA子问题(3)的对偶问题。通过引入松弛变量z，问题(3)等价于

$\begin{array}{l} \min_{x, z} f (x, z) = \frac{1}{2} {‖ z ‖}_{2}^{2} + h (x) + \frac{1}{2 t} {‖ x - x^{k - 1} ‖}_{2}^{2} \\ s .t . A x - y - z = 0, \\ A (x) = b . \end{array}$ (4)

其拉格朗日函数为：

$ℒ (x, z; ξ_{1}, ξ_{2}) : = \frac{1}{2} {‖ z ‖}_{2}^{2} + h (x) + \frac{1}{2 t} {‖ x - x^{k - 1} ‖}_{2}^{2} + 〈 A x - y - z, ξ_{1} 〉 + 〈 A (x) - b, ξ_{2} 〉,$ (5)

其中 $ξ_{1}$ ， $ξ_{2}$ 分别是 $A x - y - z = 0$ ， $A (x) = b$ 对应的拉格朗日乘子。关于 $x, z$ 极小化 $ℒ$ 得：

$\begin{array}{l} D_{t} (ξ_{1}, ξ_{2}) : = \inf_{x, z} ℒ (x, z; ξ_{1}, ξ_{2}) \\ = \inf_{x, z} \frac{1}{2} {‖ z ‖}_{2}^{2} - 〈 z, ξ_{1} 〉 + h (x) + \frac{1}{2 t} {‖ x - x^{k - 1} ‖}_{2}^{2} + 〈 x, A^{T} ξ_{1} 〉 - 〈 y, ξ_{1} 〉 + 〈 A (x) - b, ξ_{2} 〉 \\ = \frac{1}{2} {‖ \bar{z} ‖}_{2}^{2} - 〈 \bar{z}, ξ_{1} 〉 + h (\bar{x}) + \frac{1}{2 t} {‖ \bar{x} - x^{k - 1} ‖}_{2}^{2} + 〈 \bar{x}, A^{T} ξ_{1} 〉 - y, ξ_{1} + 〈 A (\bar{x}) - b, ξ_{2} 〉 \\ = \frac{1}{2} {‖ \bar{z} ‖}_{2}^{2} - 〈 \bar{z}, ξ_{1} 〉 + h (\bar{x}) + \frac{1}{2 t} {‖ \bar{x} - x^{k - 1} ‖}_{2}^{2} + 〈 \bar{x}, A^{T} ξ_{1} 〉 - 〈 y, ξ_{1} 〉 + 〈 A (\bar{x}), ξ_{2} 〉 - 〈 b, ξ_{2} 〉 \\ = \frac{1}{2} {‖ \bar{z} ‖}_{2}^{2} - 〈 \bar{z}, ξ_{1} 〉 + h (\bar{x}) + \frac{1}{2 t} {‖ \bar{x} - x^{k - 1} ‖}_{2}^{2} + 〈 \bar{x}, A^{T} ξ_{1} + A^{*} (ξ_{2}) 〉 - 〈 y, ξ_{1} 〉 - 〈 b, ξ_{2} 〉, \end{array}$ (6)

其中 $\bar{x}, \bar{z}$ 是极小化拉格朗日函数(5)中的变量 $x, z$ 得到的最优解， $\bar{x}, \bar{z}$ 的具体形式将通过如下的引理给出。

于是得到问题(4)的对偶问题：

$\max_{ξ_{1}, ξ_{2}} D_{t} (ξ_{1}, ξ_{2})$ (7)

引理1 设 $(ξ_{1}, ξ_{2})$ 是问题(4)的对偶问题(7)的一组最优解，则存在 $(\bar{x}, \bar{z})$ 是PPA子问题的等价问题(4)的一组最优解，且满足如下等式：

${\begin{cases} \bar{x} = {prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))), \\ \bar{z} = ξ_{1} . \end{cases}$ (8)

证明：下面将给出具体的求解过程，分别极小化(5)中的广义拉格朗日函数中的变量x和z，可以得到

$\begin{matrix} \bar{x} = \arg \min_{x} ℒ (x, z; ξ_{1}, ξ_{2}) \\ = \arg \min_{x} h (x) + \frac{1}{2 t} {‖ x - x^{k - 1} ‖}_{2}^{2} + 〈 x, A^{T} ξ_{1} 〉 + 〈 x, A^{*} (ξ_{2}) 〉 \\ = \arg \min_{x} {h (x) + \frac{1}{2 t} {‖ x + t (A^{T} ξ_{1} + A^{*} (ξ_{2})) - x^{k - 1} ‖}_{2}^{2}} \\ = {prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))), \end{matrix}$ (9)

$\begin{matrix} \bar{z} = \arg \min_{z} ℒ (x, z; ξ_{1}, ξ_{2}) \\ = \arg \min_{z} {\frac{1}{2} {‖ z ‖}_{2}^{2} - 〈 z, ξ_{1} 〉} \\ = ξ_{1}, \end{matrix}$ (10)

其中(9)式中倒数第二个等式的解是 $h (x)$ 在 $x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))$ 处的邻近算子。

□

由引理1可得原始变量 $x, z$ 都可以由最优对偶变量 $ξ_{1}, ξ_{2}$ 表示，所以问题(4)的对偶问题(7)的目标函数 $D_{t} (ξ_{1}, ξ_{2})$ 中关于变量x的部分

$\begin{array}{l} h (\bar{x}) + \frac{1}{2 t} {‖ \bar{x} + t (A^{T} ξ_{1} + A^{*} (ξ_{2})) - x^{k - 1} ‖}_{2}^{2} \\ = h ({prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2})))) \\ + \frac{1}{2 t} {‖ {prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))) + t (A^{T} ξ_{1} + A^{*} (ξ_{2})) - x^{k - 1} ‖}_{2}^{2} \\ = M_{h}^{t} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))) \end{array}$ (11)

显然成立，其中(11)式中的第二个等式是根据定义2得到的。因此，函数(6)式可以简化为：

$\begin{array}{l} D_{t} (ξ_{1}, ξ_{2}) : = M_{h}^{t} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))) + 〈 A^{T} ξ_{1} + A^{*} (ξ_{2}), x^{k - 1} 〉 \\ - \frac{1}{2} {‖ ξ_{1} ‖}_{2}^{2} - \frac{t}{2} {‖ A^{T} ξ_{1} + A^{*} (ξ_{2}) ‖}_{2}^{2} - 〈 y, ξ_{1} 〉 - 〈 b, ξ_{2} 〉 . \end{array}$

由引理1可知，PPA子问题的等价问题(4)的解 $x, z$ 可以由对偶变量 $ξ_{1}, ξ_{2}$ 表示，因此接下来将给出求解问题(4)的邻近点算法的框架以及算法的收敛性分析。

3.3. 邻近点算法设计

下面算法将给出求解问题(4)的邻近点算法。

算法1. 邻近点算法(PPA)求解问题(4)

1	初始化： $(x^{0}, z^{0}) \in R^{n} \times R^{n}, ϵ > 0, t^{0} > 0$ ；
2	for $j = 0, 1, 2, \dots$ do
3	计算： $(ξ_{1}^{j + 1}, ξ_{2}^{j + 1}) \approx \arg \max D_{t^{j}} (ξ_{1}, ξ_{2})$ ；
4	计算： $(x^{j + 1}, z^{j + 1})$ 的更新由(8)式得到；
5	if $\max {{‖ x^{j + 1} - x^{j} ‖}_{2}^{2}, {‖ z^{j + 1} - z^{j} ‖}_{2}^{2}} \leq ϵ$ then
6	输出： $x^{j + 1}, z^{j + 1}$ ；
7	else
8	更新： $t^{j + 1}$ ；
9	end
10	end

对于算法1中 $x^{j + 1}, z^{j + 1}$ 的更新的具体形式已在引理1中详细给出。

3.4. 邻近点算法收敛性分析

本小节将给出算法1的收敛结果。在此之前，提出一些假设和命题。将与问题(4)相关的Moreau包络定义为

$f_{t} (x^{k - 1}) : = \min_{x, z} {\frac{1}{2} {‖ z ‖}_{2}^{2} + λ {‖ x ‖}_{1} + \frac{1}{2 t} {‖ x - x^{k - 1} ‖}_{2}^{2} : A x - y - z = 0, A (x) = b} .$ (12)

命题1 ([15] Proposition 2.2)当对偶问题(7)的极大值在点 $(ξ_{1}^{*}, ξ_{2}^{*})$ 处取得，则以下条件等价：

1) $(x^{*}, z^{*})$ 是优化问题(4)的极小值点；

2) $f (x^{*}, z^{*}) = f_{t} (x^{k - 1^{*}})$ ，其中 $f (x^{*}, z^{*})$ 和 $f_{t} (x^{k - 1^{*}})$ 分别是问题(4)和(12)式的极小值。

命题1的成立，说明问题(4)取到最优点 $(x^{*}, z^{*})$ 和(12)式取到极值点 $x^{k - 1^{*}}$ 是同时成立的，且此时原问题和对偶问题的目标函数值也相等。

在分析算法1的收敛性和收敛速度之前，首先给出如下假设。

假设1 问题(4)的最优解集 $V^{*}$ 非空， $\sum_{j = 0}^{\infty} t^{j} = + \infty$ 且存在参数 $η > 0$ ， $ϵ > 0$ 和 $ω \geq 1$ 使得

$f (x^{*}, z^{*}) + η {(d (x, z))}^{ω} \leq f (x, z), \forall (x, z) \in R^{n} \times R^{n},$

且

$d (x, z) \leq ϵ,$

其中

$d (x, z) = \min_{(x^{*}, z^{*}) \in V^{*}} {({‖ x - x^{*} ‖}_{2}^{2} + {‖ z - z^{*} ‖}_{2}^{2})}^{\frac{1}{2}} .$

定理1 [16]设 ${(x^{j}, z^{j})}$ 是由邻近点算法1产生的序列。若 $t^{j}$ 满足 $\sum_{j = 0}^{\infty} t^{j} = + \infty$ ，则有

$f (x^{j}, z^{j}) ↓ f (x^{*}, z^{*}),$

且若问题(4)的最优解集 $V^{*}$ 非空，则序列 ${(x^{j}, z^{j})}$ 收敛到问题(4)的最优解 $(x^{*}, z^{*})$ 。

假设1成立时，由定理1可知算法1产生的序列 ${(x^{j}, z^{j})}$ 收敛到 $(x^{*}, z^{*})$ ，如下的定理可说明算法1是线性收敛的。

定理2 [16]令假设1中的 $ω = 2$ 且对于任意的j，都有 $(x^{j}, z^{j}) \neq (x^{*}, z^{*})$ 成立，于是有：

1) 若 $\lim_{j \to \infty} t^{j} = c$ ， $c \in (0, + \infty)$ ，则

$\lim \sup_{j \to \infty} \frac{d (x^{j + 1}, z^{j + 1})}{d (x^{j}, z^{j})} \leq \frac{1}{1 + η c};$

2) 若 $\lim_{j \to \infty} t^{j} = + \infty$ ，则

$\lim \sup_{j \to \infty} \frac{d (x^{j + 1}, z^{j + 1})}{d (x^{j}, z^{j})} = 0.$

4. PPA子问题(3)的求解

已知问题(2)的求解实际上等价于求解一系列PPA子问题(3)，以及PPA算法具有线性收敛性。由于PPA子问题(3)的等价问题(4)和其对偶问题(7)是零对偶间隙的，且等价问题(4)的解 $x, z$ 可以由对偶变量 $ξ_{1}, ξ_{2}$ 表示。因此，设计高效的算法求解对偶问题(7)非常关键，本节将进一步分析并设计求解对偶问题(7)的高效算法。

为便于分析，首先将对偶问题(7)写成如下等价形式：

$\begin{matrix} \min_{ξ_{1}, ξ_{2}} ψ (ξ_{1}, ξ_{2}) : = - D_{t} (ξ_{1}, ξ_{2}) \\ = - M_{λ {‖ \cdot ‖}_{1}}^{t} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))) + \frac{1}{2} {‖ ξ_{1} ‖}_{2}^{2} - 〈 A^{T} ξ_{1} + A^{*} (ξ_{2}), x^{k - 1} 〉 \\ + \frac{t}{2} {‖ A^{T} ξ_{1} + A^{*} (ξ_{2}) ‖}_{2}^{2} + 〈 y, ξ_{1} 〉 + 〈 b, ξ_{2} 〉 . \end{matrix}$ (13)

注意到，此时问题(13)的目标函数 $ψ (ξ_{1}, ξ_{2})$ 是凸的且连续可微。

4.1. 梯度

为方便表示，记 $(ξ_{1}, ξ_{2}) = u$ ， $(Δ ξ_{1}, Δ ξ_{2}) = Δ u$ 。

问题(13)的目标函数 $ψ (u)$ 关于变量 $ξ_{1}, ξ_{2}$ 的梯度 $\nabla_{ξ_{1}} ψ (u), \nabla_{ξ_{2}} ψ (u)$ 具体形式为：

$\begin{matrix} \nabla_{ξ_{1}} ψ (u) = A [x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2})) - {prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2})))] \\ + ξ_{1} - A x^{k - 1} + t A A^{T} ξ_{1} + t A (A^{*} (ξ_{2})) + y \\ = - A {prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))) + ξ_{1} + y, \end{matrix}$ (14)

$\begin{matrix} \nabla_{ξ_{2}} ψ (u) = A (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2})) - {prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2})))) \\ - A (x^{k - 1}) + t A (A^{T} ξ_{1} + A^{*} (ξ_{2})) + b \\ = - A {prox}_{t h} (x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2}))) + b, \end{matrix}$ (15)

因此问题(13)的目标函数 $ψ (u)$ 的梯度 $\nabla ψ (u)$ 为：

$\nabla ψ (u) : = [\nabla_{ξ_{1}} ψ (u); \nabla_{ξ_{2}} ψ (u)] .$ (16)

4.2. 广义Hessian矩阵

根据已知梯度，现在进一步分析问题(13)的目标函数 $ψ (u)$ 的广义Hessian矩阵。

考虑到 $\nabla ψ (u)$ 是Lipschitz连续的，则在Clarke意义下 $\nabla ψ$ 在点 $(ξ_{1}, ξ_{2})$ 处的广义Jacobian矩阵是B-次微分 $\partial_{B} (\nabla ψ (u))$ 的凸包，即

$\partial (\nabla ψ (u)) = c o (\partial_{B} (\nabla ψ (u))) .$

记

$\partial (\nabla ψ (u)) [(Δ u)] : = (\partial (\nabla_{ξ_{1}} ψ (u)) [(Δ u)], \partial (\nabla_{ξ_{2}} ψ (u)) [(Δ u)]) .$ (17)

对(17)式的分析如下：

为了方便表示，记

$H_{ξ_{1}, ξ_{2}} : = A^{T} Δ ξ_{1} + A^{*} (Δ ξ_{2}),$ (18)

$\hat{x} (ξ_{1}, ξ_{2}) : = x^{k - 1} - t (A^{T} ξ_{1} + A^{*} (ξ_{2})),$ (19)

由于 ${‖ x ‖}_{1}$ 在 $x = 0$ 处不可导，因此邻近算子的导数需要使用次梯度来表示。当x不等于0时，邻近算子的次梯度为其导数。当 $x = 0$ 时，邻近算子的次梯度可以是任何介于 $[- 1, 1]$ 的值。因此，此处有

${[\partial {prox}_{t λ {‖ \cdot ‖}_{1}} (\hat{x} (ξ_{1}, ξ_{2})) [H_{ξ_{1}, ξ_{2}}]]}_{i} = {\begin{array}{l} {[H_{ξ_{1}, ξ_{2}}]}_{i}, & {[\hat{x} (ξ_{1}, ξ_{2})]}_{i} > t λ, \\ a {[H_{ξ_{1}, ξ_{2}}]}_{i} 且 a \in [0, 1], & {[\hat{x} (ξ_{1}, ξ_{2})]}_{i} = t λ, \\ 0 ， & {[\hat{x} (ξ_{1}, ξ_{2})]}_{i} < t λ . \end{array}$

其中 ${[H_{ξ_{1}, ξ_{2}}]}_{i}$ 和 ${[\hat{x} (ξ_{1}, ξ_{2})]}_{i}$ 中的下标 $i = 1, \dots, n$ 表示对应向量的第i个元素。于是有：

$\partial (\nabla ψ (u)) [(Δ u)] = [t A \partial {prox}_{t λ {‖ \cdot ‖}_{1}} (\hat{x} (ξ_{1}, ξ_{2})) [H_{ξ_{1}, ξ_{2}}] + Δ ξ_{1}, t A \partial {prox}_{t λ {‖ \cdot ‖}_{1}} (\hat{x} (ξ_{1}, ξ_{2})) [H_{ξ_{1}, ξ_{2}}]] .$

4.3. 最优性条件

已知问题(13)是一个凸的无约束优化问题，现通过如下的定理给出该问题的一阶最优性条件。

定理3 假设最优点对 $(ξ_{1}^{*}, ξ_{2}^{*}) : = u^{*}$ 是问题(13)的全局最优解，则满足如下条件：

${\begin{cases} \nabla_{ξ_{1}} ψ (u^{*}) = 0, \\ \nabla_{ξ_{2}} ψ (u^{*}) = 0. \end{cases}$ (20)

注意到(20)式可以写成

$ϕ (u^{*}) : = (\nabla_{ξ_{1}} ψ (u^{*}), \nabla_{ξ_{2}} ψ (u^{*})) = 0,$ (21)

在点 $(ξ_{1}^{k}, ξ_{2}^{k}) : = u^{k}$ 处，定义问题(13)的KKT误差为

$η_{k k t} (u^{k}) : = {‖ ϕ (u^{k}) ‖}_{\infty} .$ (22)

因此，问题(13)一阶最优性条件成立等价于

$η_{k k t} (u^{k}) = 0,$

所以可以用KKT误差 $η^{k} : = η_{k k t} (u^{k})$ 来衡量当前迭代点的最优性。

接下来给出问题(13)的二阶充分性条件。

命题2 [17]对于函数 $\nabla ψ$ 在点u处的广义Jacobian矩阵 $\hat{H} \in \partial_{B} (\nabla ψ (u^{*}))$ 。

1) 若 $u^{*}$ 为问题(13)的局部极小值点，则对任意非零s有

$s^{T} \hat{H} s \geq 0;$

2) 令 $u^{*}$ 满足KKT条件(20)。若对任意非零s有二阶充分性条件

$s^{T} \hat{H} s \geq 0$

成立，则 $u^{*}$ 为问题(13)的严格局部极小值点。

4.4. 半光滑牛顿算法

由于半光滑牛顿算法的局部快速收敛性，极大提高了子问题的求解效率，进一步可以提高算法1的整体效率。在本小节中，考虑采用半光滑牛顿算法求解子问题(13)。

由于 $l_{1}$ 范数的邻近算子是局部Lipschitz连续的，因此可以定义 ${prox}_{t λ {‖ \cdot ‖}_{1}}$ 的Clarke广义Jacobian，记为 $\partial {prox}_{t λ {‖ \cdot ‖}_{1}}$ 。进一步定义目标函数 $ψ$ 的广义Hessian，即 $\nabla ψ$ 的Clarke广义Jacobian，记为 $\partial^{2} ψ$ 。由于 $\partial^{2} ψ$ 没有显式表达式，因此定义如下的替代映射：

${\hat{\partial}}^{2} ψ (ξ_{1}, ξ_{2}) : = [t A \partial {prox}_{t λ {‖ \cdot ‖}_{1}} (\hat{x} (ξ_{1}, ξ_{2})) + Δ ξ_{1}, t A \partial {prox}_{t λ {‖ \cdot ‖}_{1}} (\hat{x} (ξ_{1}, ξ_{2}))] .$

对于给定的 $(ξ_{1}, ξ_{2})$ ，有

$\partial^{2} ψ (ξ_{1}, ξ_{2}) (d) = {\hat{\partial}}^{2} ψ (ξ_{1}, ξ_{2}) (d),$

所以， ${\hat{\partial}}^{2} ψ$ 可以被认为是 $\partial^{2} ψ$ 的一个较好的替代映射。对于给定的 $(ξ_{1}, ξ_{2})$ ，令

$\hat{H} = (\begin{matrix} t A U A^{T} + Δ ξ_{1} \\ t A U A^{*} \end{matrix})$

其中 $U \in \partial {prox}_{t λ {‖ \cdot ‖}_{1}} (\hat{x} (ξ_{1}, ξ_{2}))$ ，则 $\hat{H} \in {\hat{\partial}}^{2} ψ$ 。

具体来说，广义牛顿方向 $\hat{d} : = ({\hat{d}}_{ξ_{1}}, {\hat{d}}_{ξ_{2}})$ 可以通过求解无约束的二次规划

$\min_{\hat{d}} 〈 \nabla ψ (u^{k}), \hat{d} 〉 + \frac{1}{2} 〈 d, {\hat{H}}^{k} \hat{d} 〉$ (23)

得到，其中 $u^{k} = (ξ_{1}^{k}, ξ_{2}^{k})$ ， ${\hat{H}}^{k}$ 为问题(13)的目标函数 $ψ$ 在点 $u^{k}$ 处的广义Hessian矩阵。

根据目标函数的性质以及算法的理论，将问题转化为求解如下牛顿方程：

${\hat{H}}^{k} d = - \nabla ψ (u^{k}) .$ (24)

由于 ${\hat{\partial}}^{2} ψ (u^{k})$ 中的映射是对称和半正定的，但它们仍然可能是奇异的。对此，设置

$H^{k} = {\hat{H}}^{k} + ν^{k} i d,$ (25)

其中 ${\hat{H}}^{k} \in {\hat{\partial}}^{2} ψ (u^{k})$ ， $i d : R^{m} \times R^{s} \to R^{m} \times R^{s}$ 为恒等映射， $ν^{k}$ 定义为 $ν^{k} : = \min (\bar{δ}, δ η^{k})$ ， $\bar{δ}$ 和 $δ$ 为两个正参数，并且 $η^{k} : = η_{k k t} (u^{k})$ 为(21)式中定义的在点 $u^{k}$ 处的KKT误差。显然，当 $η^{k} \neq 0$ 时， $H^{k}$ 为正定的。

考虑使用半光滑牛顿算法求解子问题(13)，生成迭代为

$u^{k + 1} = u^{k} - α^{k} {(H^{k})}^{- 1} [(\nabla ψ (u^{k}))],$ (26)

其中 $α^{k} > 0$ 为第k步合适的步长， ${(H^{k})}^{- 1}$ 为广义Hessian矩阵 $H^{k}$ 的逆。

记

$(Δ ξ_{1}_{N}^{k}, Δ ξ_{2}_{N}^{k}) : = - {(H^{k})}^{- 1} [(\nabla_{ξ_{1}} ψ (u^{k}), \nabla_{ξ_{2}} ψ (u^{k}))],$

则 $(Δ ξ_{1}_{N}^{k}, Δ ξ_{2}_{N}^{k})$ 为在 $u^{k}$ 处得到的正则化广义牛顿方向，它可以通过求解广义牛顿方程：

$H^{k} [(Δ ξ_{1}_{N}^{k}, Δ ξ_{2}_{N}^{k})] = - [(\nabla_{ξ_{1}} ψ (u^{k}), \nabla_{ξ_{2}} ψ (u^{k}))]$ (27)

得到。

对此，考虑到计算成本，通常采用共轭梯度(CG)算法来求解广义牛顿方程(27)的近似解。现在给出半光滑牛顿算法求解系统(24)的基本框架。

算法2. 半光滑牛顿算法求解问题(24)

1	Input： $ε > 0, σ \in (0, 1), τ \in (0, 1)$ ；
2	Given： $(ξ_{1}^{0}, ξ_{2}^{0}) \in R^{m} \times R^{s}$ ；
3	Compute $d_{ξ_{1}}^{0}$ and $d_{ξ_{2}}^{0}$ from (23)
4	for $k = 0, 1, \dots$ do
5	if $\max {η^{k}, g a p^{k}} \leq ε$ then
6	return $ξ_{1}^{k}$ and $ξ_{2}^{k}$ ；
7	end；
8	Compute $d_{ξ_{1}}^{k}$ and $d_{ξ_{2}}^{k}$ by solving (23)；
9	Set $α = 1$ ；
10	while $ψ (ξ_{1}^{k} + α^{k} d_{ξ_{1}}^{k}, ξ_{2}^{k} + α^{k} d_{ξ_{2}}^{k}) - ψ (ξ_{1}^{k}, ξ_{2}^{k}) > α σ Δ^{k}$ do
11	Set $α = τ α$ ；
12	end
13	Set $α^{k} = α$ and $ξ_{1}^{k + 1} = ξ_{1}^{k} + α^{k} d_{ξ_{1}}^{k}$ and $ξ_{2}^{k + 1} = ξ_{2}^{k} + α^{k} d_{ξ_{2}}^{k}$ ；
14	end

在下文中，交代了算法的终止条件。与[18]类似，考虑使用gap来表示原问题和对偶问题的间隙，以便于测量原目标与对偶目标之间的差距，即

$g a p = \frac{| p r o b j - d o b j |}{1 + | p r o b j | + | d o b j |},$

其中probj和dobj分别表示原问题目标函数值和对偶问题目标函数值。

当 $\max {η^{k}, g a p^{k}} \leq ε$ 时，算法终止，其中 $ε > 0$ 为给定误差， $η^{k}$ 为(22)式中定义的KKT误差，gap为点 $u^{k}$ 处的间隙。因此，在算法2中给出了求解问题(23)的算法。

4.5. 半光滑牛顿算法收敛性分

本小节将分析半光滑牛顿算法的收敛性，为方便表示，记 $u : = (ξ_{1}, ξ_{2})$ 。

定义4 假设 $\nabla ψ$ 是局部Lipschitz连续的，则其广义Jacobian存在。取在 $u^{k}$ 点任意的广义Jacobian矩阵 ${\hat{H}}_{k} \in \partial (\nabla ψ (u^{k}))$ ，若 ${\hat{H}}_{k}$ 可逆，其基本的迭代格式为

$u^{k + 1} = u^{k} - {\hat{H}}_{k}^{- 1} \nabla ψ (u^{k}) .$ (28)

假设2 映射 $\nabla ψ$ 在最优点 $u^{*}$ 处是半光滑和所有Jacobian矩阵是非奇异的。

引理2 如果假设2成立，则存在常数 $c > 0, κ > 0$ 和一个小邻域 $N (u^{*}, ϵ_{0})$ 使得对于任意的 $u \in N (u^{*}, ϵ_{0})$ 和 ${\hat{H}}_{k} \in \partial (\nabla ψ (u^{k}))$ ，下面结论成立：

1) $u^{*}$ 是一个孤立解；

2) ${\hat{H}}_{k}$ 是非奇异的并且 $‖ {\hat{H}}_{k}^{- 1} ‖ \leq c$ ；

3) 局部误差届条件对于 $\nabla ψ (u)$ 在邻域 $N (u^{*}, ϵ_{0})$ 上成立，也就是说 $‖ u - u^{*} ‖ \leq κ ‖ \nabla ψ (u) ‖$ 。

如下定理给出了半光滑牛顿算法的局部二次收敛性。

定理4 设 $\nabla ψ (ξ_{1}, ξ_{2})$ 具有半光滑性并且 $u^{*}$ 是优化问题(13)的最优解。那么迭代(28)是良定义的，且存在一个小邻域 $N (u^{*}, ϵ)$ ，使得对于任意的k有 $u^{k} \in N (u^{*}, ϵ)$ ，迭代(28)是超线性收敛的。如果 $\nabla ψ (u)$ 是强半光滑的，迭代(28)是二次收敛的。

证明：根据引理2，迭代(28)式是良定义的。可以推出：

$\begin{matrix} ‖ u^{k + 1} - u^{k} ‖ = ‖ u^{k} - {\hat{H}}_{k}^{- 1} \nabla ψ (u^{k}) - u^{*} ‖ \\ = ‖ {\hat{H}}_{k}^{- 1} ‖ ‖ \nabla ψ (u^{k}) - \nabla ψ (u^{*}) - {\hat{H}}_{k} (u^{k} - u^{*}) ‖ \\ = O ({‖ u^{k} - u^{*} ‖}^{2}), \end{matrix}$

其中最后一个等式来源于强半光滑性。

□

5. 数值实验

本节将通过仿真数值实验来测试本文使用的邻近点对偶半光滑牛顿算法(记为PPA_DSN)算法求解含等式约束广义Lasso问题的实际效果。算法采用MatlabR2017a编程实现，且所有实验均在AMD Ryzen 7 6800HS Creator Edition 3.20 GHz，16.0 GB内存的个人笔记本电脑上运行。同时，考虑选择邻近梯度算法(记为PPA_DG)和交替方向乘子法算法(记为ADMM_GLP)作为对比算法。算法PPA_DSN所需参数分别为：设计矩阵A的规模： $m \times n$ ；观测向量y的规模：m维；最大迭代时间600秒；最大误差 $ϵ = 1 \times 10^{- 6}$ 。

对于所有算法，若下面任一条件满足，则终止程序：

1) 算法残差 $η_{k k t} (u^{k}) \leq ϵ$ 。

2) 达到最大迭代数maxit = 200。

为进行实验观测算法PPA_DSN求解含等式约束广义Lasso问题的效率，首先设置含等式约束广义Lasso问题的样本数量为m，特征数量为n，设计矩阵A的每个分量 $A_{i j}$ 均随机生成；设向量 $y = A x^{*} + ε$ ( $ε$ 表示随机扰动向量)，正则化参数 $λ = 0.01$ 。

Figure 1. In correspondence with the experimental data of three algorithms

图1. 三种算法对比的实验数据

为了验证PPA_DSN算法的有效性和稳定性，我们进行了不同参数设置下的实验。下文提供PPA_DSN算法、邻近梯度算法(记为PPA_DG)和交替方向乘子算法(记为ADMM_GLP)的数值结果。我们针对零和约束Lasso问题(1)，取变量维数 $n = [1000, 1500, 2000]$ ， $m = [100, 200, 500]$ ，正则化参数 $λ = [0.001, 0.01, 0.1]$ ，最大迭代时间600秒，最大误差。在这些设置下，共进行了27组实验。考虑到实验数据均为随机生成的，每组实验重复了3次，并取数值结果的平均值。具体结果详见图1，其中Res、Iter、Iterf、Iterd和Time分别表示残差 $η_{k k t} (u^{k})$ 、迭代步数、目标函数计算次数、搜索方向计算次数和CPU运行时间(以秒为单位)。从图1可以看出，算法PPA_DSN成功求解了所有测试问题，并且在大多数情况下，CPU耗时不超过1秒。

6. 总结

本文主要对一类含线性等式约束的广义Lasso问题进行算法研究。由于大多实际问题的求解过程中会涉及对样本数据的限制，如零和约束Lasso问题，因此考虑求解一类含线性等式约束的广义Lasso问题。受众多研究者先前对Lasso模型的算法研究的启发，本文考虑将邻近点半光滑牛顿算法推广到用于求解含线性等式约束Lasso问题，并通过数值实验与邻近梯度算法以及交替方向乘子法进行对比，证实了该算法求解该类含线性等式约束Lasso问题具有良好性能。

参考文献

[1]	Cristofari, A. (2023) A Decomposition Method for Lasso Problems with Zero-Sum Constraint. European Journal of Operational Research, 306, 358-369. https://doi.org/10.1016/j.ejor.2022.09.030
[2]	Gloor, G.B., Macklaim, J.M., Pawlowsky-Glahn, V. and Egozcue, J.J. (2017) Microbiome Datasets Are Compositional: And This Is Not Optional. Frontiers in Microbiology, 8, Article 2224. https://doi.org/10.3389/fmicb.2017.02224
[3]	Shi, P., Zhang, A. and Li, H. (2016) Regression Analysis for Microbiome Compositional Data. The Annals of Applied Statistics, 10, 1019-1040. https://doi.org/10.1214/16-aoas928
[4]	Lin, W., Shi, P., Feng, R. and Li, H. (2014) Variable Selection in Regression with Compositional Covariates. Biometrika, 101, 785-797. https://doi.org/10.1093/biomet/asu031
[5]	Altenbuchinger, M., Rehberg, T., Zacharias, H.U., Stämmler, F., Dettmer, K., Weber, D., et al. (2016) Reference Point Insensitive Molecular Data Analysis. Bioinformatics, 33, 219-226. https://doi.org/10.1093/bioinformatics/btw598
[6]	郦旭东. 复合凸优化的快速邻近点算法[J]. 计算数学, 2020, 42(4): 385-404.
[7]	Gaines, B.R., Kim, J. and Zhou, H. (2018) Algorithms for Fitting the Constrained Lasso. Journal of Computational and Graphical Statistics, 27, 861-871. https://doi.org/10.1080/10618600.2018.1473777
[8]	Deng, Z., Yue, M. and So, A.M. (2020). An Efficient Augmented Lagrangian-Based Method for Linear Equality-Constrained Lasso. ICASSP 2020—2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, 4-8 May 2020, 5760-5764. https://doi.org/10.1109/icassp40776.2020.9053722
[9]	Jeon, J., Kim, Y., Won, S. and Choi, H. (2020) Primal Path Algorithm for Compositional Data Analysis. Computational Statistics & Data Analysis, 148, Article ID: 106958. https://doi.org/10.1016/j.csda.2020.106958
[10]	Tibshirani, R.J. and Taylor, J. (2011) The Solution Path of the Generalized Lasso. The Annals of Statistics, 39, 1335-1371. https://doi.org/10.1214/11-aos878
[11]	Beck, A. (2017). First-Order Methods in Optimization. Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9781611974997
[12]	Rockafellar, R.T. and Wets, R.J.B. (2009) Variational Analysis. Springer Science & Business Media.
[13]	Facchinei, F. and Pang, J.S. (2003) Finite-Dimensional Variational Inequalities and Complementarity Problems. Springer. https://doi.org/10.1007/b97543
[14]	Zhang, Y., Zhang, N., Sun, D. and Toh, K. (2018) An Efficient Hessian Based Algorithm for Solving Large-Scale Sparse Group Lasso Problems. Mathematical Programming, 179, 223-263. https://doi.org/10.1007/s10107-018-1329-6
[15]	Li, Q. (2012) Conjugate Gradient Type Methods for the Nondifferentiable Convex Minimization. Optimization Letters, 7, 533-545. https://doi.org/10.1007/s11590-011-0437-5
[16]	Bertsekas, D. (2015) Convex Optimization Algorithms. Athena Scientific.
[17]	Shen, C., Xue, W., Zhang, L. and Wang, B. (2020) An Active-Set Proximal-Newton Algorithm for ℓ₁ Regularized Optimization Problems with Box Constraints. Journal of Scientific Computing, 85, Article No. 57. https://doi.org/10.1007/s10915-020-01364-0
[18]	Cui, Y., Leng, C. and Sun, D. (2016) Sparse Estimation of High-Dimensional Correlation Matrices. Computational Statistics & Data Analysis, 93, 390-403. https://doi.org/10.1016/j.csda.2014.10.001

为你推荐

友情链接