一种非精确邻近梯度算法

doi:10.12677/pm.2024.145218

期刊菜单

一种非精确邻近梯度算法
An Inexact Proximal Gradient Algorithm

DOI: 10.12677/pm.2024.145218, PDF, HTML, XML, 下载: 52 浏览: 120 国家自然科学基金支持
作者: 辜随佳, 王湘美：贵州大学数学与统计学院，贵州贵阳
关键词: 邻近点算法；线搜索；收敛性分析；非精确梯度；Proximity Algorithm； Line Search； Convergence Analysis； Inexact Gradient

摘要: 邻近点算法(PPA)是求解非光滑优化问题的一种有效的迭代算法，对特殊结构问题的求解非常高效，但在实际问题中求解大规模可分离问题时花费很大。为解决上述问题且同时又保持PPA算法的优点，本文给出了一种非精确邻近梯度算法。该算法结合了线搜索法与邻近梯度下降算法的思想，在子问题的求解过程中采用近似的梯度，且不需要Lipschitz常数已知。基于以上思想，首先我们给出算法的伪代码，然后建立了算法收敛性的充分条件，最后证明在该条件下，算法迭代所产生序列的每个极限点是原问题的临界点。

Abstract: The Proximity Algorithm (PPA) is an effective iterative algorithm for solving non-smooth optimization problems, which is very efficient in solving special structural problems, but it is expensive to solve large-scale separable problems in practical problems. In order to solve the above problems and maintain the advantages of PPA algorithm, an inexact proximity gradient algorithm is proposed. The algorithm combines the ideas of the line search method and the proximity gradient descent algorithm, and adopts the approximate gradient in the solution of the sub-problem, and does not need the Lipschitz constant to be known. Based on the above ideas, firstly, we give the pseudocode of the algorithm, then establish the sufficient conditions for the convergence of the algorithm, and finally prove that under this condition, each limit point of the sequence generated by the algorithm iteration is the critical point of the original problem.

文章引用：辜随佳, 王湘美. 一种非精确邻近梯度算法[J]. 理论数学, 2024, 14(5): 654-663. https://doi.org/10.12677/pm.2024.145218

1. 引言

本文考虑如下优化问题

$\min_{x \in R^{m}} F (x),$ (1)

其中 $F : R^{m} \to R \cup {+ \infty}$ 是定义在欧氏空间 $R^{m}$ 上的下半连续凸函数，求解问题(1)的算法有很多，当问题(1)为一般优化问题且目标函数F光滑时，可利用梯度法进行求解。当目标函数F不具有光滑性时，可采用次

梯度算法、邻近点算法等进行求解。当目标函数F为大规模可分离优化问题时，即 $F (x) : = f (x) = \frac{1}{n} \sum_{i = 1}^{n} f_{i} (x)$ ，

其中 $n \geq 1$ ，其中每个 $f_{i} : R^{m} \to R \cup {+ \infty}$ 可都是下半连续的凸函数且可微，这类优化问题可用一阶/二阶随机优化算法求解，如Robbins等人(1951)提出了随机梯度算法(SGD) [1] 与基于SGD的随机方差减小的梯度下降算法 [2] 。二阶算法由于使用了更多信息，通常可得到更快的收敛速度，常用的算法有子样本牛顿算法(Newsamp) [3] ，近似估计Heesian矩阵的Lissa算法 [4] ，对梯度与Heesian矩阵进行完全随机抽样的SSN算

法 [5] 。此外，当函数包含不可微项时，即 $F (x) = \frac{1}{n} \sum_{i = 1}^{n} f_{i} (x) + h (x)$ ，其中 $h : R^{m} \to R \cup {+ \infty}$ 是定义在欧氏

空间 $R^{m}$ 上的下半连续凸函数，这类问题的应用也较为广泛，如图像恢复 [6] 、信号处理 [7] 、机器学习 [8] 等。本文将在邻近梯度算法的基础上引入线搜索思想对该问题做系列分析，该算法的迭代格式如下

$\begin{array}{l} J_{k} : = p r o x_{h} (x^{k} - \nabla f (x^{k})) : = \underset{y \in R^{m}}{\arg \min} \nabla f (x^{k}) (y - x^{k}) + h (y) + \frac{1}{2} {‖ y - x^{k} ‖}^{2}, \\ x^{k + 1} = x^{k} - β_{k} (x^{k} - J_{k}) . \end{array}$

其中 $β_{k} > 0$ ，称 $pro x_{h}$ 为邻近算子。

邻近点算法的思想可追溯到 [9] [10] ，1970年，Martinet最早提出了邻近点算法，1976年，Rockafellar在文 [11] [12] 利用它来求解极大单调算子的零点问题，1991年，Guler又进一步讨论了正常下半连续极小化问题的邻近点算法及其收敛性质。后Beck和Teboulle [7] 将邻近点算法与梯度下降算法相结合，这也就是邻近梯度算法，这类算法主要用于解决确定的复合优化问题，并且在目标函数凸或非凸时，分析了算法的收敛性和收敛速度。由于上述算法的迭代过程依赖可微函数的Lipschitz常数，因此Bello在文 [13] 中引入了线搜索的思想，提出了带线搜索的邻近梯度算法，该算法不仅保留了邻近梯度算法的优点，还不依赖于Lipschitz常数。在带有大规模可分离优化问题时，作者在文 [14] 中利用随机逼近(SA)方法解决优化问题(1)，并分析了随机梯度下降算法的收敛性。

基于上述这些论文的启发，本文将提出求解大规模复合凸优化问题的带线搜索的非精确邻近梯度算法，在算法的迭代过程中，对目标函数中的可分离部分采用非精确梯度，非精确邻近梯度算法不仅保留了邻近梯度算法易计算的优点，还在迭代过程中减小了数据储存量，提高了算法的效率。

2. 预备知识

本节将介绍一些必要的预备知识，包括一些符号、定义以及算法的分析证明过程中所要用到的概念、引理。在文中， $R, R_{+ +}$ 分别表示实数集，正实数集。用小写字母表示欧式空间 $R^{m}$ 中的向量，例如， $v \in R^{m}$ 。空间 $R^{m}$ 中的内积和2-范数分别用 $〈 \cdot, \cdot 〉$ 和 $‖ \cdot ‖$ 表示。

设 $f : R^{m} \to R \cup {+ \infty}$ 为定义在 $R^{m}$ 上的广义实值函数，其定义域为：

$d o m f : = {x \in R^{m} : f (x) < + \infty},$

若 $d o m f \neq \emptyset$ ，则称函数f是真的。函数f的上图定义为

$e p i f : = {(x, r) \in R^{m + 1} : f (x) \leq r} .$

如果 $e p i f$ 在 $R^{m + 1}$ 上是闭的，则称f是下半连续的。假设f为下半连续真凸函数，则函数f在点x处沿方向 $d \in R^{m}$ 的方向导数的定义为

$f^{'} (x; d) : = \lim_{t \to 0^{+}} \frac{f (x + t d) - f (x)}{t} .$

f在x处的次微分定义为

$\partial f (x) : = {v \in R^{m} : 〈 v, y - x 〉 \leq f (y) - f (x) \forall y \in dom f} .$ (2)

如果 $x \notin dom f$ ，则 $\partial f (x) = \emptyset$ 。

定义1 定义邻近算子 $pro x_{h} : R^{m} \to dom h$ 如下：

$pro x_{h} (z) = {(I d + \partial h)}^{- 1} (z), z \in R^{m},$

即 $pro x_{h} (z) = {y \in R^{m} : y + \partial h (y) = z}$ 。通过变形可得到其满足

$z - pro x_{h} (z) \in \partial h (pro x_{h} (z)) \forall z \in R^{m} .$ (3)

引理1 ( [15] , Proposition 17.2)设 $h : R^{m} \to R \cup {+ \infty}$ 为一个下半连续真凸函数，则对任意 $x \in d o m h$ 与 $y \in R^{m}$ 满足

(1) $h^{'} (x; y)$ 存在且 $h^{'} (x; y) = \inf_{t \in R_{+ +}} (\frac{h (x + t y) - h (x)}{t})$ 。

(2) $h^{'} (x; y - x) + h (x) \leq h (y)$ 。

引理2 设 $f, h : R^{m} \to R \cup {+ \infty}$ 为下半连续真凸函数，则对任意的 $x \in d o m f$ 与 $y \in R^{m}$ ，下列结论成立：

(1) $\partial f (x)$ 为非空有界闭凸集。

(2) 若函数f在点x处可微，则有 $\partial f (x) = {\nabla f (x)}$ ，其中 $\nabla f$ 表示函数f在点x的梯度。

(3) 设 $x \in d o m f \cap d o m h$ ，则有 $\partial f (x) + \partial h (x) \subseteq \partial (f + h) (x)$ 。若 $x \in int (d o m f) \cap d o m h$ ，则等号成立。

对于凸函数f，如果 $0 \in \partial f (x_{*})$ ，则 $x_{*}$ 是f函数值的最小点，即 $f (x_{*}) = \min_{x \in R^{m}} f (x)$ 下面定义优化问

题的 $ε$ -近似解。

定义2 ( $ε$ -近似解)设f为下半连续真凸函数， $ε > 0$ 。我们称点 $x_{*} \in d o m f$ 是优化问题 $\min_{x \in R^{m}} f (x)$ 的 $ε$ -近似解，如果满足 $d_{\partial f (x_{*})} (0) : = \min_{v \in \partial f (x_{*})} ‖ v ‖ \leq ε$ 。

对问题(1)的大规模可分离凸优化形式：

$\min_{x \in R^{m}} \frac{1}{n} \sum_{i = 1}^{n} f_{i} (x) + h (x) .$

我们总假设上述问题有解，解集记为 $S^{*}$ ，记 $ψ : = {1, 2, \dots, n}$ 为指标集，则 $f : = \frac{1}{n} \sum_{i \in ψ} f_{i}$ 。且满足

假设(H)

(C1) $h, f_{i} (\forall i \in ψ)$ 为下半连续真凸函数且 $d o m h \subseteq int (\cap_{i \in ψ} d o m f)$ 。

(C2)函数 $f_{i}$ 在包含 $d o m h$ 的开集上是连续可微的。

注：由假设(H)和引理2 (3)，对任意 $x \in d o m h$ ，有 $\partial (f + h) (x)$ 为有界闭凸集且 $\partial (f + h) (x) = \nabla f (x) + \partial h (x)$ 。

在下面的非精确邻近梯度算法中，我们将用近似梯度g代替全梯度 $\nabla f$ 。下面考虑用随机抽样产生近似梯度：

$g (x) : = \frac{1}{| ξ |} \sum_{j \in ξ} \nabla f_{j} (x) x \in d o m h,$

其中 $ξ$ 和 $| ξ |$ 分别表示抽样样本和样本个数。以下引理说明，在抽样的样本数充分大时，g可在一定概率意义下达到预设的与全梯度的近似程度。

引理3 [16] 设 $ε_{1}, λ \in (0, 1)$ 假设存在函数 $Q : R^{n} \to R$ 满足对任意 $i \in ψ$ ，有

$‖ \nabla f_{i} (x) ‖ \leq Q (x) \forall x \in R^{n} .$

假设对指标集 $ψ$ 进行放回或者不放回的随机等可能抽样，且样本个数 $| ξ |$ 满足 $| ξ | \geq Q {(x)}^{2} {(1 + \sqrt{8 \ln (1 / λ)})}^{2} / ε_{1}^{2}$ ，则有

$\Pr (‖ \nabla f (x) - g (x) ‖ \leq ε_{1}) \geq 1 - λ .$

定义3 设S为 $R^{m}$ 的一个非空子集，序列 ${x^{k}} \subset R^{m}$ 。若存在一个数列 ${ω_{k}}$ 满足 $\sum_{k = 0}^{\infty} ω_{k} < \infty$ 使对任意

以 $x \in S$ 下不等式成立：

得 ${‖ x^{k + 1} - x ‖}^{2} \leq {‖ x^{k} - x ‖}^{2} + ω_{k}$ $k \in N,$

则称序列 ${x^{k}}$ quasi-Fejér收敛到S。

引理4 ( [17] , Theorem 4.1)若 ${x^{k}}$ quasi-Fejér收敛到S，则下列结论成立：

(1) 序列 ${x^{k}}$ 是有界的。

(2) 若序列 ${x^{k}}$ 有极限点 $x_{*} \in S$ ，则有 $\lim_{k \to \infty} x^{k} = x_{*}$ 。

引理5 设 ${a_{k}}, {b_{k}}, {c_{k}} \subset [0, + \infty)$ 为非负序列，其中 $A = \sum_{k = 0}^{\infty} a_{k} < + \infty$ ， $B = \sum_{k = 0}^{\infty} b_{k} < + \infty$ ，且 $c_{0} > 0$ 。如

果存在常数 $β \leq 1$ ，使得

$c_{k + 1}^{2} - c_{k}^{2} \leq a_{k} + β c_{k} b_{k} \forall k \in N,$ (4)

则序列 ${c_{k}}$ 有界。

证明：注意到 $c_{0} > 0$ ，所以存在常数 $M \geq 1$ ，使即 $c_{0}^{2} M^{2} + 2 c_{0} β B M + 2 A + c_{0}^{2} \geq 0$ ，即

$c_{0}^{2} + A + c_{0} β B M \leq {(M c_{0})}^{2} .$ (5)

下面我们证明

$c_{k} \leq M c_{0} \forall k \in N .$ (6)

显然当 $k = 0$ 时，(6)成立。假设当 $k \leq m$ 时(6)成立，即

$c_{k} \leq M c_{0} \forall k \leq m .$

由(4)，我们有

$\sum_{k = 0}^{m} (c_{k + 1}^{2} - c_{k}^{2}) \leq \sum_{k = 0}^{m} a_{k} + \sum_{k = 0}^{m} β c_{k} b_{k} \leq A + β c_{0} M B .$

于是

$c_{m + 1}^{2} \leq c_{0}^{2} + A + β c_{0} M B \leq {(M c_{0})}^{2} .$

由(5)可得 $c_{m} \leq M c_{0}$ 。由归纳法证明可得(6)。

3. 算法及收敛性分析

在对问题(1)中的大规模可分离部分进行求解时，为了保留邻近梯度算法的优点且不依赖Lipschitz常数，受 [13] [14] [16] 的启发，我们提出带线搜索的非精确邻近梯度算法。具体地，与 [14] 类似，我们在子问题求解过程中也采用的是非精确梯度，其中对梯度近似求解的思路参考了 [16] ，线搜索的思想主要来自( [13] , Lemma 3.2)。

3.1. 非精确邻近梯度算法

Algorithm 1. Inexact proximity gradient algorithm

算法1. 非精确邻近梯度算法

由算法1可知，若在迭代过程的第2步采用全梯度，则算法1为精确的线搜索邻近梯度算法，即与( [13] , Method 3)相同。下面的各类命题与定理中，都假设序列 ${x^{k}}$ 由算法1所产生。

命题1 设 $k \in N$ ， $β_{k}$ 为算法1第k次迭代的Step 3中生成的步长，则对任意 $x \in d o m h$ ，有：

$\begin{matrix} {‖ x^{k + 1} - x ‖}^{2} - {‖ x^{k} - x ‖}^{2} \leq 2 [(f + h) (x^{k}) - (f + h) (x^{k + 1})] + 2 β_{k} [(f + h) (x) - (f + h) (x^{k})] \\ + 2 β_{k} ‖ x - x^{k} ‖ ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖ . \end{matrix}$ (10)

证明：对任意 $x \in d o m h$ ，设

$A_{k} : = {‖ x^{k + 1} - x^{k} ‖}^{2} + {‖ x^{k} - x ‖}^{2} - {‖ x^{k + 1} - x ‖}^{2} = 2 〈 x^{k} - x^{k + 1}, x^{k} - x 〉 .$

由(9)可得

$\begin{matrix} \frac{A_{k}}{2 β_{k}} = \frac{2}{2 β_{k}} 〈 x^{k} - x^{k + 1}, x^{k} - x 〉 = 〈 x^{k} - J_{k}, x^{k} - x 〉 \\ = 〈 x^{k} - J_{k} - g_{k} (x^{k}), x^{k} - x 〉 + 〈 g_{k} (x^{k}), x^{k} - x 〉 \\ = 〈 x^{k} - J_{k} - g_{k} (x^{k}), J_{k} - x 〉 + 〈 x^{k} - J_{k} - g_{k} (x^{k}), x^{k} - J_{k} 〉 + 〈 g_{k} (x^{k}), x^{k} - x 〉 \\ = 〈 x^{k} - J_{k} - g_{k} (x^{k}), J_{k} - x 〉 + {‖ x^{k} - J_{k} ‖}^{2} - 〈 g_{k} (x^{k}), x^{k} - J_{k} 〉 + 〈 g_{k} (x^{k}), x^{k} - x 〉 . \end{matrix}$

由(3)与(7)可得： $x^{k} - J_{k} - g_{k} (x^{k}) \in \partial h ( J k )$

又f是光滑的凸函数，所以

$\begin{matrix} f (x) - f (y) \geq 〈 \nabla f (y), x - y 〉 \\ = 〈 \nabla f (y) - g (y), x - y 〉 + 〈 g (y), x - y 〉 \\ \geq - ‖ x - y ‖ ‖ \nabla f (y) - g (y) ‖ + 〈 g (y), x - y 〉 . \end{matrix}$

结合算法的第3步，并令 $y : = x^{k}$ ，得

$\begin{matrix} \frac{A_{k}}{2 β_{k}} \geq h (J_{k}) - h (x) + \frac{1}{β_{k}} [(f + h) (x^{k + 1}) - (f + h) (x^{k})] + h (x^{k}) - h (J_{k}) + \frac{1}{2} {‖ x^{k} - J_{k} ‖}^{2} \\ + f (x^{k}) - f (x) - ‖ x - x^{k} ‖ ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖ \\ = [(f + h) (x^{k}) - (f + h) (x)] + \frac{1}{β_{k}} [(f + h) (x^{k + 1}) - (f + h) (x^{k})] + \frac{1}{2} {‖ x^{k} - J_{k} ‖}^{2} \\ - ‖ x - x^{k} ‖ ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖ . \end{matrix}$

于是

$\begin{matrix} {‖ x^{k + 1} - x ‖}^{2} - {‖ x^{k} - x ‖}^{2} \leq {‖ x^{k + 1} - x^{k} ‖}^{2} + 2 β_{k} [(f + h) (x) - (f + h) (x^{k})] + 2 [(f + h) (x^{k}) - (f + h) (x^{k + 1})] \\ - β_{k} {‖ x^{k} - J_{k} ‖}^{2} + 2 β_{k} ‖ x - x^{k} ‖ ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖ . \end{matrix}$

又由于 $x^{k} - x^{k + 1} = β_{k} (J_{k} - x^{k})$ ，且 $β_{k} \in (0, 1)$ ，则 $β_{k}^{2} \leq β_{k}$ 。即 ${‖ x^{k} - x^{k + 1} ‖}^{2} - β_{k} {‖ J_{k} - x^{k} ‖}^{2} \leq 0$ 。

从而(10)得证。

特别地，当 $x = x^{k}$ 时，由(10)有

$(f + h) (x^{k}) - (f + h) (x^{k + 1}) \geq \frac{1}{2} {‖ x^{k + 1} - x ‖}^{2} \geq 0.$ (11)

从而序列 ${(f + h) (x^{k})}$ 单调减少，这说明算法1为下降算法。

关于算法1，有以下收敛性结论。

定理1 设解集 $S_{*} \neq \emptyset$ ， ${x^{k}}$ 和 ${β_{k}}$ 为算法1所产生的序列。记 $d_{0} : = dist (x^{0}, S_{*})$ ，假设近似梯度 $g_{k}$ 连续且存在 $a \geq 1$ 满足

$Δ : = \sum_{k = 0}^{\infty} ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖ < + \infty,$ (12)

则序列 ${x^{k}}$ 收敛于 $S_{*}$ 中一点，即存在 $\bar{x} \in S_{*}$ ，使得

$\lim_{k \to \infty} x^{k} = \bar{x} .$ (13)

证明：在(7)中令 $x = x_{*} \in S_{*}$ ，有

${‖ x^{k + 1} - x_{*} ‖}^{2} - {‖ x^{k} - x_{*} ‖}^{2} \leq 2 [(f + h) (x^{k}) - (f + h) (x^{k + 1})] + 2 β_{k} ‖ x_{*} - x^{k} ‖ \cdot ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖, \forall k \in N .$ (14)

由于序列 ${(f + h) (x^{k})}$ 单调递减，则

$\sum_{k = 0}^{\infty} [(f + h) (x^{k}) - (f + h) (x^{k + 1})] \leq (f + h) (x^{0}) - (f + h) (x_{*}) < + \infty .$

由(12)与引理5 (用 $(f + h) (x^{k}) - (f + h) (x^{k + 1})$ ， $‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖$ 和 $‖ x^{k} - x_{*} ‖$ 代替 $a_{k}, b_{k}$ 和 $c_{k}$ )可知序列 ${‖ x^{k} - x_{*} ‖}$ 有界，从而有

$\begin{array}{l} 2 \sum_{k = 0}^{\infty} [(f + h) (x^{k}) - (f + h) (x^{k + 1})] + 2 \sum_{k = 0}^{\infty} β_{k} ‖ x_{*} - x^{k} ‖ \cdot ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖ \\ \leq 2 [(f + h) (x^{0}) - (f + h) (x_{*})] + 2 \sum_{k = 0}^{\infty} β_{k} ‖ x_{*} - x^{k} ‖ \cdot ‖ \nabla f (x^{k}) - g_{k} (x^{k}) ‖ < + \infty . \end{array}$

结合(14)与定义3可知序列 ${x^{k}}$ quasi-Fejér收敛到 $S_{*}$ 。又由引理4知序列 ${x^{k}}$ 有界，假设 $\bar{x}$ 为 ${x^{k}}$ 的一个聚点，下面证明 $\bar{x} \in S_{*}$ 。令

${\hat{β}}_{k} : = \frac{β_{k}}{θ} > β_{k} > 0,$

${\hat{y}}_{k} : = x^{k} - {\hat{β}}_{k} (x^{k} - J_{k}) = (1 - {\hat{β}}_{k}) x^{k} + {\hat{β}}_{k} J_{k} .$ (15)

由算法1的step3可知

$(f + h) ({\hat{y}}_{k}) > (f + h) (x^{k}) - {\hat{β}}_{k} [h (x^{k}) - h (J_{k})] - {\hat{β}}_{k} 〈 g_{k} (x^{k}), x^{k} - J_{k} 〉 + \frac{{\hat{β}}_{k}}{2} {‖ x^{k} - J_{k} ‖}^{2} .$

结合(2)和(15)可得

$\begin{matrix} 0 > (f + h) (x^{k}) - (f + h) ({\hat{y}}_{k}) - {\hat{β}}_{k} [h (x^{k}) - h (J_{k})] - {\hat{β}}_{k} 〈 g_{k} (x^{k}), x^{k} - J_{k} 〉 + \frac{{\hat{β}}_{k}}{2} {‖ x^{k} - J_{k} ‖}^{2} \\ \geq 〈 g_{k} ({\hat{y}}_{k}), x^{k} - {\hat{y}}_{k} 〉 + 〈 \nabla f ({\hat{y}}_{k}) - g_{k} ({\hat{y}}_{k}), x^{k} - {\hat{y}}_{k} 〉 + h (x^{k}) - (1 - {\hat{β}}_{k}) h (x^{k}) - {\hat{β}}_{k} h (J_{k}) \\ - {\hat{β}}_{k} [h (x^{k}) - h (J_{k})] - {\hat{β}}_{k} 〈 g_{k} (x^{k}), x^{k} - J_{k} 〉 + \frac{{\hat{β}}_{k}}{2} {‖ x^{k} - J_{k} ‖}^{2} \\ = {\hat{β}}_{k} 〈 g_{k} ({\hat{y}}_{k}) - g_{k} (x^{k}), x^{k} - J_{k} 〉 + {\hat{β}}_{k} 〈 \nabla f ({\hat{y}}_{k}) - g_{k} ({\hat{y}}_{k}), x^{k} - J_{k} 〉 + \frac{{\hat{β}}_{k}}{2} {‖ x^{k} - J_{k} ‖}^{2} . \end{matrix}$

整理可得

$\frac{1}{2} ‖ x^{k} - J_{k} ‖ \leq ‖ g_{k} ({\hat{y}}_{k}) - g_{k} (x^{k}) ‖ + ‖ \nabla f ({\hat{y}}_{k}) - g_{k} ({\hat{y}}_{k}) ‖ .$ (16)

由于算子 ${prox}_{h} (\cdot)$ 的非扩张性，由(7)可知 $‖ J_{k} - J_{0} ‖ \leq ‖ x^{k} - x^{0} ‖ + ‖ g (x^{k}) - g (x^{0}) ‖$ 。

由(15)可知当 $β_{k} \to 0$ 时，有 $\lim_{k \to \infty} ‖ {\hat{y}}_{k} - x^{k} ‖ = 0$ ，由g的连续性可知当 $k \to \infty$ 时 $‖ g_{k} ({\hat{y}}_{k}) - g_{k} (x^{k}) ‖ \to 0$ 。

结合引理3可知 $‖ \nabla f ({\hat{y}}_{k}) - g_{k} ({\hat{y}}_{k}) ‖ \to 0$ ，这表明了

$\lim_{k \to \infty} ‖ x^{k} - J_{k} ‖ = 0$ . (17)

注意 $\bar{x}$ 为 ${x^{k}}$ 的一个聚点，即存在子序列 ${x^{k_{j}}}$ 收敛到 $\bar{x}$ ，则 ${J_{k_{j}}}$ 也收敛到 $\bar{x}$ ，则又由引理3有

$\lim_{j \to \infty} ‖ g_{k_{j}} (x^{k_{j}}) - \nabla f (J_{k_{j}}) ‖ = 0.$ (18)

故在(3)中令 $z = x^{k_{j}} - g_{k_{j}} (x^{k_{j}})$ 可得到

$x^{k_{j}} - J_{k_{j}} - g_{k_{j}} (x^{k_{j}}) + \nabla f (J_{k_{j}}) \in \partial h (J_{k_{j}}) + \nabla f (J_{k_{j}}) = \partial (f + h) (J_{k_{j}}) .$

令 $j \to \infty$ ，由(17)及(18)可得 $0 \in \partial (f + h) (\bar{x})$ ，从而 $\bar{x} \in S_{*}$ ，由引理4可得(13)。

3.2. 算法1的迭代复杂度

在本小节中，我们将分析算法1的迭代复杂性。下面的定理表示当线搜索步长 ${β_{k}}$ 有正的下界时，函数值的收敛速度为 $o (k^{- 1})$ ，这与( [13] , Method3)中的(精确)邻近梯度算法的迭代复杂度类似。

定理2设定理1中的假设成立，且满足 $\inf_{k \in N} β_{k} \geq β > 0$ ，则下列估计式成立：

$\lim_{k \to \infty} k [(f + h) (x^{k}) - \min_{x \in R^{m}} (f + h) (x)] = 0.$

证明：由定理1可设

$\lim_{k \to \infty} x^{k} = x_{*} \in S_{*},$

因此对任意 $ε > 0$ ，存在 $K > 0$ 使得

$‖ x^{k} - x_{*} ‖ \leq ε$ 和 $(f + h) (x^{k}) - (f + h) (x_{*}) \leq ε \forall k \geq K .$ (19)

由命题1 (10) (令 $x = x_{*}$ )，对任意 $l \in N$ 有

$\begin{matrix} 0 \geq (f + h) (x_{*}) - (f + h) (x^{l}) \\ \geq \frac{1}{2 β_{l}} ({‖ x^{l + 1} - x_{*} ‖}^{2} - {‖ x^{l} - x_{*} ‖}^{2} + 2 [(f + h) (x^{l + 1}) - (f + h) (x^{l})] - 2 β_{l} ‖ x_{*} - x^{l} ‖ \cdot ‖ \nabla f (x^{l}) - g_{k} (x^{l}) ‖) \\ \geq \frac{1}{β_{l}} ({‖ x^{l + 1} - x_{*} ‖}^{2} - {‖ x^{l} - x_{*} ‖}^{2} + 2 [(f + h) (x^{l + 1}) - (f + h) (x^{l})] - 2 β_{l} ‖ x_{*} - x^{l} ‖ \cdot ‖ \nabla f (x^{l}) - g_{k} (x^{l}) ‖) . \end{matrix}$

上式不等式对 $l = K, K + 1, \dots, K + k - 1$ 求和得

$\begin{array}{l} k (f + h) (x_{*}) - \sum_{l = K}^{K + k - 1} (f + h) (x^{l}) \\ \geq \frac{1}{2 β_{l}} ({‖ x^{K + k} - x_{*} ‖}^{2} - {‖ x^{K} - x_{*} ‖}^{2} + 2 [(f + h) (x^{K + k}) - (f + h) (x^{K})] \begin{matrix} \end{matrix} \\ - \sum_{l = K}^{K + k - 1} 2 β_{l} ‖ x_{*} - x^{l} ‖ \cdot ‖ \nabla f (x^{l}) - g_{k} (x^{l}) ‖) . \end{array}$ (20)

即注意到 ${(f + h) (x^{k})}$ 单调减少，我们有

$\sum_{l = K}^{K + k - 1} (f + h) (x^{l}) \leq k (f + h) (x^{K}), (f + h) (x^{K + k}) - (f + h) (x^{K}) \geq (f + h) (x_{*}) - (f + h) (x^{K}) .$

这和(20)一起表明

$\begin{matrix} k [(f + h) (x_{*}) - (f + h) (x^{K + k})] \geq - \frac{1}{2 β_{l}} {‖ x^{K} - x_{*} ‖}^{2} - \frac{1}{β_{l}} [(f + h) (x^{K}) - (f + h) (x_{*})] \\ - \sum_{l = K}^{K + k - 1} ‖ x_{*} - x^{l} ‖ \cdot ‖ \nabla f (x^{l}) - g_{k} (x^{l}) ‖ \\ \geq - (\frac{ε^{2}}{2 β} + \frac{ε}{β} + ε Δ), \end{matrix}$

其中最后一个不等式因为(12)，(19)和 $\inf_{k \in N} β_{k} \geq β$ 。由于 $ε > 0$ 的任意性，我们有

$\underset{k \to \infty}{\lim \sup} k [(f + h) (x^{k}) - (f + h) (x_{*})] \leq 0$ .

又 $(f + h) (x^{k}) - (f + h) (x_{*}) \geq 0$ ，所以定理结论成立。

下列命题表明在 $\nabla f_{i}$ ( $i \in ψ$ )的Lipschitz连续假设条件下， ${β_{k}}$ 有正的下界。证明思路与( [13] , Proposition 5.4)类似，所以我们省略了它的证明。

命题2 设 ${β_{k}}$ 为线搜索1的算法1所产生的序列，设 $x_{*}$ 是 ${x^{k}}$ 的极限点，即 $\lim_{k \to \infty} x^{k} = x_{*}$ ，近似梯度

序列 ${g_{k}}$ 为抽样产生。若对每个 $i \in ψ$ ， $\nabla f_{i}$ 在点 $x_{*}$ 是常数为 $L_{i} (x_{*}) > 0$ 的局部Lipschitz连续的，则

$\underset{k \to \infty}{\lim \inf} β_{k} \geq \min {1, \frac{θ}{2 L (x_{*})}},$

其中 $L (x_{*}) : = \max_{i \in ψ} L_{i} (x_{*})$ 。

4. 结论

本文介绍了一种求解大规模复合凸优化的非精确邻近梯度算法，算法不依赖可微函数的Lipschitz常数，并分析了算法的收敛性。接下来，我们可以构造求解大规模优化问题的非精确求解其他方法，得到高效的算法。

基金项目

国家自然科学基金(No. 12161017)；贵州省科技厅科技计划项目(No. ZK[2022]110)。

参考文献

[1]	Robbins, H. and Monro, S. (1951) A Stochastic Approximation Method. Annals of Mathematical Statistics, 22, 400-407. https://doi.org/10.1214/aoms/1177729586
[2]	Johnson, R. and Zhang, T. (2013) Accelerating Stochastic Gradient Descent Using Predictive Variance Reduction. Advances in Neural Information Processing Systems, 1, 315-323.
[3]	Erdogdu, M.A. and Montanari, A. (2015) Convergence Rates of Sub-Sampled Newton Methods. International Conference on Neural Information Processing Systems, MIT Press, 28.
[4]	Agarwal, N., Bullins, B. and Hazan, E. (2017) Second-Order Stochastic Optimization for Machine Learning in Linear Time. Journal of Machine Learning Research, 18, 1-14.
[5]	Moreau, J.J. (1962) Fonctions convexes duales et points proximaux dans un espacehilbertien. Comptes rendushebdomadaires des séances de l’Académie des Sciences, 255, 2897-2899.
[6]	Yuan, X. (2012) Alternating Direction Methods for Sparse Covariance Selection. Journal of Scientific Computing, 51, 261-273. https://doi.org/10.1007/s10915-011-9507-1
[7]	Beck, A. and Teboulle, M. (2009) Gradient-Based Algorithms with Applications to Signal Recovery. Convex Optimization in Signal Processing and Communications, 42-88. https://doi.org/10.1017/CBO9780511804458.003
[8]	Machart, P., Anthoine, S. and Baldassarre, L. (2012) Optimal Computational Tradeoff of Inexact Proximal Methods.
[9]	Moreau, J.J. (1965) Proximité et dualité dans un espacehilbertien. Bulletin de la Société mathématique de France, 93, 273-299. https://doi.org/10.24033/bsmf.1625
[10]	Krasnoselkii, M.A. (1957) Two Observations about the Method of Successive Approximations, Uspehi Math. Nauk, 10, 131-140.
[11]	Rockafellar, R.T. (1976) Monotone Operators and the Proximal Point Algorithm. SIAM Journal on Control and Optimization, 14, 877-898. https://doi.org/10.1137/0314056
[12]	Rockafellar, R.T. (1976) Augmented Lagrangians and Applications of the Proximal Point Algorithm in Convex Programming. Mathematics of Operations Research, 1, 97-116. https://doi.org/10.1287/moor.1.2.97
[13]	Bello Cruz, J.Y. and Nghia, T.T.A. (2016) On the Convergence of the Forward-Backward Splitting Method with Linesearches. Optimization Methods and Software, 31, 1209-1238. https://doi.org/10.1080/10556788.2016.1214959
[14]	Polyak, B.T. and Juditsky, A. B. (1992) Acceleration of Stochastic Approximation by Averaging. SIAM Journal on Control and Optimization, 30, 838-855. https://doi.org/10.1137/0330046
[15]	Bauschke, H.H. and Combettes, P.L. (2011) Convex Analysis and Monotone Operator Theory in Hilbert Spaces. Springer, New York. https://doi.org/10.1007/978-1-4419-9467-7
[16]	Roosta-Khorasani, F. and Mahoney, M.W. (2019) Sub-Sampled Newton Methods. Mathematical Programming, 174, 293-326. https://doi.org/10.1007/s10107-018-1346-5
[17]	Iusem, A.N., Svaiter, B.F. and Teboulle, M. (1994) Entropy-Like Proximal Methods in Convex Programming. Mathematics of Operations Research, 19, 790-814. https://doi.org/10.1287/moor.19.4.790

为你推荐

友情链接