基于近似一阶信息的改进的加速水平束方法

doi:10.12677/aam.2024.134128

期刊菜单

基于近似一阶信息的改进的加速水平束方法
An Modified Accelerated Level Bundle Method Based on Approximate First Order Information

DOI: 10.12677/aam.2024.134128, PDF, HTML, XML,
作者: 李艳妮：上海建桥学院职业技术学院，上海
关键词: 近似一阶信息；加速水平束方法；全局收敛性；Approximate First Order Information； Accelerated Level Bundle Method； Global Convergence

摘要: 本文提出了一个近似一阶信息的改进的加速水平束方法，该方法结合多步加速策略，引入了三个迭代点序列进行求解，通过引入非欧氏距离代替传统的欧式距离，从而可以充分利用可行集的几何集合，与Lan的方法相比，本文提出的方法仅需求解一个子问题，从而可以减少算法的计算量。最后对所提出的算法进行收敛性分析以及计算相应的迭代复杂度。

Abstract: In this paper, we propose an improved acceleration level bundle method with approximate first-order information, which combines the multistep acceleration strategy and introduces three iterative point sequences to solve, and can make full use of the geometric set of feasible sets by introducing non-Euclidean distances instead of traditional Euclidean distances. Finally, Global convergence of the algorithm is proved and the iterative complexity is analyzed.

文章引用：李艳妮. 基于近似一阶信息的改进的加速水平束方法[J]. 应用数学进展, 2024, 13(4): 1368-1377. https://doi.org/10.12677/aam.2024.134128

1. 引言

本文考虑以下凸优化问题：

$f^{*} : = \min_{x \in X} f (x)$ (1.1)

其中 $X \subseteq R^{n}$ 是非空紧凸集，函数 $f : R^{n} \to R$ 是一个闭凸函数。假设上述优化问题的解集 $X^{*}$ 非空，则对于 $\forall x \in X$ ，目标函数f满足如下不等式：

(1.2)

其中目标函数f在此点的函数值为 $f (x)$ ，次梯度为 $f^{'} (x) \in \partial f (x)$ ，且常数 $M > 0$ ， $ρ \in [0, 1]$ ， $‖ \cdot ‖$ 是定义在 $R^{n}$ 上的范数， $〈 \cdot, \cdot 〉$ 表示相应的内积。当 $ρ = 0$ 时，函数 $f (x)$ 是非光滑函数；当 $ρ = 1$ 时，函数 $f (x)$ 是光滑函数；当 $ρ \in (0, 1)$ 时，函数 $f (x)$ 是弱光滑函数。文献 [1] [2] [3] [4] 证明了对任意的 $ε > 0$ ，任何的一阶算法为找到(1.1)的一个 $ε$ -解，即可以找到一个点p使得 $f (p) - f^{*} \leq ε$ ，算法所需要计算f的一阶信息即次梯度的次数无法小于 $O (1 / ε^{\frac{2}{1 + 3 ρ}})$ 。

本文主要讨论水平束类算法，该类算法利是用当前所有迭代点处的函数值和次梯度产生线性化函数，通过对这些线性化函数取最大，产生一系列近似凸多面体称切平面模型，再极小化割平面模型来逼近原目标函数，并利用切平面模型来产生一系列关于最优值 $f^{*}$ 的上界和下界，该类方法主要是通过迭代不断压缩上下界的间隙来找到原问题的一个近似解。然而，在很多实际问题中，函数在某点的精确的一阶信息(函数值和次梯度)可能比较难甚至是无法计算。因此，设计有效的算法利用近似的一阶信息求解目标函数并使其具有理论上最优的迭代复杂度的近似算法具有重要的理论意义和实际应用价值。目前，关于近似水平束类算法已经有了很多的研究，梁玲 [5] 提出了非光滑优化基于非精确的加速水平束方法，陈韵梅和张维 [6] 提出了基于近似一阶信息的加速水平束方法，近似解达到了最佳精度以及相应的迭代复杂度。本文主要基于Lan [7] 引入的多步加速策略和采用的非欧式距离函数结合陈韵梅 [6] 提出的基于近似一阶信息的加速水平束方法，提出了基于近似一阶信息的改进的加速水平束方法，简记为“IMAPL”。该方法采用非欧几里得距离代替水平束方法中的欧氏距离，从而可以充分利用可行集的几何结构，大大提高了计算速度。文献 [5] “IAPL”非精确数据的加速邻近水平束方法有效性依赖于两个子问题的求解：第一是为了计算原问题的最优值的下界需要求解一个线性规划问题；第二个是为了更新迭代点需要去求解一个二次规划问题。本文对近似一阶信息的加速邻近水平束方法进行改进，去掉了第一个子问题的求解，第二个子问题用来定义新的迭代点和更新下界，并且可以根据可行集具体的几何结构选择合适的邻近函数。

2. 算法设计

本文采用非精确的一阶信息，即在每一次迭代中，对 $\forall x \in X$ ，产生函数f满足以下条件的近似一阶信息：

${\begin{cases} f_{δ} \in [f (x) - δ, f (x)], \\ g_{δ} \in \partial_{δ} f (x) . \end{cases}$ (2.1)

其中， $f_{δ}$ 和 $g_{δ}$ 分别叫做函数f在点x的近似函数值和近似次梯度， $\partial_{δ} f (x)$ 的定义如下：

$\partial_{δ} f (x) = {g \in R^{n} : f (y) \geq f_{δ} + 〈 g, y - x 〉 - δ, \forall x \in X} .$ (2.2)

根据(2.1)和f的凸性可以得到

$f (\cdot) \geq f_{δ} (x) + 〈 g_{δ} (x), \cdot - x 〉 - δ, f_{δ} (x) \in [f (x) - δ, f (x)] .$ (2.3)

假设目标函数(1.2)的近似一阶信息满足下面条件，即对 $\forall x \in X$ ，函数f在这点的近似一阶信息 $(f_{δ} (x), g_{δ} (x))$ 满足如下不等式：

$f (y) - f_{δ} (x) - 〈 g_{δ} (x), y - x 〉 \leq \frac{L}{2} {‖ y - x ‖}^{2} + δ, \forall x, y \in X,$ (2.4)

为了方便算法的描述和定理的证明的需要，下面给出一些基本知识。

定义邻近函数：

$φ (x_{0}, x) = ω (x) - [ω (x_{0}) + 〈 ω^{'} (x_{0}), x - x_{0} 〉], \forall x \in X,$ (2.5)

其中，函数 $ω : R^{n} \to R$ 是集合X上系数为 $σ_{ω}$ 强凸函数， $x_{0} = \underset{x \in X}{\arg \min} φ (x_{0}, x)$ 为函数 $φ (x_{0}, x)$ 的邻近中心。

记集合X对应于函数 $ω (x)$ 的大小为：

$D_{ω, X} : = {ω (x) - [ω (z) + 〈 \nabla ω (z), x - z 〉], \forall x, z \in X},$ (2.6)

记 $L_{f} (l) : = {x \in X : f (x) \leq l}$ 为函数f在X上的水平集，假如存在一个紧凸集 $X^{'}$ ，满足 $L_{f} (l) \subseteq X^{'} \subseteq X$ ，则称集合 $X^{'}$ 为水平集 $L_{f} (l)$ 的一个定位器。

定义间隙为：

$Δ_{k} : = {\bar{f}}_{k} - {\underline{f}}_{k}$ . (2.7)

根据 $Δ_{k}$ 的定义易知 $Δ_{k}$ 是非负的，通过不断压缩间隙 $Δ_{k}$ ，寻找原问题(1.1)的近似最优解。该算法的主要思想是利用目标函数的近似一阶信息来产生线性化，进而产生最优值 $f^{*}$ 的上下界，然后不断压缩上下界的间隙来得到给定精度的最优解，算法由外迭代和内迭代子程序构成，每调用一次内迭代子程序，最优值上下界之间的间隙都会随着减少一个常数倍，下面给出算法的具体步骤：

算法

步骤0 (参数选取) 给定精度 $ε > 0$ ，选取参数 $λ, θ \in (0, 1)$ ，初始模型精度 $δ_{0}$ 。

步骤1 (初始化) 给定初始点 $p_{0} \in X$ ，令 $p_{1} \in \underset{x \in X}{\arg \min} h_{δ_{0}} (p_{0}, x)$ ， ${ub}_{1} : = \min {f_{δ_{0}} (p_{0}), f_{δ_{0}} (p_{1})} + δ_{0}$ ， ${lb}_{1} : = h_{δ_{0}} (p_{0}, p_{1})$ ，令 $s : = 1$ 。

步骤2 (终止准则) 如果 ${ub}_{s} - {lb}_{s} \leq ε$ ，则终止算法，输出近似解 $p_{s}$ 。

步骤3 (调用子程序) 令 $(p_{s + 1}, {lb}_{s + 1}) = ς_{IMAPL} (p_{s}, {lb}_{s}, λ, θ, δ_{s})$ ， $δ_{s}$ 为当前模型精度， ${ub}_{s + 1} : = f_{δ_{s}} (p_{s + 1}) + δ_{s}$ 。

步骤4 (循环) 令 $s : = s + 1$ ，返回步骤2。

注1：(1) $λ$ 是在内循环时计算水平参数的一个参数，每当s增加1，算法IMAPL进入下一个阶段，该算法的每一次外迭代主要判断最优值的上下界间隙与给定精度的大小，若间隙大于给定精度，则调用子程序来压缩间隙，否则，终止算法，输出近似最优解。

下面给出算法的内迭代子程序的具体过程，选定一个搜索点p和最优值 $f^{*}$ 的下界 $lb$ ，输出新的搜索点 $p^{+}$ 和新的下界 ${lb}^{+}$ 满足 $f (p^{+}) - {lb}^{+} \leq q [f (p) - lb]$ ，其中 $q \in (0, 1)$ 且依赖于算法外迭代的输入参数 $λ, θ$ 。

算法内迭代子程序： $(p^{+}, {lb}^{+}) = ς_{IMAPL} (p, lb, λ, θ, δ)$ 。

步骤0 (初始化)令 $x_{0}^{u} = p$ ， ${\bar{f}}_{0} : = f (x_{0}^{u}) = ub$ ， ${\underline{f}}_{0} : = lb$ ， $l = λ {\underline{f}}_{0} + (1 - λ) {\bar{f}}_{0}$ 。选取 $x_{0} \in X$ ， ${X^{'}}_{0} = X$ ，考虑由(2.5)定义的邻近函数 $φ (x_{0}, x)$ ，令 $k : = 1$ 。

步骤1 (更新割平面模型)令

$x_{k}^{l} : = (1 - α_{k}) x_{k - 1}^{u} + α_{k} x_{k - 1}$ (2.8)

$h_{δ} (x_{k}^{l}, x) : = f_{δ} (x_{k}^{l}) + 〈 g_{δ} (x_{k}^{l}), x - x_{k}^{l} 〉$ (2.9)

${\underline{X}}_{k} : = {x \in {X^{'}}_{k - 1} : h_{δ} (x_{k}^{l}, x) \leq l}$ (2.10)

步骤2 (更新迭代点和下界)令

$x_{k} : = \underset{x \in {\underline{X}}_{k}}{\arg \min} φ (x_{0}, x)$ (2.11)

若 ${\underline{X}}_{k} = \emptyset$ ，则终止程序，输出 $p^{+} = x_{k - 1}^{u}$ ， ${lb}^{+} = l$ 。

步骤3 (更新上界)令

${\tilde{x}}_{k}^{u} : = (1 - α_{k}) x_{k - 1}^{u} + α_{k} x_{k - 1}$ (2.12)

$x_{k}^{u} = {\begin{cases} {\tilde{x}}_{k}^{u} 如果 f_{δ} ({\tilde{x}}_{k}^{u}) + δ < {\bar{f}}_{k - 1}, \\ x_{k - 1}^{u} 否则, \end{cases}$ (2.13)

令 ${\bar{f}}_{k} : = f_{δ} (x_{k}^{u}) + δ$ ，如果 ${\bar{f}}_{k} \leq l + θ ({\bar{f}}_{0} - l)$ ，则终止程序，并输出 $p^{+} = x_{k}^{u}$ ， ${lb}^{+} = lb$ 。

步骤4 (更新定位器)选取任意多面体集 ${X^{'}}_{k}$ 满足 ${\underline{X}}_{k} \subseteq {X^{'}}_{k} \subseteq {\bar{X}}_{k}$ ，其中

${\bar{X}}_{k} : = {x \in X, 〈 \nabla φ (x_{0}, x_{k}), x - x_{k} 〉 \geq 0}$ (2.14)

步骤5 (循环)令 $k : = k + 1$ ，返回步骤1。

注2：步骤0中初始上下界来自于算法的外循环，水平值是初始上下界的凸组合，是固定不变的；步骤1中为了保证算法有限次终止，算法中步长 ${α_{k}}$ 的选取需要满足一定的条件；该算法在步骤2和步骤3分别有终止出口，当上界有显著下降或者下界有显著上升，则终止内循环；步骤4中定位器的更新是可以任意选取集合 ${X^{'}}_{k}$ 满足 ${\underline{X}}_{k} \subseteq {X^{'}}_{k} \subseteq {\bar{X}}_{k}$ ，我们选取 ${X^{'}}_{k}$ 在这两个集合中间，能够控制(2.10)中约束的数目，减少迭代次数。

引理2.1 对内迭代子程序 $ς_{IMAPL} (p, lb, λ, θ, δ)$ 由下列结论成立：

(a) ${{X^{'}}_{k}}_{k \geq 0}$ 是水平集 $L_{f} (l)$ 的定位器，即 $L_{f} (l) \subseteq {X^{'}}_{k}$ ， $\forall k \geq 0$ 成立。

(b) 对任意的 $k \geq 1$ ，有 ${\bar{f}}_{0} \geq {\bar{f}}_{1} \geq \dots \geq {\bar{f}}_{k} \geq f^{*}$ 。

(c) 如果 $L_{f} (l) \neq \emptyset$ ，则对任意的 $k \geq 1$ ，可以找到 ${X^{'}}_{k}$ 使得 $L_{f} (l) \subseteq {\underline{X}}_{k} \subseteq {X^{'}}_{k} \subseteq {\bar{X}}_{k}$ 成立。

(d) 如果 ${\underline{X}}_{k} \neq \emptyset$ ，则子问题(2.11)有唯一解。如果程序在步骤2终止，则水平值l为最优值的一个下界，即 $l \leq f^{*}$ 成立。

证明：(a) 用数学归纳法：

1) 当 $k = 0$ 时，显然有 $L_{f} (l) \subseteq X = {X^{'}}_{0}$ 成立；

2) 假设 $k - 1$ 时，有 $L_{f} (l) \subseteq {X^{'}}_{k - 1}$ 成立，往证 $L_{f} (l) \subseteq {X^{'}}_{k}$ ；

3) 由 $h_{δ}$ 的定义(2.9)和f的凸性可知， $h_{δ} (x_{k}^{l}, x) \leq f (x) \leq l$ 成立，结合ii)对 $\forall x \in L_{f} (l)$ 有 $x \in {X^{'}}_{k - 1}$ 且 $h_{δ} (x_{k}^{l}, x) \leq f (x) \leq l$ 成立，根据 ${\underline{X}}_{k}$ 的定义(2.10)可得 $L_{f} (l) \subseteq {\underline{X}}_{k}$ ，又因为 ${\underline{X}}_{k} \subseteq {X^{'}}_{k}$ 可知 $L_{f} (l) \subseteq {X^{'}}_{k}$ ，综上可知， ${{X^{'}}_{k}}_{k \geq 0}$ 是水平集 $L_{f} (l)$ 的定位器。

(b) 由内迭代子程序的步骤3可以知道， ${\bar{f}}_{k} : = \min {{\bar{f}}_{k - 1}, f_{δ} ({\tilde{x}}_{k}^{u}) + δ} \leq {\bar{f}}_{k - 1}$ ，故对任意的 $k \geq 1$ 时，有 $f^{*} \leq {\bar{f}}_{k} \leq {\bar{f}}_{k - 1} \leq \dots \leq {\bar{f}}_{1} \leq {\bar{f}}_{0}$ 。

(c) 由(a)的证明可知， $L_{f} (l) \subseteq {\underline{X}}_{k}$ 成立，根据子程序的步骤4可知 ${X^{'}}_{k} \neq \emptyset$ ，否则子程序在步骤2终止，下证 ${\underline{X}}_{k} \subseteq {\bar{X}}_{k}$ 成立。

根据子问题(2.11)的一阶最优性条件可知： $0 \in \nabla φ (x_{0}, x_{k}) + N_{{\underline{X}}_{k}} (x_{k})$ ，即 $- \nabla φ (x_{0}, x_{k}) \in N_{{\underline{X}}_{k}} (x_{k})$ ，由法锥的定义有 $〈 \nabla φ (x_{0}, x_{k}), x - x_{k} 〉 \geq 0$ ， $\forall x \in {\underline{X}}_{k}$ 。再根据 ${\bar{X}}_{k}$ 的定义(2.14)可知，对 $\forall x \in {\underline{X}}_{k}$ 有 $x \in {\bar{X}}_{k}$ ，所以 ${\underline{X}}_{k} \subseteq {\bar{X}}_{k}$ ，即存在 ${X^{'}}_{k}$ 满足 $L_{f} (l) \subseteq {\underline{X}}_{k} \subseteq {X^{'}}_{k} \subseteq {\bar{X}}_{k}$ ， $\forall k \geq 1$ 。

(d) 根据 ${\underline{X}}_{k}$ 的定义(2.10)和X的紧凸集可知 ${\underline{X}}_{k}$ 是紧凸集，又因为 $φ (x_{0}, x)$ 是强凸函数，如果 ${\underline{X}}_{k} \neq \emptyset$ ，则子问题(2.11)存在唯一解，如果程序在步骤2终止，那么意味着 ${\underline{X}}_{k} = \emptyset$ ，并且根据(a)可知 $L_{f} (l) \subseteq {\underline{X}}_{k}$ ，所以 $L_{f} (l) = \emptyset$ ，于是对 $\forall x \in X$ ，有 $l \leq f (x)$ 成立，从而 $l \leq f^{*} \leq f (x)$ ， $\forall x \in X$ ，即l是 $f^{*}$ 的一个下界。□

为了保证内迭代子程序 $ς_{IMAPL}$ 能够终止且达到最优的迭代复杂度，需要选取合适的步长 ${α_{k}}$ ，Lan在文献 [6] 中给出了序列 ${α_{k}}$ 的一个广义的选取规则。Chen等 [7] 提出了一种更为简洁的选取方法，即序列 ${α_{k}}$ 需要满足如下条件：

$α_{1} = 1, 0 < α_{k} \leq 1, α_{k} < \frac{C_{1}}{k}, \frac{1 - α_{k + 1}}{α_{k + 1}^{2}} \leq \frac{1}{α_{k}^{2}}$ 且 $α_{k}^{2} \sum_{i = 1}^{k} \frac{1}{α_{i}^{2}} \leq C_{2} k, \forall k \geq 1$ ， (2.15)

其中， $C_{1}, C_{2} > 0$ 且为常数，下面提供两个具体的 ${α_{k}}$ 的选取的例子，可类似文献 [7] 来验证这两个例子满足(2.15)。

引理2.2 [8] (1) 若选取 $α_{k} = 2 / (k + 1), k = 1, 2, \dots$ ，取 $C_{1} = 2, C_{2} = 2$ ，条件(2.15)满足。(2) 若选取 ${α_{k}}$ 满足以下递归关系：

$α_{1} = 1, α_{k + 1}^{2} = (1 - α_{k + 1}) α_{k}^{2}, \forall k \geq 1$ ，则当 $C_{1} = 2, C_{2} = 2$ ，条件(2.15)满足。

引理2.3 [7] 当程序 $ς_{IMAPL}$ 终止时，有 $f (p^{+}) - l b^{+} \leq q (f (p) - l b)$ 。其中，

$q \equiv q (λ, θ) = \max {λ, 1 - λ (1 - θ)}$ (2.16)

注意到 $f (p)$ 和 $f (p^{+})$ 分别表示子程序 $ς_{IMAPL}$ 输入和输出最优值 $f^{*}$ 的上界，引理2.3说明了每当程序 $ς_{IMAPL}$ 终止时，最优值 $f^{*}$ 的上界和下界的差值总是减少了一个常数倍。

3. 收敛性与复杂度分析

本节将分析IMAPL算法的全局收敛性以及证明该算法终止时总的迭代复杂度。

定理3.1 在 $ς_{IMAPL}$ 中，如果步长 ${α_{k}}$ 满足条件(2.15)，那么对 $\forall K \geq 1$ ，若 $ς_{IMAPL}$ 在第K次迭代没有终止，则下面结论成立：

${\bar{f}}_{K} - l \leq \frac{C_{1} L D_{ω, X}}{K^{2} σ_{ω}} + 2 C_{2} K δ .$ (3.1)

证明：假设内迭代子程序 $ς_{IMAPL}$ 在第 $K (> 0)$ 次迭代没有终止，由(2.10)，(2.11)可知 $x_{k} \in {\underline{X}}_{k} \subseteq X_{k - 1} \subseteq {\bar{X}}_{k - 1}, \forall 2 \leq k \leq K$ ，同时由 $x_{1} \in {X^{'}}_{0}$ ， $x_{0} = \underset{x \in {X^{'}}_{0}}{\arg \min} φ (x_{0}, x)$ ，有

$φ (x_{0}, x) \geq \frac{σ_{ω}}{2} {‖ x - x_{0} ‖}^{2} .$ (3.2)

另外，由 ${\bar{X}}_{k}$ 的定义有 $〈 \nabla φ (x_{0}, x_{k}), x - x_{k} 〉 \geq 0, \forall x \in {\bar{X}}_{k}$ ，又因为 ${X^{'}}_{k} \subseteq {\bar{X}}_{k}$ ，显然 $〈 \nabla φ (x_{0}, x_{k}), x - x_{k} 〉 \geq 0, \forall x \in {X^{'}}_{k}$ 成立，根据子问题(2.11)可知 $x_{k + 1} \in {\underline{X}}_{k + 1} \subseteq {X^{'}}_{k}$ ，所以 $〈 \nabla φ (x_{0}, x_{k}), x_{k + 1} - x_{k} 〉 \geq 0$ ，所以结合 $φ (x_{0}, x)$ 的强凸性和子问题的最优性条件可以得到

$\begin{matrix} \frac{σ_{ω}}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} \leq φ (x_{0}, x_{k}) - φ (x_{0}, x_{k - 1}) - 〈 \nabla φ (x_{0}, x_{k - 1}), x_{k} - x_{k - 1} 〉 \\ \leq φ (x_{0}, x_{k}) - φ (x_{0}, x_{k - 1}) . \end{matrix}$ (3.3)

所以，

$\begin{matrix} \frac{σ_{ω}}{2} \sum_{i = 1}^{k} {‖ x_{i} - x_{i - 1} ‖}^{2} \leq φ (x_{0}, x_{k}) - φ (x_{0}, x_{0}) \\ \leq φ (x_{0}, x_{k}) \\ = \max_{y \in X} φ (x_{0}, y) \\ \leq \max_{x, y \in X} φ (x, y) \\ = D_{ω, X} . \end{matrix}$ (3.4)

由 ${\bar{f}}_{k}$ 的定义及(2.4)和(2.12)即知对 $\forall k \geq 1$ ，有

${\bar{f}}_{k} = f_{δ} (x_{k}^{u}) + δ = f_{δ} ({\tilde{x}}_{k}^{u}) + δ \leq f ({\tilde{x}}_{k}^{u}) + δ$

$\leq f_{δ} (x_{k}^{l}) + 〈 g_{δ} (x_{k}^{l}), {\tilde{x}}_{k}^{u} - x_{k}^{l} 〉 + \frac{L}{2} {‖ {\tilde{x}}_{k}^{u} - x_{k}^{l} ‖}^{2} + 2 δ$ 由(2.4)

$\begin{array}{l} = (1 - α_{k}) [f_{δ} (x_{k}^{l}) + 〈 g_{δ} (x_{k}^{l}), x_{k - 1}^{u} - x_{k}^{l} 〉] + α_{k} [f_{δ} (x_{k}^{l}) + 〈 g_{δ} (x_{k}^{l}), x_{k} - x_{k}^{l} 〉] \\ + \frac{L α_{k}^{2}}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} + 2 δ \end{array}$ 由(2.12)

$\leq (1 - α_{k}) f (x_{k - 1}^{u}) + α_{k} l + \frac{L α_{k}^{2}}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} + 2 δ$ 由(2.3)和(2.10)

$\leq (1 - α_{k}) [f_{δ} (x_{k - 1}^{u}) + δ] + α_{k} l + \frac{L α_{k}^{2}}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} + 2 δ$ 由(2.1)

$= (1 - α_{k}) {\bar{f}}_{k - 1} + α_{k} l + \frac{L α_{k}^{2}}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} + 2 δ .$ 由 ${\bar{f}}_{k}$ 的定义

对上式两边都减去l可得

${\bar{f}}_{k} - l \leq (1 - α_{k}) ({\bar{f}}_{k - 1} - l) + \frac{L α_{k}^{2}}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} + 2 δ$ (3.5)

对式(3.5)两边都除以 $α_{k}^{2}$ 可得

$\frac{{\bar{f}}_{k} - l}{α_{k}^{2}} \leq \frac{1 - α_{k}}{α_{k}^{2}} ({\bar{f}}_{k - 1} - l) + \frac{L}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} + \frac{2 δ}{α_{k}^{2}}$ (3.6)

当 $k = 1$ 时， $α_{1} = 1$ ，上式(3.6)为

$\frac{{\bar{f}}_{1} - l}{α_{1}^{2}} \leq \frac{L}{2} {‖ x_{1} - x_{0} ‖}^{2} + \frac{2 δ}{α_{1}^{2}}$ (3.7)

对 $\forall k > 1$ ，由(2.15)知 $\frac{1 - α_{k + 1}}{α_{k + 1}^{2}} \leq \frac{1}{α_{k}^{2}}$ ，上式(3.6)为

$\frac{{\bar{f}}_{k} - l}{α_{k}^{2}} \leq \frac{1}{α_{k - 1}^{2}} ({\bar{f}}_{k - 1} - l) + \frac{L}{2} {‖ x_{k} - x_{k - 1} ‖}^{2} + \frac{2 δ}{α_{k}^{2}}$ (3.8)

对(3.8)从1到K求和再与(3.7)求和，有

$\frac{{\bar{f}}_{K} - l}{α_{K}^{2}} \leq \frac{L}{2} \sum_{i = 1}^{K} {‖ x_{k} - x_{k - 1} ‖}^{2} + 2 δ \sum_{i = 1}^{K} \frac{1}{α_{i}^{2}}$

所以， ${\bar{f}}_{K} - l \leq \frac{L α_{K}^{2}}{2} \sum_{i = 1}^{K} {‖ x_{i} - x_{i - 1} ‖}^{2} + 2 δ α_{K}^{2} \sum_{i = 1}^{K} \frac{1}{α_{i}^{2}}$ ，结合(2.15)和(3.4)可得

${\bar{f}}_{K} - l \leq \frac{C_{1} L D_{ω, X}}{K^{2} σ_{ω}} + 2 C_{2} K δ$

□

由上述定理，我们已经得到了 ${\bar{f}}_{K} - l$ 上界的一个估计，下面的定理将使用该估计来进一步计算子程序 $ς_{IMAPL}$ 满足步骤3中终止条件所需要的迭代次数。由于加速一阶算法无法避免受到误差累积效应的影响，在L、R和 $δ$ 固定的情况下， ${\bar{f}}_{K} - l$ 并不能无限递减至零，而是存在着一个关于这些参数的一个最小值，以下定理说明了，在 $δ$ 满足一定的条件下，内迭代子程序 $ς_{IMAPL}$ 的迭代次数有一个上界。

定理3.2 在 $ς_{IMAPL}$ 中，如果步长 ${α_{k}}$ 满足条件(2.15)，且 $δ$ 满足如下条件

$δ \leq δ_{Δ} : = \frac{{(\frac{1}{3} λ θ Δ)}^{\frac{3}{2}} \sqrt{σ_{ω}}}{\sqrt{L D_{ω, X}} C_{1} C_{2}}$ (3.9)

其中，根据间隙的定义(2.7)， $Δ$ 表示每次调用 $ς_{IMAPL}$ 时输入的上界和下界的差值，即 $Δ = u b - l b$ ，则内迭代子程序的迭代次数不超过

$K (Δ) : = \frac{C_{1}}{\sqrt{\frac{λ θ}{3}}} \cdot \sqrt{\frac{L D_{ω, X}}{Δ σ_{ω}}} + 1$ (3.10)

证明：由(3.1)结合 $δ \leq δ_{Δ}$ 可得，

${\bar{f}}_{K} - l \leq \frac{C_{1} L D_{ω, X}}{K^{2} σ_{ω}} + 2 C_{2} K δ \leq \frac{C_{1} L D_{ω, X}}{K^{2} σ_{ω}} + 2 C_{2} K δ_{Δ}$ (3.11)

不等式右边达到最小时

$K = {(\frac{C_{1}^{2} L D_{ω, X}}{C_{2} δ_{Δ} σ_{ω}})}^{\frac{1}{3}}$ (3.12)

将式(3.12)代入式(3.11)可得

${\bar{f}}_{k} - l \leq \frac{C_{1}^{2} L D_{ω, X}}{{(\frac{C_{1}^{2} L D_{ω, X}}{C_{2} δ_{Δ} σ_{ω}})}^{\frac{2}{3}} σ_{ω}} + 2 C_{2} {(\frac{C_{1}^{2} L D_{ω, X}}{C_{2} δ_{Δ} σ_{ω}})}^{\frac{1}{3}} δ_{Δ}$

解得， $δ_{Δ} \leq \frac{{(\frac{1}{3} λ θ Δ)}^{\frac{3}{2}} \sqrt{σ_{ω}}}{\sqrt{L D_{ω, X}} C_{1} C_{2}}$ 。

因此(3.11)右边达到最小时，

$K^{*} : = {(\frac{C_{1}^{2} L D_{ω, X}}{C_{2} δ_{Δ} σ_{ω}})}^{\frac{1}{3}} = \frac{C_{1}}{\sqrt{\frac{λ θ}{3}}} \cdot \sqrt{\frac{L D_{ω, X}}{Δ σ_{ω}}}$

因此有

${\bar{f}}_{K^{*}} - l \leq {(3 C_{1} C_{2} δ_{Δ})}^{\frac{2}{3}} {(\frac{L D_{ω, X}}{σ_{ω}})}^{\frac{1}{3}} = λ θ Δ$ (3.13)

观察内迭代子程序步骤3中终止条件 ${\bar{f}}_{k} \leq l + θ ({\bar{f}}_{0} - l)$ 和水平值l的定义可知，

${\bar{f}}_{k} - l \leq θ ({\bar{f}}_{0} - l) = θ λ ({\bar{f}}_{0} - {\underline{f}}_{0}) = θ λ (u b - l b) = θ λ Δ$ (3.14)

即步骤3的终止条件等价于(3.14)，因此，由(3.13)可知，至少在第 $K^{*}$ 次迭代后内循环终止。所以，内循环或者在满足步骤2中终止条件时提前终止或者最多在第 $K^{*}$ 次迭代后满足步骤3中终止条件而终止，即内循环的迭代次数的上界 $K (Δ) = K^{*} + 1$ 。 □

以下定理讨论算法的收敛性和迭代复杂度。

定理3.3 对于任意给定的 $ε > 0$ ，如果算法中步长 ${α_{k}}$ 选取满足条件(2.15)，且对于任意的 $s \geq 1$ 均有 $δ_{s} \leq δ_{Δ_{s}}$ ，其中 $δ_{Δ_{s}}$ 在(3.9)中定义，则算法将收敛到(1.1)的一个 $ε$ 解，且以下结论成立：

1) 调用内循环的次数不超过

$S (ε) : = ⌈ \max {0, \log_{\frac{1}{q}} \frac{D_{ω, X} L + 2 δ_{0} σ_{ω}}{ε σ_{ω}}} ⌉$ (3.15)

2) IMAPL算法总的迭代次数不找过

$S (ε) + \frac{\sqrt{3} C_{1} \sqrt{L D_{ω, X}}}{\sqrt{λ θ σ_{ω} ε}} \cdot \frac{1}{1 - \sqrt{q}}$ (3.16)

证明：(1) 观察算法IMAPL的步骤1，并结合 $f_{δ_{0}} (p_{1}) \leq f (p_{1})$ 和(2.4)容易得到

$Δ_{1} = {ub}_{1} - {lb}_{1}$ 由(2.7)

$\leq f_{δ_{0}} (p_{1}) + δ_{0} - h_{δ_{0}} (p_{0}, p_{1})$ 由 ${ub}_{1}, {lb}_{1}$ 的定义

$\leq \frac{L}{2} {‖ p_{0} - p_{1} ‖}^{2} + 2 δ_{0}$ 由(2.4)

$\leq \frac{L D_{ω, X}}{σ_{ω}} + 2 δ_{0}$ 由(3.4)

同时，根据引理3.2可知， $Δ_{s + 1} \leq q Δ_{s}$ ， $\forall s \geq 1$ ，根据递推关系可以得到

$Δ_{s + 1} \leq q Δ_{s} \leq q^{2} Δ_{s - 1} \leq \dots \leq q^{s} Δ_{1}$ ， $\forall s \geq 1$ (3.17)

容易看都 ${Δ_{s}}_{s = 1}^{\infty}$ 几何级数递减并必将最终小于 $ε$ ，因此可以假设在第 $S (ε)$ 次调用 $ς_{IMAPL}$ 后首次得到一个 $ε$ 解，即算法在 $s : = S (ε) + 1$ 时终止，则

$Δ_{S (ε) + 1} \leq ε < Δ_{S (ε)}$ (3.18)

结合 $Δ_{1} \leq \frac{L D_{ω, X}}{σ_{ω}} + 2 δ_{0}$ 和(3.17)可以得到，

$ε < q^{S (ε) - 1} Δ_{1} \leq q^{S (ε) - 1} (\frac{L D_{ω, X}}{σ_{ω}} + 2 δ_{0})$ (3.19)

因此，

${(\frac{1}{q})}^{S (ε) - 1} \leq \frac{D_{ω, X} L + 2 δ_{0} σ_{ω}}{σ_{ω} ε}$

即，

$S (ε) = ⌈ \max {0, \log_{\frac{1}{q}} \frac{D_{ω, X} L + 2 δ_{0} σ_{ω}}{σ_{ω} ε}} ⌉$

(2) 假设IMAPL算法已经调用了 $S (ε)$ 次子程序，对于 $1 \leq s \leq S (ε)$ ，根据(3.17)、(3.18)可得

$ε < Δ_{S (ε)} \leq q Δ_{S (ε) - 1} \leq q^{2} Δ_{S (ε) - 2} \leq \dots \leq q^{S (ε) - s} Δ_{s}$

即

$Δ_{s} \geq ε q^{s - S (ε)}$ ， $s = 1, 2, \dots, S ( ε )$

则

$\sum_{s = 1}^{S (ε)} Δ_{s}^{- \frac{1}{2}} < \sum_{s = 1}^{S (ε)} ε^{- \frac{1}{2}} q^{\frac{S (ε) - s}{2}} = \sum_{t = 0}^{S (ε) - 1} ε^{- \frac{1}{2}} q^{\frac{t}{2}} \leq \frac{1}{\sqrt{ε} (1 - \sqrt{q})}$

结合引理2.1和(3.10)，将调用子程序的所有迭代次数相加，得到算法IMAPL的总迭代次数不超过

$\begin{matrix} \sum_{s = 1}^{S (ε)} K_{s} \leq \sum_{s = 1}^{S (ε)} K (Δ_{s}) \leq S (ε) + \sum_{s = 1}^{S (ε)} \frac{C_{1}}{\sqrt{\frac{λ θ}{3}}} \cdot \sqrt{\frac{L D_{ω, X}}{Δ_{s} σ_{ω}}} \\ \leq S (ε) + \frac{\sqrt{3} C_{1} \sqrt{L D_{ω, X}}}{\sqrt{λ θ σ_{ω} ε}} \cdot \frac{1}{1 - \sqrt{q}} . \end{matrix}$

其中， $K_{s}$ 表示算法第s次调用子程序时的迭代次数。

4. 结束语

本文提出了一个近似一阶信息的改进的加速水平束方法，该方法结合多步加速策略，引入了三个迭代点序列进行求解，并且通过引入邻近函数代替传统的欧式距离，进而充分利用可行集的几何集合，加快算法的收敛速度，并且与文献 [5] [6] 相比，减少了一个子问题的求解，从而可以减少算法的计算量。最后证明了算法的全局收敛性并分析了迭代复杂度。

参考文献

[1]	Nemirovski, A., Yudin, D.B. and Dawson, E.R. (1983) Problem Complexity and Method Efficiency in Optimization. A Wiley-Interscience Publication, New York.
[2]	Nemirovski, A. and Nesterov, Y. (1985) Optimal Methods of Smooth Convex Minimization. Zh Vychisl Mat Mat Fiz, 25, 356-369. [Google Scholar] [CrossRef]
[3]	Nesterov, Y. (1988) On an Approach to the Construction of Optimal Methods of Minimization of Smooth Convex Functions. Ekonomika Mat Metody, 24, 509-517.
[4]	Devolder, O., Glineur, F. and Nesterov, Y. (2014) First-Order Methods of Smooth Convex Optimization with Inexact Oracle. Mathematical Programming, 146, 37-75. [Google Scholar] [CrossRef]
[5]	梁玲. 非光滑优化基于非精确数据的加速水平束方法[D]: [硕士学位论文]. 南宁: 广西大学, 2018.
[6]	Lan, G.H. (2013) Bundle-Level Type Methods Uniformly Optimal for Smooth and Nonsmooth Convex Optimization. Mathematical Programming, 149, 1-45. [Google Scholar] [CrossRef]
[7]	Chen, Y.M., Lan, G.H., Ouyang, Y.Y., et al. (2014) Fast Bundle Level Type Methods for Unconstrained and Ball-Constrained Convex Optimization. ArXiv:1412.2128 [Google Scholar] [CrossRef]
[8]	陈韵梅, 张维. 基于近似一阶信息的加速的Bundle Level算法[J]. 中国科学, 2017, 10(47): 1119-1142.

为你推荐

友情链接