一类带偶次惩罚范数的非凸函数及周期ADMM算法的收敛性分析

期刊菜单

一类带偶次惩罚范数的非凸函数及周期ADMM算法的收敛性分析
Convergence Analysis of a Class of Nonconvex Functions with Even-Powered Penalty Norms and the Periodic ADMM Algorithm

DOI: 10.12677/aam.2024.136252, PDF, HTML, XML, 下载: 45 浏览: 89
作者: 宋政纲：兰州理工大学理学院，甘肃兰州
关键词: 机器学习；非凸函数；Lp范数；交替方向乘子；Machine Learning； Nonconvex Function； Lp Norm； Alternating Direction Multiplier

摘要: 在机器学习以及其它相关领域中，针对非凸函数的优化问题，目前存在的算法理论上对非凸函数的收敛和全局稳定性无法得到有效保证。本文提出将Lp范数(p为偶数)引入到非凸函数中，并在此基础上设计一种周期交替方向乘子(Periodic Alternating Direction Method of Multipliers, PADMM)的优化算法，用于此类非凸函数收敛性分析。我们证明在惩罚参数足够大的情况下，带偶次惩罚范数的非凸函数必收敛，并且收敛到全局最小值。此外，PADMM算法不对变量更新的先后顺序作特殊要求，这一特性大大增强了PADMM算法在处理各类非凸函数优化问题时的普适性。

Abstract: In machine learning and other related fields, for the optimization problem of non-convex functions, the existing algorithms cannot effectively guarantee the convergence and global stability of non-convex functions in theory. In this paper, the Lp norm (p is even) is introduced into the non-convex function, and on this basis, an optimization algorithm of Periodic Alternating Direction Method of Multipliers (PADMM) is designed for the convergence analysis of such non-convex functions. We prove that when the penalty parameter is large enough, the nonconvex function with even penalty norm will converge and converge to the global minimum. In addition, the PADMM algorithm does not impose special requirements on the order of variable updating, which greatly enhances the universality of the PADMM algorithm in dealing with various non-convex function optimization problems.

文章引用：宋政纲. 一类带偶次惩罚范数的非凸函数及周期ADMM算法的收敛性分析[J]. 应用数学进展, 2024, 13(6): 2641-2652. https://doi.org/10.12677/aam.2024.136252

1. 引言

非凸函数优化问题在多个科学与工程领域都有着广泛的应用，[1]中给出非凸函数在机器学习、人工智能等领域的应用。[2]提出大部分非凸优化问题，由于具有局部极值点多、曲率变化复杂、数据维数庞大等特点，使得其求解难度尤为突出。这就要求研究者必须从非凸函数模型和求解算法方面设计出更为泛化且鲁棒的优化策略。

近年来，研究者提出了一系列用于分析非凸优化问题的算法。如[3]-[7]中的随机梯度下降及其变体、动量法、信赖域法、拟牛顿法、基于概率和迭代全局搜索技术等。这些算法均适应于处理大规模的非凸优化问题，在特定的条件下可提高局部收敛速度和准确性。然而这些算法普遍面临参数调整的挑战、可能会陷入局部最优、在处理大规模或复杂问题时收敛速度慢，及对问题特性敏感，导致实际性能与理论预期存在差距。[8]中交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)是在20世纪70年代初提出的用于解决非线性椭圆型偏微分方程的算法，此后ADMM逐渐被应用于更广泛的优化领域，尤其是那些具有可分离结构的非凸优化问题。ADMM算法相对于传统的原对偶型算法(如[9] [10]中的对偶上升算法或乘数法)收敛速度更快，也特别适合并行实现。然而在某些问题中ADMM的迭代解可能出现振荡，即在一组解附近来回波动，而非直接向最优解收敛，这可能需要额外的技术来稳定迭代过程，尽管有大量的研究文献将ADMM算法应用于非凸优化问题的实践案例，但对该算法在非凸优化情境下的理论理解和分析仍有较大的局限性。例如，对于大部分的收敛性分析只能针对某些特殊结构的非凸优化问题。[11]表明只有目标函数和约束条件满足一定的附加条件时，ADMM算法才会线性收敛。[12]研究发现对于多块可分离非凸优化问题和某些病态问题，原始ADMM算法可能会发散。因此大部分的研究为了保证非凸问题的收敛性，需要对非凸问题的目标函数和约束条件做出限制，这就可能导致对原始的优化问题产生破坏。[13]提出了多块ADMM算法，其将复杂的优化问题分解成多个相对独立的子问题，每个子问题所涉及的变量块较少，可进行单独求解多块ADMM算法。在大规模优化问题和分布式计算环境下有明显的优势。[14] [15]提出了全局优化ADMM算法，其在原始的ADMM算法的基础上引入新的算法设计和分析方法，如光滑技术、正则化技术等，确保非凸函数的全局收敛性。然而以往文献中的ADMM算法及其变体对非凸优化问题的收敛性分析非常有限，主要体现在：收敛性条件严格、全局最优解的不确定性、参数调优困难、理论分析缺失。[16] [17]提出在进行全局收敛性分析时，对于任何已知的方法，都需要对算法所产生的序列设定一些无法直接通过计算过程来检验的条件。

虽然对于非凸优化问题一般没有全局最优解的有效求法，[18]中提出可以通过增加适当的惩罚项改变搜索空间的几何特征，使得一些连续的非凸函数收敛到全局最优解，本文受[18]的启发在非凸函数的变体中添加了惩罚项。[19] [20]提出了Lasso和Ridge正则化方法，其在处理非凸函数时可以约束模型复杂度，生成稀疏解并且可提升优化过程的稳定性和有效性。[21]针对非凸优化问题提出了使用非凸惩罚项和范数进行优化的方法，使得非凸函数的收敛性较好，但是难以找到全局最优解，可能会陷入局部最优解。[22]提出了一种非凸鲁棒主成分分析法，其在特定条件下可能发现一个局部极小点，这个局部极小点比使用传统的凸优化方法找到的局部极小点表现得更好，更加的接近全局极小值点。然而这些方法一般不能保证全局最优性。

本文在[19] [20]的基础上提出了将Lp范数(p为偶数)引入到非凸函数中作为惩罚项，通过设计PADMM算法进行非凸优化函数的理论分析，通过理论分析证明我们提出的方法在惩罚参数足够大的情况下，非凸函数必定会收敛，并且收敛到全局极值点。

2. 周期交替方向乘子法

考虑以下非凸问题：

$\begin{array}{l} \min_{x} h_{1} (x) + h_{2} (x) + \dots + h_{K} (x) + g (x) \\ s .t . x \in X \end{array}$ (1)

其中 $h_{i} (x)$ 可以是光滑凸函数也可以是光滑非凸函数， $g (x)$ 是非光滑凸函数，X为闭凸集。

在实际问题分析中，(1)中的 $h_{i} (x)$ 需要进行单独处理。为了便于分析，可在(1)的基础上引入一组新的变量 $(x_{1}, x_{2}, \dots, x_{K})$ ，则(1)可重新表述为(2)：

$\begin{array}{l} \min_{x_{0}} h_{1} (x_{1}) + h_{2} (x_{2}) + \dots + h_{K} (x_{K}) + g (x_{0}) \\ s .t . x_{k} = x_{0}, \forall k = 1, 2, \dots, K \\ x_{0} \in X \end{array}$ (2)

(2)中所有子问题共享变量 $x_{0}$ ，每个子问题负责优化自身的局部目标函数 $h_{K} (x_{K})$ ，所有子问题的解满足一致性条件 $x_{k} = x_{0}$ 。通过每个局部函数的最优达到整体最优。在重新引入变量 $(x_{1}, x_{2}, \dots, x_{K})$ 后问题的维数增加到了K，(2)和(1)相比较增大了问题求解的迭代次数，但(2)确保了每个局部函数 $h_{K} (x_{K})$ 的独立性，即每个分布式节点可以独立地处理各自的变量 $x_{k}$ 。

(2)的拉格朗日函数可由(3)给出：

$Ĺ ({x_{k}}, x_{0}; μ) = \sum_{k = 1}^{K} h_{k} (x_{k}) + g (x_{0}) + \sum_{k = 1}^{K} 〈 μ_{k} \cdot (x_{k} - x_{0}) 〉$ (3)

在(2)的基础上添加惩罚项 $\sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k} - x_{0} ‖}_{p}^{p}$ ，(2)的增广拉格朗日函数由(4)给出：

$L ({x_{k}}, x_{0}; μ) = Ĺ ({x_{k}}, x_{0}; μ) + \sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k} - x_{0} ‖}_{p}^{p}$ (4)

其中： $μ = (μ_{1}, μ_{2}, \dots, μ_{k}) \in R^{k}$ 是拉格朗日乘子， $ξ_{k} \in R$ 是惩罚参数， $p \in R$ 且p为偶数， ${‖ x ‖}_{p} = {(\sum_{i = 1}^{n} {| x_{i} |}^{p})}^{\frac{1}{p}}$ 。

3. 非凸PADMM算法

为了使原始变量和对偶变量的更新次序有更大的选择性，本节提出一种灵活的PADMM算法。设 $x_{0}, \dots, x_{K}$ 的索引为 $k = 0, \dots, K$ ，令 $D^{T} = (0, 1, 2, \dots, K)$ 为第T次更新的变量集。

PADMM算法如下：

首先令 $D^{1} = (0, 1, 2, \dots, K)$ ， $T = 1, 2, \dots$ 。在初次更新时所有的变量均参与更新。

如果 $T + 1 \geq 2$ ，任选 $D^{T} \subseteq (0, 1, 2, \dots, K)$ 。在第二次之后的更新是从 $x_{0}, \dots, x_{K}$ 中任选几个变量进行更新，即不必对全部变量进行更新，对变量的更新顺序也没有要求。

当 $k = 0$ 时， $x_{0}$ 的第 $T + 1$ 次迭代 $x_{0}^{T + 1}$ 计算方式由(5)给出：

$x_{0}^{T + 1} = \arg \min_{x_{0} \in X} L ({x_{k}^{T}}, x_{0}; μ^{T})$ (5)

否则：

$x_{0}^{T + 1} = x_{0}^{T}$ (6)

当 $k \neq 0$ 时， $x_{k}$ 的第 $T + 1$ 次迭代 $x_{k}^{T + 1}$ 计算方式由(7)给出：

$x_{k}^{T + 1} = \arg \min_{x_{k}} g_{k} (x_{k}) + 〈 μ_{k}^{T}, x_{k} - x_{0}^{T + 1} 〉 + \frac{ξ_{k}}{p} {‖ x_{k} - x_{0}^{T + 1} ‖}_{p}^{p}$ (7)

第k个拉格朗日乘子 $μ_{k}$ 第 $T + 1$ 次更新迭代在 $x_{0}^{T + 1}$ 和 $x_{k}^{T + 1}$ 的基础上得到， $μ_{k}^{T + 1}$ 的计算方式由(8)给出：

$μ_{k}^{T + 1} = μ_{k}^{T} + ξ_{k} {(| x_{k}^{T + 1} - x_{0}^{T + 1} |)}^{p - 1}$ (8)

否则：

$x_{k}^{T + 1} = x_{k}^{T + 1}$ ， $μ_{k}^{T + 1} = μ_{k}^{T}$ (9)

假定存在一个正周期M，我们规定 $\cup_{i = 1}^{M} D^{T + i} = (0, 1, 2, \dots, K)$ ，即在一个周期内每个变量至少更新一次。

上述变量更新的迭代计算中，我们规定 $μ_{k}^{T + 1} = μ_{k}^{T} + ξ_{k} {(| x_{k}^{T + 1} - x_{0}^{T + 1} |)}^{p - 1}$ ，其余变量都是通过极小化目标函数得到的。

4. 收敛性分析

为了对PADMM算法进行理论分析，我们给出下面假设。

假设1) $h_{k} (x)$ 满足利普希茨条件条件即存在 $L_{k}$ 使得(10)成立。

$‖ \nabla h_{k} (x_{k}) - \nabla h_{k} (y_{k}) ‖ \leq L_{k} ‖ x_{k} - y_{k} ‖$ (10)

假设2) $f (x)$ 在定义域中存在下界。

$f (x) > - \infty$ (11)

假设3) 对于所有的迭代次数k，(7)为模数为 $m_{k} (ξ_{k})$ 的强凸函数，并且对于所有的迭代次数k有 $ξ_{k} m_{k} (ξ_{k}) > p L_{k}^{2}$ 。

令 $T_{k}$ 表示在更新迭代 $T + 1$ 之前， $x_{k}$ 最后一次被更新的迭代索引。即：

$T (k) = \max (a | a \leq T, k \in D^{a})$ ， $T (0) = \max (a | a \leq T, 0 \in D^{a})$ 。 $k = 1, 2, \dots, K$

令： ${\hat{x}}_{0}^{T + 1} = \arg \min_{x_{0} \in X} L ({x_{k}^{T}}, x_{0}; μ^{T})$

${\hat{x}}_{k}^{T + 1} = \arg \min_{x_{k}} g_{k} (x_{k}) + 〈 μ_{k}^{T}, x_{k} - {\hat{x}}_{0}^{T + 1} 〉 + \frac{ξ_{k}}{p} {‖ x_{k} - {\hat{x}}_{0}^{T + 1} ‖}_{p}^{p}$

${\hat{μ}}_{k}^{T + 1} = μ_{k}^{T} + ξ_{k} ({\tilde{x}}_{k}^{T + 1} - {\hat{x}}_{0}^{T + 1})$

${\tilde{x}}_{k}^{T + 1} = \arg \min_{x_{k}} g_{k} (x_{k}) + 〈 μ_{k}^{T}, x_{k} - x_{0}^{T} 〉 + \frac{ξ_{k}}{p} {‖ x_{k} - x_{0}^{T} ‖}_{p}^{p}$

${\tilde{μ}}_{k}^{T + 1} = μ_{k}^{T} + ξ_{k} ({\tilde{x}}_{k}^{T + 1} - x_{0}^{T})$

下面证明对偶变量的连续变化量的大小上限是由原变量的变化量大小决定的。

定理1：在假设1)、2)、3)成立的情况下 $\forall k = 1, 2, \dots, K$ 有以下的条件成立。

$L_{k}^{2} {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}^{2} \geq {‖ μ_{k}^{T + 1} - μ_{k}^{T} ‖}^{2}$ (12)

$L_{k}^{2} {‖ {\hat{x}}_{k}^{T + 1} - x_{k}^{T} ‖}^{2} \geq {‖ {\hat{μ}}_{k}^{T + 1} - μ_{k}^{T} ‖}^{2}$ (13)

$L_{k}^{2} {‖ {\tilde{x}}_{k}^{T + 1} - x_{k}^{T} ‖}^{2} \geq {‖ {\tilde{μ}}_{k}^{T + 1} - μ_{k}^{T} ‖}^{2}$ (14)

证明：在此只对(12)展开证明，(13)、(14)同理可得。

$\forall k \in D^{T + 1}$ 从 $x_{k}$ 开始更新迭代，我们可以得到：

$\nabla h_{k} (x_{k}^{T + 1}) + μ_{k}^{T} + ξ_{k} {(| x_{k}^{T + 1} - x_{0}^{T + 1} |)}^{p - 1} = 0$

又因为 $μ_{k}^{T + 1} = μ_{k}^{T} + ξ_{k} {(x_{k}^{T + 1} - x_{0}^{T + 1})}^{p - 1}$ ，可得：

$\nabla h_{k} (x_{k}^{T + 1}) = - μ_{k}^{T + 1}$

由假设1)可得：

$‖ μ_{k}^{T + 1} - μ_{k}^{T} ‖ = ‖ μ_{k}^{T + 1} - μ_{k}^{T (k)} ‖ = ‖ \nabla h_{k} (x_{k}^{T + 1}) - \nabla h_{k} (x_{k}^{T (k)}) ‖$

由利普希茨连续条件可得：

$‖ \nabla h_{k} (x_{k}^{T + 1}) - \nabla h_{k} (x_{k}^{T (k)}) ‖ \leq L_{k} ‖ x_{k}^{T + 1} - x_{k}^{T (k)} ‖ = L_{k} ‖ x_{k}^{T + 1} - x_{k}^{T} ‖$

即：

$‖ μ_{k}^{T + 1} - μ_{k}^{T} ‖ \leq L_{k} ‖ x_{k}^{T + 1} - x_{k}^{T} ‖$

证毕。

定理2：对于PADMM算法可以得到以下结论：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \\ \leq \sum_{k \in D^{T + 1}} (\frac{L_{k}^{2}}{ξ_{k}} - \frac{m_{k} (ξ_{k})}{p}) {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}^{2} - \frac{m}{p} (x_{0}^{T + 1} - x_{0}^{T}) \end{array}$

证明：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \\ = \sum_{k = 1}^{K} h_{k} (x_{k}^{T + 1}) + g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} 〈 μ^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 + \sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p} \\ - (\sum_{k = 1}^{K} h_{k} (x_{k}^{T}) + g (x_{0}^{T})) - (\sum_{k = 1}^{K} 〈 μ^{T} \cdot (x_{k}^{T} - x_{0}^{T}) 〉 + \sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k}^{T} - x_{0}^{T} ‖}_{p}^{p}) \\ = (\sum_{k = 1}^{K} h_{k} (x_{k}^{T + 1}) + g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} 〈 μ^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉) + (\sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p}) \\ - (\sum_{k = 1}^{K} h_{k} (x_{k}^{T + 1}) + g (x_{0}^{T + 1})) - (\sum_{k = 1}^{K} 〈 μ^{T} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 + \sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p}) \end{array}$

$\begin{array}{l} + (\sum_{k = 1}^{K} h_{k} (x_{k}^{T + 1}) + g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} 〈 μ^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉) + (\sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p}) \\ - (\sum_{k = 1}^{K} h_{k} (x_{k}^{T + 1}) + g (x_{0}^{T + 1})) - (\sum_{k = 1}^{K} 〈 μ^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 + \sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p}) \\ = (L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) - L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T})) \\ + (L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T})) \end{array}$

因为：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) - L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}) \\ = \sum_{k = 1}^{K} 〈 μ^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 - \sum_{k = 1}^{K} 〈 μ^{T} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 \\ = \sum_{k = 1}^{K} 〈 (μ^{T + 1} - μ^{T}) \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 \end{array}$

又因为：

$x_{k}^{T + 1} - x_{0}^{T + 1} = {(| \frac{μ^{T + 1} - μ^{T}}{ξ_{k}} |)}^{\frac{1}{p - 1}}$

所以：

$L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) - L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}) = \sum_{k \in D^{T + 1}} \frac{1}{ξ_{k}^{p - 1}} {(| μ^{T + 1} - μ^{T} |)}^{\frac{p}{p - 1}}$

又因为：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \\ = L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}) - L ({x_{k}^{T}}, x_{0}^{T + 1}; μ^{T}) + L ({x_{k}^{T}}, x_{0}^{T + 1}; μ^{T}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \end{array}$

所以：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \\ \leq \sum_{k = 1}^{K} (〈 \nabla_{x_{k}} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}), (x_{k}^{T + 1} - x_{0}^{T}) 〉 - \frac{m_{k} (ξ_{k})}{p} {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p}) \\ + 〈 τ_{x_{0}}^{T + 1}, (x_{0}^{T + 1} - x_{0}^{T}) 〉 - \frac{m}{p} {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p} \end{array}$

令 $τ_{x_{0}}^{T + 1} \in \partial_{x_{0}} (L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}))$ 是 $x_{0}$ 的次导数， $σ = {\begin{cases} 1, 0 \in D^{T + 1} \\ 0, 0 \notin D^{T + 1} \end{cases}$ ， $m = \sum_{k = 1}^{K} ξ_{k}$ 。

由凸函数的性质可得：

$\begin{array}{l} \sum_{k = 1}^{K} (〈 \nabla_{x_{k}} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}), (x_{k}^{T + 1} - x_{0}^{T}) 〉 - \frac{m_{k} (ξ_{k})}{p} {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p}) + 〈 τ_{x_{0}}^{T + 1}, (x_{0}^{T + 1} - x_{0}^{T}) 〉 - {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p} \\ = \sum_{k \in D^{T + 1}} ((〈 \nabla_{x_{k}} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T}), (x_{k}^{T + 1} - x_{0}^{T}) 〉 - \frac{m_{k} (ξ_{k})}{p} {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p}) \\ + σ (〈 τ_{x_{0}}^{T + 1}, (x_{0}^{T + 1} - x_{0}^{T}) 〉 \frac{m}{p} {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p})) \\ \leq - \sum_{k \in D^{T + 1}} \frac{m_{k} (ξ_{k})}{p} {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p} - σ \frac{m}{p} {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p} \end{array}$

综上可得：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \\ \leq - \sum_{k \in D^{T + 1}} \frac{m_{k} (ξ_{k})}{p} {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}^{p} - σ \frac{m}{p} {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p} + \sum_{k \in D^{T + 1}} \frac{1}{ξ_{k}} {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p} \\ \leq \sum_{k \in D^{T + 1}} (\frac{L_{k}^{2}}{ξ_{k}} - \frac{m_{k} (ξ_{k})}{p}) {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p} - σ \frac{m}{p} {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p} \end{array}$

证毕。

由定理2可知当 $\frac{L_{k}^{2}}{ξ_{k}} - \frac{m_{k} (ξ_{k})}{P} \leq 0$ ，即 $p L_{k}^{2} \leq ξ_{k} m_{k} (ξ_{k})$ 时， $\sum_{k \in D^{T + 1}} (\frac{L_{k}^{2}}{ξ_{k}} - \frac{m_{k} (ξ_{k})}{p}) {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p} - σ \frac{m}{p} {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p}$ ，也就是说当选取较大的惩罚参数 $ξ_{k}$ 时，即可保证增广拉格朗日函数是递减的。

下面证明构造的增广拉格朗日函数是收敛的。

定理3：对于增广拉格朗日函数有以下的极限存在：

$\lim_{T \to \infty} L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \geq - \infty$

证明：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) \\ = \sum_{k = 1}^{K} h_{k} (x_{k}^{T + 1}) + g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} 〈 μ_{k}^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 + \sum_{k = 1}^{K} \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p} \\ = g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} (h_{k} (x_{k}^{T + 1}) + 〈 μ_{k}^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 + \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p}) \end{array}$

又由定理1可知：

$\nabla h_{k} (x_{k}^{T + 1}) = - μ_{k}^{T + 1}$

所以有：

$\begin{array}{l} g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} (h_{k} (x_{k}^{T + 1}) + 〈 μ_{k}^{T + 1} \cdot (x_{k}^{T + 1} - x_{0}^{T + 1}) 〉 + \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖}_{p}^{p}) \\ = g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} (h_{k} (x_{k}^{T + 1}) + 〈 \nabla h_{k} (x_{k}^{T + 1}) \cdot (x_{0}^{T + 1} - x_{k}^{T + 1}) 〉 + \frac{ξ_{k}}{p} {‖ x_{k}^{T + 1} x_{0}^{T + 1} ‖}_{p}^{p}) \\ \geq g (x_{0}^{T + 1}) + \sum_{k = 1}^{K} h_{k} (x_{0}^{T + 1}) = f (x_{0}^{T + 1}) \end{array}$

由假设可知 $f (x_{0}^{T + 1}) \geq - \infty$ ，即 $\lim_{T \to \infty} L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \geq - \infty$ 。所以构造的增广拉格朗日函数是收敛的。

证毕。

下面证明算法收敛于平稳解集合。

定理4：根据PADMM算法可知，对于所有的 $k = 1, 2, \dots, K$ 有：

$\lim_{T \to \infty} ‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖ = 0$ 成立。

证明：根据定理2有：

$\begin{array}{l} L ({x_{k}^{T + 1}}, x_{0}^{T + 1}; μ^{T + 1}) - L ({x_{k}^{T}}, x_{0}^{T}; μ^{T}) \\ \leq \sum_{k \in D^{T + i}} (\frac{L_{k}^{2}}{ξ_{k}} - \frac{m_{k} (ξ_{k})}{p}) {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p} - σ \frac{m}{p} {‖ x_{0}^{T + 1} - x_{0}^{T} ‖}_{p}^{p} \\ = \sum_{i = 1}^{M} \sum_{k \in D^{T + i}} (\frac{L_{k}^{2}}{ξ_{k}} - \frac{m_{k} (ξ_{k})}{p}) {‖ x_{k}^{T + 1} - x_{k}^{T} ‖}_{p}^{p} - \frac{m}{p} ‖ x_{0}^{T + 1} - x_{0}^{T} ‖ \end{array}$

如果 $k \neq 0$ ， $k \notin D^{T + i}$ ，则有 $x_{k}^{T + i} - x_{k}^{T + i - 1}$ ，利用k在 $[T, T + M]$ 至少更新一次以及定理3，对于 $k = 1, 2, \dots, K$ 可得：

$‖ x_{0}^{T + 1} - x_{0}^{T (k)} ‖ \to 0, ‖ x_{k}^{T + 1} - x_{k}^{T (k)} ‖ \to 0$

由定理1可知对于 $k = 1, 2, \dots, K$ 有 $‖ μ_{k}^{T + 1} - μ_{k}^{T (k)} ‖ \to 0$ ，根据PADMM算法的迭代步骤，当 $‖ μ_{k}^{T + 1} - μ_{k}^{T (k)} ‖ \to 0$ 时，可得 $‖ x_{k}^{T + 1} - x_{0}^{T + 1} ‖ \to 0$ 。

证毕。

定理5：假设 $({x_{k}^{*}}, x_{0}^{*}, x_{k}^{*})$ 是PADMM算法的全局极限点，那么有以下式子成立：

$\nabla h_{k} (x_{k}^{*}) + x_{k}^{*} = 0$

$x_{0}^{*} \in \arg \min_{x \in X} g (x) + \sum_{k = 1}^{K} 〈 x_{0}^{*}, x_{k}^{*} - x 〉$

$x_{k}^{*} = x_{0}^{*}$

$\forall k = 1, 2, \dots, K$

证明：对于 $k \in D^{T + 1}$ ， $k \neq 0$ 有：

$\nabla h_{k} (x_{k}^{T + 1}) + μ_{k}^{T} + ξ_{k} (x_{k}^{T + 1} - x_{0}^{T + 1}) = 0$

假设 $0 \in D^{T + 1}$ ，令 $θ^{T + 1} \in \partial g (x_{0}^{T + 1})$ ，可得：

$〈 (x - x_{0}^{T + 1}) \cdot (θ^{T + 1} - \sum_{k = 1}^{K} (μ_{k}^{T} - ξ_{k} (x_{0}^{T + 1} - x_{0}^{T}))) 〉 \geq 0$

因为：

$g (x) - g (x_{0}^{T + 1}) = θ^{T + 1} (x - x_{0}^{T + 1})$

所以：

$\begin{array}{l} 〈 (x - x_{0}^{T + 1}), (θ^{T + 1} - \sum_{k = 1}^{K} (μ_{k}^{T} - ξ_{k} (x_{0}^{T + 1} - x_{0}^{T}))) 〉 \\ = g (x) - g (x_{0}^{T + 1}) + 〈 (x - x_{0}^{T + 1}), \sum_{k = 1}^{K} (ξ_{k} (x_{0}^{T + 1} - x_{0}^{T}) - μ_{k}^{T}) 〉 \end{array}$

根据PADMM算法迭代的规则，当 $k \neq 0$ 时对于所有的T有：

$\nabla h_{k} (x_{k}^{φ (k)}) + μ_{k}^{φ (k)} = 0, φ (k) \in [T, T + M]$

对于 $φ (0) \in [T, T + M]$ ，可得：

$g (x) - g (x_{0}^{φ (0)}) + 〈 (x - x_{0}^{φ (0)}), \sum_{k = 1}^{K} (ξ_{k} (x_{0}^{φ (0)} - x_{0}^{φ (0) - 1}) - μ_{k}^{φ (0) - 1}) 〉 \geq 0$

根据定理4，可得：

$‖ x_{k}^{φ (k)} - x_{k}^{T + 1} ‖ \to 0, ‖ x_{0}^{φ (0)} - x_{0}^{T + 1} ‖ \to 0$

$‖ μ_{k}^{T + 1} - μ_{k}^{φ (k)} ‖ \to 0, ‖ μ_{k}^{T + 1} - μ_{k}^{φ (0) - 1} ‖ \to 0$

又因为：

$‖ x_{k}^{T + 1} - x_{k}^{T} ‖ \to 0, x_{0}^{T + 1} \to x_{0}^{*}, x_{k}^{T + 1} \to x_{k}^{*}, μ_{k}^{T + 1} \to μ_{k}^{*}$ ,

对 $\nabla h_{k} (x_{k}^{φ (k)}) + μ_{k}^{φ (k)} = 0$ 求极限得：

$\nabla h_{k} (x_{k}^{*}) + x_{k}^{*} = 0$

对 $g (x) - g (x_{0}^{φ (0)}) + 〈 (x - x_{0}^{φ (0)}) + \sum_{k = 1}^{K} (ξ_{k} (x_{0}^{φ (0)} - x_{0}^{φ (0) - 1}) - μ_{k}^{φ (0) - 1}) 〉 \geq 0$ 求极限可得：

$g (x) - g (x_{0}^{*}) + \sum_{k = 1}^{K} 〈 x - x_{0}^{*}, - μ_{k}^{*} 〉 \geq 0$

由于 $‖ μ_{k}^{T + 1} - μ_{k}^{T} ‖ \to 0$ 对所有的k都成立，可得：

$x_{k}^{*} = x_{0}^{*}$

证毕。

5. PADMM算法实例应用

下面我们用PADMM算法求解以下非凸函数的最优值。

$\begin{array}{l} \min_{x} f (x) = \sin x + \sin 3 x \\ s .t - 2 π \leq x \leq 2 π \end{array}$

图1为函数 $f (x) = \sin x + \sin 3 x$ 的走势图，从图中可以看出 $f (x)$ 是一个非凸函数，在定义域内函数有增有减。 $f (x)$ 的最小值是−1.56。图2是PADMM算法的部分迭代过程图，可以看出迭代点沿着函数负梯度的方向下降，并且在极值点附近迭代步长逐渐减小。从图3中可以看出 $f (x)$ 随着迭代次数的增加，函数值逐渐稳定到−1.56，对比图1和图3可以看出PADMM算法可有效的解决非凸函数优化问题。

Figure 1. Trend graph of $f (x)$

图1. $f (x)$ 走势图

Figure 2. Local iterative graph

图2. 局部迭代图

Figure 3. Iteration convergence diagram

图3. 迭代收敛图

6. 结论

本文提出了一类带偶次惩罚范数的非凸函数和PADMM算法，证明了在惩罚参数足够大的情况下，带偶次惩罚范数的非凸函数在PADMM算法的求解中是收敛的。并且非凸函数的解收敛于平稳集，在存在极小值的情况下带偶次惩罚范数的非凸函数会收敛到全局极小值。PADMM算法在求解非凸问题时不用考虑参数更新的顺序，这样可加速函数求解的收敛速度，同时更有普适性。

我们只考虑了偶次范数情况，对于一般的范数并没有进行理论分析，未来的一个研究方向是将偶次范数推广到整个实数空间中。

参考文献

[1]	Jain, P. and Kar, P. (2017) Non-Convex Optimization for Machine Learning. Foundations and Trends® in Machine Learning, 10, 142-336. https://doi.org/10.1561/2200000058
[2]	Du, S., Lee, J., Li, H., et al. (2019) Gradient Descent Finds Global Minima of Deep Neural Networks. Proceedings of the 36th International Conference on Machine Learning, Long Beach, 28 May 2019, 1675-1685.
[3]	Mignacco, F. and Urbani, P. (2022) The Effective Noise of Stochastic Gradient Descent. Journal of Statistical Mechanics: Theory and Experiment, 2022, Article 083405. https://doi.org/10.1088/1742-5468/ac841d
[4]	Huang, F., Gao, S., Pei, J., et al. (2022) Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization. Journal of Machine Learning Research, 23, 1616-1685.
[5]	Shani, L., Efroni, Y. and Mannor, S. (2020) Adaptive Trust Region Policy Optimization: Global Convergence and Faster Rates for Regularized MDPs. Proceedings of the AAAI Conference on Artificial Intelligence, 34, 5668-5675. https://doi.org/10.1609/aaai.v34i04.6021
[6]	Krutikov, V., Tovbis, E., Stanimirović, P. and Kazakovtsev, L. (2023) On the Convergence Rate of Quasi-Newton Methods on Strongly Convex Functions with Lipschitz Gradient. Mathematics, 11, Article 4715. https://doi.org/10.3390/math11234715
[7]	Glowinski, R. and Marroco, A. (1975) Sur l’approximation, par éléments finis d’ordre un, et la résolution, par pénalisation-Dualité d’une classe de problèmes de Dirichlet non linéaires. Revue française d’automatique, informatique, recherche opérationnelle. Analyse Numérique, 9, 41-76. https://doi.org/10.1051/m2an/197509r200411
[8]	Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximation. Computers & Mathematics with Applications, 2, 17-40. https://doi.org/10.1016/0898-1221(76)90003-1
[9]	Bertsekas, D.P. (2014) Constrained Optimization and Lagrange Multiplier Methods. Academic Press.
[10]	Jakovetic, D., Bajovic, D., Xavier, J. and Moura, J.M.F. (2020) Primal-Dual Methods for Large-Scale and Distributed Convex Optimization and Data Analytics. Proceedings of the IEEE, 108, 1923-1938. https://doi.org/10.1109/jproc.2020.3007395
[11]	Ma, S. (2015) Alternating Proximal Gradient Method for Convex Minimization. Journal of Scientific Computing, 68, 546-572. https://doi.org/10.1007/s10915-015-0150-0
[12]	Chen, C., He, B., Ye, Y. and Yuan, X. (2014) The Direct Extension of ADMM for Multi-Block Convex Minimization Problems Is Not Necessarily Convergent. Mathematical Programming, 155, 57-79. https://doi.org/10.1007/s10107-014-0826-5
[13]	Lin, T., Ma, S. and Zhang, S. (2017) Global Convergence of Unmodified 3-Block ADMM for a Class of Convex Minimization Problems. Journal of Scientific Computing, 76, 69-88. https://doi.org/10.1007/s10915-017-0612-7
[14]	Wang, Y., Yin, W. and Zeng, J. (2018) Global Convergence of ADMM in Nonconvex Nonsmooth Optimization. Journal of Scientific Computing, 78, 29-63. https://doi.org/10.1007/s10915-018-0757-z
[15]	Chao, M.T., Zhang, Y. and Jian, J.B. (2020) An Inertial Proximal Alternating Direction Method of Multipliers for Nonconvex Optimization. International Journal of Computer Mathematics, 98, 1199-1217. https://doi.org/10.1080/00207160.2020.1812585
[16]	Liavas, A.P. and Sidiropoulos, N.D. (2015) Parallel Algorithms for Constrained Tensor Factorization via Alternating Direction Method of Multipliers. IEEE Transactions on Signal Processing, 63, 5450-5463. https://doi.org/10.1109/tsp.2015.2454476
[17]	Shen, Y., Wen, Z. and Zhang, Y. (2012) Augmented Lagrangian Alternating Direction Method for Matrix Separation Based on Low-Rank Factorization. Optimization Methods and Software, 29, 239-263. https://doi.org/10.1080/10556788.2012.700713
[18]	Mai, V. and Johansson, M. (2020) Convergence of a Stochastic Gradient Method with Momentum for Non-Smooth Non-Convex Optimization. Proceedings of the 37th International Conference on Machine Learning, Online, 13-18 July 2020, 6630-6639.
[19]	Emmert-Streib, F. and Dehmer, M. (2019) High-Dimensional Lasso-Based Computational Regression Models: Regularization, Shrinkage, and Selection. Machine Learning and Knowledge Extraction, 1, 359-383. https://doi.org/10.3390/make1010021
[20]	Avron, H., Clarkson, K.L. and Woodruff, D.P. (2017) Faster Kernel Ridge Regression Using Sketching and Preconditioning. SIAM Journal on Matrix Analysis and Applications, 38, 1116-1138. https://doi.org/10.1137/16m1105396
[21]	Zhong, W. and Kwok, J. (2014) Gradient Descent with Proximal Average for Nonconvex and Composite Regularization. Proceedings of the AAAI Conference on Artificial Intelligence, 28, 2206-2212. https://doi.org/10.1609/aaai.v28i1.8994
[22]	Li, X., Ding, S. and Li, Y. (2017) Outlier Suppression via Non-Convex Robust PCA for Efficient Localization in Wireless Sensor Networks. IEEE Sensors Journal, 17, 7053-7063. https://doi.org/10.1109/jsen.2017.2754502

为你推荐

友情链接