稀疏加组稀疏优化问题的一阶和二阶方向稳定点研究
On the First-Order and Second-Order Directional Stationary Points of Sparse Plus Group Sparse Optimization Problems
DOI: 10.12677/ORF.2023.136734, PDF, HTML, XML, 下载: 175  浏览: 277  国家自然科学基金支持
作者: 吴青青, 彭定涛*, 苏妍妍:贵州大学数学与统计学院,贵州 贵阳
关键词: 稀疏加组稀疏优化问题非凸惩罚方向稳定点局部最优性质Sparse Plus Group Sparse Optimization Problem Nonconvex Penalty Directional Stationary Points Local Optimality
摘要: 在本文中,我们考虑一类非凸非光滑的无约束稀疏加组稀疏优化问题,其损失函数是二阶连续可微函数(可能非凸),惩罚项是稀疏惩罚与组稀疏惩罚的组合,其稀疏惩罚是ℓ1范数,组稀疏惩罚是折叠凹惩罚函数。目前,计算这类带有凸加非凸惩罚优化问题的方向稳定点的研究较少,但利用方向导数定义的方向稳定点比次微分所定义的稳定点(critical点、lifted稳定点等)能更好的刻画解的局部最优性质。因此,本文主要通过方向稳定点来刻画模型的最优性条件。首先,本文引入了一阶、二阶方向稳定点的概念,探讨了它们与问题局部解的关系。其次,给出了一阶、二阶方向导数的具体表达式,这为进一步分析和求解此类问题提供了理论基础。
Abstract: In this paper, we consider a class of nonconvex, nonsmooth and unconstrained sparse plus group sparse optimization problems, in which the loss function is a twice continuously differentiable function (possibly nonconvex), and the penalty term is a combination of sparse penalty and group sparse penalty, where the sparse penalty is a ℓ1 norm, and the group sparse penalty is a general folded concave penalty function. At present, there are few studies on the calculation of directional stationary points for this type of optimization problems with convex plus nonconvex penalties, and directional stationary points characterized by directional derivatives can better show the local optimal properties of solutions than other stationary points defined by subdifferentials (e.g. critical points, lifted stationary points, etc.). Therefore, in this paper, the optimal-ity conditions of the model are characterized by means of directional stationary points. Firstly, we introduce the concepts of first-order and second-order directional stationary points, and discuss their relations with local solutions of the problem. Secondly, the concrete expressions of the first and second order directional derivatives are given, which provide a theoretical basis for further analyzing and solving this kind of problems.
文章引用:吴青青, 彭定涛, 苏妍妍. 稀疏加组稀疏优化问题的一阶和二阶方向稳定点研究[J]. 运筹与模糊学, 2023, 13(6): 7464-7476. https://doi.org/10.12677/ORF.2023.136734

1. 引言

近年来,稀疏加组稀疏优化问题得到了广泛的研究,包括图像恢复、变量选择、机器学习等众多领域 [1] [2] [3] [4] 。一般的稀疏加组稀疏优化问题 [3] 如下:

min x n F ( x ) = f ( x ) + λ 1 x 0 + λ 2 j = 1 J # ( x ( j ) 2 ) , (1)

其中,损失函数 f : n 二阶连续可微(可能非凸),本文用 . 表示 l 2 范数。变量 x = ( x ( 1 ) T , x ( 2 ) T , , x ( J ) T ) T n 具有J个分组结构,第j组变量 x ( j ) n j j = 1 J n j = n x 0 表示 x 中非零分量的个数, x ( j ) 表示 x 的第j组变量 x ( j ) l 2 范数, j = 1 J # ( x ( j ) 2 ) 表示 x 中非零组的个数,正则化参数 λ 1 , λ 2 > 0

稀疏优化问题的主要目的是寻求欠定线性方程组的稀疏解,从而提高模型的计算效率和可解释性。稀疏性通常用 l 0 范数刻画,即 x n x 0 n l 0 范数可以直接惩罚非零元素的数量,有助于找到仅有少数重要特征或特征组合的解,去除无用或冗余的特征,从而降低数据表示的复杂度,提高预测识别的准确性。2006年Yuan和Lin [4] 首次提出将组稀疏性作为先验信息,组稀疏性考虑了特征之间的相关性,是把向量的分量进行分组再考察各组是否整体为零,体现为向量中非零分量或零分量集中出现在某些区域。因此,综合考虑变量的稀疏和组稀疏结构可以获得更具实际意义的结果。

然而,问题(1)的正则项是非凸、非光滑、非Lipschitz甚至不连续的NP难问题 [5] [6] 。Donoho等人 [7] 提出将 l 0 范数凸松弛为 l 1 范数。Fan和Li [6] [8] 提出了一种折叠凹惩罚函数,并证明了该非凸非光滑优化模型的解具有无偏性、oracle等性质。后来,学者们给出了一系列折叠凹惩罚函数,包括 l p ( 0 < p < 1 ) 范数、SCAD罚(Smooothly Clipped Absolute Deviation Penalty) [6] 、MCP (Minimax Concave Penalty) [9] 、Capped- l 1 罚(Continuous Exact l 0 Penalty) [10] 等,非凸非光滑松弛问题已经成为近年来研究热点之一 [5] [11] [12] [13] [14] [15] 。常用的折叠凹惩罚函数有以下几类:

1) Capped- l 1 罚函数为

ϕ C a p p e d l 1 ( t ) : = λ min { t α , 1 } = ( λ t α , 0 t α , λ , α < t . ( λ > 0 , α > 0 )

2) MCP函数为

ϕ M C P ( t ) : = λ 0 t ( 1 τ α λ ) + d τ = ( λ t t 2 2 α , 0 t α λ , 1 2 α λ 2 , α λ < t . ( λ > 0 , α > 1 )

3) SCAD罚函数为

ϕ S C A D ( t ) : = λ 0 t min { 1 , ( α τ λ ) + α 1 } d τ = ( λ t , 0 t λ , 1 α 1 ( λ 2 2 + α λ t 1 2 t 2 ) , λ < t α λ , 1 2 ( α + 1 ) λ 2 , α λ < t . ( λ > 0 , α > 2 )

其中 β + : = ( 0 , β 0 , β , β > 0.

对于问题(1),本文考虑如下非凸松弛模型:

min x n F ( x ) = f ( x ) + λ 1 x 1 + λ 2 j = 1 J ϕ ( x ( j ) ) , (2)

其中,正则化参数 λ 1 , λ 2 > 0 x 1 : = i = 1 n | x i | ϕ : + + 为一般折叠凹惩罚函数形式,只需满足以下性质:

1) ϕ [ 0, ) 上是局部Lipschitz的,单调不减, ϕ ( 0 ) = 0 且当 t > 0 时, ϕ ( t ) > 0

2) ϕ ( 0 ) : = ϕ ( 0 + ) > 0 。易见,Capped- l 1 、MCP、SCAD等惩罚函数均满足上述条件。

对于无约束非凸非光滑问题,Ahn和Pang [16] [17] 通过方向导数定义了一阶、二阶d-稳定点,Cui [18] 指出通过方向导数定义的d-稳定点可以推导出lifted稳定点、critical稳定点等,进而得出非光滑问题的一阶、二阶d-稳定点强于次微分所定义的稳定点。然而,目前的研究表明计算非光滑问题的一阶、二阶d-稳定点是困难的。2020年Peng和Chen [19] 给出了无约束组稀疏优化问题的一阶、二阶d-稳定点的有效刻画以及与该问题局部最优解的关系,提出了光滑化方法,并证明了光滑化问题与松弛问题二阶d-稳定点的一致性。在此基础上,Su [20] 对稀疏加组稀疏优化问题的连续松弛模型的一阶d-稳定点进行了刻画,并给出了光滑化问题和松弛问题一阶d-稳定点的一致性。不同于上述研究,本文考虑的稀疏惩罚是凸函数加组稀疏惩罚是一类折叠凹惩罚函数的组合问题,研究此类问题的一阶、二阶d-稳定点的有效刻画以及局部最优性质,并给出了一阶、二阶方向导数的具体表达式。

本文的结构如下:在第二节,我们介绍了一阶d-稳定点及其局部最优性质,并给出松弛问题(2)的一阶d-稳定点的特征和相关结论;在第三节,我们给出了二阶d-稳定点的概念和性质,并给出了问题(2)的二阶d-稳定点的具体表达式;最后一节是一个简单的总结。

符号标记:对于 n + [ n ] : = { 1,2, , n } J ( x ) : = { j : x ( j ) 0 , j [ J ] } 表示向量 x 的非零组的下标。 I j ( x ) : = { i : x ( j ) i 0 , j [ J ] , i [ n j ] } 表示向量 x 的第j组中非零元素的下标。设 A , B 为两个集合, A \ B : = { i : i A i B } D ( x ) : = { y n : I j ( y ) = I j ( x ) , j [ J ] } 表示与 x 有相同的非零元素下标的向量全体。

2. 一阶d-稳定点

2.1. 一阶d-稳定点的局部最优性

本节引入问题(2)的几个重要概念:凸差函数、方向导数以及方向稳定点 [16] [19] [21] 。

为方便分析,本节假定惩罚函数可以改写为凸差(Difference-of-Convex)形式,即设设惩罚函数具有下述形式。

假设2.1 [16] [19] (凸差函数)设折叠凹惩罚函数 ϕ : + + 具有凸差形式: ϕ ( t ) : = g ( t ) h ( t ) ,其中 h ( t ) : = max 1 υ υ ¯ h υ ( t ) υ υ ¯ + g h υ t ( 0, ) 上都是可微凸函数,且满足:

g ( 0 ) : = g ( 0 + ) , h υ ( 0 ) : = h υ ( 0 + ) , 1 υ υ ¯ .

容易验证,前述几类折叠凹惩罚函数均具有凸差形式:

1) Capped- l 1 罚函数:

ϕ C a p p e d l 1 ( t ) = g C a p p e d l 1 ( t ) h C a p p e d l 1 ( t )

g C a p p e d l 1 ( t ) = λ t α , h C a p p e d l 1 ( t ) = max { 0 , λ t α λ } , ( α > 0 , λ > 0 )

2) MCP函数:

ϕ M C P ( t ) = g M C P ( t ) h M C P ( t )

g M C P ( t ) = λ t , h M C P ( t ) = ( t 2 2 α , 0 t α λ , λ t 1 2 α λ 2 , α λ < t , ( α > 1 , λ > 0 )

3) SCAD罚函数:

ϕ S C A D ( t ) = g S C A D ( t ) h S C A D ( t )

g S C A D ( t ) = λ t , h S C A D ( t ) = ( 0 , 0 t λ , ( t λ ) 2 2 ( α 1 ) , λ < t α λ , λ t 1 2 ( α + 1 ) λ 2 , α λ < t . ( α > 2 , λ > 0 )

在假设2.1之下,问题(2)可以写成如下形式:

min x n F ( x ) = f ( x ) + λ 1 x 1 + λ 2 j = 1 J [ g ( x ( j ) ) max 1 υ υ ¯ h υ ( x ( j ) ) ] = f ( x ) + λ 1 j = 1 J i = 1 n j | x ( j ) i | + λ 2 j = 1 J [ g ( x ( j ) ) max 1 υ υ ¯ h υ ( x ( j ) ) ] . (3)

υ ¯ = 1 时,问题(3)可退化为

min x n F ( x ) = f ( x ) + λ 1 j = 1 J i = 1 n j | x ( j ) i | + λ 2 j = 1 J [ g ( x ( j ) ) h ( x ( j ) ) ] .

为了方便表述,令 u ( x ) = x 1 w ( x ) = x ,则问题(3)可以改写为:

min x n F ( x ) = f ( x ) + λ 1 j = 1 J i = 1 n j u ( x ( j ) i ) + λ 2 j = 1 J [ g w ( x ( j ) ) max 1 υ υ ¯ h υ w ( x ( j ) ) ] . (4)

d-稳定点是描述方向导数的必要条件,接下来我们介绍一阶d-稳定点的定义以及局部最优性质。

定义2.1 [19] [21] (一阶d-稳定点)设 Q : n 在给定点 x * n 处方向可微,若Q的方向导数 Q 满足

Q ( x * ; x x * ) = l i m t 0 Q ( x * + t ( x x * ) ) Q ( x * ) t 0, x n ,

则称 x * 为Q的一阶(方向) d-稳定点。值得注意的是,若Q在 x * 处可微,则有 Q ( x * ; x x * ) = Q ( x * ) , x x * = 0

引理2.1 [19] (一阶d-稳定点的局部最优性质)已知 F : n x n 上是局部Lipschitz连续且方向可微的,则以下结论成立:

1) 如果 x * 是F的局部极小点,则 x * 也是F的一阶d-稳定点;

2) 如果F在 x * 满足一阶增长性条件,即存在 x * 的一个领域 Θ δ > 0 ,使得

F ( x ) F ( x * ) + δ x x * , x Θ ,

等价于在 x * 满足

F ( x * ; x x * ) > 0, x n \ { x * } .

Peng和Chen在 [19] 中给出了引理2.1的证明。根据定义2.1,对任意 x , y n u ( x ) w ( x ) 的一阶方向导数如下:

u ( x ; y ) = ( y 1 , x = 0 , sgn ( x ) T y , x 0. w ( x ; y ) = ( y , x = 0 , x , y x , x 0. (5)

其中 sgn ( a ) : = ( 1 , a > 0 , 0 , a = 0 , 1 , a < 0. 进一步, j [ J ] i [ n j ] ,有

u ( x ( j ) i ; y ( j ) i ) = ( | y ( j ) i | , | x ( j ) i | = 0 , sgn ( x ( j ) i ) y ( j ) i , | x ( j ) i | 0 , w ( x ( j ) ; y ( j ) ) = ( y ( j ) , x ( j ) = 0 , x ( j ) , y ( j ) x ( j ) , x ( j ) 0. (6)

实际上,在一维情况下 l 1 范数和 l 2 范数是等价的。

2.2. 问题(3)的一阶d-稳定点

本节给出问题(3)的一阶d-稳定点的具体表达式以及特征刻画。

定理2.1 在假设2.1成立的条件下,问题(3)在点 x * 处的方向导数具体表达式如下:

F ( x * ; y ) = f ( x * ) , y + λ 1 j [ J ] \ J ( x * ) i [ n j ] | y ( j ) i | + λ 1 j J ( x * ) i [ n j ] \ I j ( x * ) | y ( j ) i | + λ 1 j J ( x * ) i I j ( x * ) sgn ( x ( j ) i ) y ( j ) i + λ 2 j [ J ] \ J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] y ( j ) + λ 2 j J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) * , y ( j ) x ( j ) * , y R n . (7)

证明. 首先,注意到凸函数 h υ : + + w : n j + 和复合函数 h υ w : n j + 均是方向可微的。 j [ J ] ,有

( h w ) ( x ( j ) * ; x ( j ) x ( j ) * ) = h ( x ( j ) * ; x ( j ) x ( j ) * ) = max 1 υ υ ¯ h ( x ( j ) * ) w ( x ( j ) * ; x ( j ) x ( j ) * ) .

同理,函数g也可得出上述结论。根据定义2.1和(6),可得

F ( x * ; x x * ) = f ( x * ) , x x * + λ 1 j = 1 J i = 1 n j u ( x ( j ) i * ; x ( j ) i x ( j ) i * ) + λ 2 j = 1 J [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] w ( x ( j ) * ; x ( j ) x ( j ) * ) = f ( x * ) , x x * + λ 1 j [ J ] \ J ( x * ) i [ n j ] u ( x ( j ) i * ; x ( j ) i x ( j ) i * ) + λ 1 j J ( x * ) i [ n j ] \ I j ( x * ) u ( x ( j ) i * ; x ( j ) i x ( j ) i * ) + λ 1 j J ( x * ) i I j ( x * ) u ( x ( j ) i * ; x ( j ) i x ( j ) i * ) + λ 2 j [ J ] \ J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] w ( x ( j ) * ; x ( j ) x ( j ) * ) + λ 2 j J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] w ( x ( j ) * ; x ( j ) x ( j ) * ) .

y = x x * n

F ( x * ; y ) = f ( x * ) , y + λ 1 j [ J ] \ J ( x * ) i [ n j ] | y ( j ) i | + λ 1 j J ( x * ) i [ n j ] \ I j ( x * ) | y ( j ) i | + λ 1 j J ( x * ) i I j ( x * ) sgn ( x ( j ) i ) y ( j ) i + λ 2 j [ J ] \ J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] y ( j ) + λ 2 j J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) * , y ( j ) x ( j ) * .

故得结论。 □

定理2.2 在假设2.1成立的条件下,设 x * n 是问题(3)的一个一阶d-稳定点,则下述结论成立:

1) j J ( x * ) , i I j ( x * )

| [ f ( x * ) ] ( j ) i | = | λ 1 sgn ( x ( j ) i * ) + λ 2 [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) i * x ( j ) * | ,

特别地,当 υ ¯ = 1 时,

| [ f ( x * ) ] ( j ) i | = | λ 1 sgn ( x ( j ) i * ) + λ 2 [ g w ( x ( j ) * ) h w ( x ( j ) * ) ] x ( j ) i * x ( j ) * | .

2) j J ( x * ) 若满足 [ n j ] \ I j ( x * ) (即 | I j ( x * ) | < n j ),则对任意 i [ n j ] \ I j ( x * ) ,有

| [ f ( x * ) ] ( j ) i | λ 1 .

3) j [ J ] \ J ( x * ) , i [ n j ] ,有

| [ f ( x * ) ] ( j ) i | λ 1 n j ( J | J ( x * ) | ) + λ 2 n j [ J ] \ J ( x * ) [ g w ( 0 ) max 1 υ υ ¯ h υ w ( 0 ) ] .

特别地,当 υ ¯ = 1 时,

| [ f ( x * ) ] ( j ) i | λ 1 n j ( J | J ( x * ) | ) + λ 2 n j [ J ] \ J ( x * ) [ g w ( 0 ) h w ( 0 ) ] .

证明. 1) 根据定理2.2, y = x x * n ,有

0 j [ J ] i [ n j ] [ f ( x * ) ] ( j ) i y ( j ) i + λ 1 j [ J ] \ J ( x * ) i [ n j ] | y ( j ) i | + λ 1 j J ( x * ) i [ n j ] \ I j ( x * ) | y ( j ) i | + λ 1 j J ( x * ) i I j ( x * ) s i g n ( x ( j ) i * ) y ( j ) i + λ 2 j [ J ] \ J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h w ( x ( j ) * ) ] y ( j ) + λ 2 j J ( x * ) [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) * , y ( j ) x ( j ) * . (8)

特别地,任取 y D ( x * ) ,得

0 j J ( x * ) i I j ( x * ) { [ f ( x * ) ] ( j ) i + λ 1 s i g n ( x ( j ) i * ) + λ 2 [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) i * x ( j ) * } y ( j ) i , (9)

y D ( x * ) 的任意性,对任意 j J ( x * ) i I j ( x * ) ,有

0 = [ f ( x * ) ] ( j ) i + λ 1 s i g n ( x ( j ) i * ) + λ 2 [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) i * x ( j ) * , (10)

| [ f ( x * ) ] ( j ) i | = | λ 1 s i g n ( x ( j ) i * ) + λ 2 [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) i * x ( j ) * | .

υ ¯ = 1 时,

| [ f ( x * ) ] ( j ) i | = | λ 1 s i g n ( x ( j ) i * ) + λ 2 [ g w ( x ( j ) * ) h w ( x ( j ) * ) ] x ( j ) i * x ( j ) * | .

2) 根据已知条件,我们可取任意满足(8)的 j ^ J ( x * ) x ( j ^ ) * = ( x ( j ^ ) 1 * , x ( j ^ ) 2 * , , x ( j ^ ) n j ^ * ) T n j ^ 和任意取 i ^ [ n j ^ ] \ I i ^ ( x * ) ,定义 y + y 如下:

y ( j ) i + = ( 1 , j = j ^ , i = i ^ , 0 , , y ( j ) i = ( 1 , j = j ^ , i = i ^ , 0 , .

x ( j ^ ) * , y ( j ^ ) ± = 0 y ( j ^ ) ± = 1 ,且 y ¯ ( j ) i ± = 0 j j ¯ i [ n j ] 。根据(6)可得

u ( x ( j ^ ) i ^ * ; y ( j ^ ) i ^ ± ) = u ( 0 ; y ( j ^ ) i ^ ± ) = | y ( j ^ ) i ^ ± | = 1, w ( x ( j ^ ) * ; y ( j ^ ) ± ) = x ( j ^ ) * , y ( j ^ ) ± x ( j ^ ) * = 0.

进而,由(8)可得

0 j ^ J ( x * ) i ^ [ n j ^ ] \ I j ^ ( x * ) [ f ( x * ) ] ( j ^ ) i ^ y ( j ^ ) i ^ ± + λ 1 j ^ J ( x * ) i ^ [ n j ^ ] \ I j ^ ( x * ) | y ( j ^ ) i ^ ± | + λ 2 j ^ J ( x * ) [ g w ( x ( j ^ ) * ) max 1 υ υ ¯ h υ w ( x ( j ^ ) * ) ] x ( j ^ ) * , y ( j ^ ) ± x ( j ^ ) * = j ^ J ( x * ) i ^ [ n j ^ ] \ I j ^ ( x * ) ± [ f ( x * ) ] ( j ^ ) i ^ + j ^ J ( x * ) i ^ [ n j ^ ] \ I j ^ ( x * ) λ 1 ,

± [ f ( x * ) ] ( j ^ ) i ^ λ 1 ,从而 | [ f ( x * ) ] ( j ^ ) i ^ | λ 1

3) 与2)的证明类似,任取 j ¯ [ J ] \ J ( x * ) i ¯ [ n j ¯ ] ,可知 x ( j ¯ ) i ¯ * = 0 ,定义 y + y 如下:

y ¯ ( j ) i + = ( 1 , j = j ¯ , i = i ¯ , 0 , , y ¯ ( j ) i = ( 1 , j = j ¯ , i = i ¯ , 0 , ,

x ( j ¯ ) * , y ( j ¯ ) ± = 0 ,且 y ¯ ( j ) i ± = 0 j j ¯ i [ n j ] 。由(8)得

0 j ¯ [ J ] \ J ( x * ) i ¯ [ n j ¯ ] [ f ( x * ) ] ( j ¯ ) i ¯ y ¯ ( j ¯ ) i ¯ ± + λ 1 j ¯ [ J ] \ J ( x * ) i ¯ [ n j ¯ ] | y ¯ ( j ¯ ) i ¯ ± | + λ 2 j ¯ [ J ] \ J ( x * ) [ g w ( x ( j ¯ ) * ) max 1 υ υ ¯ h υ w ( x ( j ¯ ) * ) ] y ( j ¯ ) ± = j ¯ [ J ] \ J ( x * ) i ¯ [ n j ¯ ] ± [ f ( x * ) ] ( j ¯ ) i ¯ + λ 1 n j ¯ ( J | J ( x * ) | ) + λ 2 j ¯ [ J ] \ J ( x * ) [ g w ( 0 ) max 1 υ υ ¯ h υ w ( 0 ) ] y ( j ¯ ) ± j ¯ [ J ] \ J ( x * ) i ¯ [ n j ¯ ] ± [ f ( x * ) ] ( j ¯ ) i ¯ + λ 1 n j ¯ ( J | J ( x * ) | ) + λ 2 n j ¯ [ J ] \ J ( x * ) [ g w ( 0 ) max 1 υ υ ¯ h υ w ( 0 ) ] ,

j ¯ [ J ] \ J ( x * ) i ¯ [ n j ¯ ] ± [ f ( x * ) ] ( j ¯ ) i ¯ λ 1 n j ¯ ( J | J ( x * ) | ) + λ 2 n j ¯ [ J ] \ J ( x * ) [ g w ( 0 ) max 1 υ υ ¯ h υ w ( 0 ) ] ,

j ¯ [ J ] \ J ( x * ) i ¯ [ n j ¯ ] | [ f ( x * ) ] ( j ¯ ) i ¯ | λ 1 n j ¯ ( J | J ( x * ) | ) + λ 2 n j ¯ [ J ] \ J ( x * ) [ g w ( 0 ) max 1 υ υ ¯ h υ w ( 0 ) ] ,

从而

| [ f ( x * ) ] ( j ¯ ) i ¯ | λ 1 n j ¯ ( J | J ( x * ) | ) + λ 2 n j ¯ [ J ] \ J ( x * ) [ g w ( 0 ) max 1 υ υ ¯ h υ w ( 0 ) ] .

3. 二阶d-稳定点

3.1. 二阶d-稳定点的局部最优性

首先,我们介绍二阶d-稳定点的定义 [19] [21] ,本文采用沿一个方向的二阶方向导数来定义问题(2)的二阶d-稳定点,这样定义的导数简单易理解。

定义3.1 [19] (二阶方向导数)设 Q : n 是局部Lipschitz连续且方向可微的,对任意 x * , y n ,若以下极限存在:

lim z y , t 0 Q ( x * + t z ) Q ( x * ) t Q ( x * ; z ) 1 2 t 2 , (11)

则称Q在 x * 处沿方向 y 二阶方向可导,其极限称为Q在 x * 处沿方向 y 二阶方向导数,记为 Q ( 2 ) ( x * ; y ) 。若 y n ,上述极限均存在,则Q在点 x * 二阶方向可微。

事实上,极限(11)存在表明对 ε > 0 , δ > 0 ,使得 x n ,有

( x x * δ , 0 < t δ x x * t y δ | Q ( x ) Q ( x * ) t Q ( x * ; x x * t ) 1 2 t 2 Q ( 2 ) ( x * ; y ) | ε

成立。显然,若极限(11)存在,则有下式成立

Q ( 2 ) ( x * ; y ) = lim t 0 Q ( x * + t y ) Q ( x * ) t Q ( x * ; y ) 1 2 t 2 .

假设Q在点 x * 二阶可微,则Hessian阵 2 Q ( x * ) 存在,且 y n ,有

Q ( 2 ) ( x * ; y ) = 2 Q ( x * ) y , y .

定义3.2 [19] (二阶d-稳定点)设 Q : n x * n 处二阶方向可微,若 x * 是Q的一阶d-稳定点,且

y n , Q ( x * ; y ) = 0 Q ( 2 ) ( x * ; y ) 0,

则称 x * 是Q的二阶d-稳定点。

文献 [19] [21] 给出了如下F二阶方向可微时的局部最优性质。

引理3.1 [19] (二阶d-稳定点的局部最优性质)已知 F : n x * n 处二阶方向可微,则以下结论成立:

1) 若 x * 是F的局部极小点,则 x * 是F的二阶d-稳定点;

2) 若 x * 是F的强局部极小点(即:存在 x * 的邻域 Θ 和标量 δ > 0 ,使得 x Θ ,都有 F ( x ) F ( x * ) + δ x x * 2 ),当且仅当 x * 是F的一阶d-稳定点,且 y n \ { 0 } ,有

F ( x * ; y ) = 0 F ( 2 ) ( x * ; y ) > 0.

根据定义3.1可计算得出在点 x 处的 l 1 范数和 l 2 范数的二阶方向导数如下:

u ( 2 ) ( x ; y ) = 0, w ( 2 ) ( x ; y ) = ( 0, x 2 = 0, ( x y ) 2 | x , y | 2 x 3 , x 2 0. (12)

对于任意 j [ J ] ,有

w ( 2 ) ( x ( j ) ; y ( j ) ) = ( 0, x ( j ) 2 = 0, ( x ( j ) y ( j ) ) 2 | x ( j ) , y ( j ) | 2 x ( j ) 3 , x ( j ) 2 0. (13)

为了求出复合函数的二阶方向导数,文献[22, Proposition 3.2]和[19, Lemma 3.2]给出了如下引理。

引理3.2 [19] 设 ρ : m 是在 Φ ( x ) m 上局部Lipschitz连续,且 Φ : n m x n 上局部Lipshitz连续。若复合函数 G = ρ Φ : n n 满足以下条件中的任意一条,则G在点 x 处二阶方向可微:

1) ρ Φ ( x ) 处半光滑可微(即: ρ Φ ( x ) 附近方向可微, ρ Φ ( x ) 处半光滑),且 Φ 在点 x 处二阶方向可微;

2) ρ Φ ( x ) 处二阶方向可微,且 Φ 在点 x 附近分段仿射(线性);

3) ρ Φ ( x ) 附近分段仿射(线性),且 Φ 在点 x 处二阶方向可微。

此外, y n ,有

当(1)成立, G ( 2 ) ( x ; y ) = Φ ( x ; y ) T ( ρ ) ( Φ ( x ) ; Φ ( x ; y ) ) + ρ ( Φ ( x ) ) T Φ ( 2 ) ( x ; y ) , (14)

当(2)成立, G ( 2 ) ( x ; y ) = ρ ( 2 ) ( Φ ( x ) ; Φ ( x ; y ) ) , (15)

当(3)成立, G ( 2 ) ( x ; y ) = ρ ( Φ ( x ) ; Φ ( 2 ) ( x ; y ) ) . (16)

3.2. 问题(2)的二阶d-稳定点

为了研究问题(2)的二阶d-稳定点,给出如下假设。

假设3.1 [19] 惩罚函数 ϕ : + + 具有凸差形式, ϕ ( t ) : = g ( t ) h ( t ) ,其中g是 t [ 0, ) 上的仿射(线性)函数,且 g ( 0 ) : = g ( 0 + ) h t ( 0, ) 上的凸函数且半光滑可微, h ( 0 ) : = h ( 0 + )

容易验证,前述的折叠凹惩罚函数中MCP、SCAD满足假设3.1的条件。

定理3.1 若假设3.1成立, y n ,则问题(2)在点 x * 处的二阶方向导数有以下表达式:

F ( 2 ) ( x * ; y ) = 2 f ( x * ) y , y + j = 1 J [ g ( x ( j ) * ) h ( x ( j ) * ) ] w ( 2 ) ( x ( j ) * ; y ( j ) ) j = 1 J w ( x ( j ) * ; y ( j ) ) H ( x ( j ) * ; w ( x ( j ) * ; y ( j ) ) ) , (17)

其中 w ( x ( j ) * ; y ( j ) ) w ( 2 ) ( x ( j ) * ; y ( j ) ) 可分别由(6)和(13)得到,对任意 t [ 0, ) H ( t ) : = h ( t )

证明. 因为f是二阶连续可微的,因此 f ( 2 ) ( x * ; y ) = 2 f ( x * ) y , y 。由于 l 1 范数的二阶方向导数为零,式中凸差部分的二阶方向导数可由[19, Lemma 3.5]中的证明得到。 □

下面给出问题(2)在假设3.1条件下的二阶d-稳定点的特征。

推论3.1 若假设3.1成立,设 x * n 是问题(2)的二阶d-稳定点,则 y D ( x * ) ,有

2 f ( x * ) y , y + j J ( x * ) [ ( g w ) ( 2 ) ( x ( j ) * ; y ( j ) ) ( h w ) ( 2 ) ( x ( j ) * ; y ( j ) ) ] 0, (18)

其中 j J ( x * )

w ( x ( j ) * ; y ( j ) ) = x ( j ) * , y ( j ) x ( j ) * ,

w ( 2 ) ( x ( j ) * ; y ( j ) ) = ( x ( j ) * y ( j ) ) 2 | x ( j ) * , y | 2 x ( j ) * 3 ,

( g w ) ( 2 ) ( x ( j ) * ; y ( j ) ) = g ( x ( j ) * ) w ( 2 ) ( x ( j ) * ; y ( j ) ) ,

( h w ) ( 2 ) ( x ( j ) * ; y ( j ) ) = w ( x ( j ) * ; y ( j ) ) H ( x ( j ) * ; w ( x ( j ) * ; y ( j ) ) ) + h ( x ( j ) * ) w ( 2 ) ( x ( j ) * ; y ( j ) ) .

证明. 因为 x * 是问题(2)的二阶d-稳定点,则 x * 一定是问题(2)的一阶d-稳定点,根据定理2.3证明中的(9),对任意的 y D ( x * ) ,有

0 j J ( x * ) i I j ( x * ) { [ f ( x * ) ] ( j ) i + λ 1 sgn ( x ( j ) i * ) + λ 2 [ g w ( x ( j ) * ) max 1 υ υ ¯ h υ w ( x ( j ) * ) ] x ( j ) i * x ( j ) * } y ( j ) i .

从而

[ f ( x * ) ] ( j ) + λ 1 sgn ( x ( j ) * ) + λ 2 [ g w ( x ( j ) * ) h w ( x ( j ) * ) ] x ( j ) * x ( j ) * = 0,

j J ( x * ) [ f ( x * ) ] ( j ) + λ 1 sgn ( x ( j ) * ) + λ 2 [ g w ( x ( j ) * ) h w ( x ( j ) * ) ] x ( j ) * x ( j ) * , y ( j ) = 0,

j = 1 J [ f ( x * ) ] ( j ) + λ 1 sgn ( x ( j ) * ) + λ 2 [ g w ( x ( j ) * ) h w ( x ( j ) * ) ] x ( j ) * x ( j ) * , y ( j ) = 0,

因此

0 = F ( x * ; y ) .

因为 x * 是问题(2)的二阶d-稳定点,故有 F ( 2 ) ( x * ; y ) 0 ,由定义3.2和定理3.1,得

0 2 f ( x * ) y , y + j = 1 J [ g ( x ( j ) * ) h ( x ( j ) * ) ] w ( 2 ) ( x ( j ) * ; y ( j ) ) j = 1 J w ( x ( j ) * ; y ( j ) ) H ( x ( j ) * ; w ( x ( j ) * ; y ( j ) ) ) .

根据(6)和(13), j J ( x * ) ,有 w ( x ( j ) * ; y ( j ) ) = w ( 2 ) ( x ( j ) * ; y ( j ) ) = 0 ,进而 j J ( x * ) ,有

w ( x ( j ) * ; y ( j ) ) = x ( j ) * , y ( j ) x ( j ) * ,

w ( 2 ) ( x ( j ) * ; y ( j ) ) = ( x ( j ) * y ( j ) ) 2 | x ( j ) * , y | 2 x ( j ) * 3 ,

( g w ) ( 2 ) ( x ( j ) * ; y ( j ) ) = g ( x ( j ) * ) w ( 2 ) ( x ( j ) * ; y ( j ) ) ,

( h w ) ( 2 ) ( x ( j ) * ; y ( j ) ) = w ( x ( j ) * ; y ( j ) ) H ( x ( j ) * ; w ( x ( j ) * ; y ( j ) ) ) + h ( x ( j ) * ) w ( 2 ) ( x ( j ) * ; y ( j ) ) .

F ( 2 ) ( x * ; y ) = 2 f ( x * ) y , y + j J ( x * ) [ ( g w ) ( 2 ) ( x ( j ) * ; y ( j ) ) ( h w ) ( 2 ) ( x ( j ) * ; y ( j ) ) ] 0.

4. 总结

本文研究了带有 l 1 稀疏惩罚和非凸折叠凹组稀疏惩罚的稀疏加组稀疏优化问题(2),分别对问题(2)的一阶、二阶d-稳定点进行了刻画和分析,并分析了问题(2)中d-稳定点和局部最优解的关系。这为进一步分析和求解此类问题提供了一定理论基础。后续我们的工作将围绕此类问题的其他稳定点的具体刻画以及约束优化问题的稳定点做进一步的分析。

基金项目

国家自然科学基金项目(11861020,12261020)、贵州省科技计划项目(ZK [2021] 009,[2018] 5781)、贵州省高层次留学人才创新创业择优资助重点项目([2018] 03)和贵州省教育厅青年科技人才成长项目([2018] 121)。

NOTES

*通讯作者。

参考文献

[1] Bech, A. and Hallak, N. (2019) Optimization Problems Involving Group Sparsity Terms. Mathematical Program-ming, 178, 39-67.
https://doi.org/10.1007/s10107-018-1277-1
[2] Hu, Y., Li, C. and Meng, K. (2017) Group Sparse Optimization via Lp,q Regularization. Journal of Machine Learning Research, 18, 1-52.
[3] Li, W., Bian, W. and Toh, K.-C. (2022) Difference-of-Convex Algorithms for a Class of Sparse Group L0 Regularized Optimization Problems. SIAM Journal on Optimization, 32, 1614-1641.
https://doi.org/10.1137/21M1443455
[4] Yuan, M. and Lin, Y. (2006) Model Selection and Estimation in Regression with Grouped Variables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68, 49-67.
https://doi.org/10.1111/j.1467-9868.2005.00532.x
[5] Bian, W. and Chen, X. (2017) Optimality and Com-plexity for Constrained Optimization Problems with Nonconvex Regularization. Mathematics of Operations Re-search, 42, 1063-1084.
https://doi.org/10.1287/moor.2016.0837
[6] Fan, J. and Li, R. (2001) Variable Se-lection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Associ-ation, 96, 1348-1360.
https://doi.org/10.1198/016214501753382273
[7] Donoho, D.L. (2006) Compressed Sensing. IEEE Transactions on Information Theory, 52, 1289-1306.
https://doi.org/10.1109/TIT.2006.871582
[8] Fan, J. and Li, R. (2006) Statistical Challenges with High Di-mensionality: Feature Selection in Knowledge Discovery. Proceedings of the International Congress of Mathema-ticians, 3, 595-622.
https://doi.org/10.4171/022-3/31
[9] Zhang, C.H. (2010) Nearly Unbiased Variable Se-lection under Minimax Concave Penalty. The Annals of Statistics, 38, 894-942.
https://doi.org/10.1214/09-AOS729
[10] Ong, C.S. and An, L.T.H. (2013) Learning Sparse Classifiers with Difference of Convex Functions Algorithms. Optimization Methods and Software, 28, 830-854.
https://doi.org/10.1080/10556788.2011.652630
[11] Bian, W. and Chen, X. (2020) A Smoothing Proximal Gradient Algorithm for Nonsmooth Convex Regression with Cardinality Penalty. SIAM Journal on Numerical Analysis, 58, 858-883.
https://doi.org/10.1137/18M1186009
[12] Chen, X., Pan, L.L. and Xiu, N. (2022) So-lution Sets of Three Sparse Optimization Problems for Multivariate Regression. Journal of Global Optimization, 87, 347-371.
https://doi.org/10.1007/s10898-021-01124-w
[13] Pan, L. and Chen, X. (2021) Group Sparse Op-timization for Images Recovery Using Capped Folded Concave Functions. SIAM Journal on Imaging Sciences, 14, 1-25.
https://doi.org/10.1137/19M1304799
[14] Soubies, E., Blanc-Féraud, L. and Aubert, G. (2017) A Uni-fied View of Exact Continuous Penalties for L2-L0 Minimization. SIAM Journal on Optimization, 27, 2034-2060.
https://doi.org/10.1137/16M1059333
[15] Zhang, Y., Zhang, N. and Sun, D. (2020) An Efficient Hessian Based Algorithm for Solving Large-Scale Sparse Group Lasso Problems. Mathematical Programming, 179, 223-263.
https://doi.org/10.1007/s10107-018-1329-6
[16] Ahn, M., Pang, J.-S. and Xin, J. (2017) Differ-ence-of-Convex Learning: Directional Stationarity, Optimality, and Sparsity. SIAM Journal on Optimization, 27, 1637-1665.
https://doi.org/10.1137/16M1084754
[17] Pang, J.S., Razaviyayn, M. and Alvarado, A. (2017) Computing B-Stationary Points of Nonsmooth DC Programs. Mathematics of Operations Research, 42, 95-118.
https://doi.org/10.1287/moor.2016.0795
[18] Cui, Y., Pang, J. and Sen, B. (2018) Composite Difference-Max Programs for Modern Statistical Estimation Problems. SIAM Journal on Optimization, 28, 3344-3374.
https://doi.org/10.1137/18M117337X
[19] Peng, D. and Chen, X. (2020) Computation of Second-Order Di-rectional Stationary Points for Group Sparse Optimization. Optimization Methods and Software, 35, 348-376.
https://doi.org/10.1080/10556788.2019.1684492
[20] 苏妍妍, 彭定涛. 稀疏加组稀疏优化问题的方向稳定点及其光滑化方法[J]. 应用数学进展, 2022, 11(10): 7464-7477.
[21] Rockafellar, R.T. and Wets, R.J.B. (2009) Variational Analysis. Springer Science & Business Media, Berlin.
[22] Chang, T.H., Hong, M. and Pang, J.-S. (2017) Local Minimizers and Second-Order Conditions in Composite Piecewise Programming via Directional Deriva-tives.