一类带MCP函数正则化问题的稳定性研究
Study on the Strong Metric Subregularity for a Class of Regularization Problems with the MCP Penalty Functions
DOI: 10.12677/pm.2024.144152, PDF, HTML, XML, 下载: 84  浏览: 216  科研立项经费支持
作者: 赵立斌:重庆交通大学数学与统计学院,重庆;李明华:重庆文理学院数学与大数据学院,重庆
关键词: MCP函数次微分图像导数强度量次正则MCP Function Subdifferential Graphical Derivative Strong Metric Subregularity
摘要: 本文研究一类带极大极小凹惩罚(MCP)函数正则化问题,该模型由二次可微的损失函数和MCP函数组成。首先我们研究了MCP函数的邻近次微分和极限次微分,然后利用该次微分表达式和图像导数的运算法则,得到带MCP正则化问题目标函数次微分图像导数。最后,利用该图像导数表达式分别建立了该正则化问题次微分强度量次正则的充分条件和充要条件。
Abstract: In this paper, we study a class of regularization problems with the minimax concave penalty (MCP) function, which consists of a twice differentiable loss function and the MCP penalty function. First, we study the prox-regular subdifferential and limiting subdifferential of the MCP penalty function. Next, we obtain the graphical derivative of regularization problems with the MCP penalty function by using the subdifferential expression. Finally, we use the graphical derivative to establish a sufficient condition, a sufficient and necessary condition for the strong metric subregularity of subdifferential of the regularization problems, respectively.
文章引用:赵立斌, 李明华. 一类带MCP函数正则化问题的稳定性研究[J]. 理论数学, 2024, 14(4): 448-458. https://doi.org/10.12677/pm.2024.144152

1. 引言

考虑如下无约束优化问题:

(1)

其中 f : n 是二次可微函数, g : n 是一个可分离变量的非凸函数。

MCP函数是一种重要的可分离变量的函数,它有两个标量 a > 2 λ > 0 ,并以原点为唯一的零点:

g ( x ) = i = 1 n g a , λ ( x i ) (2)

其中

g a , λ ( x i ) : = { 2 λ | x i | x i 2 a , | x i | a λ , a λ 2 , | x i | a λ . (3)

在机器学习和统计学中,为了防止模型过拟合和提高模型的泛化能力,需要通过引入凹惩罚函数来对模型进行正则化。变量选择在高维数据分析中起着非常重要的作用,在对模型正则化过程中可以通过对参数的惩罚来实现变量选择的效果,从而在一定程度上实现变量选择的功能,然而许多方法容易忽略在变量选择过程中的随机误差。2001年,Fan和Li [1] 为了解决这个问题,提出了一种新的非凸惩罚函数,即光滑裁剪绝对偏差(smoothly clipped absolute deviation, SCAD)罚函数。伴随着SCAD罚函数的出现,oracle性质成为了评价变量选择方法的标准。2010年,Zhang [2] 提出了新的非凸MCP函数来进行变量选择,并证明了MCP函数具有oracle性质。

在正则化模型中,通过引入MCP函数可以对模型的复杂度进行控制,防止模型过拟合,提高模型的泛化能力。在高维数据的情况下,MCP函数可以帮助减少模型的自由度,提高模型的稳定性和可解释性。MCP函数的参数 λ 和a可以根据具体问题进行调节,以满足不同的需求,这使得MCP函数可以适用于各种不同的优化问题。

目前为止,由于MCP函数良好的oracle性质和它可以同时实现变量选择与参数估计,带MCP函数正则化问题被广泛应用于机器学习、统计学习、信号处理、图像处理等领域,详见参考文献 [3] [4] [5] [6] [7] 。为了计算带MCP函数正则化问题,Zhang [2] 采用了惩罚线性无偏选择(PLUS)算法,在此之后Shi等 [8] 开发了一种有效的交替方向乘子法(ADMM)求解带MCP函数的正则化问题。

为了研究模型(1)相关算法的收敛速度,我们需要研究该模型的稳定性,如强度量次正和二阶增长条件,他们已经被用来建立优化算法的收敛速度,详见文献 [9] [10] [11] 。为了刻画强度量次正则 [12] [13] [14] 和二阶增长条件 [13] [15] ,许多学者研究了图像导数,它是变分分析中的一类重要工具。Chieu等人 [13] 利用次微分的图形导数研究了有限维中二阶增长条件和次微分的强度量次正则之间的关系,Dontchev等人 [12] 给出了集值映射强度量次正则的图像导数准则,Bello-Cruz等人 [15] 利用图像导数刻画了 l 1 -正则化优化问题的二阶增长条件。到目前为止,大多数文献都是对带MCP函数正则化问题的应用与相关算法的研究,还没有文献对模型(1)次微分的强度量次正则进行研究,而强度量次正则在模型相关算法的收敛性分析中起着非常重要的作用。

受文献 [12] [13] [15] 的启发,本文研究了模型(1)次微分的强度量次正则。本文的结构如下:第二节,我们介绍了一些基本的定义和引理,并利用次微分的定义得到了MCP函数次微分的表达式。第三节,利用次微分的运算法则和集值映射的图像导数工具得到了MCP函数次微分的图像导数表达式,最后利用该表达式分别建立了模型(1)次微分强度量次正则的充分条件和充要条件。

2. 预备知识

本文中, 表示实数集, n 是n维欧氏空间, , 分别表示 n 中的范数和内积。 s i g n : 表示符号函数。函数 h : n 的定义域记作dom h : = { x n : h ( x ) } f : n 是一个二次连续可微函数, 2 f 表示函数f的Hessian矩阵, ( 2 f ( ) ) i , j 表示Hessian矩阵的第i行第j列元素, ( 2 f ( ) ) i ,

示Hessian矩阵的第i行所有元素。对于矩阵 A m × n ,定义 ker A : = { w n | A w = 0 } 。对集值映 F : n m ,定义F的图为 g p h F = { ( x , y ) n × m | y F ( x ) } ;定义集值映射F的逆映射 F 1 : m n 为: F 1 ( y ) = { x | y F ( x ) }

2.1. 基础知识

定义1 [16] 设 x n 。对于函数 h : n 和向量 v n ,如果存在 ρ > 0 和x的一个邻域V,使得

h ( y ) h ( x ) + v , y x ρ y x 2 y V ,

则称v是函数h在x处的邻近次梯度。所有这样的v构成的集合称为h在x处的邻近次微分,记作 p h ( x )

定义2 [16] 函数 h : n x n 处的极限次微分定义如下:

h ( x ) : = { v n : x k h x , v k v , v k p h ( x k ) } ,

其中 x k h x 意味着 x k x h ( x k ) h ( x ) 。显然 p h ( x ) h ( x )

在本文中我们使用的都是极限次微分,简称为次微分。

定义3 [12] 设 Ω n 中的非空子集, x ¯ Ω 。集合 Ω x ¯ 处的切锥定义为:

T Ω ( x ¯ ) : = { v n | t k 0 , v k v x ¯ + t k v k Ω , k } .

定义4 [12] 对于集值映射 H : n m 和点 ( x , y ) g p h H 。H在 ( x , y ) 处的图像导数是集值映射 D H ( x | y ) : n m ,其图像是 g p h H ( x , y ) 处的切锥 T g p h H

v D H ( x | y ) ( u ) ( u , v ) T g p h H ( x , y ) .

或者说, v D H ( x | y ) ( u ) 当且仅当存在序列 u k u v k v t k 0 使得对于所有k,

y + t k v k H ( x + t k u k ) .

定义5 [12] 映射 F : n m 。对于点 ( x ¯ , y ¯ ) g p h F ,如果存在 k > 0 x ¯ 的一个邻域V,使得

d ( x ; F 1 ( y ¯ ) ) k d ( y ¯ ; F ( x ) V ) x V ,

则称映射F在 x ¯ 处对于 y ¯ 是度量次正则的。如果 x ¯ H 1 ( y ¯ ) 的孤立点,则称F在 x ¯ 处对于 y ¯ 是强度量次正则的。

引理1 [12] 集值映射 H : n m ( x ¯ , y ¯ ) 是局部闭的,H在 ( x ¯ , y ¯ ) 是强度量次正则的当且仅当

D H ( x ¯ | y ¯ ) 1 ( 0 ) = { 0 } . (4)

引理2 [12] 对于函数 f : n m 在x处可微,集值映射 F : n m 和任意的 y F ( x ) ,有

D ( f + F ) ( x | f ( x ) + y ) = f ( x ) + D F ( x | y ) .

2.2. MCP函数的次微分表达式

命题1 MCP函数的次微分表达式:

g ( x ) = { s n | s j [ 2 λ , 2 λ ] , x j = 0 s j = 2 λ s i g n ( x j ) 2 x j a , 0 < | x j | a λ s j = 0 , | x j | a λ } . (5)

证明 因为函数 g ( x ) 是连续的可分离变量的函数,因此对于任意的 x ¯ dom g ,有

g ( x ¯ ) = g a , λ ( x ¯ 1 ) × × g a , λ ( x ¯ n ) .

因为单变量函数 g a , λ ( x j ) 除在原点外是连续可微的,因此,当 x j 0 时,

g a , λ ( x j ) = { s j | s j = 2 λ s i g n ( x j ) 2 x j a , 0 < | x j | a λ s j = 0 , | x j | a λ } .

x j = 0 时,我们需要先求得 x j = 0 时的邻近次微分。设 y ( a λ , a λ ) ,则 g a , λ ( y ) = 2 λ | y | y 2 a 。设 ρ 1 a ,则

2 λ | y | y 2 a + ρ y 2 s j , y = s j y .

如果 y > 0 ,我们有 s j 2 λ + ρ y y a 。因此 s j 2 λ ,即 y ( 0 , a λ ) ρ 1 a

g a , λ ( y ) g a , λ ( 0 ) + s j , y ρ y 2 .

如果 y = 0 ,那么对于任意的 s j n 都成立。

如果 y < 0 ,我们有 s j 2 λ + ρ y y a 。因此 s j 2 λ ,即 y ( a λ , 0 ) ρ 1 a

g a , λ ( y ) g a , λ ( 0 ) + s j , y ρ y 2 .

综合上述三种情况,我们可以得到当 x j = 0 时, p g a , λ ( x j ) = { s j | s j [ 2 λ , 2 λ ] } 。再根据极限次微分的定义,我们可以得到 g a , λ ( x j ) = { s j | s j [ 2 λ , 2 λ ] , x j = 0 } 。因此,MCP函数的次微分表达式为:

g ( x ) = { s n | s j [ 2 λ , 2 λ ] , x j = 0 s j = 2 λ s i g n ( x j ) 2 x j a , 0 < | x j | a λ s j = 0 , | x j | a λ } .

3. 带MCP函数正则化问题次微分的强度量次正则

在本节中,我们研究问题(1)次微分的强度量次正则性。为了使用引理1来刻画 F 的强度量次正则性,我们需要先计算 g 的图像导数。

3.1. g 的图像导数

为了研究 g 的图像导数,设 x * dom g s ¯ g ( x * ) ,定义:

I : = { j { 1 , , n } | x j * = 0 } , J : = { j I | | s ¯ j | < 2 λ } , K : = { j I | | s ¯ j | = 2 λ } , M : = { j { 1 , , n } | 0 < | x j * | < a λ } ,

O : = { j { 1 , , n } | x j * = a λ } , P : = { j { 1 , , n } | x j * = a λ } , H ( x * ) : = { u n | { u j = 0 , j J u j s ¯ j 0 , j K }

命题2 D ( g ) ( x * | s ¯ ) ( u ) 是非空的当且仅当 u H ( x * ) 。此外,对任意的 u H ( x * )

D ( g ) ( x * | s ¯ ) ( u ) = { v n | s ¯ j v j 0 , u j = 0 v j = 2 u j a , j K v j = 2 u j a , j M v j = 0 , j N u j 0 , v j = 2 u j a u j 0 , v j = 0 , j O u j 0 , v j = 0 u j 0 , v j = 2 u j a , j P } . (6)

证明 取 v D ( g ) ( x * | s ¯ ) ( u ) ,根据图像导数的定义,存在序列 t k 0 ( u k , v k ) ( u , v ) 使得 s ¯ + t k v k g ( x * + t k u k ) 。下面考虑j的六种情形。

情形1.1 j J ,即 x j * = 0 | s ¯ j | < 2 λ

s ¯ j = 0 u j k 0 ,则 ( x * + t k u k ) j 0 ( s ¯ + t k v k ) j = 2 λ s i g n ( x * + t k u k ) j 2 ( x * + t k u k ) j a 。此时存在足够大的常数L和 ε > 0 ,使得当 k > L 时, ( s ¯ + t k v k ) j B ε ( 2 λ ) = ,因此这种情况是不满足的。若 s ¯ j = 0 u j k = 0 ,则 ( x * + t k u k ) j = 0 ( s ¯ + t k v k ) j [ a λ , a λ ] 。当 k u j = 0 v j

s ¯ j 0 u j k 0 ,则 ( x * + t k u k ) j 0 ( s ¯ + t k v k ) j = 2 λ s i g n ( x * + t k u k ) j 2 ( x * + t k u k ) j a 。当 k 时, ( s ¯ + t k v k ) j [ a λ , a λ ] 2 λ s i g n ( x * + t k u k ) j 2 ( x * + t k u k ) j a ,因此这种情况是不满足。若 s ¯ j = 0 u j k = 0 ,则 ( x * + t k u k ) j = 0 ( s ¯ + t k v k ) j [ a λ , a λ ] 。当 k u j = 0 v j

情形1.2 j K x j * = 0 | s ¯ j | = 2 λ

如果有一个序列 ( x * , s ¯ ) j + t k ( u k , v k ) j ,使得 | ( s ¯ + t k v k ) j | < 2 λ = | s ¯ j | ,我们可以得到 s ¯ j v j k < 0 ,当 k ,有 s ¯ j v j 0 。对于 u j 0 ,有 | ( x * + t k u k ) j | > 0 。因为 x j * = 0 ,当 k ,有

s i g n ( x j * + t k u j k ) = s i g n ( u j k ) = s i g n ( s ¯ j + t k v j k ) = s i g n ( s ¯ j ) ,

s ¯ j u j 0

u j > 0 ,有 ( x * + t k u k ) j > 0 ,则 ( s ¯ + t k v k ) j = 2 λ 2 t k u j k a ,此时, v j k = 2 u j k a ,这意味着 v j = 2 u j a 。若 u j < 0 ,有 ( x * + t k u k ) j < 0 ,则 ( s ¯ + t k v k ) j = 2 λ 2 t k u j k a ,此时, v j k = 2 u j k a ,这意味着 v j = 2 u j a

因此,当 u j 0 时,有 s ¯ j v j 0 s ¯ j u j 0 v j = 2 u j a

对于 u j = 0 ,我们可以分为三类情况讨论:

1) ( x * + t k u k ) j > 0 ,此时 v j = 2 u j a = 0

2) ( x * + t k u k ) j < 0 ,此时 v j = 2 u j a = 0

3) ( x * + t k u k ) j = 0 ,此时 | ( s ¯ + t k v k ) j | 2 λ 。那么有 s ¯ j v j k 0 ,当 k ,有 s ¯ j v j 0

因此,当 u j = 0 时,有 s ¯ j v j 0 s ¯ j u j = 0

情形1.3 j M ,即 0 < | x j * | < a λ

此时 | s ¯ j | = 2 λ s i g n ( x j * ) 2 x j a 。对于足够大的k, 0 < | ( x * + t k u k ) j | < a λ ,由(5)我们可以得到

( s ¯ + t k v k ) j = 2 λ s i g n ( x * + t k u k ) j 2 ( x * + t k u k ) j a .

0 < x j * < a λ 时,有 v j k = 2 u j k a ;当 a λ < x j * < 0 时,有 v j k = 2 u j k a 。这意味着 v j = 2 u j a

因此对任意的 j M v j = 2 u j a

情形1.4 j N ,即 | x j * | > a λ

对于足够大的k, ( x * + t k u k ) j > a λ ,由(5)知此时

| s ¯ j | = 0 = | ( s ¯ + t k v k ) j | .

因此 v j k = 0 ,这意味着 v j = 0

情形1.5 j O ,即 x j * = a λ

由(5)知此时 s ¯ j = 2 λ 2 a λ a = 0 。若 u j k 0 ,此时 ( x * + t k u k ) j ( 0 , a λ ] ,由 可得 ( s ¯ + t k v k ) j = 2 ( t k u k ) j a ,因此 v j k = 2 u j k a ,这意味着 v j = 2 u j a ;若 u j k 0 ,此时 ( x * + t k u k ) j [ a λ , ) ,由(5)可得 ( s ¯ + t k v k ) j = 0 ,因此 v j k = 0 ,这意味着 v j = 0

情形1.6 j P ,即 x j * = a λ

由(5)式知此时 s ¯ j = 2 λ 2 a λ a = 0 。若 u j k 0 ,此时 ( x * + t k u k ) j [ a λ , 0 ) ,由(5)可得 ( s ¯ + t k v k ) j = 2 ( t k u k ) j a ,因此 v j k = 2 u j k a ,这意味着 v j = 2 u j a ;若 u j k 0 ,此时 ( x * + t k u k ) j ( , a λ ] ,由(5)可得 ( s ¯ + t k v k ) j = 0 ,因此 v j k = 0 ,这意味着 v j = 0

综合以上六个情形,我们得出 u H ( x * ) ,同时也验证了(6)中的包含“ ”。为了证明逆向包“ ”,取 u H ( x * ) 和任意的v属于(6)的右半部分,对于任意的 t k 0 。我们证明了 s ¯ + t k v g ( x * + t k u ) ,从而验证了 v D ( g ) ( x * | s ¯ ) ( u ) 。对于任意的 t ,我们定义集值映射:

g a , λ ( t ) = { 0 , | t | a λ 2 λ s i g n ( t ) 2 t a , 0 < | t | a λ [ λ , λ ] , t = 0 .

与证明“ ”一样,我们考虑j的六种情形。

情形2.1 j J ,即 x j * = 0 | s ¯ j | < 2 λ

因为 u H ( x * ) ,所以有 ( x * + t k u ) j = 0 ,当k足够大时 ( s ¯ + t k v ) j [ 2 λ , 2 λ ] 。因此

( s ¯ + t k v ) j g a , λ ( x * + t k u ) j .

情形2.2 j K ,即 x j * = 0 | s ¯ j | = 2 λ

u j = 0 ,我们有 ( x * + t k u ) j = 0 ;并且对于足够大的k,因为 s ¯ j v j 0 ,所以 | ( s ¯ + t k v ) j | | s ¯ j | = 2 λ 。若 u j 0 ,我们有 v j = 2 u j a 。当k足够大时,因为 s ¯ j u j 0 ,所以有

( s ¯ + t k v ) j = 2 λ 2 u j a [ 2 λ , 2 λ ] , u j > 0 ( s ¯ + t k v ) j = 2 λ 2 u j a [ 2 λ , 2 λ ] , u j < 0.

综合上述两种情况,我们有 ( s ¯ + t k v ) j g a , λ ( x * + t k u ) j

情形2.3 j M ,即 0 < | x j * | < a λ

如果 0 < x j * < a λ ,由(5)知 s ¯ j = 2 λ 2 x j * a 。对于足够大的k,我们有 ( x * + t k u ) j ( 0 , a λ ) ,因为 v j = 2 u j a ,所以

( s ¯ + t k v ) j = 2 λ 2 ( x * + t k u ) j a g a , λ ( x * + t k u ) j .

如果 a λ < x j * < 0 ,由(5)知 s ¯ j = 2 λ 2 x j * a 。对于足够大的k,我们有 ( x * + t k u ) j ( a λ , 0 ) ,因为 v j = 2 u j a ,所以

( s ¯ + t k v ) j = 2 λ 2 ( x * + t k u ) j a g a , λ ( x * + t k u ) j .

情形2.4 j N ,即 | x j * | > a λ

对于足够大的k,我们有 | ( x * + t k u ) j | ( a λ , ) 。因为 v j = 0 ,所以

s ¯ j = ( s ¯ + t k v ) j = 0 g a , λ ( x * + t k u ) j .

情形2.5 j O ,即 x j * = a λ

由(4)式知此时 s ¯ j = 2 λ 2 a λ a = 0 。若 u j 0 ,当k足够大时, 0 < ( x * + t k u ) j a λ v j = 2 u j a ,因此

( s ¯ + t k v ) j = 0 2 t k u j a = 2 λ 2 ( a λ + t k u j ) a .

u j 0 ,当k足够大时, ( x * + t k u ) j a λ ,此时 v j = 0 ,因此

( s ¯ + t k v ) j = s ¯ j = 0.

综合上述两种情况,我们有 ( s ¯ + t k v ) j g a , λ ( x * + t k u ) j

情形2.6 j P ,即 x j * = a λ

由(5)式知此时 s ¯ j = 2 λ 2 ( a λ ) a = 0 。若 u j 0 ,当k足够大时, a λ ( x * + t k u ) j < 0 v j = 2 u j a ,因此

( s ¯ + t k v ) j = 0 2 t k u j a = 2 λ 2 ( a λ + t k u j ) a .

u j 0 ,当k足够大时, ( x * + t k u ) j a λ ,此时 v j = 0 ,因此

( s ¯ + t k v ) j = s ¯ j = 0.

综合上述两种情况,我们有 ( s ¯ + t k v ) j g a , λ ( x * + t k u ) j

综上所述,当 j J K M N O P 时,总有 ( s ¯ + t k v ) j g ( x * + t k u ) j ,故

v D ( g ) ( x * | s ¯ ) ( u ) .

3.2. F 的强度量次正则

为了研究 F 的强度量次正则,设 x * d o m F 0 F ( x * ) ,f在 x * 处是二次可微的。定义:

K 1 : = { j { 1 , , n } | x j * = 0 , | ( f ( x * ) ) j | = 2 λ } , M 1 : = { j { 1 , , n } | 0 < | x j * | < a λ } , N 1 : = { j { 1 , , n } | | x j * | > a λ } , P 1 : = { j { 1 , , n } | | x j * | = a λ } , U : = { u R E | u j ( f ( x * ) ) j 0 , j K 1 } ,

H E 1 ( x * ) : = { ( 2 f ( x * ) ) i , j , i K 1 N 1 P 1 , j E ( 2 f ( x * ) 2 a I ) i , j , i M 1 , j E , H E 2 ( x * ) : = { ( 2 f ( x * ) ) i , j , i N 1 , j E ( 2 f ( x * ) 2 a I ) i , j , i K 1 M 1 P 1 , j E ,

其中 E = { j | j K 1 M 1 N 1 P 1 }

定理1 如果 { ker H E 1 ( x * ) ker H E 2 ( x * ) } U = { 0 } ,则 F ( x * , 0 ) 处是强度量次正则的。

证明因为 F = f + g ,f在 x * 处是可微的,所以有 F ( x * ) = f ( x * ) + g ( x * ) 。由引理2可知:

D ( F ) ( x * | 0 ) ( u ) = 2 f ( x * ) u + D ( g ) ( x * | f ( x * ) ) ( u ) .

{ ker H E 1 ( x * ) ker H E 2 ( x * ) } U = { 0 } 0 D ( F ) ( x * | 0 ) ( u ) ,有

2 f ( x * ) u D ( g ) ( x * | f ( x * ) ) ( u ) .

由命题2,当 j E 时, u j = 0 ;当 j K 1 时,有

( ( 2 f ( x * ) 2 a I ) u ) j = 0 , u j ( f ( x * ) ) j 0 , ( 2 f ( x * ) u ) j ( f ( x * ) ) j 0 ,

或者

u j = 0 , u j ( f ( x * ) ) j 0 , ( 2 f ( x * ) u ) j ( f ( x * ) ) j 0.

j M 1 时,有 ( ( 2 f ( x * ) 2 a I ) u ) j = 0 ;当 j N 1 时,有 ( 2 f ( x * ) u ) j = 0 ;当 j N 1 时,有

( 2 f ( x * ) u ) j = 0 ( ( 2 f ( x * ) 2 a I ) u ) j = 0.

因为 { ker H ε 1 ( x * ) ker H ε 2 ( x * ) } U = { 0 } ,所以有 u = 0 ,这意味着

D ( F ) ( x * | 0 ) 1 ( 0 ) = { 0 } .

再由引理1知 F ( x * , 0 ) 处是强度量次正则的。

为了建立 F 强度量次正则的充要条件,我们引出如下记号:

J 1 : = { j { 1 , , n } | x j * = 0 ( f ( x * ) ) j ( 2 λ , 2 λ ) } , U : = { u n | u j = 0 , j J 1 u j ( f ( x * ) ) j 0 , j K 1 } , H E 3 ( x * ) : = { ( 2 f ( x * ) ) j , , j K 1 N 1 P 1 ( 2 f ( x * ) 2 a I ) j , , j M 1 , H E 4 ( x * ) : = { ( 2 f ( x * ) ) j , , j N 1 ( 2 f ( x * ) 2 a I ) j , , j K 1 M 1 P 1 .

定理2 F ( x * , 0 ) 处是强度量次正则的当且仅当

{ { ker H E 3 ( x * ) ker H E 4 ( x * ) } U = { 0 } ( 2 f ( x * ) u ) j ( f ( x * ) ) j 0 , j K 1 .

证明 因为 F = f + g ,f在 x * 处是可微的,所以有 F ( x * ) = f ( x * ) + g ( x * ) 。由引理2可知:

D ( F ) ( x * | 0 ) ( u ) = 2 f ( x * ) u + D ( g ) ( x * | f ( x * ) ) ( u ) . (7)

由引理1知 F ( x * , 0 ) 是强度量次正则的当且仅当 D ( F ) ( x * | 0 ) 1 ( 0 ) = { 0 } ,即

0 D ( F ) ( x * | 0 ) ( u ) u = 0. (8)

由命题2和(7),我们有(8)成立当且仅当

{ u j ( f ( x * ) ) j 0 , ( 2 f ( x * ) u ) j ( f ( x * ) ) j 0 , ( ( 2 f ( x * ) 2 a I ) u ) j = 0 u j = 0 , j K 1 ( ( 2 f ( x * ) 2 a I ) u ) j = 0 , j M 1 ( 2 f ( x * ) u ) j = 0 , j N 1 ( 2 f ( x * ) u ) j = 0 ( ( 2 f ( x * ) 2 a I ) u ) j = 0 , j P 1 u j = 0 , if j J 1

u = 0

注意到

{ u j ( f ( x * ) ) j 0 , ( ( 2 f ( x * ) 2 a I ) u ) j = 0 u j = 0 , j K 1 ( ( 2 f ( x * ) 2 a I ) u ) j = 0 , j M 1 ( 2 f ( x * ) u ) j = 0 , j N 1 ( 2 f ( x * ) u ) j = 0 ( ( 2 f ( x * ) 2 a I ) u ) j = 0 , j P 1 u j = 0 , j J 1 u = 0.

当且仅当 { ker H E 3 ( x * ) ker H E 4 ( x * ) } U = { 0 }

4. 结束语

在本文中,我们分别建立了带MCP函数正则化问题次微分强度量次正则的充分条件和充要条件。首先,我们根据次微分的定义得到了MCP函数的次微分的表达式,并在此基础上求得了MCP函数次微分的图像导数。最后,通过求和准则将MCP函数次微分的图像导数与正则化问题(1)次微分的图像导数建立联系,得到了正则化问题(1)次微分强度量次正则的充分条件和充要条件。后续我们将研究正则化问题(1)的二阶增长条件,并用强度量次正则或二阶增长条件研究该模型相关算法的收敛性。

基金项目

本文在重庆市自然科学基金(CSTB2022NSCQ-MSX0409, CSTB2022NSCQMSX0406, CQ-NCAM-2021-02)和重庆市教育委员会科技项目(KJZD-M202201303, KJQN202201349)资助下完成。

参考文献

[1] Fan, J.Q. and Li, R. (2001) Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360.
https://doi.org/10.1198/016214501753382273
[2] Zhang, C. (2012) Nearly Unbiased Variable Selection under Minimax Concave Penalty. The Annals of Statistics, 38, 894-942.
https://doi.org/10.1214/09-AOS729
[3] Andriyana, Y., Fitriani, R., Tantular, B., et al. (2023) Modeling the Cigarette Consumption of Poor Households Using Penalized Zero-Inflated Negative Binomial Regression with Minimax Concave Penalty. Mathematics, 11, 3192.
https://doi.org/10.3390/math11143192
[4] Kumar, P.P., Vamshi, R.H. and Sekhar, C.S. (2022) Iteratively Reweighted Minimax-Concave Penalty Minimization for Accurate Low-Rank Plus Sparse Matrix Decomposition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 8992-9010.
[5] Wang, S., Selesnick, W.I., Cai, G., et al. (2019) Synthesis Versus Analysis Priors via Generalized Minimax-Concave Penalty for Sparsity-Assisted Machinery fault Diagnosis. Mechanical Systems and Signal Processing, 127, 202-233.
https://doi.org/10.1016/j.ymssp.2019.02.053
[6] You, J., Jiao, Y., Lu, X., et al. (2019) A Nonconvex Model with Minimax Concave Penalty for Image Restoration. Journal of Scientific Computing, 78, 1063-1086.
https://doi.org/10.1007/s10915-018-0801-z
[7] Cai, G., Selesnick, W.I., Wang, S., et al. (2018) Sparsity-Enhanced Signal Decomposition via Generalized Minimax-Concave Penalty for Gearbox Fault Diagnosis. Journal of Sound and Vibration, 432, 213-234.
https://doi.org/10.1016/j.jsv.2018.06.037
[8] Shi, Y., Jiao, Y.L., et al. (2018) An Alternating Direction Method of Multipliers for MCP-penalized Regression with High-Dimensional Data. Acta Mathematica Sinica, English Series, 34, 1892-1906.
https://doi.org/10.1007/s10114-018-7096-8
[9] Bello-Cruz, J.Y., Li, G.Y. and Nghia, T.T.A. (2021) On the Linear Convergence of Forward-Backward Splitting Method: Part I—Convergence Analysis. Journal of Optimization Theory and Applications, 188, 378-401.
https://doi.org/10.1007/s10957-020-01787-7
[10] Drusvyatskiy, D. and Lewis, A.S. (2018) Error Bounds, Quadratic Growth, and Linear Convergence of Proximal Methods. Mathematics of Operations Research, 43, 919-948.
https://doi.org/10.1287/moor.2017.0889
[11] Hu, Y.H., Li, C., Meng, K.W. and Yang, X.Q. (2021) Linear Convergence of Inexact Descent Method and Inexact Proximal Gradient Algorithms for Lower-Order Regularization Problems. Journal of Global Optimization, 79, 853-883.
https://doi.org/10.1007/s10898-020-00955-3
[12] Dontchev, A.L. and Rockafellar, R.T. (2009) Implicit Functions and Solution Mappings. A View from Variational Analysis. Springer, New York.
https://doi.org/10.1007/978-0-387-87821-8
[13] Chieu, N.H., Hien, L.V., Nghia, T.T.A. and Tuan, H.A. (2021) Quadratic Growth and Strong Metric Subregularity of the Subdifferential via Subgradient Graphical Derivative. SIAM Journal on Optimization, 31, 545-568.
https://doi.org/10.1137/19M1242732
[14] Li, M.H., Meng, K.W. and Yang, X.Q. (2023) Variational Analysis of Kurdyka-Łojasiewicz Property, Exponent and Modulus. arXiv: 2308.15760.
[15] Bello-Cruz, Y., Li, G.Y. and Nghia, T.T.A. (2022) Quadratic Growth Conditions and Uniqueness of Optimalsolution to Lasso. Journal of Optimization Theory and Applications, 194, 167-190.
https://doi.org/10.1007/s10957-022-02013-2
[16] Clarke, F.H., Ledyaev, Y.S., Stern, R.J. and Wolenski, P.R. (1998) Nonsmooth Analysis and Control Theory. Springer, New York.