一类带变换 1 罚函数的正则化问题的强度量次正则研究
Study on the Strong Metric Subregularity for a Class of Regularization Problems with Transformed 1 Penalty Function
DOI: 10.12677/pm.2024.145186, PDF, HTML, XML, 下载: 19  浏览: 69  科研立项经费支持
作者: 周金玉:重庆交通大学数学与统计学院,重庆;李明华:重庆文理学院数学与大数据学院,重庆
关键词: 变换罚函数邻近(极限)次微分图像导数强度量次正则Transformed Penalty Function Proximal (Limiting) Subdifferentials Graphical Derivative Strong Metric Subregularity
摘要: 本文研究一类带变换ℓ1罚函数的正则化问题,该模型的目标函数由损失函数和变换ℓ1罚函数两部分组成,其中损失函数是二次可微函数,变换ℓ1罚函数是一个非凸函数。本文首先研究变换ℓ1罚函数的邻近次微分和极限次微分,然后利用变换ℓ1罚函数的次微分表达式和集值映射的图像导数工具得到了该类问题目标函数的次微分的图像导数,最后利用该图像导数表达式分别建立了该正则化问题的强度量次正则的一个充分条件和充要条件。
Abstract: This paper studies the regularization problem for a class of penalty functions with transformedℓ1. The objective function of the model consists of two parts: the loss function and the transformedℓ1penalty function, where the loss function is a quadratic differentiable function and the transformedℓ1penalty function is a nonconvex function. This article first studies the proximal subdifferentials and limiting subdifferentials of the transformedℓ1penalty function. Then, by the subdifferential expression of the transformedℓ1penalty function and graphical derivative tool for set-value mapping, we obtain the graphical derivative of the subdifferentials of the objective function. Finally, using the graphical derivative expression, we establish a sufficient condition, a necessary and sufficient condition of the strong metric subregularity for the regularization problem.
文章引用:周金玉, 李明华. 一类带变换 1 罚函数的正则化问题的强度量次正则研究[J]. 理论数学, 2024, 14(5): 293-306. https://doi.org/10.12677/pm.2024.145186

1. 引言

本文考虑如下带变换 l 1 罚函数的正则化问题:

minimize x n Z ( x ) = l ( x ) + P ( x ) , (1)

其中 l ( x ) 是二次可微函数, P ( x ) 是变换 l 1 惩罚函数。

罚函数是解决非线性规划问题的重要手段,如今利用罚函数解决优化问题的文章有很多,目的是将有约束问题转换成无约束问题。变换 l 1 惩罚函数(简称TL1罚)是由Nikolova [1] 提出来的,形式如下:

P ( x ) = j = 1 n ( a j + 1 ) | x j | a j + | x j | , a j > 0.

压缩感知 [2] 在数学、统计学、信息科学和其他领域被广泛研究,其中一个基本的问题是在一些远小于信号环境空间尺寸的线性测量(线性约束)下重建一个稀疏信号,最直接的方法是进行 l 0 优化,但是优化 l 0 范数是NP-hard的,因此已经寻找了许多可行的替代方案。变量选择在高维数据分析中起着非常重要的作用,对于惩罚函数的选择,Fan和Li [3] 提出一个好的惩罚函数应该具有无偏性、稀疏性和连续性,Lipschitz连续函数的一个特殊的单参数族,即变换 l 1 函数,满足这三个期望性质 [4] ,该函数的近端算子对参数 a j 的所有值都有封闭形式的解析解,并且通过调整参数 a j ,TL1可以很好地近似于 l 0 l 1 ,这些性质让该函数在许多优化问题中得到了广泛应用。

正则化的应用不仅限于机器学习,也广泛用于线性代数理论中,用于处理不适定问题,即那些由条件数很大的方程组定义的问题。在正则化模型的成本函数中加入一个惩罚项,这样可以控制模型的复杂度,防止模型过拟合,降低结构风险,提高模型的泛化能力。对于带变换 l 1 罚函数的正则化问题,2014年,Zhang和Xin [5] 研究了在 l 0 最优解的精确稳定恢复中TL1惩罚和TL1正则化问题的理论性质,并且利用广义零空间性质和明确的例子,证明了TL1相对于 l 1 在线性约束下精确恢复方面的优势;2016年,Zhang和Xin [6] 推导了在参数 a j 的任意正值下最优解的封闭形式。2017年,Ahn,Pang和Xin [7] 研究了TL1正则化问题的最优性条件,并且提出了TL1罚的凸差分解模型;Zhang [8] 将TL1罚扩展到TS1(变换Schatten-1)用于低秩矩阵补全,并与其他几种先进的方法进行了比较。2018年,Guo,Li和Liu [9] 研究了TL1最优化的稀疏重组的性质,并给出了关于从欠采样测量中重建的可恢复性和准确性改进的理论结果。2019年,Ma和Miao等人 [10] 将TL1正则化方法应用于稀疏深度神经网络学习。

图像导数 [11] [12] [13] [14] [15] 是变分分析及其应用中的一类工具,它主要用来刻画集值映射的广义微分性质。图像导数可以用来刻画集值映射的稳定性,如度量正则 [16] ,Lipschitz性 [16] ,二阶增长条件 [11] ,度量次正则 [12] [17] 和强度量次正则 [18] 。次微分映射作为一个集值映射,它的强度量次正则可以看作是二次连续可微函数的Hessian矩阵非奇异条件的一个推广,它作为一种稳健的稳定性条件,在非凸优化一阶下降算法全局收敛性和收敛率分析中起了非常重要的作用,近几年它得到了许多学者的关注和研究。2021年,Chieu [18] 利用次微分图像导数研究了有限维条件下次微分的二阶增长条件与强度量次正则性之间的关系。2022年,Bello-Cruz等人 [11] 研究了 l 1 正则优化问题,然后通过计算该模型中后者的次微分图像导数建立了该问题的强二阶增长条件。本文研究的带变换 l 1 罚函数的正则化问题在统计学习、信号处理和图像处理等领域有广泛的应用,但到目前为止,该问题的强度量次正则还没有学者进行研究,而强度量次正则在该类非凸问题的一阶下降算法收敛性分析中起着非常重要的作用。本文将借鉴文献 [11] 、文献 [16] 和文献 [18] 中研究强度量次正则 [19] [20] [21] [22] 的方法来研究问题(1)的强度量次正则,分别建立问题(1)的强度量次正则的充分条件和充要条件,为该类问题的非凸算法提供理论分析保障。

本文的结构框架如下:在第二节中主要介绍了邻近次微分和极限次微分的定义 [23] [24] ,以及主要的引理。第三节首先求出了变换 l 1 罚函数的邻近次微分和极限次微分表达式,然后利用集值映射的图像导数工具求出变换 l 1 罚函数的次微分图像导数表达式,最后利用该表达式建立了正则化问题(1)的强度量次正则的充分条件和充要条件。

2. 预备知识

本文, 表示实数集, n 是n维欧式空间, 表示 n 中的范数, , 表示 n 中的内积。 B ε ( 0 )

示以0为圆心, ε 为半径的球。 l : n 是二次可微连续函数, ( l ( ) ) j 表示该梯度的第j个元素, ( 2 l ( ) ) i , j 表示该Hessian矩阵的第i行,第j列元素。集值映射 F : n m ,集值映射F的逆映射

F 1 : m n 定义为: F 1 ( y ) = { x | y F ( x ) } ,F的有效域 d o m F : = { x n | F ( x ) } ,F的图 g p h F : = { ( x , y ) n × m | y F ( x ) } s g n : { 1 , 1 } 是符号函数。 d ( x , Ω ) 表示点 x n 到集合 Ω n 的距离。

定义2.1 [23] 设 x n ,对于函数 g : n 和向量 v n ,如果存在 ρ > 0 和x的一个邻域V,使得对于任意的 y V

g ( y ) g ( x ) + v , y x ρ y x 2 ,

则称v是函数g在x处的邻近次梯度。由这样的v构成的集合称为g在x处的邻近次微分,记作 p g ( x )

定义2.2 [23] 函数 g : n x n 处的极限次微分定义如下:

g ( x ) : = { v n : v k v , v k p g ( x k ) , x k g x } .

其中 x k g x 表示 x k x g ( x k ) g ( x )

定义2.3 [16] 设 Ω n 的一个非空子集, x ¯ Ω

T Ω ( x ¯ ) : = { v n | t k 0 , v k v x ¯ + t k v k Ω , k } ,

称为在 x ¯ Ω 处对于集合 Ω 的(Bouligand-Severi)切锥。

定义2.4 [16] 考虑集值映射 F : n m ,F的有效域为 d o m F : = { x n | F ( x ) } ,并且F的图为 g p h F : = { ( x , y ) n × m | y F ( x ) } 。设 ( x ¯ , y ¯ ) g p h F ,以及 g p h F ( x ¯ , y ¯ ) 处的切锥为 T g p h F ( x ¯ , y ¯ ) 。那么F在 ( x ¯ , y ¯ ) 处的图像导数是集值映射 D F ( x ¯ | y ¯ ) : n m ,定义为

D F ( x ¯ | y ¯ ) ( w ) : = { z m | ( w , z ) T g p h F ( x ¯ , y ¯ ) } , w n .

这意味着 g p h D F ( x ¯ | y ¯ ) = T g p h F ( x ¯ , y ¯ )

v D F ( x | y ) ( u ) ( u , v ) T g p h F ( x , y ) .

因此, v D F ( x | y ) ( u ) 当且仅当存在一个序列 u k u v k v τ k 0 使得对于任意的k有

y + τ k v k F ( x + τ k u k ) .

定义2.5 [16] 映射 F : n m ,如果 ( x ¯ , y ¯ ) g p h F 并且存在 k 0 以及 x ¯ 的一个邻域U和 y ¯ 的一个邻域V,使得

x x ¯ k d ( y ¯ , F ( x ) V ) , x U .

那么称映射F在 ( x ¯ , y ¯ ) 处是强度量次正则的。

引理2.6 [16] 集值映射 F : n m ( x ¯ , y ¯ ) g p h F 是局部闭的,F在 ( x ¯ , y ¯ ) 是强度量次正则的当且仅当

D F ( x ¯ | y ¯ ) 1 ( 0 ) = { 0 } .

引理2.7 [16] 对于在x处可微的函数 f : n m ,一个集值映射 F : n m 和任意的 y F ( x ) ,有

D ( f + F ) ( x | f ( x ) + y ) = D f ( x ) + D F ( x | y ) .

3. 带变换 l 1 函数正则化问题次微分的强度量次正则

本节首先根据变换 l 1 函数的结构和邻近次微分的性质,计算出该函数的邻近次微分,然后根据邻近次微分和极限次微分的关系求得该函数的极限次微分,进而求得变换 l 1 罚函数次微分的图像导数表达式,以此为基础,再利用次微分的运算法则和图像导数的计算公式,最后建立了带变换 l 1 罚函数的正则化问题的强度量次正则的充分条件和充要条件。

命题3.1 变换 l 1 函数的邻近次微分表达式:

p P ( x ) = { s n | s j = a ( a + 1 ) ( a + | x j | ) 2 s g n ( x j ) x j 0 s j [ a + 1 a , a + 1 a ] x j = 0 } .

证明 因为 P ( x ) 是可分离变量的函数。首先设 g ( t ) = ( a + 1 ) | t | a + | t | ,由于 g ( t ) t 0 是可微的,在 t = 0 处是不可微的。那么当 t 0 ,求出 g ( t ) 的次微分为 { a ( a + 1 ) ( a + | t | ) 2 s g n ( t ) } 。当 t = 0 时,由定义2.1,存在y属于t的一个邻域V和 ρ a + 1 a 2 ,它在 t = 0 处的邻近次微分计算如下:

g ( y ) g ( 0 ) + v , y 0 ρ y 0 2 ,

( a + 1 ) | y | a + | y | v y + ρ y 2 0 ,

( a + 1 ) | y | a + | y | + ρ y 2 v y .

y > 0 时,有

( a + 1 ) | y | a + | y | × 1 y + ρ y 2 × 1 y v ,

a + 1 a + y + ρ y v .

z ( y ) = a + 1 a + y + ρ y ,要求出其最小值,先求

z ( y ) = ( a + 1 ) ( a + y ) 2 + ρ , z ( y ) = 2 ( a + 1 ) ( a + y ) 3 .

由此可以得到 z ( y ) > 0 ,那么 z ( y ) ( 0 , + ) 内是单调递增的,且 z ( y ) 的最小值在 y 0 + 时取得,则有

z ( y ) min = lim y 0 + ( ( a + 1 ) ( a + y ) 2 + ρ ) = ( a + 1 ) a 2 + ρ .

又因为 ρ a + 1 a 2 ,那么 z ( y ) min 0 ,所以 z ( y ) ( 0 , + ) 内是单调递增的,则 z ( y ) min = a + 1 a 。故有 v a + 1 a

y < 0 时,有

a + 1 a y + ρ y v .

h ( y ) = a + 1 a y + ρ y ,要求其最大值,首先求得

h ( y ) = ( a + 1 ) ( a y ) 2 + ρ , h ( y ) = 2 ( a + 1 ) ( a y ) 3 .

同理可得,由于 ρ a + 1 a 2 ,则有 v a + 1 a

综上所述, g ( t ) t = 0 处的邻近次微分为 [ a + 1 a , a + 1 a ] 。那么 P ( x ) x j = 0 处的邻近次微分为 [ a + 1 a , a + 1 a ] 。且当 x j 0 时, P ( x ) 的次微分为 { a ( a + 1 ) ( a + | x j | ) 2 s g n ( x j ) }

命题3.2 变换 l 1 函数的极限次微分表达式:

P ( x ) = { s n | s j = a ( a + 1 ) ( a + | x j | ) 2 s g n ( x j ) x j 0 s j [ a + 1 a , a + 1 a ] x j = 0 } .

证明 由定义2.2以及邻近次微分和极限次微分的关系,容易得到函数 P ( x ) 的极限次微分表达式。

为了求 P 的图像导数表达式,设 s ¯ P ( x * ) ,并引出以下记号:

I : = { j { 1 , , n } | 0 | s ¯ j | < a + 1 a } , M : = { j { 1 , , n } | | s ¯ j | = a + 1 a } , J : = { j I | x j * 0 } , K : = { j I | x j * = 0 } , H ( x * ) : = { u n | u j s ¯ j 0 , j M u j = 0 , j K } .

命题3.3 ( P 的图像导数) D P ( x * | s ¯ ) ( u ) 是非空的当且仅当 u H ( x * ) 。且对于所有的 u H ( x * ) ,有

D P ( x * | s ¯ ) ( u ) = { v n | s ¯ j v j 0 , u j = 0 v j = 2 ( a + 1 ) u j a 2 , j M v j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 , j J } . (2)

证明 由命题3.2,对于任意的 x n ,都有:

P ( x ) = { s n | s j = a ( a + 1 ) ( a + | x j | ) 2 s g n ( x j ) x j 0 s j [ a + 1 a , a + 1 a ] x j = 0 } . (3)

取任意的 v D P ( x * | s ¯ ) ( u ) ,则存在序列 t k 0 ( u k , v k ) ( u , v ) ,使得

s ¯ + t k v k P ( x * + t k u k ) .

下面分类讨论:

情形1.1 j M ,即 | s ¯ j | = a + 1 a 。由(3)式有 x j * = 0 。若有一个 ( x * , s ¯ ) j + t k ( u k , v k ) j 的子序列使得

| ( s ¯ + t k v k ) j | = a ( a + 1 ) ( a + | x j * + t k u j k | ) 2 < a + 1 a = | s ¯ j | ,

则有 s ¯ j v j k < 0 。当 k ,有 s ¯ j v j 0

并且,当 ( s ¯ + t k v k ) j = a ( a + 1 ) ( a + | x j * + t k u j k | ) 2 时,求得

v j k = 2 a ( a + 1 ) u j k ( a + 1 ) t k ( u j k ) 2 a ( a + t k u j k ) 2 .

k ,有 v j = 2 ( a + 1 ) u j a 2

( s ¯ + t k v k ) j = a ( a + 1 ) ( a + | x j * + t k u j k | ) 2 时,求得

v j k = 2 a ( a + 1 ) u j k + ( a + 1 ) t k ( u j k ) 2 a ( a t k u j k ) 2 .

k ,有 v j = 2 ( a + 1 ) u j a 2 。此外,再由(3)式有

s g n s ¯ j = s g n ( s ¯ + t k v k ) j = s g n ( x * + t k u k ) j = s g n ( u j k ) .

k ,有 s ¯ j u j 0

否则,存在 L > 0 ,对所有的 k > L | ( s ¯ + t k v k ) j | = a + 1 a = | s ¯ j | 。则 v j k = 0 ,当 k ,有 v j = 0 。那么

s ¯ j v j = 0 。再由(3)式有

0 = ( x * + t k u k ) j = t k u j k , u j k = 0.

k ,则有 u j = 0

情形1.2 j K ,即 0 | s ¯ j | < a + 1 a x j * = 0

s ¯ j = 0 x j * = 0 时。存在足够大的常数 L > 0 ,当 k > L 时,存在 ε > 0 使得 | ( s ¯ + t k v k ) j | B ε ( 0 ) 。由 式有 ( x * + t k u k ) j = 0 | ( x * + t k u k ) j | 。当 ( x * + t k u k ) j = 0 时,有 u j k = 0 。当 k ,有 u j = 0 。当 | ( x * + t k u k ) j | 时,对于 ( x * + t k u k ) j ,因为 t k 0 ,所以它是有界的。故矛盾。

0 < | s ¯ j | < a + 1 a x j * = 0 时。对于足够大的k,有

0 < | ( s ¯ + t k v k ) j | = a ( a + 1 ) ( a + | x j * + t k u j k | ) 2 a + 1 a .

那么当 ( x * + t k u k ) j 0 时,

( s ¯ + t k v k ) j = a ( a + 1 ) ( a t k u j k ) 2 a ( a + 1 ) ( a + t k u j k ) 2 .

k ,有 | s ¯ j | = a + 1 a 。故矛盾。

( x * + t k u k ) j = 0 时,有 ( s ¯ + t k v k ) j [ a + 1 a , a + 1 a ] 。那么 u j k = 0 ,当 k ,有 u j = 0

情形1.3 j J ,即 0 < | s ¯ j | < a + 1 a x j * 0

如果有一个 ( x * , s ¯ ) j + t k ( u k , v k ) j 的子序列使得

| ( s ¯ + t k v k ) j | = a ( a + 1 ) ( a + | x j * + t k u j k | ) 2 < a + 1 a .

x j * > 0 时,有 s ¯ j = a ( a + 1 ) ( a + x j * ) 2 。那么可以得到 ( s ¯ + t k v k ) j = a ( a + 1 ) ( a + x j * + t k u j k ) 2 。由此求得

v j k = 2 a ( a + 1 ) ( a + x j * ) u j k a ( a + 1 ) t k ( u j k ) 2 ( a + x j * + t k u j k ) 2 ( a + x j * ) 2 .

那么当 k ,有 v j = 2 a ( a + 1 ) u j ( a + x j * ) 3

x j * < 0 时,有 s ¯ j = a ( a 1 ) ( a + x j * ) 2 。那么有 ( s ¯ + t k v k ) j = a ( a + 1 ) ( a x j * t k u j k ) 2 。由此求得

v j k = 2 a ( a + 1 ) ( a x j * ) u j k + a ( a + 1 ) t k ( u j k ) 2 ( a x j * t k u j k ) 2 ( a x j * ) 2 .

k ,有 v j = 2 a ( a + 1 ) u j ( a x j * ) 3

那么对于 j J 都有 v j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3

由以上这三种情况的结论,可以得到 u H ( x * ) ,那么(2)式中的“ ”证明完成。

为了证明(2)式中的“ ”,任取 u H ( x * ) v n 满足对于 j M ,有 s ¯ j v j 0 u j = 0

v j = 2 ( a + 1 ) u j a 2 ,对于 j J ,有 v j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 。那么对于任意的 t k 0 ,就只需要证明

s ¯ + t k v P ( x * + t k u ) ,由此便可证明 v D P ( x * | s ¯ ) ( u ) 。所以对于任意的 t ,定义集值映射:

S N G ( t ) : = { a ( a + 1 ) ( a + | t | ) 2 s g n ( t ) t 0 , [ a + 1 a , a + 1 a ] t = 0.

和(2)式中的“ ”证明一样,考虑j的三种情形。

情形2.1 j M ,即 | s ¯ j | = a + 1 a x j * = 0

u j = 0 ,有 ( x * + t k u ) j = 0 s ¯ j v j 0 。当k足够大时,有 | ( s ¯ + t k v ) j | | s ¯ j | a + 1 a

u j 0 ,那么有 v j = 2 ( a + 1 ) u j a 2 ( x * + t k u ) j 0

当k足够大并且 s ¯ j = a + 1 a 时,有

( s ¯ + t k v ) j = a + 1 a + t k 2 ( a + 1 ) u j a 2 = a ( a + 1 ) ( a + x j * + t k u j ) 2 s g n ( x j * + t k u j ) .

当k足够大并且 s ¯ j = a + 1 a 时,有

( s ¯ + t k v ) j = a + 1 a + t k 2 ( a + 1 ) u j a 2 = a ( a + 1 ) ( a ( x j * + t k u j ) ) 2 s g n ( x j * + t k u j ) .

由此,当 u j 0 时,都有

( s ¯ + t k v ) j = a ( a + 1 ) ( a + | x j * + t k u j | ) 2 s g n ( x j * + t k u j ) .

对于上述情况,都可以得到 ( s ¯ + t k v ) j S G N ( x * + t k u ) j

情形2.2 j K ,即 0 | s ¯ j | < a + 1 a x j * = 0 u j = 0

当k足够大时,有 ( x * + t k u ) j = 0 t k 0 。则 ( s ¯ + t k v ) j [ a + 1 a , a + 1 a ] ,那么有

( s ¯ + t k v ) j S G N ( x * + t k u ) j .

情形2.3 j J ,即 0 < | s ¯ j | < a + 1 a x j * 0

u j = 0 ,那么有 v j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 = 0 ,当k足够大时,有

( s ¯ + t k v ) j = s ¯ j = a ( a + 1 ) ( a + | x j * | ) 2 s g n ( x j * ) = a ( a + 1 ) ( a + | x j * + t k u j | ) 2 s g n ( x j * + t k u j ) .

u j 0 ,当 x j * > 0 时,有 s ¯ j = a ( a + 1 ) ( a + x j * ) 2 ,那么有

( s ¯ + t k v ) j = a ( a + 1 ) ( a + x j * ) 2 + t k 2 a ( a + 1 ) u j ( a + x j * ) 2 = a ( a + 1 ) ( a + x j * + t k u j ) 2 s g n ( x j * + t k u j ) .

x j * < 0 时,有 s ¯ j = a ( a + 1 ) ( a x j * ) 2 ,那么

( s ¯ + t k v ) j = a ( a + 1 ) ( a x j * ) 2 + t k 2 a ( a + 1 ) u j ( a x j * ) 2 = a ( a + 1 ) ( a ( x j * + t k u j ) ) 2 s g n ( x j * + t k u j ) .

所以,当 u j 0 时,都有 ( s ¯ + t k v ) j = a ( a + 1 ) ( a + | x j * + t k u j | ) 2 s g n ( x j * + t k u j )

由上述情况,都可以得到 ( s ¯ + t k v ) j S G N ( x * + t k u ) j

综上所述,这三种情形都有 s ¯ + t k v P ( x * + t k u ) ,因此 v D P ( x * | s ¯ ) ( u )

为了研究正则化问题(1)的强度量次正则,设 l x * 处是二次连续可微的,引出以下记号:

I 1 : = { j { 1 , , n } | 0 | ( l ( x * ) ) j | < a + 1 a } , M 1 : = { j { 1 , , n } | | ( l ( x * ) ) j | = a + 1 a } , J 1 : = { j I 1 | x j * 0 } , K 1 : = { j I 1 | x j * = 0 } , Ω : = M 1 J 1 , U : = { u Ω K 1 | u j ( l ( x * ) ) j 0 , j M 1 u j = 0 , j K 1 } .

定理3.4 ( Z 强度量次正则的充分条件)设 l x * 处是二次连续可微的。定义:

H J 1 ( x * ) : = [ 2 l ( x * ) i , j ] i , j J 1 A 1 ( x * ) J 1 × J 1 , H Ω ( x * ) : = [ 2 l ( x * ) i , j ] i , j Ω A 2 ( x * ) Ω × Ω ,

其中 A 1 ( x * ) J 1 × J 1 A 2 ( x * ) Ω × Ω 都是对角矩阵,并且每个元素都为 2 a ( a + 1 ) ( a + | x j * | ) 3

若下面的两个条件中的一个条件成立:

(i) ker H J 1 ( x * ) U = { 0 } , u M 1 = 0

(ii) ker H Ω ( x * ) U = { 0 }

那么 Z ( x * , 0 ) 处是强度量次正则的。

证明 设 0 D Z ( x * | 0 ) ( u ) ,由引理2.7,有

D Z ( x * | 0 ) ( u ) = 2 l ( x * ) u + D P ( x * | l ( x * ) ) ( u ) . (4)

那么可以得到

0 2 l ( x * ) ( u ) + D P ( x * | l ( x * ) ) ( u ) ,

2 l ( x * ) ( u ) D P ( x * | l ( x * ) ) ( u ) .

由命题3.3可知,对于所有的 u U ,有

D P ( x * | l ( x * ) ) ( u ) = { v n | l ( x * ) v j 0 , u j = 0 v j = 2 ( a + 1 ) u j a 2 , j M 1 v j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 , j J 1 } . (5)

(1) 当 j J 1 u M 1 = 0 时,显然有 u K 1 = 0 。由 j J 1 ( 2 l ( x * ) u ) j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 ,那么可以得到 ( 2 l ( x * ) u ) j 2 a ( a + 1 ) u j ( a + | x j * | ) 3 = 0 。则 ( H J 1 ( x * ) u ) j = 0 ,即 H J 1 ( x * ) u J 1 = 0

由于 H J 1 ( x * ) U 上是非奇异的,那么 u J 1 = 0 。根据引理2.6,可以得到 Z ( x * , 0 ) 处是强度量次正则的。

(2) 当 j Ω 时, u K 1 = 0 。由于 j M 1 ,有 x j * = 0 。故有 ( 2 l ( x * ) u ) j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 ,那么 ( 2 l ( x * ) u ) j 2 a ( a + 1 ) u j ( a + | x j * | ) 3 = 0 。则 ( H Ω ( x * ) u ) j = 0 ,即 H Ω ( x * ) u Ω = 0

由于 H Ω ( x * ) U 上是非奇异的,那么 u Ω = 0 。根据引理2.6,可以得到 Z ( x * , 0 ) 处是强度量次正则的。

为了建立正则化问题的强度量次正则的充要条件,记号I1,M1,J1,K1 Ω 与前面相同,并引入以下记号:

B ( x * ) J 1 × Ω : = { 2 l ( x * ) i , j , i = j 2 l ( x * ) i , j 2 a ( a + 1 ) ( a + | x j * | ) 3 , i j , i J 1 , j Ω ,

C ( x * ) M 1 × Ω : = { 2 l ( x * ) i , j , i = j 2 l ( x * ) i , j 2 ( a + 1 ) a 2 , i j , i M 1 , j Ω .

定理3.5 ( Z 强度量次正则的充要条件)设 l x * 处二次连续可微。则 Z ( x * , 0 ) 处是强度量次正则的当且仅当

{ B ( x * ) J 1 × Ω u Ω = 0 u M 1 = 0 u K 1 = 0 ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 u = 0.

{ B ( x * ) J 1 × Ω u Ω = 0 C ( x * ) M 1 × Ω u Ω = 0 u K 1 = 0 ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 u = 0.

证明 先证充分性。

0 D Z ( x * | 0 ) ( u ) ,由引理2.7,有

D Z ( x * | 0 ) ( u ) = 2 l ( x * ) u + D P ( x * | l ( x * ) ) ( u ) .

由此可得

2 l ( x * ) ( u ) D P ( x * | l ( x * ) ) ( u ) .

再由(5)式,上式等价于:

{ ( 2 l ( x * ) u ) j u j 0 , j M 1 ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 ( 2 l ( x * ) u ) j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 , j J 1 u j = 0 , j K 1 { ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 ( 2 l ( x * ) u ) j = 2 ( a + 1 ) u j a 2 , j M 1 ( 2 l ( x * ) u ) j = 2 a ( a + 1 ) u j ( a + | x j * | ) 3 , j J 1 u j = 0 , j K 1

{ B ( x * ) J 1 × Ω u Ω = 0 u M 1 = 0 u K 1 = 0 ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 { B ( x * ) J 1 × Ω u Ω = 0 C ( x * ) M 1 × Ω u Ω = 0 u K 1 = 0 ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 .

那么有 u = 0 。由引理2.6可以得到 Z ( x * , 0 ) 处是强度量次正则的。

再证必要性。

Z ( x * , 0 ) 处是强度量次正则的,那么有 D ( Z ) ( x * | 0 ) 1 ( 0 ) = { 0 } 。则根据 Z 的图像导数表达式有

{ B ( x * ) J 1 × Ω u Ω = 0 u M 1 = 0 u K 1 = 0 ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 u = 0

{ B ( x * ) J 1 × Ω u Ω = 0 C ( x * ) M 1 × Ω u Ω = 0 u K 1 = 0 ( 2 l ( x * ) u ) j ( l ( x * ) ) j 0 , j M 1 u = 0.

综上所述,充要条件得证。

4. 结束语

本文主要研究了一类带变换 l 1 罚函数的正则化问题的强度量次正则的充分条件和充要条件,丰富了带变换 l 1 罚函数的正则化问题和强度量次正则的理论知识,为该类问题的非凸算法提供了理论分析保障,这对于非凸优化一阶下降算法全局收敛性和收敛率分析有着非常重要的作用。在后续的工作中,将继续研究该正则化问题的稳定性,可以研究该问题的二阶增长条件及其与强度量次正则性的等价关系,并且以这些理论为基础探讨该问题相关优化算法的收敛性。

致谢

感谢审稿人和编辑对本文提出的宝贵意见。

基金项目

本文在重庆市自然科学基金(CSTB2022NSCQ-MSX0409, CSTB2022NSCQMSX0406, CQ-NCAM-2021-02)和重庆市教育委员会科技项目(KJZD-M202201303, KJQN202201349)资助下完成。

参考文献

[1] Nikolova, M. (2001) Local Strong Homogeneity of a Regularized Estimator. SIAM Journal on Applied Mathematics, 61, 633-658.
https://doi.org/10.1137/S0036139997327794
[2] Donoho, D.L. (2006) Compressed Sensing. IEEE Transactions on Information Theory, 52, 1289-1306.
https://doi.org/10.1109/TIT.2006.871582
[3] Fan, J. and Li, R. (2001) Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360.
https://doi.org/10.1198/016214501753382273
[4] Lv, J. and Fan, Y. (2009) A Unified Approach to Model Selection and Sparse Recovery Using Regularized Least Squares. The Annals of Statistics, 37, 3498-3528.
https://doi.org/10.1214/09-AOS683
[5] Zhang, S. and Xin, J. (2014) Minimization of Transformed Penalty: Theory, Difference of Convex Function Algorithm, and Robust Application in Compressed Sensing. Mathmatical Programming, 169, 307-336.
https://doi.org/10.1007/s10107-018-1236-x
[6] Zhang, S. and Xin, J. (2016) Minimization of Transformed Penalty: Closed Form Representation and Iterative Thresholding Algorithms. Communications in Mathematical Sciences, 15, 511-537.
https://doi.org/10.4310/CMS.2017.v15.n2.a9
[7] Ahn, M., Pang, J.-S. and Xin, J. (2017) Difference-of-Convex Learning: Directional Stationarity, Optimality, and Sparsity. SIAM Journal on Optimization, 27, 1637-1665.
https://doi.org/10.1137/16M1084754
[8] Zhang, S., Yin, P.H. and Xin, J. (2017) Transformed Schatten-1 Iterative Thresholding Algorithms for Low Rank Matrix Completion. Communications in Mathematical Sciences, 15, 839-862.
https://doi.org/10.4310/CMS.2017.v15.n3.a12
[9] Guo, L., Li, J. and Liu, Y. (2018) Stochastic Collocation Methods via Minimisation of the Transformed-Penalty. East Asian Journal on Applied Mathematics, 8, 566-585.
https://doi.org/10.4208/eajam.060518.130618
[10] Ma, R.R., Miao, J.Y., Niu, L.F., et al. (2019) Transformed Regularization for Learning Sparse Deep Neural Networks. Neural Networks, 119, 286-298.
https://doi.org/10.1016/j.neunet.2019.08.015
[11] Bello-Cruz, Y., Li, G.Y. and Nghia, T.T.A. (2022) Quadratic Growth Conditions and Uniqueness of Optimal Solution to Lasso. Journal of Optimization Theory and Applications, 194, 167-190.
https://doi.org/10.1007/s10957-022-02013-2
[12] Li, M.H., Meng, K.W. and Yang, X.Q. (2023) Variational Analysis of Kurdyka-Łojasiewicz Property, Exponent and Modulus.
https://arxiv.org/abs/2308.15760v2
[13] Chieu, N.H. and Hien, L.V. (2017) Computation of Graphical Derivative for a Class of Normal Cone Mappings under a Very Weak Condition. SIAM Journal on Optimization, 27, 190-204.
https://doi.org/10.1137/16M1066816
[14] Gfrerer, H. and Mordukhovich, B.S. (2019) Second-Order Variational Analysis of Parametric Constraint and Variational Systems. SIAM Journal on Optimization, 29, 423-453.
https://doi.org/10.1137/17M1157751
[15] Henrion, R., Kruger, A.Y. and Outrata, J.V. (2013) Some Remarks on Stability of Generalized Equations. Journal of Optimization Theory and Applications, 159, 681-697.
https://doi.org/10.1007/s10957-012-0147-x
[16] Dontchev, A.L. and Rockafellar, R.T. (2009) Implicit Functions and Solution Mappings. A View from Variational Analysis. Springer, New York.
https://doi.org/10.1007/978-0-387-87821-8
[17] Zheng, X.Y. and Ng, K.F. (2007) Metric Subregularity and Constraint Qualifications for Convex Generalized Equations in Banach Spaces. SIAM Journal on Optimization, 18, 437-460.
https://doi.org/10.1137/050648079
[18] Chieu, N.H., Hien, L.V., Nghia, T.T.A., et al. (2021) Quadratic Growth and Strong Metric Subregularity of the Subdifferential via Subgradient Graphical Derivative. SIAM Journal on Optimization, 31, 545-568.
https://doi.org/10.1137/19M1242732
[19] Cibulka, R., Dontchev, A.L. and Kruger, A.Y. (2017) Strong Metric Subregularity of Mappings in Variational Analysis and Optimization. Journal of Mathematical Analysis and Applications, 457, 1247-1282.
https://doi.org/10.1016/j.jmaa.2016.11.045
[20] Aragón Artacho, F.J. and Geoffroy, M.H. (2013) Metric Subregularity of the Convex Subdifferential in Banach Spaces. Journal of Nonlinear and Convex Analysis, 15, 35-47.
[21] Drusvyatskiy, D., Mordukhovich, B.S. and Nghia, T.T.A. (2014) Second-Order Growth, Tilt Stability, and Metric Regularity of the Subdifferential. Journal of Convex Analysis, 21, 1165-1192.
[22] Chieu, N.H., Trang, N.T.Q. and Tuan, H.A. (2022) Quadratic Growth and Strong Metric Subregularity of the Subdifferential for a Class of Non-Prox-Regular Functions. Journal of Optimization Theory and Applications, 194, 1081-1106.
https://doi.org/10.1007/s10957-022-02071-6
[23] Clarke, F.H., Ledyaev, Y.S., Stern, R.J., et al. (1998) Nonsmooth Analysis and Control Theory. Springer, New York.
[24] Rockafellar, R.T. and Wets, R.J.-B. (2009) Variational Analysis. Springer, Heidelberg.