一种新的MBFGS算法
A New MBFGS Algorithm
DOI: 10.12677/AAM.2022.118630, PDF, HTML, XML, 下载: 304  浏览: 3,424 
作者: 郑轶天:长沙理工大学数学与统计学院,湖南 长沙
关键词: 非线性搜索拟牛顿法全局收敛性Nonlinear Search Quasi Newton Method Global Convergence
摘要: 本文在MBFGS算法的研究基础上,对该算法进行推广,形成了一种新的MBFGS算法。同时,研究了其全局收敛性并给出相关证明。一些数值实验表明,这种改进的MBFGS方法对于给定的测试问题是有效的。对于一些无约束优化问题,新的MBFGS算法平均比单调或传统的非单调格式的BFGS方法使用更少的函数和梯度求值。
Abstract: Based on the research of MBFGS algorithm, this algorithm is extended to form a new MBFGS algo-rithm. At the same time, its convergence is studied and the relevant proof is given. Some numerical experiments show that the improved MBFGS method is effective for a given test problem. For some unconstrained op-timization problems, the new MBFGS algorithm uses less function and gradient evaluation than the mono-tone or traditional non monotone BFGS method.
文章引用:郑轶天. 一种新的MBFGS算法[J]. 应用数学进展, 2022, 11(8): 5981-5985. https://doi.org/10.12677/AAM.2022.118630

1. 引言

在本文中,我们考虑以下无约束优化问题:

min f ( x ) , x R n ,其中 f : R n R 是一个连续可微函数,其梯度用g表示。单调线搜索方法来解决此问题要求每一次的迭代,目标函数值都要有下降,而非单调线搜索就不需要目标函数值连续下降,非单调线搜索最早是由Grippo [1] 于1986年提出。其具体格式如下:

给定常数a>0, δ , ρ ( 0 , 1 ) 非负整数M,设定步长 α k = max { a ρ 0 , a ρ 1 , } 满足下列不等式:

f ( x k + ρ m a d k ) max 0 j M f ( x k j ) + δ ρ m a g k T d k

当M = 0时此不等式即变为标准的Armijo线搜索规则,非单调线搜索的一个优点是步长可以尽可能松散地选择,大量的数值实验表明,这种非单调线搜索技术是非常有效的,但也存在一些缺点,首先,由于上述不等式中的最大值函数,在任何迭代中生成的好的函数值基本上被丢弃。其次,在某些情况下,该方法数值性能非常依赖于M的选择,MBFGS [2] 方法中采用的线搜索就是由Grippo [3] 提出的方法,因此我们想通过更改MBFGS方法中的线搜索规则 [4] 来获得一种新的MBFGS方法,从而获得更好的数值性能。

本文其余部分组织如下:第二部分详细介绍了新的MBFGS方法;第三部分证明该算法的全局收敛性;第四部分给出数值实验结果。

2. 新的MBFGS算法

1.给定 x 0 R n B 0 = I δ 1 ( 0 , 1 ) δ 2 > 0 0 η min η max < 1 ρ C 0 : = f ( x 0 ) Q 0 : = 1 k : = 0

0 η min η max 1 < ρ , η k [ η min , η max ] , μ > 0

2) 由 B K d + g k = 0 ,计算下降方向 d k ,如果 f ( x k + d k ) f ( x k ) + δ 1 g k T d k ,取步长 α k = 1 ,否则去步3。

3) 计算步长 α k = α ¯ ρ h k ,其中 h k 是使得下列不等式成立的最大整数:

f ( x k + α k d k ) C k + δ 1 α k g k T d k δ 2 α k d k 2 (1.1)

其中 C k + 1 = η k Q k C k + f ( x k + 1 ) Q k + 1 Q k + 1 = η k Q k + 1

4) 计算 x k + 1 = x k + α k d k

5) 迭代更新: s k = x k + 1 x k y k = g k + 1 g k

B k + 1 = B k B k s k s k T B k s k T B k s k + z k z k T z k T s k z k = y k + C g ( x k ) r s k + max { 0 , y k T s k s k 2 } s k

其中C,r > 0为给定常数。

3. 全局收敛性

在这一部分,为了建立起全局收敛性,需要先做以下几个假设 [5]:

1) 水平集 Ω = { x R n | f ( x ) f ( x 0 ) } 是有界的。

2) 在 Ω 的某些邻域N里,f是连续可微的且其导数Lipschitz连续 [6],也就是说存在一个常数L大于0使得 g ( x ) g ( y ) L x y , x , y N ,也就是说由本算法产生的序列 { x k } 是包含于 Ω 内的,此外,由假设得到,存在常数 γ 1 使得 g ( x ) γ 1 , x Ω

3) 假定存在正的常数 c 1 , c 2 使得 g k T d k c 1 g k 2 d k c 2 g k (2.1)

引理1:假定假设2,3成立,如果 α k 是满足(1.1)的步长,那么存在一个常数c大于0使得对每个k,都有下列不等式成立:

α k min { μ ρ , c | g k T d k | d k 2 } (2.2)

证明:我们将从两个方面来证明。

情况一: ρ α k μ ,那么就有 α k μ ρ 则(2.2)成立

情况二: ρ α k < μ 在此种情况下,很明显对于获得的步长 ρ α k 不满足(1.1),因此,则有:

f ( x k + ρ α k d k ) > C k + δ 1 ρ α k g k T d k δ 2 ρ α k d k 2 f ( x k ) + δ 1 ρ α k g k T d k δ 2 ρ α k d k 2 (2.3)

又由于中值定理,存在 θ k ( 0 , 1 ) 使得:

f ( x k + ρ α k d k ) f ( x k ) = ρ α k g ( x k + θ k ρ α k d k ) T d k = ρ α k g k T d k + ρ α k ( g ( x k + θ k ρ α k d k ) g k ) T d k ρ α k g k T d k + L ρ 2 α k 2 d k 2 (2.4)

联立(2.3),(2.4),则有:

ρ α k g k T d k + L ρ 2 α k 2 d k 2 δ 1 ρ α k g k T d k δ 2 ρ 2 α k d k 2

( L + δ 2 ) ρ α k d k 2 ( δ 1 1 ) g k T d k

α k ( δ 1 1 ( L + δ 2 ) ρ ) g k T d k d k 2 (2.5)

其中 c = δ 1 1 ( L + δ 2 ) ρ

引理2:

lim k inf g k = 0 ,如果 η max < 1 ,那么 lim k g k = 0

证明:首先需证明:

f k + 1 C k β g k 2 (2.5.2)

情况1: α k μ ρ

由(2.1)有:

f k + 1 C k + δ 1 α k g k T d k δ 2 α k d k 2 C k δ 1 α k c 1 g k 2 δ 2 c 2 2 α k g k 2 C k δ 1 μ c 1 g k 2 ρ δ 2 c 2 2 μ 2 g k 2 ρ = C k μ ( δ 1 c 1 ρ + δ 2 c 2 2 μ ) ρ 2 g k 2

于是得证。

情况2:

ρ α k < μ 则由(2.5)有 α k ( δ 1 1 ( L + δ 2 ) ρ ) g k T d k d k 2

则由(2.1)和(1.1)

f k + 1 C k + δ 1 α k g k T d k δ 2 α k d k 2 有:

f k + 1 C k + δ 1 ( δ 1 1 ) ( L + δ 2 ) ρ ( g k T d k d k ) 2 δ 2 ( δ 1 1 ( L + δ 2 ) ρ ) 2 ( | g k T d k | ) 2 d k 2 C k + δ 1 ( δ 1 1 ) ( L + δ 2 ) ρ c 1 2 c 2 2 g k 2 δ 2 ( δ 1 1 ( L + δ 2 ) ρ ) 2 c 1 2 c 2 2 g k 2 = C k + [ δ 1 ( δ 1 1 ) ( L + δ 2 ) ρ δ 2 ( δ 1 1 ( L + δ 2 ) ρ ) 2 ] c 1 2 c 2 2 g k 2

于是(2.5.2)得证。

由(1.2):

C k + 1 = η k Q k C k + f ( x k + 1 ) Q k + 1 Q k + 1 = η k Q k + 1

f k + 1 C k β g k 2 有:

C k + 1 = η k Q k C k + f ( x k + 1 ) Q k + 1 η k Q k C k + C k β g k 2 Q k + 1 = C k β g k 2 Q k + 1 (2.6)

由于f有下界且由 [2] 中引理(1.1)式,

f k C k A k ,我们可以得出 C k 有下界的结论,

由(2.6)可得 k = 0 g k 2 Q k + 1 < 。如果 g k 在0附近则将违背此式,

因为由 [7] 中(2.14),

Q k + 1 k + 2 ,于是 lim k inf g k = 0 成立。

如果 η max < 1 ,那么由 [8] 中(1.8):

Q k + 1 = 1 + j = 0 k i = 0 j η k i 1 + j = 0 k η max j + 1 j = 0 k η max j = 1 1 η max

因此 lim k g k = 0 成立

于是得证。

4. 数值实验

实验环境:

硬件:R5 4600CPU、1650ti图形卡;

软件:VMware、Ubuntu系统、Matlab2016软件;

所有代码通过Matlab编程 [9],本文算法以NMBFGS为代号。

相关参数取值如下:

δ 1 = δ 2 = 0.1 ρ = 0.4 C = 10 6 r = 2

通过选取一些问题 [8] 进行求解,和标准的BFGS [10] 方法、MBFGS方法进行对比,得出一些数值结果如下:

通过以上实验数据可以看出,相同的无约束优化问题在使用我们的新算法进行计算时,取得了较好的数值结果,和BFGS [10] 以及MBFGS [11] 方法相比,明显减少了迭代次数,对于计算函数值次数和求导次数也有明显减少。

5. 结论

在适当条件下我们证明了这个新的算法对于一些非凸函数具有全局收敛性一些得出的数值结果也表明,相较于传统的单调线搜索,我们这种新的非单调线搜索在数值性能上具有更好的表现。

参考文献

参考文献

[1] Grippo, L., Lampariello, F. and Lucidi, S. (1986) A Nonmonotone Line Search Technique for Newton’s Method. SIAM Journal on Numerical Analysis, 23,707-716.
https://doi.org/10.1137/0723046
[2] Zhang, H. and Hager, W.W. (2004) A Nonmonotone Line Search Technique and Its Application to Unconstrained Optimization. SIAM journal on Optimization, 14, 1043-1056.
https://doi.org/10.1137/S1052623403428208
[3] Yu, Z. and Pu, D. (2008) A New Nonmonotone Line Search Technique for Unconstrained Optimization. Journal of Computational and Applied Mathe-matics, 219, 134-144.
https://doi.org/10.1016/j.cam.2007.07.008
[4] Zhou, W. and Zhang, L. (2009) Global Con-vergence of the Nonmonotone MBFGS Method for Nonconvex Unconstrained Minimization. Journal of Computational and Applied Mathematics, 223, 40-47.
https://doi.org/10.1016/j.cam.2007.12.011
[5] Moré, J.J., Garbow, B.S. and Hillstrom, K.E. (1981) Testing Un-constrained Optimization Software. ACM Transactions on Mathematical Software, 7, 17-41.
https://doi.org/10.1145/355934.355936
[6] Byrd, R.H. and Nocedal, J. (1989) A Tool for the Analysis of Qua-si-Newton Methods with Application to Unconstrained Minimization. SIAM Journal on Numerical Analysis, 26, 727-739.
https://doi.org/10.1137/0726042
[7] Dai, Y.H. (2002) On the Nonmonotone Line Search. Journal of Optimization Theory and Applications, 112, 315-330.
https://doi.org/10.1023/A:1013653923062
[8] Li, D. and Fukushima, M. (1999) A Globally and Superlinearly Convergent Gauss—Newton-Based BFGS Method for Symmetric Nonlinear Equations. SIAM Journal on numerical Analysis, 37, 152-172.
https://doi.org/10.1137/S0036142998335704
[9] Dai, Y.H. (2002) Convergence Properties of the BFGS Algo-ritm. SIAM Journal on Optimization, 13, 693-701.
https://doi.org/10.1137/S1052623401383455
[10] Dai, Y.H. (2002) A Nonmonotone Conjugate Gradient Algo-rithm for Unconstrained Optimization. Journal of System Science and Complexity, 15, 139-145.
[11] Grippo, L., Lam-pariello, F. and Lucidi, S. (1989) A Truncated Newton Method with Nonmonotone Line Search for Unconstrained Opti-mization. Journal of Optimization Theory and Applications, 60, 401-419.
https://doi.org/10.1007/BF00940345