基于不定系数常微分方程的加速梯度算法研究
Research on Accelerated Gradient Algorithm Based on Ordinary Differential Equations with Uncertain Coefficients
摘要: 随着人工智能功能的日益强大,对机器学习、深度学习的研究也日趋完善。深度学习的核心思想是求解优化问题,而随着当前实际问题规模的日益扩大,梯度类算法由于运算成本相对较低,日益受到人们的关注和青睐,设计新的加速梯度算法是加快问题求解的关键。本文基于常微分方程,得到了一系列新的加速梯度算法。本文考虑了一类系数不定的二阶常微分方程,证明了系数在满足什么条件下,该微分方程能够快速收敛。对于该微分方程,本文采用两种不同的离散格式:显式欧拉格式、隐式欧拉格式进行离散,分别得到了两类不同的优化算法,分别证明了算法的收敛速率。最后,本文通过数值实验证明了算法的有效性。
Abstract: With the increasingly powerful functions of artificial intelligence, research on machine learning and deep learning is also becoming increasingly sophisticated. The core idea of deep learning is to solve optimization problems, and with the increasing scale of practical problems, gradient algorithms are increasingly receiving attention and favor due to their relatively low computational costs. Designing new accelerated gradient algorithms is the key to accelerating problem solving. This article presents a series of new accelerated gradient algorithms based on ordinary differential equations. This article considers a class of second-order ordinary differential equations with uncertain coefficients and proves under what conditions the coefficients satisfy that the differential equation can converge quickly. For this differential equation, this paper adopts two different discretization schemes: explicit Euler scheme and implicit Euler scheme for discretization, and obtains two different optimization algorithms, respectively proving the convergence rate of the algorithms. Finally, this article demonstrates the effectiveness of the algorithm through numerical experiments.
文章引用:谢旭东. 基于不定系数常微分方程的加速梯度算法研究[J]. 运筹与模糊学, 2024, 14(3): 91-101. https://doi.org/10.12677/orf.2024.143248

1. 引言

随着计算机与网络的飞速发展,机器学习在各个领域中起着越来越大的作用,正在不断改变着我们的生活。不管是机器学习还是神经网络,它们往往都可以归结为求解最优化问题‎[1]

机器学习中的优化问题根据目标函数的凸性,可分为凸优化问题和非凸优化问题;根据目标函数是否带有约束,可分为约束优化问题和无约束优化问题。对于非凸优化问题,在实际应用中,有时候可以通过如局部线性化、凸松弛等技巧将非凸优化问题转化为凸优化问题,从而利用凸优化的相关算法来求解。对于约束优化问题,可以通过如罚函数等方法将其转化为无约束优化问题。本文考虑的是无约束凸优化问题。

机器学习在现代社会扮演着越来越重要的角色,对医疗健康、金融领域、智能交通、自然语言处理等领域都产生了深远的影响。而作为机器学习的根本,对求解优化问题相关算法的研究在近年来日益受到人们的关注。

本文考虑的问题为无约束优化问题:

min x R n f( x ) (1)

其中 f( x ) 是光滑的强凸函数。定义 R n 上的一类光滑凸函数为 L 1 ,若 x,y R n ,函数梯度满足Lipschitz连续:

f( y )f( x ) L yx (2)

其中L是Lipschitz系数。定义 R n 上的强凸函数 f S μ 1 ,若存在常数 μ ,使得函数 g( x )=f( x ) μ 2 x 2 为凸函数,则称函数 f( x ) μ-强凸函数。若函数 f( x ) μ-强凸函数,则 x,y R n ,满足:

f( y )f( x )+ f( x ),yx + μ 2 yx 2 (3)

最基础的梯度算法是梯度下降法:

x k+1 = x k sf( x k ) (4)

其中s是步长。梯度下降法的基本思想是沿着函数梯度的反方向逐步迭代更新参数,以减小目标函数的值。然而,梯度下降法的算法性能在很大程度上受到目标函数的约束。为了解决这一问题,提高算法的收敛速率,近几十年来,学者们从不同的角度出发,设计了不同的加速梯度算法,其中较为典型的有重球方法‎[2]与Nesterov加速梯度算法(NAG算法) ‎[3],其中NAG算法具有优秀的算法性能,在机器学习中被广泛运用。然而,算法的加速原理至今未能得到合理的解释。

常微分方程(Ordinary Differential Equations, ODE)与一阶优化算法之间存在密切的联系。在无约束优化问题中,求解优化问题的过程可以被视为一个微分方程的求解过程。因此,微分方程理论为我们提供了一种理论框架,帮助我们理解梯度类算法在优化问题中的工作原理,并为算法的收敛性和稳定性提供理论支持。基于这一思想,人们开始从ODE的角度来解释算法的加速原理,并设计新的加速梯度算法。Attouch ‎[4]在重球方法对应ODE的基础上引入含有Hessian矩阵的项,得到惯性动力系统。Su等人‎[5]将NAG算法的迭代点视为一个连续变量在某些特定时间点取值的近似,利用泰勒展开,得到了NAG算法对应连续时间下的ODE。Shi B等人‎[6]在此基础上,通过更高阶的泰勒展开,分别得到了NAG算法与重球方法对应的高精度ODE,高精度ODE更能反应算法的新能。Chen等人‎[7]以ODE为工具,给出了一阶凸优化算法的统一收敛性分析框架,并提出了一种新的动态惯性牛顿系统,以此得到了新的加速梯度算法‎[8]

本文基于文献‎[6]中提出的Layapunov函数构建方法,考虑一类系数不定的ODE:

X ¨ +α X ˙ +β 2 f( X ) X ˙ +f( X )=0 (5)

首先,通过构造合适的Layapunov函数,证明该ODE在不定系数 α,β 在满足什么条件下能够快速收敛。其次,本文使用两种不同的离散格式:显式欧拉格式和隐式欧拉格式对该ODE进行离散,得到两种不同的优化算法,并分别构造合适的Layapunov函数,证明这两类算法的收敛速率。最后,通过数值实验,验证所得算法的实用性。

2. 系数不定的二阶常微分方程与收敛速率

在本章中,我们考虑一个系数不定的二阶ODE:

X ¨ +α X ˙ +β 2 f( X ) X ˙ +f( X )=0 (6)

定理2.1. 证明了系数 α,β 在满足什么条件时,ODE能够快速收敛。

定理2.1. 假设目标函数 f S μ,L 1 X( t ) 为ODE: X ¨ +α X ˙ +β 2 f( X ) X ˙ +f( X )=0 的一个解,当系数 α,β 满足 { 3 4 α 2 μ 2 β 8 3α α0 时, X( t ) 满足 f( X( t ) )f( x * )C x 0 x * 2 e α 4 t ,其中 C=( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

证明:设Layapunov函数为:

ε( t )=f( X )f( x * )+ 1 4 X ˙ 2 + 1 4 X ˙ +α( X x * )+βf( X ) 2 .

dε dt = f( X ), X ˙ + 1 2 X ˙ ,α X ˙ β 2 f( X ) X ˙ f( X ) + 1 2 X ˙ +α( X x * )+βf( X ),f( X ) = 1 2 α X ˙ 2 1 2 β f( X ) 2 1 2 α f( X ),X x * 1 2 β X ˙ T 2 f( X ) X ˙ 1 2 α X ˙ 2 1 2 β f( X ) 2 1 2 α f( X ),X x * .

f( x ) 的强凸性可得

1 2 α f( X ),X x * 1 2 α[ f( X )f( x * ) ]+ μα 4 X x * 2 1 4 α[ f( X )f( x * ) ]+ μα 4 X x * 2 ,

dε dt 1 2 α X ˙ 2 1 2 β f( X ) 2 1 4 α[ f( X )f( x * ) ] μα 8 X x * 2 =α( 1 4 [ f( X )f( x * ) ]+ 1 2 X ˙ 2 + 1 4 μ X x * 2 + β 2α f( X ) 2 ). (7)

由柯西–施瓦茨不等式,

X ˙ +α( X x * )+βf( X ) 2 3( X ˙ 2 + α 2 X x * 2 + β 2 f( X ) 2 ).

ε( t )f( X )f( x * )+ X ˙ 2 + 3 4 α 2 X x * 2 + 3 4 β 2 f( X ) 2 . (8)

对比式(7)和式(8)中的各项,当系数 α,β 满足 { 3 4 α 2 μ β 8 3α 时,

dε dt α 4 ε( t ) ,

ε( t ) e α 4 t ε( 0 ) ,

f( X( t ) )f( x * )ε( t ) e α 4 t ε( 0 ).

X( 0 )= X 0 X ˙ ( 0 )=f( X 0 ) ,由于 f S μ,L 1 ,则有

f( X 0 )f( x * ) L 2 X 0 x * 2 ,  f( X 0 ) L X 0 x * .

ε( 0 )=f( X 0 )f( x * )+ 1 4 f( X 0 ) 2 + 1 4 f( X 0 )+α( X 0 x * )+βf( X 0 ) 2 f( X 0 )f( x * )+( 1+ 3 4 β 2 ) f( X 0 ) 2 + 3 4 α 2 X 0 x * 2 =( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

综上,

f( X( t ) )f( x * )C x 0 x * 2 e α 4 t ,

其中 C=( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

3. 一类新的加速梯度算法

在第二章中,我们证明了系数不定的ODE:

X ¨ +α X ˙ +β 2 f( X ) X ˙ +f( X )=0

在系数 α,β 在满足什么条件时,ODE能够快速收敛。式(6)等价于:

X ˙ =V, V ˙ =αVβ 2 f( X )Vf( X ) (9)

本章将使用两种不同的离散格式:显式欧拉格式和隐式欧拉格式对式(9)进行离散得到相应的优化算法,并分别证明它们的收敛速率。

3.1. 显式欧拉格式

第一种离散格式是显式欧拉格式,它的近似规则如下:

x k+1 x k = s v k , s 2 f( x k ) v k f( x k+1 )f( x k ) .

由显式欧拉格式离散式(9)可得如下优化算法:

{ x k+1 x k = s v k v k+1 v k =α s v k β( f( x k+1 )f( x k ) ) s f( x k ) (10)

定理3.1. 假设目标函数 f S μ,L 1 ,对于显式欧拉格式产生的迭代点序列 { x k } kN ,当系数 α,β 满足 { 3 4 α 2 μ 2 β 8 3α α0 ,步长s满足 smin{ 4 9 L 2 β 2 , α 2 ( 3 α 2 +2L ) 2 , ( αγβγL ) 2 16 L 2 γ 4 , 1 L } 时,收敛速率满足

f( x k )f( x * )C ( 1 α s 8 ) k x 0 x * 2 ,

其中 C=( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

证明:设Layapunov 函数为:

ε( k )=f( x k )f( x * )+ 1 4 v k 2 + 1 4 α( x k x * )+ v k +βf( x k ) 2 .

ε( k+1 )ε( k ) = 1 4 v k+1 v k , v k+1 + v k +f( x k+1 )f( x k ) + 1 4 α( x k+1 x k )+ v k+1 v k +β( f( x k+1 )f( x k ) ),α( x k+1 + x k 2 x * )+ v k+1 + v k +β( f( x k+1 )+f( x k ) )

1 2 v k+1 v k , v k + 1 4 v k+1 v k 2 + f( x k ), x k+1 x k + L 2 x k+1 x k 2 1 2 s f( x k ),α( x k x * )+ v k +βf( x k ) + 1 4 s f( x k ) 2 = α s 2 v k 2 β 2 s f( x k+1 )f( x k ), x k+1 x k + 1 4 α s v k +β( f( x k+1 )f( x k ) )+ s f( x k ) 2 + Ls 2 v k 2 α s 2 f( x k ), x k x * β s 2 f( x k ) 2 + s 4 f( x k ) 2 .

由柯西–施瓦茨不等式,

α s v k +β( f( x k+1 )f( x k ) )+ s f( x k ) 2 3 α 2 s v k 2 +3 β 2 f( x k+1 )f( x k ) 2 +3s f( x k ) 2 .

ε( k+1 )ε( k ) α s 4 ( v k 2 + f( x k ), x k x * + β α f( x k ) 2 ) β 2 s f( x k+1 )f( x k ), x k+1 x k + 3 4 β 2 f( x k+1 )f( x k ) 2 +( 3 α 2 s 4 + Ls 2 α s 4 ) v k 2 +s f( x k ) 2 α s 4 f( x k ), x k x * β s 4 f( x k ) 2 .

由于 f S μ,L 1 ,则有

f( x k+1 )f( x k ) 2 L f( x k+1 )f( x k ), x k+1 x k ,

f( x k ) 2 L f( x k ), x k x * .

ε( k+1 )ε( k ) α s 4 ( v k 2 + f( x k ), x k x * + β α f( x k ) 2 ) ( β 2L s 3 4 β 2 ) f( x k+1 )f( x k ) 2 ( α s 4 3 α 2 s 4 Ls 2 ) v k 2 ( α s 4L s ) f( x k ) 2 . (11)

对于式(11),若步长s满足条件

{ β 2L s 3 4 β 2 0 α s 4 3 α 2 s 4 Ls 2 0 α s 4L s0 ,

可得

ε( k+1 )ε( k ) α s 4 ( v k 2 + f( x k ), x k x * + β α f( x k ) 2 ), (12)

由柯西–施瓦茨不等式,

α( x k x * )+ v k +βf( x k ) 2 3 α 2 x k x * 2 +3 v k 2 +3 β 2 f( x k ) 2 ,

ε( k ) v k 2 +f( x k )f( x * )+ 3 4 α 2 x k x * 2 + 3 4 β 2 f( x k ) 2 v k 2 +f( x k )f( x * )+ μ 2 x k x * 2 + 2β α f( x k ) 2 v k 2 + f( x k ), x k x * + 2β α f( x k ) 2 . (13)

对比式(12)和式(13)中的各项,可得

ε( k+1 )ε( k ) α s 8 ε( k ).

ε( k ) ( 1 α s 8 ) k ε( 0 ),

f( x k )f( x * )ε( k ) ( 1 α s 8 ) k ε( 0 ).

X( 0 )= X 0 X ˙ ( 0 )=f( X 0 ) ,由于 f S μ,L 1 ,则有

f( X 0 )f( x * ) L 2 X 0 x * 2 ,  f( X 0 ) L X 0 x * .

ε( 0 )=f( X 0 )f( x * )+ 1 4 f( X 0 ) 2 + 1 4 f( X 0 )+α( X 0 x * )+βf( X 0 ) 2 f( X 0 )f( x * )+( 1+ 3 4 β 2 ) f( X 0 ) 2 + 3 4 α 2 X 0 x * 2 =( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

综上,

f( x k )f( x * )C ( 1 α s 8 ) k x 0 x * 2 ,

其中 C=( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

3.2. 隐式欧拉格式

第二种离散格式是隐式欧拉格式,它的近似规则如下:

x k+1 x k = s v k+1 , s 2 f( x k+1 ) v k+1 f( x k+1 )f( x k )$.

由隐式欧拉格式离散式(9)可得如下优化算法:

{ x k+1 x k = s v k+1 v k+1 v k =α s v k+1 β( f( x k+1 )f( x k ) ) s f( x k+1 ) (14)

定理3.2. 假设目标函数 f S μ,L 1 ,对于隐式欧拉格式产生的迭代点序列 { x k } kN ,当系数 α,β 满足 { 3 4 α 2 μ 2 β 8 3α α0 ,步长s满足 0s 1 L 时,收敛速率满足

f( x k )f( x * ) ( 1 1+ α s 4 ) k C x 0 x * 2 .

其中 C=( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

证明:设Layapunov函数为:

ε( k )=f( x k )f( x * )+ 1 4 v k 2 + 1 4 α( x k x * )+ v k +βf( x k ) 2 .

ε( k+1 )ε( k ) = 1 4 v k+1 v k , v k+1 + v k +f( x k+1 )f( x k ) + 1 4 α( x k+1 x k ))+ v k+1 v k +β( f( x k+1 )f( x k ) ),α( x k+1 + x k 2 x * )+ v k+1 + v k +β( f( x k+1 )+f( x k ) )

1 2 v k+1 v k , v k+1 1 4 v k+1 v k 2 + f( x k+1 ), x k+1 x k 1 2 s f( x k+1 ),α( x k+1 x * )+ v k+1 +βf( x k+1 ) 1 4 s f( x k+1 ) 2 = α s 2 v k+1 2 β 2 s f( x k+1 )f( x k ), x k+1 x k 1 4 α s v k+1 +β( f( x k+1 )f( x k ) )+ s f( x k+1 ) 2 α s 2 f( x k+1 ), x k+1 x * β s 2 f( x k+1 ) 2 s 4 f( x k+1 ) 2 .

由柯西–施瓦茨不等式,

α s v k +β( f( x k+1 )f( x k ) )+ s f( x k ) 2 3 α 2 s v k 2 +3 β 2 f( x k+1 )f( x k ) 2 +3s f( x k ) 2 .

ε( k+1 )ε( k ) α s 2 ( v k+1 2 + f( x k+1 ), x k+1 x * + β α f( x k+1 ) 2 ) β 2 s f( x k+1 )f( x k ), x k+1 x k 3 α 2 s 4 v k+1 2 3 β 2 4 f( x k+1 )f( x k ) 2 s f( x k+1 ) 2 .

由于 f S μ,L 1 ,则有

f( x k+1 )f( x k ), x k+1 x k μ x k+1 x k 2 .

ε( k+1 )ε( k ) α s 2 ( v k+1 2 + f( x k+1 ), x k+1 x * + β α f( x k+1 ) 2 ). (15)

由柯西–施瓦茨不等式,

α( x k x * )+ v k +βf( x k ) 2 3 α 2 x k x * 2 +3 v k 2 +3 β 2 f( x k ) 2 .

ε( k+1 ) v k+1 2 +f( x k+1 )f( x * )+ 3 4 α 2 x k+1 x * 2 + 3 4 β 2 f( x k+1 ) 2 v k+1 2 +f( x k+1 )f( x * )+ μ 2 x k+1 x * 2 + 2β α f( x k+1 ) 2 v k+1 2 + f( x k+1 ), x k+1 x * + 2β α f( x k+1 ) 2 . (16)

对比式(15)和式(16)中的各项,可得

ε( k+1 )ε( k ) α s 4 ε( k+1 ).

ε( k+1 ) 1 1+ α s 4 ε( k ),

f( x k )f( x * )ε( k ) ( 1 1+ α s 4 ) k ε( 0 ).

X( 0 )= X 0 X ˙ ( 0 )=f( X 0 ) ,由于 f S μ,L 1 ,则有

f( X 0 )f( x * ) L 2 X 0 x * 2 ,  f( X 0 ) L X 0 x * .

ε( 0 )=f( X 0 )f( x * )+ 1 4 f( X 0 ) 2 + 1 4 f( X 0 )+α( X 0 x * )+βf( X 0 ) 2 f( X 0 )f( x * )+( 1+ 3 4 β 2 ) f( X 0 ) 2 + 3 4 α 2 X 0 x * 2 =( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

综上,

f( x k )f( x * ) ( 1 1+ α s 4 ) k C x 0 x * 2 ,

其中 C=( L 2 +( 1+ 3 4 β 2 ) L 2 + 3 4 α 2 ) X 0 x * 2 .

4. 数值实验

在本章中,我们将对第三章中所得的算法进行数值实验,验证算法的性能。同时使用NAG算法与梯度下降法作为对比,证明算法的实用性。

由于本文考虑的目标函数 f S μ,L 1 ,为了方便获取函数的 μ,L 值,我们选取了CUTest数据集中的无约束二次函数问题作为测试函数。由于我们提出的算法中含有不定系数 α,β ,且它们往往与目标函数的 μ,L 值相关,对于每个测试问题,事先将各个系数调整为合适的值。每种算法都使用相同的固定步长。

算法终止条件: f( x k ) 10 8 f( x k+1 )f( x k ) 10 16

Table 1. Comparison of average number of iterations and computation time of various algorithms when the objective function is a quadratic function

1. 目标函数为二次函数时,各个算法的平均迭代次数与运算时间对比


显式欧拉格式

隐式欧拉格式

NAG算法

梯度下降法

平均迭代次数

8941

1507

1836

10,447

平均运行时间(s)

0.007131

0.001376

0.001427

0.007559

表1可知,隐式欧拉格式在平均迭代次数上表现明显优于其他算法,在平均运行时间上略优于NAG算法,明显优于梯度下降法,这一结果表明隐式欧拉格式为加速梯度算法,且数值表现优于NAG算法。显示欧拉格式由于受到步长的限制,在数值实验中的表现与梯度下降法类似,没有起到加速效果。

5. 结论

本文主要研究的是从ODE中得到新的加速梯度算法。本文考虑的不再是一个固定的ODE,而是一个系数不定的ODE:

X ¨ +α X ˙ +β 2 f( X ) X ˙ +f( X )=0 ,

通过构造合适的Layapunov函数,证明了系数 α,β 在满足什么条件下,该ODE具有较快的收敛速率。同时,本文使用了两种不同的离散格式:显式欧拉格式、隐式欧拉格式对该ODE进行离散,得到了相应的优化算法,并通过构造合适的Layapunov函数,分别证明了这两种算法的收敛速率。最后,本文对于提出的优化算法进行了初步的数值实验。分别使用CUTest数据集中的无约束二次函数问题作为测试集,验证了算法的性能,并以NAG算法和梯度下降法作为对比。结果表明,当目标函数为二次函数时,隐式欧拉格式算法的数值表现优于NAG算法。

参考文献

[1] Boyd, S.P. and Vandenberghe, L. (2004) Convex Optimization. Cambridge University Press.
https://doi.org/10.1017/CBO9780511804441
[2] Polyak, B.T. (1964) Some Methods of Speeding Up the Convergence of Iteration Methods. USSR Computational Mathematics and Mathematical Physics, 4, 1-17.
https://doi.org/10.1016/0041-5553(64)90137-5
[3] Nesterov, Y. (1983) A Method of Solving a Convex Programming Problem with Convergence Rate O (1/k*2). Doklady Akademii Nauk SSSR, 269, 543.
[4] Alvarez, F., Attouch, H., Bolte, J., et al. (2002) A Second-Order Gradient-Like Dissipative Dynamical System with Hessian-Driven Damping: Application to Optimization and Mechanics. Journal de Mathématiques Pures et Appliquées, 81, 747-779.
https://doi.org/10.1016/S0021-7824(01)01253-3
[5] Su, W., Boyd, S. and Candes, E.J. (2016) A Differential Equation for Modeling Nesterov’s Accelerated Gradient Method: Theory and Insights. Journal of Machine Learning Research, 17, 1-43.
[6] Shi, B., Du, S.S., Jordan, M.I., et al. (2022) Understanding the Acceleration Phenomenon via High-Resolution Differential Equations. Mathematical Programming, 195, 79-148.
https://doi.org/10.1007/s10107-021-01681-8
[7] Chen, L. and Luo, H. (2018) A Unified Convergence Analysis of First Order Convex Optimization Methods via Strong Lyapunov Functions. arXiv preprint arXiv:2108.00132
[8] Chen, L. and Luo, H. (2019) First Order Optimization Methods Based on Hessian-Driven Nesterov Accelerated Gradient Flow. arXiv preprint arXiv:1912.09276