Gauss-Newton BFGS方法所产生的迭代矩阵序列的收敛性

doi:10.12677/AAM.2022.118572

期刊菜单

Gauss-Newton BFGS方法所产生的迭代矩阵序列的收敛性
The Convergence of Iterate Matrices Sequences Generated by Gauss-Newton BFGS Methods

DOI: 10.12677/AAM.2022.118572, PDF, HTML, XML,
作者: 陈初阳：长沙理工大学数学与统计学院，湖南长沙
关键词: BFGS方法；收敛性；BFGS Method； Convergence

摘要: 收敛速度的快慢是决定一个算法好坏的重要因素。在拟牛顿算法中，算法的收敛性在某种程度上等价于Dennis-Moré条件，但这并不意味着算法所产生的迭代矩阵就会收敛到Hessian矩阵。本文证明了由求解对称非线性方程组的Gauss-Newton BFGS方法所产生的迭代矩阵序列的收敛性，并通过数值实验对结论进行验证。

Abstract: The speed of convergence is an important factor that determines the quality of an algorithm. In the quasi-Newton algorithm, the convergence of the algorithm is equivalent to the Dennis-Moré condi-tion to some extent, but this does not mean that the iterative matrix generated by the algorithm will converge to the Hessian matrix. This paper proves the convergence of the iterative matrix se-quence generated by the Gauss-Newton BFGS method for solving symmetric nonlinear equations, and validates the conclusion by numerical experiments.

文章引用：陈初阳. Gauss-Newton BFGS方法所产生的迭代矩阵序列的收敛性[J]. 应用数学进展, 2022, 11(8): 5435-5443. https://doi.org/10.12677/AAM.2022.118572

1. 引言

我考虑如下非线性方程组：

$g (x) = 0$ , $x \in R^{n}$ .

其中g是 $R^{n}$ 到 $R^{n}$ 上的可微映射且g的雅可比阵 $\nabla g (x)$ 是对称的。在这种情况下我把g看作某个函数f从 $R^{n}$ 到R的梯度映射，从而 $g (x) = \nabla f (x)$ ， $\nabla g (x) = \nabla^{2} f (x)$ ， $g (x) = 0$ 就是无约束优化问题：

$\min_{x \in R^{n}} f (x)$ .

的一阶必要条件。

DONGHUI LI and MASAO FUKUSHIMA在 [1] 中提出了处理此类问题的Gauss-Newton BFGS方法，其迭代格式为：

$x_{k + 1} = x_{k} + λ_{k} p_{k},$

$p_{k} : = - \frac{B_{k}^{- 1} (g (x_{k} + λ_{k - 1} g_{k}) - g_{k})}{λ_{k - 1}}$ , $g_{k} : = g (x_{k})$ .

其中 $p_{k}$ 是搜索方向，步长 $λ_{k} > 0$ 且使得序列 ${g_{k}}$ 在总体上具有近似范数下降性。矩阵 $B_{k}$ 由BFGS公式进行更新来确保它的正定性从而 $p_{k}$ 就是映射g在迭代点 $x_{k}$ 处的下降方向，因此 $B_{k}$ 满足割线方程：

$B_{k + 1} s_{k} = y_{k}$ ,

其中

$s_{k} : = x_{k + 1} - x_{k}$ , $y_{k} : = g (x_{k} + δ_{k}) - g_{k}$ , $δ_{k} = g_{k + 1} - g_{k}$ .

和常用的BFGS公式不同的是我经常用 $y_{k}$ 来表示梯度差而这里用 $δ_{k}$ 表示，在这种情况下我有以下近似关系：

$y_{k} \approx \nabla g_{k + 1} δ_{k} \approx \nabla g_{k + 1} \nabla g_{k + 1} s_{k}$ .

又因为 $B_{k + 1}$ 满足割线方程且雅可比阵 $\nabla g_{k}$ 是对称的，我又有以下近似关系：

$B_{k + 1} s_{k} \approx \nabla g_{k + 1} \nabla g_{k + 1} s_{k} \approx \nabla g_{k + 1} \nabla g_{k + 1}^{T} s_{k}$ .

这就意味着 $B_{k + 1}$ 沿 $s_{k}$ 方向近似于 $\nabla g_{k + 1} \nabla g_{k + 1}^{T}$ ，又因为

$λ_{k - 1}^{- 1} (g (x_{k} + λ_{k - 1} g_{k}) - g_{k}) \approx \nabla g_{k} g_{k}$ ,

所以我得到

$B_{k} p_{k} + \nabla g_{k} g_{k} \approx 0$ .

因此我把 $p_{k}$ 看作Gauss-Newton的近似方向，把这种方法称为Gauss-Newton-based BFGS方法。该方法的优点在于不需要计算雅可比阵并且在合适的条件下具有全局收敛性和超线性收敛性。

我让函数f满足以下假设：

1) 函数f在 $R^{n}$ 上二阶连续可微。

2) $\exists M > 0$ ，对 $\forall x \in Ω_{1}$ ， $‖ \nabla^{2} f (x) ‖ \leq M$ 。

3) $\nabla^{2} f (x)$ 在 $Ω_{1}$ 上一致非奇异。

其中 $Ω_{1}$ 的定义见 [1] 中假设A。

在以上假设条件下，由 [1] 我可以得到以下结论：

4) $\exists x^{*}$ 使得 $g (x^{*}) = 0$ 。

5) $\sum_{k} ‖ x_{k} - x^{*} ‖ < \infty$ , $\sum_{k} ‖ s_{k} ‖ < \infty$ 。

6) 当 $k \to \infty$ 时， $B_{k + 1}$ 总是由BFGS公式更新。

我进一步假设：

7) $\nabla^{2} f (x^{*})$ 是正定的且 $\nabla^{2} f (x)$ 在 $x^{*}$ 处Lipschitz连续，即 $‖ \nabla^{2} f (x) - \nabla^{2} f (x^{*}) ‖ \leq L ‖ x - x^{*} ‖$ ，其中x属于 $x^{*}$ 的一个邻域。

同样我从 [1] 中得到以下结论：

8) $\sup_{k} ‖ B_{k} ‖ < \infty$ , $\sup_{k} ‖ B_{k}^{- 1} ‖ < \infty$ 。

9) 当 $k \to \infty$ 时， $λ_{k}$ 恒等于1。

类似于常用的BFGS方法，超线性收敛性在某种程度上等价于Dennis-Moré条件 [2]，但由于 $y_{k}$ 的取不同，条件的表现形式也有所改变，具体如下：

$\lim_{k \to \infty} \frac{‖ (B_{k} - \nabla g_{*} \nabla^{T} g_{*}) s_{k} ‖}{‖ s_{k} ‖} = 0$ .

但这并不意味着 $B_{k}$ 就一定最终等于 $\nabla g_{*} \nabla^{T} g_{*}$ (由 [2] 中的反例我可以得到这个结论)。最早证明相关结论的是Ge Ren-Pu and Powell [3] 中证明了DFP方法和BFGS方法取恒定步长为一所产生的迭代矩阵序列的收敛性，该证明不要求 $B_{k}$ 最终等于 $\nabla^{2} f (x^{*})$ ，之后Stoer [4] 把该结论推广到Broyden族方法上且步长最终收敛到1即可。由于1)到9)的结论满足 [4] 的假设B，所以本文的证明参照 [4] 进行了一点点的改动，以下我统称为假设最后我给出Gauss-Newton-based BFGS算法的框架。

Gauss-Newton-based BFGS算法

Step 0. Choose an initial point $x_{0} \in R^{n}$ , an initial symmetric positive definite matrix $B_{0} \in R^{n × n}$ , a positive

sequence ${ω_{k}}$ satisfying $\sum_{k = 0}^{\infty} ω_{k} < \infty$ , and constants $r, ρ \in (0, 1)$ , $σ_{1}, σ_{2} > 0, λ_{- 1} > 0$ . Let $k : = 0$ .

Step 1. Stop if $g_{k} = 0$ . Otherwise, solve the following linear equation to get $p_{k}$ :

$B_{k} p + λ_{k - 1}^{- 1} (g (x_{k} + λ_{k - 1} g_{k}) - g_{k}) = 0$ .

Step 2. If

$‖ g (x_{k} + p_{k}) ‖ \leq ρ ‖ g_{k} ‖$ ,

then take $λ_{k} = 1$ and go to Step 4. Otherwise go to Step 3.

Step 3. Let $i_{k}$ be the smallest nonnegative integer i such that:

${‖ g (x_{k} + λ p_{k}) ‖}^{2} - {‖ g_{k} ‖}^{2} \leq - σ_{1} {‖ λ g_{k} ‖}^{2} - σ_{2} {‖ λ p_{k} ‖}^{2} + ω_{k} {‖ g_{k} ‖}^{2}$ holds for $λ = r^{i}$ .

Let $λ_{k} = r^{i_{k}}$ .

Step 4. Let the next iterate be $x_{k + 1} = x_{k} + λ_{k} p_{k}$ .

Step 5. Put $s_{k} = x_{k + 1} - x_{k} = λ_{k} p_{k}$ , $δ_{k} = g_{k + 1} - g_{k}$ , and $y_{k} = g (x_{k} + δ_{k}) - g (x_{k})$ . If $y_{k}^{T} s_{k} \leq 0$ , then $B_{k + 1} = B_{k}$ and go to Step 6. Otherwise, update $B_{k}$ by the BFGS formula:

$B_{k + 1} = B_{k} - \frac{B_{k} s_{k} s_{k}^{T} B_{k}}{s_{k}^{T} B_{k} s_{k}} + \frac{y_{k}^{T} y_{k}}{s_{k}^{T} y_{k}}$ .

Step 6. Let $k : = k + 1$ . Go to Step 1.

2. 收敛性的证明

由BFGS方法的不变性，我假设 $\nabla^{2} f (x^{*}) \nabla^{2} f {(x^{*})}^{T} = I$ 。如果函数 $f (x)$ 是二次函数，那么 $g (x)$ 就是线性的，那么此时

$p_{k} = - B_{k}^{- 1} g$ , $y_{k} = g_{k + 1} - g_{k} = δ_{k}$ ,

我直接由 [3] 得到结论，对于一般情况我有

$\begin{matrix} y_{k} = g (x_{k} + δ_{k}) - g_{k} = \int_{0}^{1} \nabla^{2} f (x_{k} + θ δ_{k}) d θ δ_{k} \\ = \int_{0}^{1} \nabla^{2} f (x_{k} + θ δ_{k}) d θ \int_{0}^{1} \nabla^{2} f (x_{k} + θ s_{k}) d θ s_{k} = Q_{k} P_{k} s_{k} \end{matrix}$

其中 $Q_{k} = \int_{0}^{1} \nabla^{2} f (x_{k} + θ δ_{k}) d θ$ , $P_{k} = \int_{0}^{1} \nabla^{2} f (x_{k} + θ s_{k}) d θ$ 。

有假设得知当k充分大时， $P_{k}$ 是正定矩阵且

$P_{k} = Ι + O (‖ s_{k} ‖)$ ,

同理当k充分大时

$δ_{k} = g_{k + 1} - g_{k} = \int_{0}^{1} \nabla^{2} f (x_{k} + t s_{k}) d θ s_{k} = s_{k} + O ({‖ s_{k} ‖}^{2})$ ,

$y_{k} = [Ι + O (‖ δ_{k} ‖)] [Ι + O (‖ s_{k} ‖)] d θ s_{k} = s_{k} + O ({‖ s_{k} ‖}^{2})$ .

因此由BFGS公式我有

$\begin{matrix} B_{k + 1} = B_{k} - \frac{B_{k} s_{k} s_{k}^{T} B_{k}}{s_{k}^{T} B_{k} s_{k}} + \frac{y_{k}^{T} y_{k}}{s_{k}^{T} y_{k}} \\ = B_{k} - \frac{B_{k} s_{k} s_{k}^{T} B_{k}}{s_{k}^{T} B_{k} s_{k}} + \frac{s_{k}^{T} s_{k}}{s_{k}^{T} s_{k}} + O (‖ s_{k} ‖) \\ = {B^{'}}_{k + 1} + O (‖ s_{k} ‖) \end{matrix}$ (1)

我定义 $E_{k} : = B_{k} - Ι$ ， $λ_{k i}, i = 1, 2, \dots, n$ 是它的特征值且 $| λ_{k 1} | \leq | λ_{k 2} | \leq \dots \leq | λ_{k n} |$ ， $υ_{k i}, i = 1, 2, \dots, n$ 是特征值对应的正交特征向量， $E_{k} υ_{k i} = λ_{k i} υ_{k i}$ 。由 [5] 中的结论我得到对于 $E_{k + 1} : = B_{k + 1} - Ι$ 的特征值 ${λ_{k + 1, i}}$ 按照同样的方式排列 $| λ_{k + 1, 1} | \leq | λ_{k + 1, 2} | \leq \dots \leq | λ_{k + 1, n} |$ ，它满足

$| λ_{k + 1, i} | \leq | λ_{k, i} |$ ,

$s i g n λ_{k + 1, i} = s i g n λ_{k, i}$ , $i = 1, 2, \dots, n$ .

由(1)以及 $\sum_{k} ‖ s_{k} ‖$ 收敛，根据文献 [3] 中引理4可知对每个 $i = 1, 2, \dots, n$ ，极限 $\lim_{k \to \infty} λ_{k i}$ 存在。我假设极限趋于0的特征值个数为m，其余的都大于 $β > 0$ ，即

$\lim_{k} λ_{k i} = 0$ , $i = 1, 2, \dots, n$

$| λ_{k i} | \geq β$ , $i = m + 1, \dots, n$ .

又因为

$\frac{s_{k}^{T} E_{k + 1} s_{k}}{s_{k}^{T} s_{k}} = \frac{s_{k}^{T} (y_{k} - s_{k})}{s_{k}^{T} s_{k}} = \frac{s_{k}^{T} (Q_{k} P_{k} - Ι) s_{k}}{s_{k}^{T} s_{k}} = O (‖ s_{k} ‖)$

而 $\lim_{k} ‖ s_{k} ‖ = 0$ ，所以 $m \geq 1$ 。

由 [3] 我对 $E_{k}$ 进行如下分解

$E_{k} : = Δ_{k} + H_{k}$

其中

$Δ_{k} : = \sum_{i = 1}^{m} λ_{k i} υ_{k i} υ_{k i}^{T}$ , $H_{k} : = \sum_{i = m + 1}^{n} λ_{k i} υ_{k i} υ_{k i}^{T}$ ,

$S_{k} : = s p a n {υ_{k 1}, υ_{k 2}, \dots, υ_{k m}}$ .

那么 $S_{k}^{⊥} = s p a n {υ_{k, m + 1}, \dots, υ_{k, n}}$ 。

由以上定义我有 $Δ_{k} S_{k} \subset S_{k}$ ， $H_{k} S_{k}^{⊥} \subset S_{k}^{⊥}$ ， $Δ_{k} S_{k}^{⊥} = H_{k} S_{k} = 0$ ，根据m的定义有 $\lim_{k} Δ_{k} = 0$ 。

通过以上讨论，我将通过证明 $\sum_{k} ‖ H_{k + 1} - H_{k} ‖ < \infty$ 来证明序列 ${B_{k}}$ 的收敛性。我将证明

${‖ H_{k + 1} - H_{k} ‖}_{F} \leq c_{1} ‖ η_{k} ‖ / ‖ s_{k} ‖ + c_{2} ‖ s_{k} ‖$ (2)

对充分大的k都成立。这里 $η_{k}$ 取自 $s_{k}$ 的正交分解

$s_{k} = γ_{k} + η_{k}, γ_{k} \in S_{k}, η_{k} \in S_{k}^{⊥}$ .

(2)式的证明就是 [3] 中对DFP方法的证明，这里不再赘述。

因为 $\sum_{k} ‖ s_{k} ‖ < \infty$ ，由(2)我只需证明 $\sum_{k} ‖ η_{k} ‖ / ‖ s_{k} ‖ < \infty$ 。首先证明一个重要不等式

$\sum_{k} \frac{{‖ E_{k} s_{k} ‖}^{2}}{{‖ s_{k} ‖}^{2}} < \infty$ (3)

$\begin{matrix} E_{k + 1} = B_{k + 1} - Ι = {B^{'}}_{k + 1} - Ι + O (‖ s_{k} ‖) \\ = E_{k} - \frac{(Ι + E_{k}) s_{k} s_{k}^{T} (Ι + E_{k})}{{‖ s_{k} ‖}^{2} + s_{k}^{T} E_{k} s_{k}} + \frac{s_{k} s_{k}^{T}}{{‖ s_{k} ‖}^{2}} + O (‖ s_{k} ‖) \end{matrix}$

由文献 [6] 的定理2我有

${‖ E_{k + 1} ‖}_{F}^{2} \leq {‖ E_{k} ‖}_{F}^{2} - \frac{{(E_{k} s_{k})}^{T} B_{k} (E_{k} s_{k})}{s_{k}^{T} B_{k} s_{k}} + O (‖ s_{k} ‖)$ ,

不等式两边对k进行累加，又因为 ${B_{k}}$ 和 ${B_{k}^{- 1}}$ 都是正定有界的，(3)式得证。从文献 [4] 我立马又得到 $\sum_{k} ‖ B_{k + 1} - B_{k} ‖ < \infty$ ，证明没有任何改变。

接下来我证明 $\sum_{k} ‖ η_{k} ‖ / ‖ s_{k} ‖ < \infty$ ，由 $k \to \infty$ 时 $λ_{k} \equiv 1$ 得，存在常数 $k_{1}$ ，当 $k \geq k_{1}$ 时， $λ_{k} = 1$ 。下面我证明几个不等式，其中 $\bar{E} = B_{k} - Q_{k} P_{k}$ 。

a) $\sum_{k_{1}} \frac{{‖ E_{k} {\bar{E}}_{k} s_{k} ‖}^{2}}{{‖ {\bar{E}}_{k} s_{k} ‖}^{2}} < \infty$ ,

b) $\sum_{k_{1}} \frac{{‖ {\bar{E}}_{k} s_{k} ‖}^{2}}{{‖ s_{k} ‖}^{2}} < \infty$ ,

c) $\sum_{k_{1}} \frac{‖ E_{k} \bar{E} s_{k} ‖}{‖ s_{k} ‖} < \infty$ ,

d) $\sum_{k_{1}} \frac{‖ E_{k}^{2} s_{k} ‖}{‖ s_{k} ‖} < \infty$ .

证明和 [4] 中类似但是有两个小变化。一个是当 $k \geq k_{1}$ 时步长 $λ_{k} = 1$ ，这时

$p_{k} = s_{k} = - B_{k}^{- 1} (g (x_{k} + g_{k}) - g_{k}) = - B_{k}^{- 1} \int_{0}^{1} \nabla^{2} f (x_{k} + l g_{k}) d l g_{k} = - B_{k}^{- 1} G_{k} g_{k}$

另一个是

$\begin{matrix} {\bar{E}}_{k} s_{k} = B_{k} s_{k} - y_{k} = - G_{k} g_{k} - Q_{k} δ_{k} \\ = (Q_{k} - G_{k}) g_{k} - Q_{k} g_{k + 1} \\ = (Q_{k} - G_{k}) g_{k} + Q_{k} G_{k + 1}^{- 1} B_{k + 1} s_{k + 1} \end{matrix}$

当k充分大时，由于函数f二阶可微可得 $Q_{k} - G_{k} \to 0$ ，所以上式最后一个等式的第一部分趋于0，由假设2)，3)以及 $B_{k}$ 的有界性得证。

现在我的结论显而易见，由 $E_{k} : = Δ_{k} + H_{k}$ , $s_{k} = γ_{k} + η_{k}$ 以及 $| λ_{k i} | \geq β, i = m + 1, \dots, n$ 我有

$\frac{‖ E_{k}^{2} s_{k} ‖}{‖ s_{k} ‖} = \frac{‖ Δ_{k}^{2} γ_{k} + H_{k}^{2} η_{k} ‖}{‖ s_{k} ‖} \geq \frac{‖ H_{k}^{2} η_{k} ‖}{‖ s_{k} ‖} \geq β^{2} \frac{‖ η_{k} ‖}{‖ s_{k} ‖}$

所以 $\sum_{k} ‖ η_{k} ‖ / ‖ s_{k} ‖ < \infty$ ，得证。

3. 数值实验

在这部分我通过画图来观察 $‖ B_{k} - \nabla g_{*} \nabla^{T} g_{*} ‖$ 的收敛性，我在三个不同的方面进行比较：初始点、维度、和精度。我把 $\nabla g_{*}$ 记作j，这里所取的问题就是 [1] 中的原问题，是为了验证自己的编程是否正确。

问题1

$g (x) ≜ A x + \frac{1}{{(n + 1)}^{2}} F (x) = 0$ ,

其中 $A \in R^{n × n}$

$A = (\begin{matrix} 2 & - 1 \\ - 1 & 2 & - 1 \\ ⋱ & ⋱ & ⋱ \\ ⋱ & ⋱ & - 1 \\ - 1 & 2 \end{matrix})$ ,

$F (x) = {(F_{1} (x), F_{2} (x), \dots, F_{n} (x))}^{T}$

$F_{i} (x) = \sin x_{i} - 1$ , $i = 1, 2, \dots, n$ .

以下是不同初始点(见表1)的影响(见图1)，维度n = 19。

Table 1. Different initial points and their manifestations

表1. 不同初始点及其表现形式

Figure 1. Performance of different starting points

图1. 不同初始点的表现

以下是不同维度(见表2)的影响(见图2)，初始点为全1向量。

Table 2. Different dimensions and their manifestations

表2. 不同维度及其表现形式

Figure 2. Performance of different dimensions

图2. 不同维度的表现

以下是不同精度(见表3)的影响(见图3)，维度n = 19，初始点设置为全1向量。

Table 3. Precision

表3. 精度

Figure 3. Performance of different precision

图3. 不同精度的表现

在实验中对应的参数为 $r = 0.1$ , $ρ = \sqrt{0.9}$ , $σ_{1} = σ_{2} = 10^{- 5}$ , $λ_{- 1} = 0.01$ , and $ω_{k} = k^{- 2}$ ，初始矩阵 $B_{0}$ 为单位阵。在前两个实验中精度固定为10⁻⁵，第二个实验我选取全1向量的原因是因为问题是对称问题，在这种情况下初始点的运动轨迹是一样的。而在最后一个实验中由于精度的提高我们将MATLAB程序显示的有效数字调整为15位来得到更好的准确性。从这三张图我们可以清晰的看出当迭代点趋近最小点时函数图像基本保持水平，所以结论是有效的。

4. 总结

本文证明了处理特殊问题的Gauss-Newton-based BFGS方法所产生的迭代矩阵序列的收敛性，由此可以猜测这种收敛性是公式本身的性质，这也启发我如果在应用相应公式做算法时，如果算法不具有超线性收敛性，是否可以通过修正 $B_{k}$ 使他倾向于Hessian阵从而具有超线性收敛性。

参考文献

[1]	Li, D. and Fukushima, M. (1999) A Globally and Superlinearly Convergent Gauss—Newton-Based BFGS Method for Symmetric Nonlinear Equations. SIAM Journal on numerical Analysis, 37, 152-172. [Google Scholar] [CrossRef]
[2]	Dennis, J.E. and Moré, J.J. (1974) A Characterization of Super-linear Convergence and Its Application to Quasi-Newton Methods. Mathematics of Computation, 28, 549-560. [Google Scholar] [CrossRef]
[3]	Ren-Pu, G. and Powell, M.J. (1983) The Convergence of Variable Metric Matrices in Unconstrained Optimization. Mathematical Programming, 27, 123-143. [Google Scholar] [CrossRef]
[4]	Stoer, J. (1984) The Convergence of Matrices Generated by Rank-2 Methods from the Restricted β-Class of Broyden. Numerische Mathematik, 44, 37-52. [Google Scholar] [CrossRef]
[5]	Fletcher, R. (1970) A New Approach to Variable Metric Algorithms. The Computer Journal, 13, 317-322. [Google Scholar] [CrossRef]
[6]	Powell, M.J. (1978) The Convergence of Variable Metric Methods for Nonlinearly Constrained Optimization Calculations. In: Nonlinear Programming 3, Academic Press, 27-63. [Google Scholar] [CrossRef]

为你推荐

友情链接