加权非凸非光滑低秩矩阵填充

doi:10.12677/AAM.2021.1011402

期刊菜单

加权非凸非光滑低秩矩阵填充
Weighted Nonconvex Nonsmooth Low-Rank Matrix Completion

DOI: 10.12677/AAM.2021.1011402, PDF, HTML, XML,
作者: 尚紫微, 张军：辽宁师范大学，辽宁大连
关键词: 加权非凸低秩最小化；迭代加权核范数算法；超梯度；图像去噪；Weighted Nonconvex Low Rank Minimization； Iteratively Reweighted Nuclear Norm Algorithm； Super Gradient； Image Denoising

摘要: 本文利用矩阵奇异值上的l₀范数的非凸替代族来逼近秩函数，提出一种新的加权非凸非光滑最小化问题，并使用迭代加权核范数(IRNN)算法来求解该问题。实验结果表明，该方法能够很好地处理非凸非光滑问题，实现图像去噪。

Abstract: In this paper, we propose a new weighted nonconvex nonsmooth minimization problem and use Iteratively Reweighted Nuclear Norm (IRNN) algorithm to solve the problem. It is worth mentioning that we use the nonconvex substitution family of l₀-norm on the singular value of the matrix to approximate the rank function. Experimental results show that this method can deal with nonconvex nonsmooth problems well and realize image denoising.

文章引用：尚紫微, 张军. 加权非凸非光滑低秩矩阵填充[J]. 应用数学进展, 2021, 10(11): 3796-3801. https://doi.org/10.12677/AAM.2021.1011402

1. 引言

低秩矩阵逼近是一种从退化的观测中恢复低秩矩阵的方法，近年来受到了计算机视觉和机器学习界的广泛关注，并已经成功应用于各个领域，如矩阵填充、背景建模和运动分割等。

众所周知，秩极小化问题很难求解。因此，秩函数通常由凸核范数代替，这类凸问题可以由许多已知的求解器 [1] [2] [3] 有效地求解。然而，核范数是秩函数的松散近似，由核范数近似秩函数得到的解通常是次优的。为了更好地逼近秩函数，本文利用矩阵奇异值上的 $l_{0}$ 范数的非凸替代族来逼近秩函数，从而提出了一种新的加权非凸非光滑最小化问题，并使用迭代加权核范数(IRNN)算法对该问题进行求解。

2. 预备知识

在这一节中，我们介绍了Lipschitz连续的定义，并引入了超梯度的概念，它将在求解非凸非光滑问题中使用。我们知道，次梯度是凸函数在非光滑点的梯度的扩展，实际上超梯度则是凹函数在非光滑点的梯度的扩展。

定义1 (Lipschitz连续)称f的梯度 $\nabla f$ 为Lipschitz连续，如果对于任意 $X, Y \in ℝ^{m \times n}, L (f) > 0$ ，有

${‖ \nabla f (X) - \nabla f (Y) ‖}_{F} \leq L (f) {‖ X - Y ‖}_{F}$ (1)

称 $L (f)$ 为 $\nabla f$ 的Lipschitz常数。

定义2 (次梯度)若g是凸的、非光滑的，则其在x处的次梯度为u，则下列不等式成立

$g (x) + 〈 u, y - x 〉 \leq g (y)$ (2)

定义3 (超梯度)设g是凹的，向量v是g在x点的超梯度，如果对于每一个y，有下面的不等式成立

$g (x) + 〈 v, y - x 〉 \geq g (y)$ (3)

非光滑点处的超梯度可能不是唯一的，g在x处的所有超梯度称为g在x处的超微分，并表示为 $\partial g (x)$ 。如果g在x处可微，那么 $\nabla g (x)$ 是唯一的超梯度，即 $\partial g (x) = {\nabla g (x)}$ 。一些常见凹函数的超梯度如表1所示。

Table 1. Popular nonconvex surrogate functions and their supergradients

表1. 常见的非凸替代函数和它们的超梯度

对于凹函数 $g, - g$ 是凸的，反之亦然。根据这一事实，g的超梯度与 $- g$ 的次梯度之间存在以下关系。

引理1 设 $g (x)$ 是凹的， $h (x) = - g (x)$ 。对于任何 $v \in \partial g (x)$ ， $u = - v \in - \partial h (x)$ 成立，反之亦然。

引理1给出了超梯度与次梯度的关系，从而得到了超梯度的一些性质。众所周知，对于任何 $u_{1} \in \partial h (x)$ ， $u_{2} \in \partial h (y)$ ，凸函数h的次微分称为单调算子，即

$〈 u_{1} - u_{2}, x - y 〉 \geq 0$ (4)

凹函数的超微分则具有如下相反的性质。

引理2 对于任何 $v_{1} \in \partial g (x)$ ， $v_{2} \in \partial g (y)$ ，凹函数g的超微分称为反单调算子，即

$〈 v_{1} - v_{2}, x - y 〉 \leq 0$ (5)

根据引理2，假设 $g (x)$ 是凹的。如果 $x \leq y$ ，那么对于任意 $v_{1} \in \partial g (x)$ 和 $v_{2} \in \partial g (y)$ 都有 $v_{1} \geq v_{2}$ 。

引理3 [4] 对于任意 $λ > 0, Y \in ℝ^{m × n}$ 和 $0 \leq w_{1} \leq w_{2} \leq \dots \leq w_{s}$ $(s = \min (m, n))$ ，下列问题的全局最优解

$\min λ \sum_{i = 1}^{s} w_{i} σ_{i} (X) + \frac{1}{2} {‖ X - Y ‖}_{F}^{2}$ (6)

由加权奇异值阈值(WSVT)给出

$X^{*} = U S_{λ w} (Σ) V^{T}$ (7)

其中 $Y = U Σ V^{T}$ 是Y的SVD，并且 $S_{λ w} (Σ) = Diag {{(Σ_{i i} - λ w_{i})}_{+}}$ 。

3. 加权非凸非光滑最小化问题

在这一部分中，我们利用矩阵奇异值上的 $l_{0}$ 范数的非凸替代族来逼近秩函数，提出了加权非凸非光滑最小化问题，并利用迭代加权核范数(IRNN)算法对该问题进行求解。

3.1. 模型的建立

本文为了更好地逼近秩函数，将表1中的 $l_{0}$ 范数的非凸替代族扩展到矩阵的奇异值上，建立了下列一般加权非凸非光滑低秩极小化模型。

$min_{X \in ℝ^{m × n}} F (x) = \sum_{i = 1}^{m} s_{i} g (σ_{i} (X)) + f (X)$ (8)

其中 $m ≪ n$ ， $σ_{i} (X)$ 是 $X \in ℝ^{m × n}$ 的第i个奇异值，s是非递减、非负的权重向量， $s = s o r t ((\max (σ - 1, 0) + 1) / (\max (σ + 1, 0) + 1))$ ，g是罚函数，f是损失函数。它们分别满足以下假设：

假设1 $g : ℝ^{+} \to ℝ^{+}$ 在 $[0, \infty)$ 上是单调递增的、连续的、凹的，并且可以是非光滑的。

假设2 $f : ℝ^{m \times n} \to ℝ^{+}$ 是 $C^{1, 1}$ 型光滑函数，即它的梯度是Lipschitz连续的。

可以看到表1中所有 $l_{0}$ 范数的非凸替代都满足假设1，因此 $\sum_{i = 1}^{m} g (σ_{i} (X))$ 是秩函数的非凸替代，对于假设2中的损失函数f，最广泛使用的是 $\frac{1}{2} {‖ X - Y ‖}_{F}^{2}$ 。

3.2. 模型的求解

为了符号简便，我们把X的奇异值表示为 $σ_{1}, σ_{2}, \dots, σ_{m}$ ，并且是非递增的。 $X^{k}$ 表示第k次迭代的变量X， $σ_{i} (X^{k})$ 是 $X^{k}$ 的第i个奇异值，记为 $σ_{i}^{k}$ 。

由假设g是凹函数，根据定义3超梯度的概念，对于 $w_{i}^{k} \in \partial g (σ_{i}^{k})$ ，我们有

$g (σ_{i}) \leq g (σ_{i}^{k}) + w_{i}^{k} (σ_{i} - σ_{i}^{k})$ (9)

又由于奇异值是非递减且不小于0的，即 $σ_{1}^{k} \geq σ_{2}^{k} \geq \dots \geq σ_{m}^{k} \geq 0$ ，由引理2超梯度是反单调算子，我们有

$0 \leq w_{1}^{k} \leq w_{2}^{k} \leq \dots \leq w_{m}^{k}$ (10)

因此，我们可以解决下列松弛问题来更新 $X^{k + 1}$ ：

$\begin{matrix} X^{k + 1} = \arg \min_{X} \sum_{i = 1}^{m} s_{i} g (σ_{i}^{k}) + s_{i} w_{i}^{k} (σ_{i} - σ_{i}^{k}) + f (X) \\ = \arg \min_{X} \sum_{i = 1}^{m} s_{i} w_{i}^{k} σ_{i} + f (X) \end{matrix}$ (11)

进一步地，我们在 $X^{k}$ 处对 $f (X)$ 进行线性化，并添加一个近端项：

$f (X) \approx f (X^{k}) + 〈 \nabla f (X^{k}), X - X^{k} 〉 + \frac{μ}{2} {‖ X - X^{k} ‖}_{F}^{2}$ (12)

式中： $μ > L (f)$ 。结合(9)和(10)，我们可以更新 $X^{k + 1}$ 通过求解下式：

$\begin{matrix} X^{k + 1} = \arg \min_{X} \sum_{i = 1}^{m} s_{i} g (σ_{i}^{k}) + s_{i} w_{i}^{k} (σ_{i} - σ_{i}^{k}) \\ + f (X^{k}) + 〈 \nabla f (X^{k}), X - X^{k} 〉 + \frac{μ}{2} {‖ X - X^{k} ‖}_{F}^{2} \\ = \arg \min_{X} \sum_{i = 1}^{m} s_{i} w_{i}^{k} σ_{i} + \frac{μ}{2} {‖ X - (X^{k} - \frac{1}{μ} \nabla f (X^{k})) ‖}_{F}^{2} \\ = \arg \min_{X} \frac{1}{μ} \sum_{i = 1}^{m} s_{i} w_{i}^{k} σ_{i} + \frac{1}{2} {‖ X - (X^{k} - \frac{1}{μ} \nabla f (X^{k})) ‖}_{F}^{2} \end{matrix}$ (13)

因此，根据引理3，(13)的全局最优解可以由加权奇异值阈值(WSVT)给出

$X^{*} = U S_{s w / μ} (Σ) V^{T}$ (14)

其中， $Y = U Σ V^{T}$ 是Y的SVD， $S_{s w / μ} (Σ) = Diag {{(Σ_{i i} - s w / μ)}_{+}}$ 。

从引理3可以看出，(13)在求解(11)的过程中起着重要的作用，并且该方法对于满足假设1的所有g都成立。如果 $g (x) = x$ ，那么 $\sum_{i = 1}^{m} g (σ_{i})$ 降到凸核范数 ${‖ X ‖}_{*}$ 。在这种情况下，对于所有 $i = 1, \dots, m$ ， $w_{i}^{k} = 1$ 。加权奇异值阈值(WSVT)就降为传统的奇异值阈值法(SVT) [5]，这是凸低秩优化中的一个重要子程序。这时更新规则(11)降为已知的近端梯度方法 [6]。

通过解(13)更新 $X^{k + 1}$ ，我们再更新权重 $w_{i}^{k + 1} \in \partial g (σ_{i} (X^{k + 1})), i = 1, 2, \dots, m$ 。迭代更新 $X^{k + 1}$ 及其奇异值

对应的权值，得到了迭代加权核范数(IRNN)算法。IRNN的整个过程如算法1所示。如果Lipschitz常数

$L (f)$ 未知或不可计算，则可使用回溯规则在每次迭代中估计 $μ$ [6]。其中，对于 $L_{p}$ 惩罚，如果 $σ_{i}^{k} = 0$ ，那么 $w_{i}^{k} \in \partial g (σ_{i}^{k}), i = {+ \infty}$ 。根据(11)中 $X^{k + 1}$ 的更新规则，我们得到了 $σ_{i}^{k + 1} = 0$ ，这保证了序列 ${X^{k}}$ 的秩是非递增的。

4. 实验

在本节中，我们将本文方法应用于图像恢复，并与TNNR和DW-TNNR方法作比较。我们选取的图片大小为300 × 300 × 3，并且噪声等级设置为50%。通过对比原始图片的恢复情况，可以直观看到去噪模型的恢复效果如图1所示。同时，峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)值是评价图像质量的常用标准。我们使用恢复图像的PSNR值来评估在相同噪声情况下不同方法的性能。值得注意的是，恢复图像的PSNR值越高，代表图片的恢复效果就越好，具体数据如表2所示。

(a) (b) (c) (d) (e)

Figure 1. Comparison of image restoration results of different methods: (a) Original images; (b) Adding 50% noise images; (c) IRNN; (d) TNNR-APGL; (e) DW-TNNR

图1. 不同方法图像恢复结果对比：(a) 原始图片；(b) 添加50%噪声图片；(c) IRNN；(d) TNNR-APGL；(e) DW-TNNR

Table 2. Comparison of PSNR values and time for denoising by four algorithms

表2. 四种算法去噪PSNR值和时间对比

5. 结论

本文提出并求解了一种新的加权非凸非光滑最小化问题。图像去噪的实验结果表明，在相同噪声下，该方法能够有效去噪并获得较好的视觉效果。

参考文献

[1]	Toh, K. and Yun, S. (2010) An Accelerated Proximal Gradient Algorithm for Nuclear Norm Regularized Linear Least Squares Problems. Pacific Journal of Optimization, 6, 615-640.
[2]	Boyd, S., Parikh, N., Chu, E., Peleato, B. and Eckstein, J. (2011) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers. Foundations and Trends® in Machine Learning, 3, 1-122. [Google Scholar] [CrossRef]
[3]	Mazumder, R., Hastie, T. and Tibshirani, R. (2010) Spectral Regularization Algorithms for Learning Large Incomplete Matrices. JMLR, 11, 2287-2322.
[4]	Gaıffas, S. and Lecue, G. (2011) Weighted Algorithms for Compressed Sensing and Matrix Completion. arXiv:1107.1638 [cs.IT]
[5]	Cai, J., Candès, E. and Shen, Z. (2010) A Singular Value Thresholding Algorithm for Matrix Completion. SIAM Journal on Optimization, 20, 1956-1982. [Google Scholar] [CrossRef]
[6]	Beck, A. and Teboulle, M. (2009) A Fast Iterative Shrinkage-Thresholding Algorithm for Linear Inverse Problems. SIAM Journal on Imaging Sciences, 2, 183-202. [Google Scholar] [CrossRef]

为你推荐

友情链接