1. 引言
张量是矩阵的高阶推广,是一种重要的数据形式,可以表达更复杂的高阶数据的内部结构。事实上,张量也是高维真实世界数据的自然形式。例如,在图像处理领域,彩色图像是三阶张量,多光谱图像是三阶张量。因此,张量分析在机器学习 [1] [2]、计算机视觉 [2]、数据挖掘 [3] 等领域具有重要的现实意义和应用价值。而经典的主成分分析(PCA)是用于数据分析和降维的最广泛的方法,对于受小噪声轻微损坏的数据,它具有计算效率高、功能强大的特点。然而,主成分分析的一个主要问题是,它很容易受严重损坏或离奇的观测值影响,而这些观测值在现实世界的数据中无处不在。到目前为止,已经提出了许多主成分分析模型,但几乎都具有很高的计算成本。
最近提出的RPCA是第一个具有强大性能保证的多项式时间算法。假设有一个数据矩阵
可以被分解为:
,其中
是低秩分量,
是稀疏分量。文献 [1] 表明,如果
的奇异向量满足某些非相干条件,例如,
是低秩的,并且
足够稀疏,则可以通过求解凸问题
,
以高概率精确的恢复
和
。其中
表示
的核范数,
表示
的
范数,且
通常设置为
。在算法上,可以通过高效的算法求解,成本不会比PCA高太多。该方法已成功应用于背景建模、子空间聚类、视频压缩感知等领域。
将RPCA推广到张量并不容易,本文研究了张量鲁棒主成分分析(TRPCA) [4],旨在准确恢复被稀疏噪声损坏的低秩张量,提出一种新的张量鲁棒主成分分析方法,试图建立一个更稳定、更理想的模型。本文提出了两个新的正则化项,张量截断核范数(T-TNN)和张量截断Frobenius范数(T-TFN)。基于这两个新定义,提出了张量混合截断范数模型(T-HTN),该模型利用(T-TNN)和(T-TFN)的组合来实现张量鲁棒主成分分析,该模型不仅提高了稳定性,而且有效地提高了恢复精度。
2. 预备知识
在这一部分,我们主要介绍新定义的张量截断核范数和张量截断Frobenius范数,在此基础上提出一种混合截断范数模型来提高张量鲁棒主成分分析算法的有效性和模型的稳定性并给出该模型的迭代求解方法。
定义1 (张量奇异值分解):张量
可被分解为:
,其中
,
是正交张量,
是F对角张量。
定义2 (张量核范数):对于张量
,它的奇异值分解为:
,则张量
的核范数定义为
的所有正面切片的奇异值之和,即:
定义3 (张量奇异值阈值算子(T-SVT)):对于张量
,它的奇异值分解为:
,对任意的
,张量
的奇异值阈值算子记作:
,应用在
的每个正面切片上,即:
定义4 (张量截断核范数(T-TNN)):给定张量
,截断核范数
定义为
的每一个正面切片的后min
个奇异值的和,即:
其中
为
的第j个奇异值。
定义5 (张量截断Frobenius范数(T-TFN)):给定张量
,其截断Frobenius范数定义为
的每一个正面切片的后min
个奇异值的平方和的平方根,即:
因此,
为
定义6 (张量管秩)张量
的奇异值分解为
,则张量
的管秩
定义为
的非零奇异管的个数,即:
.
3. 混合截断范数张量鲁棒主成分分析
3.1. 模型建立
由定义4,和定义5易知,T-TNN和T-TFN均只考虑了每一个正面切片的后min
个奇异值,故可将二者结合,建立更加有效的混合截断张量鲁棒主成分分模型(T-HTN-RPCA):
(1)
由 [5] 知,
,
。因此T-HTN—RPCA模型可表示为:
(2)
3.2. 模型求解
为了求解优化问题(2),本节提出一种有效的迭代方法,可以分为以下两个步骤:
第一步,令
作为
的初始值,在第l次迭代中,固定
,将
奇异值分解为
,其中
,
,
,记
,
。
第二步,固定
,
,通过求解下述最小化问题来更新
,
:
(3)
简言之,本节实现了这两个步骤,且在它们之间交替进行,直至满足迭代误差限。现在的关键问题是如何求解模型(3),这会在下一小节中讨论。
3.3. 优化方法
对于模型(3),本节给出了一个有效的优化方法。增广的拉格朗日乘子法综合了拉格朗日乘子法和二次惩罚法各自的优点,不仅推广了拉格朗日乘子法的适用范围,同时又避免了二次惩罚带来的病态性。根据增广拉格朗日乘子法,常用的策略是利用交替迭代来近似最小增广拉格朗日函数,本文继续延用此策略进行求解。为使变量可分,首先引入辅助变量
,此时(3)等价于
(4)
(4)式的增广拉格朗日函数为:
(5)
其中
是拉格朗日乘子,
是惩罚参数。故可以采用交替迭代方法:通过固定一些变量来求解剩余的那个变量。具体优化过程如下:
步骤一:保持不变,通过更新
:
(6)
步骤二:保持不变,通过更新
:
(7)
步骤三:保持不变,通过更新
:
(8)
显然,(8)式是一个二次函数,因此通过简单的求导可以得到:
.
于是有:
. (9)
步骤四:更新拉格朗日乘子
,
:
(10)
综上所述,完整程序如表1所示。
4. 实验
我们将进行数值实验以确认我们的主要结果。我们研究了T-HTN从各种稀疏噪声中恢复各种管状秩张量的能力,并将T-HTN应用于图像去噪。
数值实验
在本节,我们评估了本文提出的T-HTN在实际数据集上的效率,并将其与TRPCA进行了比较。具体来说,我们对彩色图像数据进行张量恢复实验。目的是从损坏的观察中恢复原始图像。对于基本张量
的估计,我们选择相对平方误差(RSE)和峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)作为评估指标,分别定义为
.
我们比较了T-HTN和TRPCA [1] 在数值实验上的恢复精度和运行速度,选取图片大小为
,椒盐噪声为30%的彩色图片。通过与原始图片进行对比,得到张量去噪模型的恢复效果。下面给出在单张彩色图片上两种模型恢复效果的比较,如图1所示。同时,为了准确比较两种算法的恢复效果,采用PSNR来衡量两种模型在相同噪声下的恢复情况。其中,PSNR值越高,噪声数据恢复的效果越好,具体数据如表2所示。
Figure 1. Comparison of denoising effects between T-HTN and TRPCA
图1. T-HTN和TRPCA去噪效果对比
Table 2. T-HTN and TRPCA recover the PSNR values and running time data of the picture
表2. T-HTN和TRPCA恢复图片的PSNR值和运行时间数据
通过图1可以看出,本文提出的T-HTN模型在对被噪声污染的图片进行恢复时更接近与原始彩色图片,这也就说明了,截断核范数和截断Frobenius范数的方法可以有效的去除较大的奇异值对图像恢复的影响。表2的数据结果显示,在相同的噪声情况下,T-HTN模型恢复彩色图片时的PENR值普遍高于TRPCA,并且在迭代时间上要优于TRPCA模型。经过总体比较,T-HTN模型可以较准确地恢复彩色图片。
5. 结论
在本文,我们提出了混合张量截断核范数和截断张量Frobenius范数的张量鲁棒主成分分析模型,用一种简单的增广拉格朗日乘子法对模型进行求解。并用Matlab软件进行数值实验,经实验验证,本文提出的T-HTN模型可以有效恢复噪声图片,且恢复具有稳定性。
基金项目
该文的得到了辽宁省高等学校创新人才支持计划的资助。
NOTES
*通讯作者。