基于稀疏表示和光谱自回归的多光谱和高光谱图像融合
Multispectral and Hyperspectral Image Fusion Based on Sparse Representation and Spectral Autoregression
DOI: 10.12677/mos.2024.133292, PDF, HTML, XML, 下载: 38  浏览: 76 
作者: 钱金明:上海理工大学光电信息与计算机工程学院,上海
关键词: 图像融合高光谱图像稀疏表示光谱自回归Image Fusion Hyperspectral Image Sparse Representation Spectral Autoregression
摘要: 现有的高光谱图像融合算法采用将空间维度与光谱维度进行分开融合重建的方式,而高光谱图像光谱维度存在大量的光谱信息,这些像素信息比空间上的像素更加接近目标像素,对于空间维度的重建非常关键。因此,本文提出一种将光谱像素用于对空间维度进行空间信息修复的融合方法,称作基于稀疏表示和光谱自回归的多光谱和高光谱图像融合。该方法通过将光谱维度上的像素,通过自回归模型将其用于空间维度的信息修复,自回归模型由低分辨率的高光谱图像中学习得到,该模型自然保持了光谱间的关联性,通过在公开数据集上的验证了提出模型的有效性。
Abstract: Existing hyperspectral image fusion algorithms use separate fusion reconstruction of spatial and spectral dimensions, whereas there is a large amount of spectral information in the spectral dimension of hyperspectral images, and the information of these pixels is much closer to the target pixels than spatially similar pixels, which is very critical for the reconstruction of the spatial dimension. Therefore, in this paper, we propose a method to use spectral pixels for spatial information restoration on the spatial dimension, called multispectral and hyperspectral image fusion based on sparse representation and spectral autoregression. The method works by taking the pixels on the spectral dimension and using them for information restoration on the spatial dimension through an autoregressive model, the autoregressive model is learned from low-resolution hyperspectral images, which naturally maintains the correlation between the spectra, and the validity of the proposed model is verified by the validation on the publicly available dataset.
文章引用:钱金明. 基于稀疏表示和光谱自回归的多光谱和高光谱图像融合[J]. 建模与仿真, 2024, 13(3): 3196-3211. https://doi.org/10.12677/mos.2024.133292

1. 引言

图像在现实生活中随处可见,其作为日常生活中不可或缺的一部分,扮演着传递信息、表达情感的重要角色。在实际的生活里,常见的数字图像是RGB图像,该图像记录了红、绿、蓝三通道的可见光谱波段的部分区域。在一些类似于图像识别任务中,RGB图像所蕴含的光谱信息太少,不足以精确地将物体进行区分,我们就需要采集更多不同波长的光线反射所形成的光谱信息来对目标物体进行甄别。于是,高光谱成像技术应运而生。高光谱图像具有几十甚至上千个光谱波段,对地物特征的捕捉更加的精细,在遥感任务 [1] 、目标分类 [2] 、目标检测 [3] 等领域有着广泛的应用。不幸地是,由于当前的高光谱成像设备的物理条件限制,想要同时获取一副在空间和光谱维度上均有较高分辨率的高光谱图像是十分困难的。这也就意味着在获取高光谱图像的时候,人们需要在光谱分辨率和空间分辨率之间有一个权衡,但是一幅在空间以及光谱上具有超高分辨率的高光谱图像却在生产活动中的应用具有重要意义。多光谱图像具有较高的空间分辨率,但其光谱分辨力较低。于是学者们自然地想到将一幅低分辨率的高光谱图像(Low-Resolution Hyperspectral Image, LR-HSI)和一幅高分辨率的多光谱图像(High-Resolution Multispectral Image, HR-MSI)进行融合来获得高分辨率的高光谱图像成为了该领域内的一种主流方法。

在上述背景下,大量学者做了很多相关工作。早期的高光谱图像融合算法是融合一张高分辨率的全色图像(Panchromatic Image, PAN)和一副低分辨率的多光谱图像 [4] [5] [6] 。随后人们将该融合方法扩展到高光谱图像融合。Chen等人 [7] 首次将低分辨的高光谱图像按照其光谱的分布范围将其分成几组,在每组数据里面,分别使用基于全色图像的方法进行高光谱图像融合。Selva等人 [8] 通过对高分辨率多光谱图像进行线性回归,合成高光谱图像的每个谱带的高分辨率图像,再通过基于全色图像的方法将低分辨率的高光谱图像的每个谱带与合成的高分辨图像进行融合。基于全色图像的高光谱图像融合方法,虽然具有较低的计算复杂度,可以被快速实现。但是当高分辨率的多光谱图像与低分辨率的高光谱图像之间存在较大的像素差异时,会造成比较严重的光谱扭曲。

随后,矩阵分解方法在图像处理中取得了较好的结果,于是开始涌现出了大量基于矩阵分解方法。基于矩阵分解的方法主要做法是将三维结构高光谱图像转化更容易处理的二维空间。该方法通常会将高光谱图像分解为光谱字典乘以空间系数的形式。其中,光谱字典包含了高光谱图像的光谱特征,而空间系数则包含了大量的空间信息。基于矩阵分解的高光谱图像融合方法根据其类型又可被分为稀疏表示方法 [9] [10] [11] 和低秩方法 [12] [13] [14] 。在稀疏表示模型中,光谱字典被视为一个过完备的字典,为了去获得其系数的稀疏性,通常来说字典所包含的原子数是要比光谱数要更大的,该方法假定高光谱图像的光谱信号是由几个光谱原子进行线性表示形成的。在稀疏表示模型中,光谱字典的学习通常来自于低分辨的高光谱图像,因为其包含了最多的光谱信息。Kawakami等人 [15] 首次提出了稀疏矩阵分解的方法来解决高光谱和多光谱图像的融合问题,他们首先通过稀疏字典学习算法从低分辨的高光谱图像中学习光谱字典,再通过使用高分辨率的多光谱图像进行稀疏编码算法来求解稀疏系数。Akhtar等人 [9] 充分利用了高分辨率的多光谱图形中的非局部自相似性,同时设计了一个耦合的贪心算法来求解稀疏系数。Dong等人 [11] 首次提出了一种过完备字典的学习算法,通过稀疏正则来确立稀疏系数,为了进一步利用空间信息存在的非局部自相似性,他们使用高分辨的多光谱图像来设计非局部自相似先验。而对于基于低秩的方法来说,因为光谱信号具有一定的冗余性,所以该方法假定光谱信号可以用低维的子空间中进行表示,子空间的维度是小于光谱维数的。Zhou等人 [16] 和Veganzones等人 [17] 使用了不同的局部低秩正则从高分辨的多光谱图像中探究局部信息,同时采用独立重建每一块局部区域的方法获得融合结果。

由于高光谱图像和多光谱图像本身就是三维的结构,所以可以自然地想到使用张量对高光谱图像以及多光谱图像进行表示。基于张量表示的方法通常聚焦于分解方式和构建的正则项。Dian等人 [18] 从低分辨率的高光谱图像中学习张量子空间,并通过按照非局部自相似性分组的张量块施加基于张量多秩的低秩正则来探索低秩性和非局部自相似性。同时,Dian等人 [19] 又提出基于张量列秩的分解,通过非局部自相似性对低分辨率的高光谱图像进行分解,形成四维的张量组,在其上施加低列秩正则,但由于张量列秩无法直接求解,于是他们找到近似的下届去逼近模型的最小值。Li等人 [20] 提出耦合稀疏张量分解,该方法通过使用近端交替优化方法去确立核张量以及三个维度上的因子矩阵,并对它们都施加稀疏正则来求解融合模型。最近,深度学习技术在各个研究领域都有着广泛应用。随着卷积神经网络的兴起,深度学习在图像处理领域大获成功,在图像超分辨率、去噪、识别等各种任务上表现出色,因此在多源图像融合领域上也涌现了大量基于深度学习的方法。Xie等人 [21] 通过使用卷积神经网络学习图像先验,然后将其加入到融合任务公式中组合成一个新的优化问题。Wang等人 [22] 设计了一个迭代增强的单元来充分利用两个待融合图像的信息,将其融入到融合网络中。

高光谱图像拥有大量的光谱信息,这些信息对于重建空间像素也具有指导意义。在光谱的可搜寻到的相似像素要多于在空间中搜索到的光谱像素。所以利用光谱像素可以更好地对空间上的进行重建。且利用光谱像素构建空间像素时候,可以在一定程度上保持住光谱的关联性,然而现存的方法往往会忽略这一属性。为了解决这一问题,本文设计了一种基于稀疏表示和光谱自回归高光谱图像融合方法。具体地说,为了可以充分构建空间上信息,本文设计了光谱自回归模型将其加入稀疏表示模型的正则项中,该模型通过在光谱维度上对空间像素进行重建,从另一维度对空间像素进行线性拟合。由于该拟合关系来源于低分辨率的高光谱图像,在一定程度上保证了光谱关联性。

2. 问题定义

2.1. 符号定义

本文用大写字母来表示矩阵,比如 A n 1 × n 2 A i 1 × n 2 表示矩阵 A i 行。同时,本文使用花体字母来定义张量,例如 A 。对于一个三维的张量 A n 1 × n 2 × n 3 ,其在 ( i 1 , i 2 , i 3 ) 上的元素被定义为 a i 1 i 2 i 3 A ( i 1 , : , : ) A ( : , i 1 , : ) A ( : , : , i 3 ) 分别定义的张量 A 的水平切面、侧切面和正面切面,其中我们特别指出将正面切面 A ( : , : , i 3 ) 定义为 A i 3 。与此同时,本文定义 A ( : , i 2 , i 3 ) A ( i 1 , : , i 3 ) A ( i 1 , i 2 , : ) 分别表示张量 A 的一模纤维、二模纤维和三模纤维。张量的三模展开通过将三模纤维作为矩阵的列,定义为 A ( 3 ) = unfold 3 ( A ) n 3 × n 1 n 2 。本文也需要使用到一些向量、矩阵以及张量的范数,下面给出这些范数的定义形式。对于一个向量 v n 1

l 2 范数定义为 v 2 = i 1 | v i 1 | 2 。对于一个矩阵 A ,其 l 1 范数定义为 A 1 = max i 2 i 1 | a i 1 i 2 | ,其F范数定义为 A F = i 1 i 2 | a i 1 i 2 | 2 。对于一个张量 A ,本文定义其F范数为 A F = i 1 i 2 i 3 | a i 1 i 2 i 3 | 2

2.2. 问题定义

高光谱图像融合是对同一场景下的高分辨率的多光谱图像(HR-MSI)和低分辨率的高光光谱图像(LR-HSI)进行融合,如图1所示。本文定义高分辨的高光谱图像为 Z W × H × S ,包含了 W × H 个空间像素和 S 个光谱维度。 X w × h × S 表示低分辨率的高光谱图像,它包含 w × h 个空间像素和 S 个光谱维度。低分辨率的高光谱图像可以使用高分辨率的高光谱图像通过空间下采样的方式获:

X ( 3 ) = Z ( 3 ) B (1)

这里的 Z ( 3 ) S × W H X ( 3 ) S × w h 分别 Z X 和三模展开。 B W H × w h 表示点扩散函数和下采样矩阵的结合。

Figure 1. Schematic of hyperspectral image fusion

图1. 高光谱图像融合示意图

高分辨率的多光谱图像定义为,它包含 W × H 个空间像素点和 s 个光谱维度。高分辨率的多光谱图像可以通过高分辨率的高光谱图像通过光谱下采样获得:

Y ( 3 ) = R Z ( 3 ) (2)

这里的 Y ( 3 ) s × W H 定义的是 Y 的三模展开。 R s × S 表示光谱响应函数。在多源图像融合中,通常需要解决一个如下的最优化问题:

min Z X ( 3 ) Z ( 3 ) B F 2 + Y ( 3 ) R Z ( 3 ) F 2 + ϕ ( Z ) (3)

该最优化问题包含两个保真项,此处的定义的 ϕ ( Z ) 基于 Z 的某种先验,通常来说,多源图像融合是一个不可逆的反问题,需要设计合理的先验来对该最优化问题进行正则,才能获得较好的融合结果。

3. 提出模型

3.1. 稀疏表示模型

稀疏表示是针对不确定方程组提出的,对于不确定性方程组,在方程组系数满秩的条件下,方程组具有无数组解,稀疏表示通过将解的稀疏性作为方程组的约束,使得方程组具有唯一解。稀疏表示模型在信号处理等领域有着广泛的应用,它通过从字典中寻找最小原子的线性组合来表示信号。通过这种方式,即可将高维的数据进行线性分解,能够更好地压缩信号,抑制噪声。

在高光谱图像处理领域,稀疏表示模型已经通过大量的工作证明了其编码信号的有效性。该模型通过假定一个一幅清晰的高光图像可以通过以下公式进行获得:

Z ( 3 ) = D A (4)

这里 D S × d 是光谱字典, A d × W H 是其系数。在稀疏表示模型中通常假定该系数是稀疏的,该模型的可视化示意图如图2所示。但是在多源图像融合问题中,高分辨率的高光谱图像 Z 通常是未知的,所以我们无法直接从 Z 中直接求得光谱字典 D 。幸运地是在多源图像融合问题中,同一场景下的低分辨率的高光谱图像 X 很好地保存了 Z 的光谱信息,因此我们可以从 X 中学习出光谱字典。

Figure 2. Schematic of sparse representation model

图2. 稀疏表示模型示意图

根据公式,低分辨率的高光谱图像 X 的每一像素也能够被光谱字典中的原子线性表示,即:

X ( 3 ) = D α (5)

这里的 α 是低分辨率的高光谱图像对应的系数。该系数通常也被假定是稀疏的,因此字典的求解通过解下面这个优化问题:

( D , α ) = argmin D , α 1 2 X ( 3 ) D α F 2 + λ α 0 (6)

此处的 α 0 表示的是 α 的零范数,该范数统计的 α 中的非零个数,因此该范数通常用来表示目标的稀疏性。然而零范数并不是一个真正意义上的范数,因此其不满足范数的三角不等式性质,在实际应用中,其往往是难以优化的。相关研究学者已经证明在一定系数条件下,零范数可以转换成 l 1 范数进行估计。有很多经典的字典学习算法已经被提出,本文将采用非负矩阵分解,因此公式(6)可以转换成如下形式:

( D , α ) = argmin D , α 1 2 X ( 3 ) D α F 2 + λ α 1 s . t . D 0 , α 0. (7)

此处的 λ 是一个正则项系数,公式(7)求解需要使用到非负字典学习算法,本文将使用文献 [11] 中的非负光谱字典学习算法来求解光谱字典D。我们将稀疏表示模型加入到公式(3)中,可以的得到如下公式:

min Z , A X ( 3 ) D A B F 2 + Y ( 3 ) R D A F 2 + ϕ ( Z ) + η A 1 , s . t . Z ( 3 ) = D A (8)

3.2. 光谱自回归模型

高光谱图像含有丰富的光谱信息,这些光谱维度上的信息要比空间上的搜索到局部或者是非局部信更加接近于真实的像素值,但是现存的很多方法更多的是在于将光谱和空间的信息独立处理,比如利用多光谱图像空间信息来重建空间信息,利用低分辨率的高光谱图像重建光谱信息。而本文提出的光谱自回归模型,假定光谱维度上的像素点可以由其前后n个范围内的点进行线性拟合,根据光谱局部关联性的特点,在本文中我们设定 n = 2 。这种交叉视角的融合方法不仅能对空间像素进行更加精确的拟合,同时由于像素的关系来源于LR-HSI,因此其在一定程度上保留的光谱间的关联性信息,其处理流程图如图3所示。

Figure 3. Spectral autoregressive model flowchart

图3. 光谱自回归模型流程图

高光谱图像的光谱信息主要保存在低分辨率的高光谱图像 X h × w × S 中,因此我们将从LR-HSI中学习光谱自回归模型。首先需要将LR-HSI图像分割成T个光谱子条 x ^ 1 , , x ^ T ,其中 x ^ t 2 n + 1 ,然后将它们使用k-means++算法进行光谱相似性聚类,将其聚成J类 { G 1 , , G J } ,其中第j个类 G j 的质心定义为 β j 。对于每一类 G j ,我们都可以学习一个光谱自回归模型。我们定义其第j类的光谱自回归模型为 b j ,它可以被通过如下的公式获得:

b j = argmin b x ^ G j ( x ^ 0 b u x ^ ) (9)

这里的 x ^ 0 是光谱子条上的中心像素, u x ^ 是中心点像素在光谱字条 x ^ t 前后n个范围内的像素点。我们可以获得 J 个光谱自回归模型 { b 1 , , b J } 。在获得光谱自回归模型之后,我们就需要利用该模型完成图像融合。

然而,通常一幅高光谱图像具有广袤的信息,其空间范围巨大,因此逐个像素去进行处理,计算复杂度太大,不具备现实意义,因而需要找到一个合适的方式对空间像素进行分组并且在光谱上也要保证其相似性,这也就意味着,我们需要按照图像的色彩、亮度等因素对图像完成分组。在图像分割领域的超像素分割技术恰巧可以解决这一问题,本文使用线性迭代聚类算法(Simple Linear Iterative Clustering, SCIL) [23] 进行超像素分割。高分辨率的多光谱图像 Y H × W × s 含有大量的空间信息,因此通过对其进行超像素分割,找到空间中色彩、亮度、纹理一样的 K 个图像块 Y ¯ 1 , , Y ¯ K ,需要注意的是这些图像块并不是规则的。我们将多光谱图像的分组直接应用到 Z ,获得 K 个不规则张量立方体 { Z ^ 1 , , Z ^ K } 。接着,需要为每个张量立方体 Z ^ k 计算出其平均立方体,它可以通过下面公式获得:

α k = 1 N k d n Z k ^ d n (10)

这里的 d n 是张量立方体 Z ^ k 中的光谱条, N k 是其拥有的光谱条数量。根据公式(10)我们可以得到K个平均立方体 α k 。对于需要获得高分辨率的高光谱图像 Z ,其空间中心像素 z 0 需要和其在光谱维度上n范围内的像素向量 u z 2 n 应该为 min z 0 b j z u z 2 2 b j z 通过 argmin j α k β j 2 2 获得。我们将光谱自回归模型作为正则项加入公式(8)得到如下形式:

min Z , A X ( 3 ) D A B F 2 + Y ( 3 ) R D A F 2 + λ k = 1 K z Z ^ k z 0 b j z u z 2 2 + η A 1 , s . t . Z ( 3 ) = D A (11)

这里的 λ 是一个用来平衡光谱自回归模型的参数。为了简化计算,我们重写光谱自回归项,将其变为 i = 1 K ( I H k ) Z ( 3 ) ^ k 2 2 ,这里的I是一个单位矩阵, Z ( 3 ) ^ k Z ^ k 的三模展开矩阵, H i ( 2 n+1) × N k 是光谱自回归矩阵,该矩阵的第i个元素的可以通过以下公式获得:

H ( l , m ) = { β l if z m u z , β b j z 0 otherwise (12)

与此同时,本文提出的模型变成:

min Z , A X ( 3 ) D A B F 2 + Y ( 3 ) R D A F 2 + λ k = 1 K ( I H k ) Z ( 3 ) ^ k 2 2 + η A 1 , s . t . Z ( 3 ) = D A (13)

3.3. 优化

从上一小节提出的模型可以看出,该模型是一个非凸优化问题,因此我们需要使用交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)迭代的方法来解决这个问题。我们通过引入变量 Q = Z ( 3 ) 以及 E = A ,然后将公式(13)写成其增广拉个朗日的形式如下:

L ( A , Z ( 3 ) , E , V 4 ) = X ( 3 ) Z ( 3 ) B F 2 + Y ( 3 ) R D A F 2 + λ k = 1 K ( I H k ) Q ^ k F 2 + μ E A + V 2 2 μ F 2 + μ D E Z ( 3 ) + V 1 2 μ F 2 + μ Q Z ( 3 ) + V 4 2 μ F 2 + η 1 E 1 (14)

这里 V 1 S × H W V 2 S × d V 4 S × H W ,是拉格朗日乘子, μ 是惩罚项。ADMM通过固定一项求解另外一项的方法求解公式(14),下面将介绍每个子问题的具体解法。

3.3.1. 求解Z(3)

为了优化 Z ( 3 ) ,公式(14)被重写成关于 Z ( 3 ) 的子问题:

argmin Z ( 3 ) X ( 3 ) Z ( 3 ) B F 2 + μ D E Z ( 3 ) + V 1 2 μ F 2 + μ Q Z ( 3 ) + V 4 2 μ F 2 (15)

公式(15)有如下闭解:

Z ( 3 ) = [ ( B ) ( B ) + 2 μ I ] 1 [ B X ( 3 ) + μ ( D E + V 1 2 μ ) + μ ( Q + V 4 2 μ ) ] (16)

3.3.2. 求解Q

求解 Q ,公式(14)被重写成:

argmin Q μ Q Z ( 3 ) + V 4 2 μ F 2 + λ k = 1 K ( I H k ) Q ^ k F 2 (17)

由于 K 个类别是按超像素分割进行分组的,所以每个 k 之间是相互独立的。因此我们将采用子类之间独立优化的方法,将等式(17)重写成:

argmin Q k = 1 K μ Q ^ k Z ( 3 ) ^ k + V 4 ^ k 2 μ F 2 + λ ( I H k ) Q ^ k F 2 (18)

这里的 V 4 ^ k Z ( 3 ) ^ k 分别是 V 4 Z ( 3 ) 按照超像素分割后的结果。公式(18)可以通过下面的公式求解:

Q ^ k = [ μ I + λ ( I H k ) ( I H k ) ] 1 μ ( Z ( 3 ) ^ k V 4 ^ k 2 μ ) (19)

我们将求解完成的 Q ^ k ,通过超像素分组位置进行拼接,还原成 Q = { Q ^ 1 , , Q ^ K }

3.3.3. 求解A

为求解 A ,需要将公式(14)转化为:

argmin A Y ( 3 ) R D A F 2 + μ E A + V 2 2 μ F 2 (20)

问题(20)可通过如下公式获得闭解:

A = [ ( R D ) ( R D ) + μ I ] 1 [ ( R D ) Y ( 3 ) + μ ( E + V 2 2 μ ) ] . (21)

3.3.4. 求解E

对于参数E来说,我们优化E通过重写公式(14)为下面的式子:

argmin E μ E A + V 2 2 μ F 2 + η 1 E 1 (22)

公式(22)可以通过软阈值收缩算子进行解决,其解的形式为:

E = [ Soft ( A V 2 2 μ , η 1 2 μ ) ] + . (23)

3.3.5. 求解拉格朗日乘子

拉格朗日乘子 V 1 V 2 V 4 通过如下公式进行更新:

V 1 = V 1 + μ ( D A Z ( 3 ) ) V 2 = V 2 + μ ( E A ) V 4 = V 4 + μ ( Q Z ( 3 ) ) (24)

以上就是本文提出模型的全部解法。

4. 实验

4.1. 实验设置

4.1.1. 数据集

为了验证提出方法的有效性,我们将对比方法和本文提出的方法在三个公开数据集上进行对比实验。第一个数据集是哥伦比亚大学计算机视觉实验室提供的CAVE数据集。该数据集有32张室内的高质量图片。在CAVE数据集中的每个数据集有512 × 512个空间像素和31个光谱维度,光谱波长间隔10 nm,范围从400 nm到700 nm。CAVE数据集中的高光谱图像就是原始数据,我们使用其对LR-HSI进行仿真,用平均模糊核通过平均大小为s × s图像对原始数据进行模糊,这里的s是下采样因子。HR-MSI的生成使用尼康D700相机的光谱响应,大小为512 × 512 × 3。

第二个数据集是帕维亚大学(Pavia University)数据集,Pavia University是通过使用rosis传感器在位于意大利的帕维亚大学收集的。该传感器收集了115个光谱带的数据,在移除一些异常和包含噪声的数据之后,剩下了103维光谱维的数据用于实验。该数据集的包含了610 × 340个空间像素。我们截取了其中320 × 320个空间像素,最终形成用于实验的数据集是320 × 320 × 103的真实图像。同样,LR-HIS的生成使用大小为s的平均模糊核进行生成。HR-MSI的光谱生成依靠伊科诺斯卫星(IKONOS)去生成一个320 × 320 × 4的图像。

4.1.2. 对比方法

本文是面向传统优化方法的高光谱图像和多光谱图像融合,所以和同类型的方法做对比,而非深度学习方法。我们选择目前在该领域内较为先进的方法:HySure [24] (A Convex Formulation for Hyperspectral Image Super-resolutionvia Subspace-Based Regularization),NSSR [11] (Non-negative Structure Sparse Representation),CSTF [20] (Coupled Sparse Tensor Factorization, CSTF),LTTR [19] (Learning a Low Tensor-train rank Representation for Hyperspectral Image super-resolution),IR-TenSR [25] (Iterative Regularization Method Based on Tensor Subspace Representation)。比较方法均使用各个方法中的最优参数。

4.1.3. 评价指标

多源图像融合任务,是需要对同一场景的地物来源于不同传感器的图像进行融合,以获得对地物更加精准的观测。因此需要对融合后的结果使用评价指标来衡量融合的算法模型性能,目前主要包括主观评价指标和客观评价指标。

主观评价方法主要是从视觉的角度主观地对融合后图像的纹理信息和边缘清晰度等进行评判。客观评价指标依靠数据通过某种方法对重建后的图像 Z 与对应的真实图像进行对比,目前常用的高光谱图像质量评价指标主要有以下几种:

均方根误差(Root Mean Squared Error, RMSE):该指标通过融合后的图像和真实图像间的差值来衡量图像质量。其值越小,表示融合结果与真实图像越接近。该指标无单位,公式表示如下:

RMSE = 1 W H S j = 1 S i = 1 W H ( Z < i , j > Z ori < i , j > ) 2 (25)

峰值信噪比(PeekSignal-to-Noise Ratio, PSNR):信号的最大功率和信号噪声功率之比,该指标反映融合后的图像与真实图像相比是否失真,通常以分贝(dB)来表示。PSNR指标越高,说明图像质量越好。

PSNR = 10 log 10 1 W H i = 1 W i = 1 H ( Z < i , j > Z ori < i , j > ) 2 (26)

结构相似性(Structure Similarity, SSIM):该指标通过亮度、对比度和结构这三个因素来衡量两幅图像的相似度,其取值范围为[0,1],SSIM的值越大,表示图像失真程度越小,图像的结构与真实图像的结构相似度越高,也反映出融合图像质量越好

(27)

其中, μ Z σ Z 分别为图像信号 Z 的平均值和标准差, Y Z 的相关系数, C 1 C 2 为常数。

光谱角匹配(Spectral Angle Mapping, SAM):评估每个像素点的光谱信息保存,通过计算重建光谱和地况光谱的两个向量之间的角度来确定图像的光谱失真,用于衡量图像光谱信息的完整程度。SAM数值越小,表示重建效果越好,该指标单位为度。公式如下:

SAM ( Z ori , Z ) = 1 H W i = 1 H W arccos ( Z ori , Z Z ori 2 Z 2 ) (28)

相对无量纲全局误差(Erreur Relative Globale Adimensionnelle De Synthsès, ERGAS):可以衡量重建图像的全局质量,ERGAS数值越低,重建效果越好,该指标无单位。

ERGAS ( Z ori , Z ) = 100 r 1 C i = 1 C ( RMSE i Mean ( Z ori i ) ) 2 (29)

其中, RMSE i 表示在第i通道上的均方误差, Mean ( ) 表示图像的通道均值,r为超分辨率的比例因子。

通用图像质量指数(Universal Image Quality Index, UIQI):该指标从相关损失、亮度畸变和对比度畸变这三个方面对融合结果和真实图像进行计算,数值越高,表示融合图像的效果越好,该指标无单位,公式如下:

UIQI ( Z ori , Z ) = 4 μ Z ori μ Z σ Z Z ori ( μ Z ori 2 + μ Z 2 ) ( σ Z ori 2 + σ Z 2 ) (30)

4.2. 量化分析

4.2.1. 参数设置

对于提出的模型来说,有三个变量最为重要,它们分别是 λ η K ,CAVE数据集具有较少的光谱维度,而Pavia University和Washington DC Mall都具有较高的数据集,因此我们选择对CAVE这类光谱较短的数据集,Pavia University及Washington DC Mall这一类光谱维度较长的数据集分开讨论。

Figure 4. Transformation curves of PSNR for each parameter

图4. 各参数的PSNR的变换曲线

图4中显示的是对于CAVE数据集和Pavia University数据集上的参数变化示意图。红色代表CAVE数据集的,蓝色代表Pavia University数据集。从图中的变化曲线可以看出,对于CAVE数据集来说,λ从 10 6 左右开始成上升趋势,直到 0.5 × 10 4 附近达到最大值,之后开始呈现下降的趋势,因此在实验中,我们设置 λ = 0.5 × 10 4 。从关于η的变化曲线上可以看出,其峰值集中在 0.1 × 10 5 0.6 × 10 5 ,所以在实验中我们设置 η 1 = 0.6 × 10 5 。另一个较为关键的参数是K,通过观察其变化曲线可以发现,该曲线在200时候到达峰值,因此对于CAVE数据集我们设置 K = 200 。蓝色曲线是Pavia University数据集参数变化趋势,从图中我们可以看出,对于参数λ其变化趋势呈现先上升后下降的趋势,并在 0.5 × 10 3 处达到峰值,因而对于Pavia University数据集来说,我们设置 λ = 0.5 × 10 3 。参数η其峰值位于 0.8 × 10 7 0.2 × 10 6 之间,因此在我们实验中,设置参数 η = 0.1 × 10 6 。K的峰值位于300左右,我们设置 K = 300 。Pavia University数据集各项参数是与Washington DC Mall数据集进行共享的,因为这两个数据集都属于光谱维度较长,所以我们使用共同的参数。

4.2.2. 对比实验

本节为了验证本文提出方法的有效性在三个数据集的实验结果。表1显示的是在CAVE数据集上不同方法在不同评价指标的实验结果。最好的实验结果已经加粗字体标出。

Table 1. Average experimental results for each comparison method on CAVE data

表1. 各个比较方法在CAVE数据集上的平均实验结果

表1中够可以看出HySure方法在CAVE这种较高分辨率上的结果表现并不是很好,因为其探究的变分正则对于CAVE这类空间分辨率较高且其高频信息含量较少的数据集来说,并不是一个好的正则项。IR-TenSR方法主要面向的是对不同噪声的数据集有更加优秀的表现,而对于此类噪声单一,更加关注图像本身融合质量的任务来说,表现不够亮眼。相较于其他对比方法,NSSR取得了更加满意的结果,这依赖于其充分探究了图像的非局部相似性。但是空间上的像素的相似程度并没有光谱上的相似程度高,因此本文提出的方法在各个不同的下采样因子下面都获得了较好的实验结果。

表2中列出的是在Pavia University数据集上的结果。该光谱数据集相较于CAVE数据集,其拥有更多的光谱维度,但空间分辨率也更低一点,且包含较多的地物信息。因此HySure方法在该数据集上表现更加出色,在不同下采样因子下都取得了较好的实验结果。NSSR及LTTR在CAVE数据集上表现都较好,但对于Pavia University这类数据集自身含有一定噪声,且高频信息较多的,其设置的先验并不能够得到充分地学习,因此其效果产生下降。而反观本文提出的方法,在不同的下采样因子下都取得了最好的结果,这主要由于我们使用了光谱自回归利用光谱维度的信息对空间进行重建,且在一定程度上保存了光谱信息。

Table 2. Average experimental results for each comparison method on Pavia University data

表2. 各个比较方法在Pavia University数据集上的平均实验结果

4.3. 视觉效果展示

本章节将对提出的模型进行图像视觉上进行比较,我们通过制作了三个数据集的彩色图像及其误差图像。首先是CAVE数据集的视觉展示在图5,通过图中所展示的彩色图像分别是取了×16的结果图像10、15、25维组成的,误差图像为第15维与真实图像之间的差值。从视觉图像上可以看出来HySure、NSSR、IR-TenSR在插值图像上有较多的误差,CSTF在平滑区域有误差波纹,而本文提出的方法更加接近于真实图像这与我们的实验结果是一致的。

Figure 5. Full-color and error images of the CAVE dataset

图5. CAVE数据集的全彩图像和误差图像

而对于光谱维度更高的Pavia University数据集来说其视觉效果展示如图6所示,HySure和CSTF取的了较好的视觉效果,并且误差矩阵更小,LTTR以及IR-TenSR中心高频区域误差较大,且其全色图像在相同的光谱上形成的色彩效果也有差异,而相较于比较方法,本文提出的方法的无论是全彩图像还是误差图像都更加解决于真实图像。

Figure 6. Full-color and error images of the Pavia University dataset

图6. Pavia University数据集的全彩图像和误差图像

5. 总结与展望

本文提出了一种基于稀疏表示和光谱自回归的高光谱图像融合模型,该模型通过使用稀疏表示模型作为基本模型,在一定程度上抑制了空间噪声。同时,为了获得更好的融合结果,本文通过将光谱像素引入空间维度进行空间像素的重建,构建出光谱自回归模型对模型进行正则。光谱自回归模型不仅可以将光谱维度上相似的像素引入空间,对空间上的信息更加精确的重建,同时可以自然保留光谱关联性质。通过在两个公开数据集上的实验结果证明该方法的有效性。但该模型对空间维度信息利用不够充分,将在未来的研究中加以改进。

参考文献

[1] Bioucas-Dias, J.M., Plaza, A., Camps-Valls, G., et al. (2013) Hyperspectral Remote Sensing Data Analysis and Future Challenges. IEEE Geoscience and Remote Sensing Magazine, 1, 6-36.
https://doi.org/10.1109/MGRS.2013.2244672
[2] Akhtar, N. and Mian, A. (2018) Nonparametric Coupled Bayesian Dictionary and Classifier Learning for Hyperspectral Classification. IEEE Transactions on Neural Networks and Learning Systems, 29, 4038-4050.
https://doi.org/10.1109/TNNLS.2017.2742528
[3] Zhang, Y., Du, B., Zhang, L. and Liu, T. (2017) Joint Sparse Representation and Multitask Learning for Hyperspectral Target Detection. IEEE Transactions on Geoscience & Remote Sensing, 55, 894-906.
https://doi.org/10.1109/TGRS.2016.2616649
[4] Deng, L.J., Feng, M. and Tai, X.C. (2019) The Fusion of Panchromatic and Multispectral Remote Sensing Images via Tensor-Based Sparse Modeling and Hyper-Laplacian Prior. Information Fusion, 52, 76-89.
https://doi.org/10.1016/j.inffus.2018.11.014
[5] Ma, J., Yu, W., Chen, C., et al. (2020) Pan-GAN: An Unsupervised Pan-Sharpening Method for Remote Sensing Image Fusion. Information Fusion, 62, 110-120.
https://doi.org/10.1016/j.inffus.2020.04.006
[6] Meng, X., Shen, H., Yuan, Q., et al. (2019) Pansharpening for Cloud-Contaminated Very High-Resolution Remote Sensing Images. IEEE Transactions on Geoscience and Remote Sensing, 57, 2840-2854.
https://doi.org/10.1109/TGRS.2018.2878007
[7] Chen, Z., Pu, H., Wang, B. and Jiang, G.M. (2014) Fusion of Hyperspectral and Multispectral Images: A Novel Framework Based on Generalization of Pan-Sharpening Methods. IEEE Geoscience and Remote Sensing Letters, 11, 1418-1422.
https://doi.org/10.1109/LGRS.2013.2294476
[8] Selva, M., Aiazzi, B., Butera, F., Chiarantini, L. and Baronti, S. (2015) Hyper-Sharpening: A First Approach on SIM-GA Data. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 8, 3008-3024.
https://doi.org/10.1109/JSTARS.2015.2440092
[9] Akhtar, N., Shafait, F. and Mian, A. (2014) Sparse Spatio-Spectral Representation for Hyperspectral Image Super-Resolution. In: Fleet, D., Pajdla, T., Schiele, B. and Tuytelaars, T., Eds., Computer VisionECCV 2014, Springer, Cham, 63-78.
https://doi.org/10.1007/978-3-319-10584-0_5
[10] Huang, B., Song, H., Cui, H., et al. (2013) Spatial and Spectral Image Fusion Using Sparse Matrix Factorization. IEEE Transactions on Geoscience & Remote Sensing, 52, 1693-1704.
https://doi.org/10.1109/TGRS.2013.2253612
[11] Dong, W., Fu, F., Shi, G., et al. (2016) Hyperspectral Image Super-Resolution via Non-Negative Structured Sparse Representation. IEEE Transactions on Image Processing, 25, 2337-2352.
https://doi.org/10.1109/TIP.2016.2542360
[12] Liu, J., Wu, Z., Xiao, L., et al. (2020) A Truncated Matrix Decomposition for Hyperspectral Image Super-Resolution. IEEE Transactions on Image Processing, 29, 8028-8042.
https://doi.org/10.1109/TIP.2020.3009830
[13] Wei, Q., Bioucas-Dias, J., Dobigeon, N., et al. (2015) Hyperspectral and Multispectral Image Fusion Based on a Sparse Representation. IEEE Transactions on Geoscience & Remote Sensing, 53, 3658-3668.
https://doi.org/10.1109/TGRS.2014.2381272
[14] Yokoya, N., Miyamura, N. and Iwasaki, A. (2010) Detection and Correction of Spectral and Spatial Misregistrations for Hyperspectral Data Using Phase Correlation Method. 2010 IEEE International Geoscience and Remote Sensing Symposium, Honolulu, 25-30 July 2010, 1003-1006.
https://doi.org/10.1109/IGARSS.2010.5652919
[15] Kawakami, R., Matsushita, Y., Wright, J., et al. (2011) High-Resolution Hyperspectral Imaging via Matrix Factorization. CVPR 2011, Colorado Springs, 20-25 June 2011, 2329-2336.
https://doi.org/10.1109/CVPR.2011.5995457
[16] Zhou, Y., Feng, L., Hou, C. and Kung, S.Y. (2017) Hyperspectral and Multispectral Image Fusion Based on Local Low Rank and Coupled Spectral Unmixing. IEEE Transactions on Geoscience & Remote Sensing, 55, 5997-6009.
https://doi.org/10.1109/TGRS.2017.2718728
[17] Veganzones, M.A., Simoes, M., Licciardi, G., et al. (2015) Hyperspectral Super-Resolution of Locally Low Rank Images from Complementary Multisource Data. IEEE Transactions on Image Processing, 25, 274-288.
https://doi.org/10.1109/TIP.2015.2496263
[18] Dian, R. and Li, S. (2019) Hyperspectral Image Super-Resolution via Subspace-Based Low Tensor Multi-Rank Regularization. IEEE Transactions on Image Processing, 28, 5135-5146.
https://doi.org/10.1109/TIP.2019.2916734
[19] Dian, R., Li, S. and Fang, L. (2019) Learning a Low Tensor-Train Rank Representation for Hyperspectral Image Super-Resolution. IEEE Transactions on Neural Networks and Learning Systems, 30, 2672-2683.
https://doi.org/10.1109/TNNLS.2018.2885616
[20] Li, S., Dian, R., Fang, L., et al. (2018) Fusing Hyperspectral and Multispectral Imagesvia Coupled Sparse Tensor Factorization. IEEE Transactions on Image Processing, 27, 4118-4130.
https://doi.org/10.1109/TIP.2018.2836307
[21] Xie, Q., Zhou, M., Zhao, Q., et al. (2019) Multispectral and Hyperspectral Image Fusion by MS/HS Fusion Net. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 1585-1594.
https://doi.org/10.1109/CVPR.2019.00168
[22] Wang, W., Fu, X., Zeng, W., et al. (2021) Enhanced Deep Blind Hyperspectral Image Fusion. IEEE Transactions on Neural Networks and Learning Systems, 34, 1513-1523.
https://doi.org/10.1109/TNNLS.2021.3105543
[23] Achanta, R., Shaji, A., Smith, K., et al. (2012) SLIC Superpixels Compared to State-Of-The-Art Superpixel Methods. IEEE Transactions on Pattern Analysis & Machine Intelligence, 34, 2274-2282.
https://doi.org/10.1109/TPAMI.2012.120
[24] Bioucas-Dias, J., Simoes, M., Almeida, L.B. and Chanussot, J. (2015) A Convex Formulation for Hyperspectral Image Superresolution via Subspace-Based Regularization. IEEE Transactions on Geoscience and Remote Sensing, 53, 3373-3388.
https://doi.org/10.1109/TGRS.2014.2375320
[25] Xu, T., Huang, T.Z., Deng, L.J. and Yokoya, N. (2022) An Iterative Regularization Method Based on Tensor Subspace Representation for Hyperspectral Image Super-Resolution. IEEE Transactions on Geoscience and Remote Sensing, 60, 1-16.
https://doi.org/10.1109/TGRS.2022.3176266