1. 引言
高光谱成像是一项备受关注的遥感技术。高光谱图像(HSI) [1] 将反映物质辐射的光谱信息与地形的空间信息相结合。由于HSI中丰富的光谱和空间信息,它们在食品安全 [2] 、环境监测 [3] 、矿产勘探 [4] 等领域有着广泛的应用。然而,由于高光谱成像仪器 [5] 的空间分辨率限制,HSI中的像素通常由混合光谱 [6] 、 [7] 组成,代表各种材料的组合,称为混合像素。在实际应用中,混合像素的丰富性会显著影响基于像素的材料分类和面积测量方法的准确性,使高光谱图像的开发和应用更具挑战性。为了解决这个问题,通常有两种方法需要考虑:第一种方法涉及提高光谱仪的空间分辨率,这不可避免地会增加人力和财力成本。第二种方法,高光谱解混 [8] ,通常用于降低成本。光谱解混的主要目标是仅基于观测到的高光谱图像提取/估计每个像素中的端元及其丰度分数 [9] 。
在众多的高光谱混合方法中,线性光谱混合模型(LSMM) [10] 以其简单、高效和能够很好地描述真实的光谱混合过程而脱颖而出。在LSMM框架的基础上,研究人员引入了几种有效的解混算法,包括一些最具代表性的算法,如几何、统计或稀疏方法。在几何方法领域,顶点分量分析(VCA) [11] 和完全约束最小二乘解混合(FCLSU) [12] 是最常用的技术。在稀疏解混方法领域,如最小绝对收缩和选择算子(LASSO) [13] 和基于增强拉格朗日量的稀疏解混(SUnSAL) [14] 由于其卓越的性能,引起了人们的极大关注。基于统计的方法中,由于在学习基于分量的表示方面的独特优势,非负矩阵因子分解(NMF) [15] 和L1/2-NMF [16] 是统计方法类别中同时估计端元和丰度的两种最常用的算法。
近年来,随着深度学习的兴起,基于卷积神经网络(CNN)的各种方法在高光谱分解领域得到了快速发展。其中,Danfeng Hong等人提出的EGU-Net [17] 针对端元引导的解混,引入了使用端元来引导解混网络的概念。它代表了在解混研究中首次利用此类技术,为解混研究的未来发展提供了新的见解。Behnood Rasti等人提出了最小单纯形卷积网络(MiSiC-Net) [18] ,该网络结合了相邻像素之间的空间相关性和线性单纯形的几何特性。
近年来,Transformer [19] [20] 的开发在NLP中取得了巨大成功,而Vision Transformer [21] 将这种架构扩展到了计算机视觉领域。它展示了其独立于卷积运算的独特能力,并在各类图像处理任务中取得了非凡的成果。例如最近Preetam Ghosh及其同事引入了Deep Trans [22] 网络,该网络首次尝试将Transformer架构应用于高光谱解混任务,并取得了显著的研究成果。这令人信服地证明了Transformer在图像解混任务中的可行性。
2. 方法
本文提出了一种基于多尺度池化和Transformer的双协同高光谱解混编解码器网络。所提出的网络的编码器部分分为两个模块:多尺度池化模块和Transformer编码器模块,如图1所示。
![](//html.hanspub.org/file/62-2571236x8_hanspub.png?20231127084741451)
Figure 1. PCTU-Net structure diagram
图1. PCTU-Net结构图
2.1. 相关问题
2.1.1. 公式和有关符号表示
本文中涉及的符号由以下表示:设高光谱图像
,其中空间维度用
表示,光谱通道用B表示。HSI可以被重塑以产生矩阵
, 表示B波段
像素的输入HSI。
代表第i个观测光谱。端元矩阵将由
表示,
为第i个端元向量,R表示HSI中存在的端元的数量。相应的丰度立方体由
表示。丰度立方体可以被重塑以产生矩阵
,
表示第i个观测像素对应的分数丰度。LMM已经被广泛用于解混,在LMM中观测到的反射率公为:
(1)
其中
是Y中存在的加性噪声。另外,在解混任务中通常应满足三个物理约束条件:首先端元矩阵应该是非负的
,其次需要满足丰度非负约束和丰度合一约束,即
,
,其中
表示1的n维列向量。
2.1.2. 编码器
由于AE具有强大的表示和重构能力,非常有能力从给定的输入中重建和提取信息,因此已成为无监督深度学习模型在高光谱解混领域的代表。一般来说,AE由编码器与解码器构成。本文中编码器部分输入像素
将其降维为
,用公式可以表示为:
(2)
其中F(.)为非线性激活函数,如sigmoid和ReLU等,
和
表示第d个编码器部分的权重和偏置。
2.1.3. 解码器
解码器的主要任务是基于LMM将提取的隐藏特征转化为原始输入像素,重构像素
表示为:
(3)
其中,
为解码器部分的权重矩阵,所提取的端元矩阵的结果
和估计的丰度向量
分别对应
和
2.1.4. 损失函数
AE解混网络的目标函数是通过在均方误差(MSE)和光谱角距离(SAD)等不同测量形式下
和
之间的重构误差来实现的
(4)
(5)
RE损失由均方误差(MSE)目标函数计算,并帮助编码器部分只学习输入HSI的基本特征,而丢弃非必要的细节。SAD损失是一个尺度不变目标函数。MSE区分端元,基于它们的绝对大小,这在HSI解混的情况下是不可取的。加入SAD损失有助于抵消MSE目标函数的这一缺点,使整个模型收敛得更快。总损失按这两个损失的加权和计算:
(6)
正则化参数为
和
,我们会在后续实验部分介绍这两个参数的影响。
2.2. 多尺度池化模块
本文设计了多尺度池化模块对于输入图像
进行三个维度的池化操作以期待更细节的学习图像特征,同时加深网络使Transformer编码器在长程网络上可以更好地处理图像信息以此提高解混性能,其池化过程如图2所示。
在最大池化中,输入的三维图像I经过最大池化操作后与条纹池化和平均池化进行融合,可表示为:
(7)
在条纹池化中,数学上,输入的三维图像
经过最大池化与卷积操作后得到输出
和
。其中水平池化输出
可以定义为:
(8)
垂直池化输出
可以定义为:
(9)
式中,i,j表示图像像素的位置,h,w表示池化的空间范围。
在平均池化中,输入的三维图像I经过平均池化操作后与条纹池化和最大池化进行融合,可表示为:
(10)
然后我们把
和
进行融合,如下所示:
(11)
最终,将Y经过一个1 × 1的卷积和Sigmoid函数得到输出z可以被计算为:
(12)
其中,σ表示sigmoid函数,f()表示1 × 1卷积。
2.3. Transformer模块
本文中Transformer由四个模块组成,接下来将详细讲述各模块功能及步骤。
首先,对于输入图像的嵌入(embedding),将输入图像分成固定大小的图像块,每个图像块被视为一个“patch”。这些图像块首先被线性变换(通常是一个卷积层),以产生初始的嵌入表示。这些表示构成了模型的输入序列。为了考虑到图像中各个位置的信息,通常会添加位置嵌入向量。位置嵌入向量与每个输入图像块的嵌入相加,以表示图像块在图像中的位置。
其次,对于自注意力机制(self-attention),Vision Transformer 使用了多头自注意力机制(Multi-Head Self-Attention),其中包括了多个注意力头。自注意力机制用于捕捉图像块之间的关系,以便模型可以理解全局和局部特征之间的相互作用。
注意力权重计算的公式如下:
(13)
其中,Q表示查询(Query)矩阵,K表示键(Key)矩阵,V表示值(Value)矩阵,而
是注意力头的维度。
然后,对于层归一化(Layer Normalization),在每个子层(如多头自注意力和前馈神经网络)之后,通常会应用层归一化来稳定训练。
最后,MLP通常由两个全连接层组成,每个全连接层后面跟着一个激活函数。这两个全连接层分别称为前馈神经网络(Feed-Forward Network)的一部分。MLP用于在Transformer模型中对每个位置的特征进行映射和变换。具体来说,MLP接收来自注意力子层的输出作为输入。
2.4. 解码器
将协同网络输出进行重塑并与输入特征图进行融合后,我们将自动编码器的输出给到解码器模块进行解码,其结构图如图1所示。其具体操作步骤如下:首先,本文解码器通过4层卷积核为1 × 1的卷积层将通道压缩至相应数据集端元的数目。其次,通过一个核为3 × 3的卷积及softmax函数后得到估计丰度。最终,将所得到的丰度经过一个核为1 × 1的卷积层后获得重构端元。
3. 仿真实验结果与分析
本文将所提出的网络的结果与六种不同的解混技术(即FCLSU、NMF、Coolab、EGU-Net、MiSiC-Net和Trans-Net)分别应用于两个真实数据集(即Samson和Apex)和一个合成数据集进行了比较。
3.1. 实验结果及与其他网络的比较
本文评估了所提出的模型的性能,并在上述三个数据集上将其与六种不同的方法进行了比较。其中包括三种传统的解混方法:利用VCA进行端元提取的FCLSU,L1⁄2-NMF采用丰度稀疏性进行解混,以及考虑空间光谱信息的collab进行联合解混。此外,还考虑了三种最先进的深度神经网络方法:EGU-Net,一种端元引导的解混合网络;频谱空间协作网络MiSiC-Net;以及Trans-Net,这是用于解混合的变压器网络的第一个应用。下列图3~8中,1表示 FCLSU方法,2表示NMF方法,3表示Collab方法,4表示RGU-Net,5表示MiSiC-Net,6表示Trans-Net,7表示本文拟议方法PTCU-Net。
![](//html.hanspub.org/file/62-2571236x61_hanspub.png?20231127084741451)
Figure 3. The comparison chart of RMSE values in the Samson dataset
图3. Samson数据集RMSE值结果对比图
![](//html.hanspub.org/file/62-2571236x62_hanspub.png?20231127084741451)
Figure 4. The comparison chart of SAD values in the Samson dataset
图4. Samson数据集SAD值结果对比图
![](//html.hanspub.org/file/62-2571236x63_hanspub.png?20231127084741451)
Figure 5. The comparison chart of RMSE values in the Apex dataset
图5. Apex数据集RMSE值结果对比图
![](//html.hanspub.org/file/62-2571236x64_hanspub.png?20231127084741451)
Figure 6. The comparison chart of SAD values in the Apex dataset
图6. Apex数据集SAD值结果对比图
![](//html.hanspub.org/file/62-2571236x65_hanspub.png?20231127084741451)
Figure 7. The comparison chart of RMSE values in the synthesized dataset
图7. 合成数据集RMSE值结果对比图
![](//html.hanspub.org/file/62-2571236x66_hanspub.png?20231127084741451)
Figure 8. The comparison chart of SAD values in the synthesized dataset
图8. 合成数据集SAD值结果对比图
Samson数据集:Samson数据集中的定量结果图3和图4。结果表明,在大多数情况下,所提出的模型在丰度和端元估计方面优于其他技术。其中,我们网络的平均均方根误差为比次优方法高30.90%;其平均SAD比次优方法高22.58%。实验结果表明了所提出的网络在Samson数据集上的竞争力,并证明了多尺度池化和Transformer之间的联合应用的网络在解混任务中的可行性和优越性。
Apex数据集:Apex数据集中的定量结果如图5和图6所示。从表中可以看出,与大多数其他方法相比,Apex数据中的终点“路”和“水”构成了相当大的挑战。然而,所提出的方法极大地提高了这两个端元的估计,这主要是由于所提出的网络对光谱空间信息的协同学习策略,该策略考虑了端元的几何信息,并充分利用了有效的谱带。该方法的平均RMSE值比次优方法高34.26%,平均SAD比次优法高71.10%。此外,基于SAD值,所提出的方法为所有端元提供了最佳端元估计。
合成数据集:为了评估所提出的方法对噪声的鲁棒性,我们在模拟数据集中添加了具有不同噪声功率的高斯白噪声,并获得了信噪比分别为20、30、40和50 dB的数据。不同噪声条件下的端元和丰度估计结果如图7和图8所示,包括所有备选解混方法的结果。总体而言,一方面,随着信噪比的增加,每个网络的丰度和端元的估计结果都有所改善。另一方面,与替代网络相比,本文提出的网络产生了优越的解混结果,在所有信噪比的RMSE和SAD方面表现出显著优势。这主要归功于所提出的方法融合了多尺度池化和Transformer的优势,对全局与局部信息进行了全面细致的学习。
3.2. 可视化分析
在对不同的数据集和比较网络进行实验研究之后,我们决定可视化地分析每个数据集生成的丰度图和端元图。从丰度图和端元图可以看出,与其他比较网络相比,本文方法得到的丰度图和端元图在视觉上最接近地面真值图(GTs)。接下来,将逐一讨论每个数据集上的结果。
![](//html.hanspub.org/file/62-2571236x67_hanspub.png?20231127084741451)
Figure 9. Visual comparison chart of Samson dataset obtained through different abundance unmixing techniques
图9. 通过不同丰度分解技术获得的Samson数据集的可视化对比图
![](//html.hanspub.org/file/62-2571236x68_hanspub.png?20231127084741451)
Figure 10. Visual comparison chart of Apex datasets obtained through different abundance unmixing techniques
图10. 通过不同丰度分解技术获得的Apex数据集的可视化对比图
![](//html.hanspub.org/file/62-2571236x69_hanspub.png?20231127084741451)
Figure 11. Visual comparison chart of synthesized datasets obtained through different abundance unmixing techniques
图11. 通过不同丰度分解技术获得的合成数据集的可视化对比图
![](//html.hanspub.org/file/62-2571236x70_hanspub.png?20231127084741451)
Figure 12. Visual comparison chart of Samson dataset obtained through different end member unmixing techniques
图12. 通过不同端元分解技术获得的Samson数据集的可视化对比图
对于图9和图12所示的Samson数据集:传统的分解方法(如FCLSU、NMF和Coolab)在丰度和端元图上显示的结果不充分。这是因为它们的性能受到终端元素之间差异的影响,这限制了它们在分解任务中的准确性,并导致这些模型的总体性能损失。EGU网法总体效果较好,但对端元素“水”的处理效果较差。这可能是由于网络主要针对纯端元进行分解,而这类任务在混合像元分解中的性能并不突出。MiSiC网络作为近年来应用于高光谱分解任务的代表性神经网络之一,在Samson上也显示出竞争性的分解结果。然而,由于CNN本身的限制,它不能有效地捕获全局信息,从而在最终重建的丰度图和端元图中留下了增强的空间。Trans-Net作为第一个基于Transformer处理分解任务的网络,提高了分解任务的精度。然而,由于变压器主要关注全局信息,其解混性能通常不如本文拟议的方法。
![](//html.hanspub.org/file/62-2571236x71_hanspub.png?20231127084741451)
Figure 13. Visual comparison chart of Apex datasets obtained through different end member unmixing techniques
图13. 通过不同端元分解技术获得的Apex数据集的可视化对比图
![](//html.hanspub.org/file/62-2571236x72_hanspub.png?20231127084741451)
Figure 14. Visual comparison chart of synthesized datasets obtained through different end member unmixing techniques
图14. 通过不同端元分解技术获得的合成数据集的可视化对比图
对于如图10和图13所示的Apex数据集:我们观察到,在“道路”端元上提出的方法最接近原始丰度图,相对而言,其他方法在估算端元和丰度方面的精度低于在屋顶和树端元上提出的方法,Trans-Net和提出的方法明显优于以往的方法;在水端元上,该方法也更具竞争力。整体网络性能的显著增强主要源于本文中多尺度池化和Transformer架构的协作培训。这种协作方法使网络能够获得全局和复杂的细节,从而大大提高网络性能。
对于图11和图14所示的合成数据集:可以看出,近年来提出的深度学习方法与经典分解方法相比取得了更好的结果。MiSiC网络、Trans网络以及本文提出的方法生成的丰度图和端元图显示出更接近于地面真值图(GTs)的视觉相似性。这主要是因为深度学习方法的学习能力较强,覆盖面更广,适应性更强。
4. 结论
本文中,该研究引入了一个基于多尺度池化和Transformer的网络结构以用于高光谱图像进行解混、降噪、超分辨率等任务。在任务性能上,本文以解混任务为例,与基准网络相比该网络在平均解混精度方面均取得了最佳实验结果。在网络结构上,本研究在PTCU网络的编码器中设计多尺度池化操作的使用保证了Transformer编码器不但关注了局部信息的细粒度细节,还加深了网络结构以充分发挥Transformer在长程网络上的优势,从而进一步学习了图像的全局信息,提高了网络性能。在实验研究上,为了验证所提出的PTCU网络的有效性,本文在Samson、Apex和合成数据集中进行了广泛的研究。实验结果表明,PTCU网络是一种有效的解混方法,在三种数据集上均展现出了优异的解混性能和富有竞争力的结果。最后,本文研究者期待PTCU网络在相关领域的进一步应用,为高光谱解混领域的发展做出贡献。
NOTES
*通讯作者。