1. 引言
高光谱遥感图像(Hyperspectral Remote Sensing Image, HSI) [1] 在土地利用分类领域具有广泛的应用前景,通过获取地球表面物体的连续光谱信息 [1] ,高光谱遥感图像(HSI)能够提供丰富的光谱特征,从而实现对不同土地利用类型的准确分类。随着高光谱遥感图像(HSI)获取技术的发展,结合高光谱数据进行土地利用类型分类成为了研究的热点。
传统的土地利用分类方法往往基于单一或少数光谱波段,难以捕捉土地利用类型的细微差异。而高光谱遥感图像提供了丰富的光谱信息,能够更准确地区分不同的土地利用类型。通过充分利用高光谱图像的光谱特征,可以提高土地利用分类的精度和准确性。
通过植被覆盖土地类型分类的研究,我们可以用来支持环境保护和生态恢复。高光谱遥感图像的植被覆盖类型分类可以为环境保护和生态恢复提供支持。通过对高光谱图像中不同植被覆盖类型的识别和分析,可以评估生态系统的健康状况、生物多样性水平 [2] 以及植被覆盖程度 [3] 等。这有助于制定相应的环境保护策略和生态恢复计划,促进生态环境的改善和可持续发展。其次,还促进植被监测和管理。高光谱遥感图像的植被覆盖类型分类可以为植被监测和管理提供重要信息,包括植被种类、分布、健康状况等,有助于及时发现植被变化、评估生态环境和制定合理的植被保护措施。不仅如此,通过被覆盖土地类型分类的研究还可以为灾害监测和应急响应提供支持。植被覆盖类型分类技术可以用于自然灾害监测和应急响应,有助于指导灾害监测和救援工作,降低灾害对生命和财产的损失。
为了有效地利用高光谱遥感图像,研究人员开始开发各种光谱信息提取技术。这些技术包括光谱指数计算(如归一化差异植被指数 [4] 、水体指数 [5] 等)、主成分分析 [6] 、线性无关分解 [7] 等。这些方法能够从高光谱数据中提取有关地物光谱特征的关键信息。同时,高光谱遥感图像的数据量庞大,对数据处理和分析提出了挑战。为了降低数据维度和提高分类效率,研究人员开发了一系列数据处理方法,如特征选择、特征降维(如主成分分析和小波变换 [8] )、特征融合等。为了实现高准确性的城市土地利用分类,研究人员结合高光谱遥感图像和分类算法进行了深入研究。传统的分类方法包括最大似然分类 [9] 、支持向量机(SVM) [10] 、决策树 [11] 等,但这些方法难以充分利用高光谱数据的丰富光谱信息和空间上下文关系。
近年来,随着深度学习技术的快速发展,基于高光谱遥感图像的土地分类也取得了显著的进展。深度学习模型如卷积神经网络(CNN) [12] 和循环神经网络(RNN) [13] 被广泛应用于土地利用分类任务中。这些模型能够自动学习地物的特征表示,并在分类过程中捕捉地物之间的复杂关系,从而提高分类的准确性和鲁棒性 [14] 。此外,还有一些新兴的技术应用于高光谱遥感图像的土地利用分类中。例如,基于图卷积网络(GCN) [15] 的方法可以有效地利用地物之间的空间关系。同时,多源数据融合技术结合高光谱遥感图像与其他数据源(如激光雷达数据、热红外图像等)进行融合,提供更全面、准确的土地利用分类结果。
2. 基于三维卷积和多尺度特征融合的神经网络模型
2.1. 基于三维卷积和多尺度特征融合的神经网络模型设计
本文以U-Net网络模型为基础,从高光谱遥感图像的特点出发,设计了一种基于三维卷积和多尺度特征融合的神经网络模型(Neural network model based on 3D convolution and multi-scale feature fusion, MS-3DNet),其具体结构见图1。
![](//html.hanspub.org/file/22-2610445x7_hanspub.png?20240604091526626)
Figure 1. Structure diagram of neural network model based on 3D-multi-scale feature fusion
图1. 基于三维卷积和多尺度特征融合的神经网络模型结构图
在图1中,高光谱遥感图像首先通过Encoder模块进行特征提取,在特征提取阶段采用三维多尺度特征提取模块(3D-Inception)进行特征提取,提取的特征立方体经过最大化池化(MaxPool)后输入到下一层3D-Inception,同时特征体等待通过跳跃连接输入到同层的Decoder中进行特征融合。通过3D-Inception模块进行特征提取,不仅可以通过三维卷积同时提取特征图的光谱特征和空间特征,还可以通过多尺度的感受野提取不同尺度的特征。
2.2. 三维卷积
三维卷积 [16] 在处理三维数据时,与二维卷积相比,三维卷积考虑了数据的空间维度,即在三个维度上进行滤波操作,这使得三维卷积能够更好地捕获数据的立体特征。由于三维卷积在三个维度上进行操作,因此能够更好地捕获数据中的立体特征。与二维卷积类似,三维卷积也具有参数共享的特性,即在整个输入数据的不同位置上使用相同的卷积核进行滤波操作。这有助于减少模型的参数数量,降低过拟合的风险,并提高模型的泛化能力。三维卷积可以通过多层叠加的方式提取数据的立体特征,从而构建更复杂的特征表示。通过堆叠多个三维卷积层和池化层,可以逐渐提取数据中的抽象和复杂的立体特征。三维卷积最重要的特征便是采用了三维卷积核,使其能够在特征立方体三个维度上同时提取特征。具体结构见图2。
![](//html.hanspub.org/file/22-2610445x8_hanspub.png?20240604091526626)
Figure 2. Schematic diagram of 3D convolution
图2. 三维卷积示意图
2.3. 基于多尺度特征提取的编码器结构设计
由于植被覆盖分类研究中的某些地物可能具有相似的光谱特征,如不同种类的作物可能具有相似的反射谱,这会增加农业用地类型分割的难度。但是由于在空间尺寸上植被覆盖地块通常具有较大的空间分辨率,空间信息对于网络模型具有较大作用,为了提高对空间信息的提取,本文提出的基于三维卷积和多尺度特征融合的神经网络模型(Networks based on 3D-CNN and Different Scales, DS-3DNet)对编码器进行了设计,即采用不同尺度的卷积核感受野对空间特征进行提取,即Inception模块 [17] 进行特征提取。
具体来说,编码器部分采用1 × 1 × 1、3 × 3 × 3、5 × 5 × 5、MaxPool四种不同的感受野,具体结构见图3。
![](//html.hanspub.org/file/22-2610445x9_hanspub.png?20240604091526626)
Figure 3. Structure diagram of a multi-scale feature extraction encoder
图3. 多尺度特征提取编码器结构图
2.4. 基于U-Net结构的解码器结构设计
U-Net网络架构通过不同深度的特征图融合,既能够关注到深层特征图的全局信息,又能关注到浅层特征图的细节信息,适合语义分割 [18] 等任务,因此参考了U-Net网络解码器的设计,将不同深度的特征图通过转置卷积 [19] 逐步恢复空间分辨率,并通过跳跃连接将同层次的编码器提取的特征图进行融合,使得网络模型加强对全局信息和细节信息的同时关注,提升网络的性能,其解码器部分每层结构见图4。
经过4层编码器进行处理后,图像恢复至原来的空间分辨率,输入到输出层进行分类处理。
3. 实验结果与分析
本文基础实验环境如下:CPU 6xE5-2680 V4;GPU NVIDIA GeForce RTX A4000,显存16.9 GB;内存32 GB;PyTorch v2.0.1,Python v3.10.12,Linux操作系统。
3.1. 数据集介绍
IndianPines数据集是使用美国航空航天局(NASA)的AVIRIS (Airborne Visible/Infrared Imaging Spectrometer)传感器采集的高光谱图像数据。采集自美国印第安纳州西北部地区,主要用于研究农田覆盖和土地利用。
IndianPines数据集图像尺寸为145 × 145像素。图像覆盖了一个农村地区,包括田地、森林、道路等地物。IndianPines数据集包含了224个连续的光谱波段,其中20个波段收到噪声的影响而被去除,涵盖了可见光、红外线和近红外线等波段。这些光谱波段的数据被用来描述不同地物的光谱特征。
IndianPines数据集包含145 × 145像素,包含16个类别。其中分布最多的种类是Soybean-mintill,数量达2455个,占比23.95%;分布最少的类别是Oats,数量仅20,占比0.20%。为了更清楚直观地观察IndianPines数据集中的样本类别的分布,假彩图和标签图见图5。
3.2. 评价指标
3.2.1. 总体精度(OA)
总体精度(Overall Accuracy) [20] 是指分类模型在所有样本上的分类正确率,即被正确分类的样本数占总样本数的比例。以二分类问题为例,总体精度计算公式为:
(1)
其中:TP——预测为正类且实际为正类的样本数。
TN——预测为负类且实际为负类的样本数。
FP——预测为正类但实际为负类的样本数。
FN——预测为负类但实际为正类的样本数。
3.2.2. 平均精度(AA)
平均精度(Average Accuracy) [20] 通常用于多类别分类任务,是每个类别的分类准确率的平均值。与总体精度不同,平均精度考虑了每个类别的分类准确率,因此更能反映模型在不同类别上的分类表现。
仍以二分类问题为例,计算平均精度的步骤如下:
首先,计算每个类别的精确率其计算公示如下:
(2)
(3)
然后,将每个类别的分类指标值相加,并除以类别数,得到平均精度。
(4)
3.2.3. Kappa系数
Kappa系数(Cohen’s Kappa coefficient) [20] 是一种用于评估分类模型性能的统计量,它考虑了模型预测与实际观察之间的一致性,而不仅仅是预测的准确率。Kappa系数通常用于衡量分类模型在多类别分类问题上的性能。Kappa系数的计算基于混淆矩阵,其公式如下:
(5)
其中,P0表示观察到的准确率,即模型预测与实际观察之间的一致性,Pe表示随机准确率,即模型预测与实际观察之间的一致性的期望值。Kappa系数的取值范围为[−1, 1],其含义如下:
Kappa = 1:完美一致,模型的预测与实际观察完全一致。
Kappa = 0:随机一致,模型的预测与实际观察的一致性与随机预测的一致性相同。
Kappa < 0一致性低于随机水平,模型的预测与实际观察的一致性低于随机预测的一致性。
Kappa > 0:一致性高于随机水平,模型的预测与实际观察的一致性高于随机预测的一致性。
Kappa系数的计算涉及两个参数:观察到的准确率(P0)和随机准确率(Pe),对于一个具有K个类别的分类问题,混淆矩阵的大小为它们的计算方法如下:
观察到的准确率(P0)可以通过混淆矩阵中的对角线元素之和除以总样本数来计算:
(6)
其中,nij表示混淆矩阵中第i行第j的元素。
随机准确率(Pe)表示模型的预测与实际观察之间的一致性的期望值,即在没有模型的情况下,预测与实际观察之间的一致性。计算方法如下:
(7)
3.3. 对比实验
在对比实验中,使用IP公开数据集进行实验比较,以评估本文提出的基于三维卷积和多尺度特征融合的神经网络模型(Neural network model based on 3D convolution and multi-scale feature fusion, MS-3DNet)与其他文献提出的方法之间的差异。
实验过程中,选取数据集中20%的样本作为训练集和验证集(训练集和验证集比例为1:1),其余样本用作测试集,评估指标采用总体准确度(OA)、平均准确度(AA)、Kappa系数,实验结果见表1、图6、图7。
![](//html.hanspub.org/file/22-2610445x19_hanspub.png?20240604091526626)
Figure 6. Classification results of different network models in IP datasets
图6. 不同网络模型在IP数据集的分类结果
![](//html.hanspub.org/file/22-2610445x20_hanspub.png?20240604091526626)
Figure 7. Heatmap of the classification results of different models
图7. 不同模型分类结果热力图
根据表1可知,本文提出的基于三维卷积和多尺度特征融合的神经网络模型(DS-3DNet)算法在评价指标平均精度(AA)、总体精度(OA)、Kappa系数分别为98.20%、98.50%、97.95%,各项评价指标均高于相关文献提及到算法。
![](Images/Table_Tmp.jpg)
Table 1. IP dataset classification results
表1. IP数据集分类结果
3.4. 消融实验
3.4.1. 三维卷积模块
为了验证三维卷积模块的对实验结果产生影响,本文采用原始U-Net模型、采用三维卷积的U-Net模型、原始ResNet模型 [21] 、采用三维卷积的ResNet模型、原始FCN模型 [21] 和采用三维卷积的FCN模型进行消融实验,实验结果见表2、图8、图9。
![](Images/Table_Tmp.jpg)
Table 2. Statistics of ablation experiment results for the 3D convolution module
表2. 针对三维卷积模块的消融实验结果统计
![](//html.hanspub.org/file/22-2610445x21_hanspub.png?20240604091526626)
Figure 8. Segmentation results of ablation experiments of different models
图8. 不同模型消融实验分割结果
![](//html.hanspub.org/file/22-2610445x22_hanspub.png?20240604091526626)
Figure 9. Heat map of the classification results of different models of ablation experiments
图9. 不同模型消融实验分类结果热力图
通过表2针对三维卷积模块的消融实验结果统计可知,三维卷积模块在处理高光谱遥感图像的过程中,可以更好的利用光谱信息,提升模型的分类的精度性能,通过引入三维卷积模块,U-Net模型的总体精度(OA)提升1.06%,平均精度(AA)提升1.52%,Kappa系数提升1.21%;ResNet模型的总体精度(OA)提升0.37%,平均精度(AA)提升0.58%%,Kappa系数提升0.42%;FCN模型的的总体精度(OA)提升0.74%%,平均精度(AA)提升1.53%,Kappa系数提升0.84%。
3.4.2. 基于不同尺度特征提取(Multiscale Feature Extraction, MFE)的编码器模块
为了验证基于不同尺度特征提取的编码器模块对实验结果产生的影响,本文采用原始U-Net模型、采用基于不同尺度特征提取的编码器模块的U-Net模型、原始ResNet模型、采用基于不同尺度特征提取的编码器模块的ResNet模型、原始FCN模型和采用基于不同尺度特征提取的编码器模块的FCN模型进行消融实验,实验结果见表3、图10、图11。
![](Images/Table_Tmp.jpg)
Table 3. Statistics of ablation experimental results based on multi-scale feature extraction
表3. 针对基于不同尺度特征提取的编码器模块的消融实验结果统计
![](//html.hanspub.org/file/22-2610445x23_hanspub.png?20240604091526626)
Figure 10. Segmentation results of ablation experiments of different models
图10. 不同模型消融实验分割结果
![](//html.hanspub.org/file/22-2610445x24_hanspub.png?20240604091526626)
Figure 11. Heat map of the classification results of different models of ablation experiments
图11. 不同模型消融实验分类结果热力图
通过表3可知,基于不同尺度特征提取的编码器模块在处理高光谱遥感图像的过程中,可以更好的发掘空间信息,提升模型的分类的精度性能,通过引入基于不同尺度特征提取的编码器模块,U-Net模型的总体精度(OA)提升1.03%,平均精度(AA)提升1.01%,Kappa系数提升1.41%;ResNet模型的总体精度(OA)提升1.89%,平均精度(AA)提升1.79%,Kappa系数提升1.22%;FCN模型的总体精度(OA)提升0.43%,平均精度(AA)提升0.91%,Kappa系数提升1.05%。
3.4.3. 基于U-Net结构的解码器模块
为了验证基于不同尺度特征提取的编码器模块对实验结果产生的影响,本文针对提出的基于三维卷积和多尺度特征融合的神经网络模型(DS-3DNet)中的跳跃连接 [22] 设计了消融实验,分别是不保留跳跃连接的DS-3DNet模型、保留最后1层的跳跃连接的DS-3DNet模型、保留最后2层的跳跃连接的DS-3DNet模型、保留最后3层的跳跃连接的DS-3DNet模型、保留全部跳跃连接的DS-3DNet模型。实验结果见表4、图12、图13。
![](Images/Table_Tmp.jpg)
Table 4. Statistics of ablation experimental results based on multi-scale feature extraction
表4. 针对基于不同尺度特征提取的编码器模块的消融实验结果统计
![](//html.hanspub.org/file/22-2610445x25_hanspub.png?20240604091526626)
Figure 12. Segmentation results of ablation experiments of different models
图12. 不同模型消融实验分割结果
![](//html.hanspub.org/file/22-2610445x26_hanspub.png?20240604091526626)
Figure 13. Heat map of the classification results of different models of ablation experiments
图13. 不同模型消融实验分类结果热力图
通过表4可以看出,不保留跳跃连接DS-3DNet模型和保留全部跳跃连接的DS-3DNet模型在模型分类的准确度上存在较大差异,两者在总体精度(OA)、平均精度(AA)、Kappa系数等评价指标上的差值分别为:12.06%、11.95%、12.28%,差值较大,提升比较明显,同时可以看出每增加一层跳跃连接,总体精度(OA)提升分别为5.30%、3.88%、1.79%、1.09%,平均精度(AA)提升分别为3.70%、4.62%、1.65%、1.98%,Kappa系数提升分别为4.64%、4.45%、1.80%、1.39%,通过分析可以看出随着跳跃连接的增加,跳跃连接对于模型性能提升的影响逐步降低。
4. 结束语
由于传统卷积神经网络随着网络深度的加深,模型更加注重全局信息,导致局部细节丢失,而且对于高光谱遥感图像来说,因其具有更加丰富的光谱信息,传统的1D-CNN、2D-CNN不能很好的同时兼顾光谱信息和空间信息。同时在面向植被覆盖利用类型的高光谱遥感图像分割场景时,由于植被类型通常拥有相似的光谱特征,不易通过光谱信息进行区分,而在空间特征对于高光光谱遥感图像分割具有较大的增益特征,为了解决上述问题,本文以U-Net网络模型为主要框架融合了3D-CNN网络模型和不同尺度特征提取融合的网络模型,提出了基于三维卷积和多尺度特征融合的神经网络模型(DS-3DNet),使得网络在进行特征提取和分类的过程中,更好的融合光谱信息、空间信息、全局信息和细节信息,使得网络在分类精度方面有了一定的提升。