基于Transformer模型的高光谱图像分类算法研究
Research on Hyperspectral Image Classification Algorithm Based on Transformer Model
DOI: 10.12677/MOS.2024.131077, PDF, HTML, XML, 下载: 287  浏览: 757  国家自然科学基金支持
作者: 赵尚子欣*, 袁嘉豪, 董 岩:上海理工大学光电信息与计算机工程学院,上海;陈 倩#:上海理工大学管理学院,上海
关键词: 高光谱图像分类Transformer光谱特征Hyperspectral Images Classification Transformer Spectral Features
摘要: 高光谱图像(Hyperspectral image, HSI)分类在遥感领域扮演着关键角色。然而,处理高光谱图像分类任务时,遇到了光谱相同但物质不同、光谱不同但物质相同的复杂情况。尽管现有基于卷积神经网络(Convolutional Neural Network, CNN)的方法在局部信息处理方面表现出色,但它们在表示能力上存在一定限制。为了应对这一挑战,本文提出了一种综合考虑光谱信息和空间信息的Transformer方法(Spatial Spectral Transformer Network, SSTN),即本文引入了Transformer结构,在光谱和空间中倾向于捕捉全局信息。通过构建Transformer,模型将空间光谱特征有机结合。通过规范的实验研究,本文发现:在IndianPines和Houston2013数据集的分类任务中,本文的方法相较于其它Transformer网络表现更为优越,并在与其他骨干网络的对比中具有显著的改进。
Abstract: Hyperspectral image (HSI) classification plays a crucial role in the field of remote sensing. When dealing with HSI classification tasks, there are complex situations where the spectra are the same but the substances are different, and the spectra are different but the substances are the same. Although existing methods based on Convolutional Neural Networks (CNN) perform well in local in-formation processing, they have certain limitations in representation ability. To address this chal-lenge, a Transformer method that comprehensively considers spectral and spatial information (Spatial Spectral Transformer Network, SSTN) has been proposed. To overcome this limitation, this article introduces a Transformer structure that tends to capture global information in both spec-trum and space. By constructing a Transformer, the model organically combines spatial spectral features. The rigorous experimental results show that in the classification task of the Indian Pines and Houston2013 datasets, our method performs better than other Transformer networks and shows significant improvement compared to other backbone networks.
文章引用:赵尚子欣, 袁嘉豪, 董岩, 陈倩. 基于Transformer模型的高光谱图像分类算法研究[J]. 建模与仿真, 2024, 13(1): 799-806. https://doi.org/10.12677/MOS.2024.131077

1. 研究背景与现状

高光谱遥感是遥感领域崭新的技术,通过整合数百个波段的光谱信息,能够捕捉地表特征微妙变化。高光谱技术在多个领域都有广泛应用,而高光谱图像(HSI)分类则是其关键应用之一,广泛用于矿产勘探 [1] 、农业开发 [2] 、环境科学 [3] 等方面。HSI分类研究的主要挑战在于应对高维光谱数据引发的休斯效应 [3] ,其中同一物质可能呈现不同的光谱信息,而相同的光谱信息可能对应不同的物质。近年来,研究者们通过不同的方法探索如何更有效地处理高光谱数据,提高分类的准确性和鲁棒性。

基于CNN的高光谱图像分类方法是最早被广泛研究的方法之一。研究者们通过卷积层、池化层等操作,提取光谱和空间特征,取得了一系列显著成果。Murali等人 [4] 提出了一种新的用于HSI分类的3D深度特征提取CNN模型,实验结果显著提高了HSI分类的性能。接着,Zhen等人 [5] 设计了一种用于HSIs的多尺度光谱空间CNN模型,该模型将多个感受野融合特征与不同层次的多尺度空间特征相结合。然后,Hüseyin等人 [6] 针对当要提取深层空间和光谱特征时,出现梯度特性的损失和由于深度增加而导致的退化等问题,提出了基于3D卷积神经网络的ResNet50分类方法。Koushikey等人 [7] 提出了一种多级三维卷积神经网络(3-Dimensiona1 Convolutional Neural Network, 3-DCNN),模型将总体准确度和kappa系数提高了2%~5%。

尽管,基于CNN的分类方法取得了突破性进展,但依然存在面临着很多挑战和局限性。例如:CNN主要通过卷积核在图像上进行滑动来获取局部特征,这意味着每个神经元只能感知输入图像的一个相对较小的局部区域。对于一些需要全局上下文信息的任务,如长距离依赖关系的建模,CNN可能不够有效。为了弥补CNN局限性,将Transformer模型 [8] 应用于HSI分类是一项令人期待的新研究方向,它能够获取长距离依赖关系。另外,这种新颖的应用可能有助于改善HSI分类的性能,特别是在处理光谱信息复杂、休斯效应显著的情况下。He等人 [9] 提出了一种空间光谱Transformer (Spatial-Spectral Transformer, SST)模型,利用类似于VGGNet [10] 的网络结构来提取空间特征。Qing等 [11] 通过引入光谱注意机制,与Transformer中的多注意机制相结合,有效地捕捉了连续光谱关系另外,Hong等人 [12] 设计了一种名为光谱Transformer (Spectral Transformer, SF)的新模型,它可以从群体邻近波段学习光谱表示信息并构建Transformer模型。尽管,上述基于Transformer的分类方法获得了令人感到满意的性能,但依然面临着光谱相同但物质不同、光谱不同但物质相同的复杂情况,特征表示能力上有限的问题。因此,本文提出了一种基于Transformer的高光谱图像分类新方法。

2. 研究方法

本文提出的一种基于空谱Transformer的高光谱图像分类新方法(Spatial Spectral Transformer Network, SSTN),其结构如图1所示。首先,整个图像进行相邻空间处理,即将图像切分为小数据立方体;接着,将所切分的数据按一定空间大小进一步划分,得到新的数据;然后,将每一个划分得到的数据立方体经过空间划分之后作为线性映射的输入;最后,图像数据进行位置嵌入和Transformer模型进行特征提取,进而分类。

Figure 1. Schematic diagram of SSTN structure

图1. SSTN结构示意图

2.1. 相邻空间数据处理

鉴于不同空间包含的地物信息不同,不同空间位置存在地物相关性。另外,若将整个图像作为模型的输入数据,将会给网络带来巨大的计算负担。因此,考虑到上述问题,空谱Transformer网络首先将输入进行相邻空间处理,即将其通过逐像素提取获得数据立方体,其中立方体包含了类别的相邻信息。假设输入的数据大小为 H × W × L ,经过相邻空间数据处理之后得到n个 x i b × b × L 。其中,n为数据样本总数量。

2.2. 空谱Transformer模块

空谱Transformer模块即充分考虑了空间信息,同时还获取了光谱的长距离依赖关系。其结构如图1的右半部分。

首先,为了进一步考虑图像的空间关系,空谱Transformer模块将相邻空间数据处理后得到的数据立方体进行空间9等分划分,得到9个小数据立方体。此部分可以被表示为:

x i = { x j | j = 1 , 2 , , k } s × s × L (1)

上式中, s × s 表示划分后的数据空间大小,L表示光谱数量,j表示划分的个数。

其次,Transformer模块将划分后得到的数据作为输入的令牌(Tokens),每个令牌表示为

[ T 1 , T 2 , , T z ] ,所有的tokens与一个可学习的分类令牌 T 0 c l s 进行类别嵌入,线性映射和类别嵌入可被表示为:

T i n = [ T 0 c l s , T 1 , , T z ] + P E (2)

上式中, T i n 表示Transformer的输入。

然后,经过线性映射和类别嵌入的数据作为MHSA和MLP块的输入。即将数据为Q、K和V,Q和K进行多组自注意力特征提取,最后经过融合与V进行乘积。此部分可被表示为:

S A ( Q , K , V ) = Softmax ( Q K T d K ) V (3)

MHSA = Concat ( S A 1 , S A 2 , , S A h ) W (4)

上式中,dK表示K的维度,h表示多头自注意力的组数。 Concat ( ) 表示级联函数。另外,得到的MHSA特征被送至MLP层进行进一步的高级语义特征的提取。

最后,经过空谱Transformer模块进行特征提取所得到的高级特征被送到Softmax分类器中进行分类。

3. 实验结果与分析

3.1. 数据集描述

为了验证所提出的SSTN模型的有效性,本文选择了2种数据集进行一系列的实验,分别为Indian Pines和Houston2013数据集。

Indian Pines数据集包含了来自不同地物类别的16个类别,其中主要涵盖了农业、森林和植被等地物,是一副145 × 145像素的图像,涵盖了224个光谱波段的信息。除去吸水波段和低信噪比波段外,使用了200个波段。

Houston2013数据集是由高光谱图像分析团队和NCALM (National Center for Airborne Laser Mapping)在休斯敦大学的校园和附近城区采集的,图像空间大小为349 × 1905像素,包含144个光谱波段。另外,该数据集包含了15个不同的土地覆盖类别,这些类别可以包括城市建筑、道路、植被、水体等。

Table 1. Category names and number of data sample divisions for all datasets

表1. 所有数据集的类别名称和数据样本划分数量

3.2. 实验设置

本文提出的方法是在Pytorch框架上实现的,设备配备有Intel(R) Core (TM) i9-9900K CPU、NVIDIA GeForce RTX 3090 GPU和64 G随机存取内存。学习率大小为0.0005,训练轮次为300。

3.3. 实验定量分析

对于表1~3所示的所有方法分类的定量指标,本文方法在OA、AA和Kapp评价指标上表现优于其他方法。在Indian Pines数据集上,SSTN的OA值分别高出CDCNN、FDSSC、SSRN、ViT、SSFTT方法22.74%、7.62%、3.17%、4.18%和0.95%。在Houston2013数据集,SSTN的OA值分别高出CDCNN、FDSSC、SSRN、ViT、SSFTT方法21.10%、1.91%、16.52%、15.38%和4.74%。这充分说明了本文所提出方法的优越性和优异的分类精度。

Table 2. Classification results of all methods on the Indian Pines dataset

表2. 所有方法在Indian Pines数据集上的分类结果

Table 3. Classification results of all methods on the Houston 2013 dataset

表3. 所有方法在Houston2013数据集上的分类结果

3.4. 可视化分析

所有方法在Indian Pines和Houston2013数据集上的分类可视化图如图2图3所示。在图2中,不同的物体之间,所有的分类可视化图类别边缘周围仍存在一些噪声点。与其他方法相比,本文所提出的方法能够形成一个相当清晰的分类图。在图3中,通过观察,网球场、停车场和跑道等大型建筑的显著存在,可以发现所提出的方法可以有效地保存这种大型结构。

Figure 2. Visualization of classification of all methods on the Indian Pines dataset. (a) Truth- land cover map, (b) false color map, (c) CDCNN, (d) FDSSC, (e) SSRN, (f) ViT, (g) SSFTT, (h) SSTN

图2. 所有方法在Indian Pines数据集上的分类可视化图。(a) 地物真实图,(b) 假彩色图,(c) CDCNN,(d) FDSSC,(e) SSRN,(f) ViT,(g) SSFTT,(h) SSTN

Figure 3. Visualization of classification of all methods on the Houston2013 dataset. (a) Truth-land cover map, (b) false color map, (c) CDCNN, (d) FDSSC, (e) SSRN, (f) ViT, (g) SSFTT, (h) SSTN

图3. 所有方法在Houston2013数据集上的分类可视化图。(a) 地物真实图,(b) 假彩色图,(c) CDCNN,(d) FDSSC,(e) SSRN,(f) ViT,(g) SSFTT,(h) SSTN

4. 总结

本文提出了一种综合考虑光谱信息和空间信息的Transformer方法(SSTN)。为了克服现有CNN在局部信息处理方面的局限性,首先引入了Transformer结构,在光谱和空间中倾向于捕捉全局信息。通过构建Transformer,模型将空间光谱特征有机结合。接着,为了验证SSTN方法的有效性,本文还进行了一系列实验,包括定量分析和可视化分析。实验结果表明,本文的方法相较于其他Transformer网络表现更为优越,并在与其他骨干网络的对比中具有显著的改进。

在未来,这项工作可以扩展,包括混合深度光谱空间特征提取模型,如图神经网络,以提高分类精度。另外,我们可以进一步提高光谱空间特征学习能力,寻求速度和精度之间的平衡,这将是从卫星和无人飞行器(UAV)平台进行实时分类的基础。

基金项目

2023年教育部产学合作协同育人项目(230714421107183);2023年“上海高校青年教师培养资助计划”;2023年上海市“教师专业发展工程”高校教师培养计划;上海市青年科技启明星计划(23YF1429700);国家自然科学基金青年项目(62303325)。

NOTES

*第一作者。

#通讯作者。

参考文献

[1] Carrino, T., Crósta, A., Toledo, C. and Silva, A. (2018) Hyperspectral Remotesensing Applied to Mineral Exploration in Southern Peru: A Multiple Dataintegration Approach in the Chapi Chiara Gold Prospect. International Journal of Applied Earth Observation and Geoinformation, 64, 287-300.
https://doi.org/10.1016/j.jag.2017.05.004
[2] Camino, C., Gon-zález-Dugo, V., Hernández, P., Sillero, J. and Tejada, P. (2018) Improved Nitrogen Retrievals with Airborne-Derived Fluo-rescence and Planttraits Quantified from VNIR-SWIR Hyperspectral Imagery in the Context of Precision Agriculture. Interna-tional Journal of Applied Earth Observation and Geoinformation, 70, 105-117.
https://doi.org/10.1016/j.jag.2018.04.013
[3] Stuart, M.B., McGonigle, A.J.S. and Willmott, J.R. (2019) Hyperspectral Imaging in Environmental Monitoring: A Review of Recent Developments and Technological Advances in Compact Field De-ployable Systems. Sensors, 19, 3071.
https://doi.org/10.3390/s19143071
[4] Kanthi, M., Sarma, T.H. and Bindu, C.S. (2020) A 3D-Deep CNN Based Feature Extraction and Hyperspectral Image Classification. 2020 IEEE India Geoscience and Remote Sensing Symposium (InGARSS), Ahmedabad, 1-4 December 2020, 229-232.
https://doi.org/10.1109/InGARSS48198.2020.9358920
[5] Xu, Z., Yu, H., Zheng, K., Gao, L. and Song, M. (2021) A Novel Classification Framework for Hyperspectral Image Classification Based on Multiscale Spectral-Spatial Convolutional Network. 2021 11th Workshop on Hyperspectral Imaging and Signal Processing: Evolution in Remote Sensing (WHISPERS), Amsterdam, 24-26 March 2021, 1-5.
https://doi.org/10.1109/WHISPERS52202.2021.9483998
[6] Firat, H. and Hanbay, D. (2021) Classification of Hy-perspectral Images Using 3D CNN Based ResNet50. 2021 29th Signal Processing and Communications Applications Con-ference (SIU), Istanbul, 9-11 June 2021, 1-4.
https://doi.org/10.1109/SIU53274.2021.9477899
[7] Chhapariya, K., Buddhiraju, K.M. and Kumar, A. (2022) Spec-tral-Spatial Classification of Hyperspectral Images with Multi-Level Cnn. 2022 12th Workshop on Hyperspectral Imaging and Signal Processing: Evolution in Remote Sensing (WHISPERS), Rome, 13-16 September 2022, 1-5.
https://doi.org/10.1109/WHISPERS56178.2022.9955063
[8] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., et al. (2020) An Image Is Worth 16x16 Words: Transformers for Image Recognitionat Scale. arXiv: 2010.11929, 2020.
[9] He, X., Chen, Y. and Lin, Z. (2021) Spatial-Spectral Transformer for Hyperspectral Image Classification. Remote Sensing, 13, 498.
https://doi.org/10.3390/rs13030498
[10] Simonyan, K. and Zisserman, A. (2014) Very Deep Convo-lutional Networks Forlarge-Scale Image Recognition. arXiv: 1409.1556, 2014.
[11] Qing, Y., Liu, W., Feng, L. and Gao, W. (2021) Improved Transformer Net for Hyperspectral Image Classification. Remote Sensing, 13, 2216.
https://doi.org/10.3390/rs13112216
[12] Hong, D., Han, Z., Yao, J., Gao, L., Zhang, B., et al. (2022) SpectralFormer: Rethinking Hyperspectral Image Classification With Transformers. IEEE Transactions on Geoscience and Remote Sensing, 60, 1-15.
https://doi.org/10.1109/TGRS.2021.3130716