1. 引言
烟草是我国重要的经济作物,在国民经济发展中发挥着重要作用。快速、实时和准确地获取烟草生长信息是推动现代烟草农业发展的基础 [1] 。遥感影像可根据农作物光谱特征,通过传感器记录的地表信息,识别作物,经过影像处理可获取作物其面积,从而降低人力、物力和财力的投入,降低生产成本,提高生产管理效率。
通过查阅已发表的相关文献,Sentinel-2遥感影像在农作物的面积提取和生长监测中已有应用,如魏梦凡 [2] 提出了一种V2OAE的分类方法,利用Sentinel-2A遥感影像提高了冬小麦种植面积的提取精度。严欣荣等 [3] 采用Sentienl-2遥感影像,利用随机森林、反向传播神经网络、支持向量机三种机器学习分类方法对沧源县的丛生竹林空间信息进行提取,张阳等 [4] 采用决策树分类法利用Sentinel-2A遥感影像对湖南省茶陵县烤烟种植面积进行提取,其结果可满足烤烟生产管理的实际需求。薛宇飞等 [5] 利用Sentinel-2遥感影像提取了云南省德宏州芒市烟草等地物光谱特征,计算了植被指数、红边指数,提取的总体精度达到94.38%。
上述学者在作物信息提取中,对于作物的研究集中在单一方法或单一影像方面,而在多种方法和多景影像融合提取上的研究较少。本文以红塔区为研究区域,该区域为红塔集团驻地所在,利用遥感云平台对
Sentinel-2遥感影像数据进行处理,采用随机森林(RF) [6] 、支持向量机(SVM) [7] 、神经网络(NNC) [8] 、深度学习(DL) [9] 四种分类算法分别提取烟草种植区域信息,并对四种提取算法进行对比分析,获得最佳的提取方法。
2. 材料与方法
2.1. 研究区概况
红塔区位于云南省中部,在24˚08'30″~24˚32′18″N、102˚17′32″~102˚41′37W,如图1所示,气候类型为中亚热带半湿润冷冬高原季风气候,海拔1500~2614 m。土地面积100,400 hm2,其坝区面积17,300 hm2,南北最长20 km,东西宽约8 km,坝区平均高程1650 m。降水期主要集中在5~10月份,年均降雨量800~1000 mm,降水有效性高,能有效满足烤烟的生长;气温相对适宜,年平均气温16.5℃;年均日照时数2103 h,能充分满足烤烟生长期所需的积温,昼夜之间温差较大,有利于烟株的糖分积累与分解以及合成出更多的芳香物质 [10] 。
图1. 研究区位置及卫星影像图
2.2. 数据源
本文采用的Sentinel-2遥感影像来源于欧洲航空局 [11] 。Sentinel-2卫星影像拥有可见光到短波红外13个波段,与其他光学卫星相比,具有更丰富的光谱信息、更高的时间和空间分辨率。辅助数据包括红塔区边界矢量数据。经过对研究区进行实地踏勘调查,该区域主要作物类型为烤烟、水稻、玉米、小香葱等。根据烟草在该地的物候信息,1月中旬为烟草育苗期,主要在苗床完成,4月至5月初为烟草的移栽期,之后烟草进入生长期,7月出开始进行采收,9月中旬完成烟草初步生产。因此,影像数据的获取集中在4月至7月。
2.3. 遥感云计算平台
本文采用的遥感计算云服务平台为PIE-Engine,该平台是基于云计算、物联网、大数据和人工智能技术自主研发的地球科学大数据实时计算平台,可处理多源遥感数据,极大减少了遥感科学技术人员与遥感工程技术人员的时间和资料成本,极大的推动了中国遥感技术生态圈的发展 [12] [13] 。它是目前国内最接近GEE的产品,弥补国内缺失GEE的局面,推动中国遥感技术生态圈的发展。包含大量遥感图像和矢量数据,还涵盖了气象数据、土地利用数据和地形地貌数据等,同时也可以上传自己的矢量、影像、表格等数据到个人空间,方便引用。相比较于传统的ENVI、ArcGIS等传统遥感影像处理工具,该平台可以快速批量的处理影像。
2.4. 训练样本选取
在遥感影像的解译过程中,分类效果的好坏与样本点的种类、质量和数量有关 [14] 。通过实地样本选择,结合Google Earth Pro,依据准确性、代表性、独立性、统计性原则 [15] ,共选择1700个样本,随机选取其中各类的20%作为验证样本,其余的均为训练样本。如表1为研究区训练样本集的可分离性及详细信息。
Table 1. Study area training sample set separability
表1. 研究区训练样本集可分离性
2.5. 分类方法
2.5.1. 随机森林法
随机森林(RF)是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法,它在对数据进行分类的同时,还可以给出各个变量的重要性评分,评估各个变量在分类中所起的作用 [6] 。RF是以单一决策树为基础的集成分类算法,{h(x, Qk), k = 1, ∙∙∙,},其中x为输入的特征向量,{Qk}为独立同分布的随机向量,k为决策树的数量,最终由所有决策树投票决定输入向量x的最终输出结果 [6] 。它通过对大量不同的训练样本进行有放回的抽样,如Bagging或者Bootstrap,使得树不停生长,从而增加树的多样。因此具备复杂地物分类的能力,对于噪声和存在缺损值的数据具有良好的鲁棒性,兼具较快的学习速度,对多维特征空间数据重要性进行度量,依据特征贡献率进行最优特征筛选从而达到对高维特征空间进行降维的目的,相较当前流行的分类算法具有较高的准确性和稳健性。
2.5.2. 支持向量机
支持向量机分类(SVM)是一种建立在统计学习理论基础上的机器学习方法 [7] 。其基本原理是:假设训练样本为
其中
表示输入模式,
,表示目标输出。设最优决策面方程为
则权值向量w和
偏置须满足约束:
,
表示线性不可分条件下的松弛变量,是用来表示模式对理想线性情况下的偏离程度。其目的为找寻一个决策面让它在训练数据上的平均分类误差最低,可以推导出下面的优化公式
表示用户指定正参数,用于支持向量机对错分样本惩罚程度,是算法复杂度与错分样本比例间平衡的一个参数 [7] 。
2.5.3. 神经网络分析法
神经网络分类(NNC)是将人类大脑神经元的模式简化为人工神经网络中的处理单元,通过计算机去仿照人脑的结构,用一系列小的处理单元去模拟生物大脑的神经元,再通过算法来实现人脑的识别、记忆、思考过程,并最终用在影像分类 [9] 。公式如下:
上式中分别为隐含节点和输出点的阈值,表示输入层i节点与隐含层j节点之间的连接权值,为隐含层j节点与输出层k节点之间的连接权值,为输入层i节点输入的样本信息。
2.5.4. 深度学习法
深度神经网络训练原理就是通过误差反向传播尽快实现与目标函数的拟合。其本质是在参数空间中,依靠梯度寻找损失函数的下凸点,并求解损失函数极小值。为了强化边缘部分的学习效果、突出边缘形态,在损失函数中加入了对边缘强化的函数计算部分 [9] 。具体的损失函数为
上式中:损失函数L中yi为第i个分类的真值;ai为第i个分类的预测值;λ为像素权重调节系数,用于提高神经网络对边缘附近的像素分类误差,强化图斑边缘附近语义分割的学习效果,使边缘较为模糊的图斑可以取得更好的分类精度。定义像素权重调节系数λ计算公式为
[9] 上式中:基础权重
与边缘计算范围
为超参数,
计算像素
到最近的边缘点
的距离。
3. 结果与分析
3.1. 种植面积提取结果
通过遥感云平台PIE-Engine 筛选出研究区4月~8月云量较少的Sentinel-2影像,并进行去云、融合处理,再分别采用四种分类方法进行烟草种植面积提取,分类结果如图2所示。
3.2. 分类结果精度评价
结果精度评价是遥感影像分类或信息提取的最后一项工作,通过精度分析能判断分类方法是否有效,是否需要改善分类方法,提高分类精度 [16] 。分类结果精度评价通常选取用户精度(CA)、生产者精度(PA)、总体精度(OA)和Kappa系数作为评价因子。本文中深度学习分类总体精度和Kappa系数最高,分别为94.70%和0.92,神经网络次之,其总体分类精度达93.40%,Kappa为0.89,与其他两种分类方法相比,分类结果精度较高,但分类过程需要多次迭代,耗时较长,如表2所示。四种分类方法中生产者精度最大是87.88%、最小为80.66%,用户精度最大、最小分别为92.99%、80.52%,如图3所示。
Figure 2. The tobacco planting area extraction result plot in the study area. (a) Is the deep learning extraction result; (b) The neural network extraction result; (c) The random forest extraction result; (d) The support vector machine extraction result
图2. 研究区烟草种植面积提取结果图。(a) 为深度学习提取结果;(b) 为神经网络提取结果;(c) 为随机森林提取结果;(d) 为支持向量机提取结果
Figure 3. Area extraction and relative error
图3. 面积提取及相对误差
对红塔区同时相的遥感影像进行分类提取烟草种植面积,利用四种不同的分类算法进行分类,其总体分类精度和卡方系数的不同主要是因为算法的结构有所差异,其中深度学习的精度最高,深度学习算法学习能力强,覆盖范围广,适用性好,可以映射到任意函数,模拟效果更好,能解决很复杂的问题,但其耗时较长。随机森林分类算法的分类结果精度较差,原因是分类算法中决策树的数量不够多,加大决策树的数量则会导致模型训练更慢,所需要的时间和空间更大,因此随机森林要达到更好的结果,需要更好的硬件条件和云计算服务。其余两种分类算法介于上两种之间,神经网络是基于人脑神经系统的分类算法,具有自学习功能和高速寻找最优化解的能力,但受数据的限制,当数据不充分时则无法进行,也无法解释自己的推理过程和依据,只有结果;支持向量机是一种传统机器学习方法,分类的复杂度和结过精度主要受支持向量的数目影像,对参数和函数的选择较为敏感。
Table 2. Overall classification accuracy and Kappa coefficient
表2. 总体分类精度和Kappa系数
3.3. 提取结果误差分析
通过查阅《红塔区2021年国民经济和社会发展统计公报》,红塔区2021年烟草种植面积为1929.21 hm2。经过统计分析计算,如图4所示,其中相对误差值大于0,表示分类过程中存在错分现象;相对误差值小于0则表示存在漏分现象。深度学习算法提取面积为1989.36 hm2,精度为96.88%,误差值约为3.12%,部分地区存在漏分现象;而随机森林法提取面积为1790.88 hm2,面积精度为92.83%,误差值最大,为7.17%,错分现象较为明显,其余两种分类方法介于以上两者之间。
Figure 4. User accuracy and producer accuracy
图4. 用户精度和生产者精度
通过混淆矩阵计算出各方法的错分误差和漏分误差,如图5所示,神经网络方法提取烟草的错分误差最小为7.01%,而漏分误差为17.17%,支持向量机的漏分误差最小9.34%,而错分误差为18.99%,随机森林错分误差为19.5%,漏分误差为18.32%。深度学习在提取上的错分误差和漏分误差相差不大,接近10%,相对其他三种为最优提取算法。
Figure 5. Missed errors and mis-split errors
图5. 漏分误差和错分误差
3.4. 烟草空间分布
从遥感影像分类结果图可以得出研究区内烟草种植主要集中分布在小石桥乡、洛河乡、北城街道、研和街道和春和街道北部,该区域海拔相对较高,其分布特征主要沿村庄周围和道路两侧,交通便利,便于劳作,在北城街道南部、春和东部、大营街道则呈零星状分布,该地区地势相对平坦,主要经济作物为小香葱和大棚蔬菜等。而在玉带路街道、玉兴路街道、凤凰路街道、高仓街道和李琪街道的西北部分布少,该地区主要为红塔区的建成区。烟草分布如图6所示。
Figure 6. Spatial distribution of tobacco
图6. 烟草空间分布图
4. 结论及讨论
本文利用遥感云计算平台的超大算力,实时批量处理遥感影像数据,以研究区内的多景Sentinel-2卫星影像为数据源,采用随机森林、支持向量机、神经网络和深度学习四种分类方法,对红塔区烟草种植面积信息进行提取,对不同方法提取出的面积结果进行对比分析,得出深度学习的分类结果最为接近真实值,误差仅为7.61%,提取精度较高,可满足农业部门快速统计需求。
本研究利用sentinel-2数据提取烟草及其他地物信息,利用不同的分类算法进行分类,因为算法本身结构具有较大差异,分类结果也有明显差异,而研究本人对算法结构的研究还不够深入,还需进一步的提升;本研究虽然较传统的统计方法来说效率有了提升,但遥感影像空间分辨率有限,分类结果仍然存在一定的误差,下一步深入的研究可选择更高分辨率的影像,如高分二号等。在不同分类方法上,深度学习和神经网络的提取精度优于其他两种,但神经网络和随机森林分类算法的漏分误差较大,支持向量机和随机森林的错分误差较大,可能是存在同谱异物的现象,进一步可根据多时相、多源卫星遥感数据提取更精确的信息。深度学习方法在红塔区烟草信息提取研究中效果良好,提取的烟草信息更符合实际情况,但就总体分类精度而言,深度学习方法的耗时约为神经网络方法耗时的2至3倍,支持向量机方法耗时的3至4倍,得到1.29%和2.99%的提升,投入与产出失衡,下一步可提高和优化分类算法,以提高生产效率。基于多时段合成对烟草种植区的提取精度还有待进一步提高下一步可根据多时相、多源卫星遥感数据对烤烟种植区域进行提取,也可加入多时相雷达孔径数据来提取种植数据,以避免因天气影响而导致的精度降低。
基金项目
大学生创新创业训练计划项目(202111390019);云南省地方本科高校基础研究联合专项(202001BA070001-109)。
NOTES
*第一作者。
#通讯作者。