1. 引言
精准的土地利用信息是土地管理的基础。遥感数据以其易获取、成本低、效率高的特点,被国内外学者广泛应用于结合机器学习算法进行土地利用/分类研究(LUCC) [1]。如随机森林(Random Forest, F) [2] [3] [4] [5] [6],分类回归树(Classification and Regression Trees, RT) [7] [8],支持向量机(Support Vector Machine, SVM) [9] 等。有研究表明,相较于其他分类算法,随机森林具有较高的精度的优势,多特征输入随机森林有助于城市土地利用分类具有更高的精度。多时相遥感影像获取的不同作物的物候信息,能有效减少随机森林错分/漏分 [10]。高分辨率遥感影像相较于中低分辨率影像而言,对地物细节的描述更为准确且提供了大量用于分类的特征。传统的分类方法以像元为基础,利用单个像元光谱信息实现影像解译。近年来,面向对象技术打破了传统基于单个像元的局限,以多个像元信息作为对象,结合对象光谱、纹理和形状信息等多特征分类方法,大幅度地提高了影像解译的精度。
无人机相较于卫星影像打破了时间和空间的限制,弥补了其不足。无人机影像有丰富的光谱及纹理特征,但随之而来特征之间信息冗余严重,导致模型复杂度较大,运算效率低,精度较差。因此,对大量的先验特征优选显得尤为重要,其保证分类精度的同时也兼顾降低模型复杂度。已有研究表明特征优选能有效提高模型精度,采用随机森林方法对特征重要性排序,选择重要性较高的特征作为分类特征,能较大地提高湿地植物分类的结果 [11]。采用平均不纯度方法结合袋外(OOB)方法对重要特征组合优选,一定程度上提高了热带亚热带地区复杂土地覆盖分类精度 [12]。
在前人研究基础上,以地物分布复杂,地块破碎的湖南省郴州市桂阳县其中一块区域为研究区。利用无人机正射影像为基础数据,计算最佳面向对象分割尺度,利用Relief F算法和CFS算法分别选择特征输入随机森林机器学习算法完成土地覆盖分类。验证了该方法在混合像元较多的山地地区的适用性。
2. 研究区与数据
2.1. 研究区概况
研究区位于以湖南省郴州市桂阳县,湘江支流的舂陵江中上流,地理位置:25˚59'N,112˚34'E,位置如图1。境内山丘为主,岗平相当,水面较少,山地丘陵面积约占总面积的近四分之三。属于亚热带季风气候,气候温暖,四季分明。研究区主要地物类型有林地、农田和建筑用地等。
数据获取于2022年4月,利用大疆M300 RTK无人机获取研究区无人机影像,该款无人机搭载Zenmouse H20云台,集成2000万像素的变焦相机和1200万的广角相机。获取影像后使用Photoscan软件处理经过导入相片,对影像刺点后对齐照片、生成密集点云,最终生成正射影像(Digital Orthophoto Map, DOM),空间分辨率为0.02 m,影像大小为239,920,374个像元。
2.2. 地面参考数据
样本的质量直接决定着分类精度的高低,由于研究区位于植被覆盖极其复杂的山地丘陵,只依靠影像确定大范围地表覆盖类型困难。因此2022年4月对实地勘察建立解译标志。实地调查中该地区主要分为林地等植被、农田、裸地、水域、居民地和道路用地六类。根据实地调查样本点与目视解译的样本点共同组成训练样本。研究共采集具有代表性的234个样本点作为训练样本。验证样本使用Arcgis随机产生300个点,目视解译影像确定具体地物类型。训练样本和验证样本分布如图2所示。
![](//html.hanspub.org/file/79-2622670x8_hanspub.png?20140114011445649)
Figure 2. Training/validation sample distribution
图2. 训练/验证样本分布
3. 方法
3.1. 随机森林分类算法
随机森林算法由Breiman提出,由多颗决策树组成,采用多颗决策树联合进行预测可有效提高模型精度 [13]。该方法通过Bootstrap重采样技术,构成Bagging算法和随机森林的基础。随机有放回的采集和训练集样本数m相同的个数样本,随后对m个样本集做n次随机采样。对样本进行决策树建模,随机抽取f个特征,进行节点分裂。组合训练得到的多颗决策树形成随机森林,对多颗决策子树的预测值投票,得到最终结果。该算法在数据集上表现良好,两个随机性的引入,使之不容易陷入过拟合,具有很强的抗噪声能力。
3.2. Relief F特征优选
Relief算法最早由Kira提出,最初局限于两类数据的分类问题 [14]。随后对Relief进行了扩展,得到了Relief F算法,能够处理多分类问题 [15] [16]。为了提高分类精度,研究中利用python实现relief F完成特征权重计算,随后通过设置阈值选择权重较大的特征。处理多分类问题,首先从训练样本集中随机挑选出一个样本R,然后从同类型特征样本集中选择R的k个近临样本,对不同类型特征样本集中选择k个近邻样本,最后计算每个特征的权重。计算方法如下:
(1)
式中,
表示B特征权重,
为与R同类样本集中的最近临样本,
为类别C中不同类样本集中的最近临样本。
表示样本
在特征B上的距离。m表示重复的次数。
(2)
3.3. CFS特征优选
CFS并不是对单个的特征进行排秩,而是通过特征之间、特征与类别之间的关联性来评价特征的优劣。该算法的核心是采用启发式的方式来评估特征子集,特征子集之间本身不相关,只与类别之间有高度的相关性单个特征预测能力较强。启发方程计算如下:
(3)
式中,S是特征子集,包含k个特征,
是平均特征和类之间的相关性,
为平均特征与特征之间的相关性。研究采用最佳优先搜索(Best first search)搜索初始特征空间。
3.4. 面向对象最佳尺度选择
无人机影像预处理完成后,对影像进行多尺度分割。面向对象分割尺度过小时,容易出现同一地表覆盖类型分割为多个对象。分割尺度过大时,会出现同一分割对象中包含多种地物。因此选择合适的分割尺度是成功分类的基础。该分割方法是以单个像元为基础,自下而上合并同类相邻像元直到对象异质性达到阈值。分割达到的效果要使对象内部之间有较高的同质性,相邻对象之间有较高的异质性 [17] [18] [19]。本次研究同质性采用对象面积加权局部方差,异质性采用莫兰指数Moran’s I来计算,最终根据同质性指数和异质性指数构建分割评判函数来衡量分割结果的质量。该种方法市分割后的对象内同质性和对象间异质性在各个波段上都能够得到体现 [18]。具体计算过程如下:
1) 对象内同质性
(4)
式中,
指在b波段上对象同质性,n是指分割对象的个数,
为对象i的面积,
指对象i在波段b上的标准差。该值越小,表示面积局部加权方差越小,全局对象内部同质性越高。
2) 对象间异质性
(5)
式中,
指在b波段上的异质性,n为分割对象总数,
为对象
和
的临接关系(共享边界、结点或者面),若
和
的临接,则
,否则
;
为对象
在波段b上光谱平均值,
为整个影像在波段b的光谱平均值,该值越小表示对象间异质性越强。
3) 分割质量评价
将同质性指数和异质性指数做归一化处理:
(6)
(7)
(8)
式中,
、
、
、
为一个波段加权局部方差或莫兰指数的最大最小值。计算出的GS值越小分割质量越好。
3.5. 精度评定
研究构建了混淆矩阵,利用总体精度(Overall Accuracy, OA),Kappa系数两个评价指数。
(9)
(10)
式中,N表示验证样本的个数,n表示分类类别数。总体精度OA表示分类预测精度,Kappa系数是预测结果与训练样本吻合度指标,可以衡量分类结果。
4. 结果
4.1. 特征选择
特征的选择直接关系到分类结果的好坏,应保证其能最大限度区分不同地类。本文利用无人机正射影像的RGB波段遥感影像共提取了41个特征,其中自定义特征3个,光谱特征8个,形状特征5个,纹理特征25个。具体初始特征如表1。
基于Relief F算法对特征重要性排序,研究中保留相关性较强的前20个特征。特征选择如图3。
![](//html.hanspub.org/file/79-2622670x44_hanspub.png?20140114011445649)
Figure 3. Relief F feature selection
图3. Relief F特征选择
使用CFS算法对初始特征筛选,得到14个优选特征,如表2。
相较于两种特征选择方法,CFS算法筛选了14个特征,相较于Relief F算法筛选能力较强。从筛选的特征来看,自定义特征和光谱特征有8个、形状特征和纹理特征有6个。山地丘陵地区地物形状特征不明显,形状特征占比较小,而影像的光谱对影像分类贡献大。
4.2. 面向对象最优尺度选择
影像预处理后,使用Ecognition9.0进行多尺度分割,确定其最优尺度。精准的分割尺度对面向对象分类是一个重点。本次多尺度分割设置R、G、B波段的权重为1:1:1。多山地区地物分布较为破碎,地类之间没形状不明显。因此,形状和颜色的权重分别为0.1,0.9。紧凑度与光滑度共同设置为0.5。研究中以分割尺度20为起点,以20为步长,计算尺度20~220的GS值。由计算结果,分割尺度为160时,分割质量评价指数最小为0.972。为了细化分割尺度,得到最优的结果,研究增加分割尺度150、170,计算得到尺度为160时GS值最小,此时分割效果最好。具体影像分割质量评价如表3。
![](Images/Table_Tmp.jpg)
Table 3. Evaluation of image segmentation quality
表3. 影像分割质量评价
4.3. 影像分类结果
研究经过特征优选后,以最优尺度160完成多尺度分割,随后确定随机森林数的个数为50完成影像分类。实验构建了三种模型对比试验。模型A:没有特征优选,选择全部的41个自定义特征、光谱特征、形状特征和纹理特征,以采集的234个训练样本在随机森林算法下完成实验。分类结果如图4(a)。模型B:原始特征经过Relief F算法优选后,选择优选的20个特征,加入采集的原始的训练样本完成随机森林分类。分类结果如图4(b)。模型C:原始特征经过CFS算法优选后,选择优选的14个特征,加入采集的原始的训练样本完成随机森林分类。最后合并分类结果。分类结果如图4(c)。
![](//html.hanspub.org/file/79-2622670x45_hanspub.png?20140114011445649)
Figure 4. Classification results of different models and processing methods
图4. 不同模型及处理方法分类结果
4.4. 土地利用分类精度评定
使用Arcgis生成随机点工具生成300个点作为验证点,对比无人机影像目视解译对每个点赋类。利用验证点与预测分类结果在Arcgis中建立空间连接,计算分类结果的精度。如表4。
![](Images/Table_Tmp.jpg)
Table 4. Comparison of model accuracy
表4. 模型精度对比
从表4中可以看出,基于CFS特征优选的模型C精度最高。模型A、B、C的总体分类精度OA分别为80.3%、86%和90.3%,Kappa系数分别为0.743、0.818和0.873。相较于模型A与模型B,模型C总体精度分别高10%和4.3%,Kappa系数分别高0.13和0.055。模型B与模型C经过特征优选后,对比模型A,6类地表覆盖类型都有不同程度的提高,其中农田和林地等其他植被用户精度提升幅度较大都为1%左右。说明了特征优选除了减少运算时间外,还能有效的增加分类的精度。模型B与模型C经过Relief F算法和CFS特征优选,所用的特征数量一样,模型C采用的特征较少,但特征更适宜于分类,总体精度与Kappa有一定的提升,在农田和林地及其他植被土地利用类型上用户精度提升较大。说明了CFS特征选择算法选择的特征能有效避免已分类地物对未分地物的干扰。综上所述,本次研究提出的选择最优分割尺度160结合CFS特征选择算法获得了最高的分类精度,证明了该方法能有效的应用于地类分布不规则且及其破碎的山地丘陵地区。
5. 结论
本文以无人机影像为基础数据,通过面向对象多尺度分割,Relief F算法和CFS算法分别筛选特征子集,最后以随机森林机器学习算法完成了研究区面向对象影像分类,事实证明本文提出的方法适用于该地区影像分类。研究得出以下结论:
1) 对遥感影像的41个分类特征利用Relief F算法特征优选,在训练/验证样本一样的情况下,能有效地提高分类精度和分类效率。研究中Relief F算法特征优选后的模型B比原始特征集的模型A总体精度提升了5.7%,Kappa提升了0.075。
2) 对遥感影像初始41维特征利用CFS算法进行筛选,相较于Relief F算法筛选的特征子集,CFS算法筛选能力更强,筛选的特征对不同地物的描述更为准确,模型更为简单,分类精度更高。在三种模型中,模型C总体精度最高达到。
3) 多尺度分割是面向对象分类的基础,能有效的避免“椒盐现象”。文章采用同质性与异质性指数对分割质量评价,得出了分割尺度为160时,分割质量最优。该种方法能最大限度减少人工目视的主观性。
参考文献