基于LightGBM算法的区域成矿预测—以夏河–合作为例
Region Mineralization Prediction Based on the LightGBM Algorithm—A Case Study of Xiahe-Hezuo
DOI: 10.12677/pm.2024.146250, PDF, HTML, XML, 下载: 30  浏览: 67 
作者: 高雅欣:成都理工大学,数学地质四川省重点实验室,四川 成都
关键词: 机器学习成矿定量预测多源地学数据Machine Learning Quantitative Mineral Prediction Multi-Source Geological Data
摘要: 本研究旨在利用LightGBM算法对夏河–合作地区进行矿产定量预测。LightGBM是一种集成学习方法,是随机森林的一种变体,在构建决策树时采用了随机划分。首先,我们收集了夏河–合作地区的相关地质和地球化学数据。然后,我们对数据进行预处理和特征工程,包括缺失值填充、数据标准化等。接下来,我们构建了LightGBM模型,并对模型进行了训练和调优。最后,我们使用训练好的模型对夏河–合作地区的矿产进行了定量预测,并评估了预测结果的准确性和可靠性。本研究的结果表明,LightGBM算法在夏河–合作地区矿产定量预测中具有较高的效果和潜力,为地质矿产勘查提供了一种有效的预测方法。
Abstract: This study aims to utilize the LightGBM algorithm for quantitative mineral prediction in the Xiahe-Hezuo region. LightGBM, an ensemble learning method and a variant of the random forest, uses random partitioning in decision tree construction. First, we collected relevant geological and geochemical data from the Xiahe-Hezuo region. Then, we performed data preprocessing and feature engineering, including missing value imputation and data normalization. Next, we constructed a LightGBM model and conducted training and tuning. Finally, we used the trained model to make quantitative predictions of mineral resources in the Xiahe-Hezuo region and evaluated the accuracy and reliability of the predictions. The results of this study indicate that the LightGBM algorithm has high effectiveness and potential in quantitative mineral prediction in the Xiahe-Hezuo region, providing an effective prediction method for geological mineral exploration.
文章引用:高雅欣. 基于LightGBM算法的区域成矿预测—以夏河–合作为例[J]. 理论数学, 2024, 14(6): 300-315. https://doi.org/10.12677/pm.2024.146250

1. 绪论

随着我国露天矿和易于开采的矿床减少,勘查难度逐年增加,新技术、新方法的研究与应用将是矿产资源勘查领域重要的研究方向。基于矿产资源勘查数据开展矿产资源定量评价的挑战主要集中在信息提取和信息整合的深层矿化信息挖掘上。深层矿化信息是指那些难以用传统方法识别的矿化信息,即在复杂地质环境中获取隐蔽的、深层的和特定的信息[1]

矿产勘查数据涵盖地质学、地球物理学、地球化学、遥感和钻探等多种勘查技术获取的数据,这些数据通过空中遥感、地面观测和地下勘探等多种方法获取[2],具有数据量巨大、多源、异质、高维度、高计算复杂度和高不确定性的特点,属于典型的多源异构数据。因此,数据科学方法对矿产勘查大数据进行特征提取和信息整合是至关重要的技术手段,有助于增强矿产勘查的效果[3]

地球化学数据提供了关键的矿化指标和地球化学异常,是识别矿产资源潜在位置的重要线索。地质构造数据则揭示了地壳的结构和构造活动,这对于理解矿床的形成环境和控矿因素至关重要。遥感技术因其能迅速获取广阔及难以进入区域的地表数据而在矿产勘查领域变得越来越普遍。遥感影像提供了从宏观尺度上理解地表和地下地质结构的可能,使得在初期矿产资源普查阶段就能够识别出具有潜在矿产价值的区域。利用这些多源数据,数据科学方法的应用显得尤为重要,它们可以帮助研究人员从大量数据中提取有用特征和进行有效的信息整合,从而提高勘查效率和效果。

夏河–合作地区是一个重要的浅层低温热液型金矿富集区,目前已探明的金矿资源超过400吨,其中包括早子沟、拉不在卡、老豆等标志性矿床。历史上的矿产资源预测主要依赖于传统的地质调查和地球化学技术,采用机器学习方法能够整合多源数据优势,提取多态、多源数据信息,挖掘数据背后的潜在特征和规律,有望带来全新的勘查方向。

然而,随着地学数据的多样化和高分辨率化,处理这些大规模的多源信息数据集需要更高效的技术。传统的机器学习方法虽能应对部分问题,但在处理极大规模的数据和高维度特征时显得力不从心,同时它们常常无法有效处理由矿产稀有性带来的样本不平衡问题。

LightGBM是一种先进的集成学习方法,它通过梯度单边采样(GOSS)和互斥特征捆绑(EFB)技术,不仅提高了训练效率,还有效应对了数据不平衡的问题,使其在处理多源地学数据集时表现出色。因此,本文采用LightGBM为核心方法开展夏河–合作地区区域定量矿产预测研究。同时,将LightGBM与传统的证据权法进行对比,以验证其在矿产资源定量预测中的优势,旨在进一步为定量矿产预测提供科学、高效的技术支持。

2. 研究区概述

2.1. 研究区背景

Figure 1. Xiahe-Hezuo geological map

1. 夏河–合作地质简图

夏河–合作地区隶属于西秦岭造山带,从大地构造的角度看,该地区主要位于扬子板块与华北板块之间的过渡部位[4]。西秦岭造山带是秦岭造山带向西的延伸部分,经历了多期次、多阶段的地质运动,提供了异常优越的成矿条件[5]-[7] (图1)。

研究区内露头的地层主要为中生代和古生代地层,这些地层通常沿着西北向的断裂分布。以夏河–合作断裂为界,其北部和南部分别展现出古生代和中生代地层。北部主要为石炭纪和二叠纪地层,而南部主要由三叠纪地层组成。

就构造特征而言,区域性断裂结构呈现总体西北向趋势,主要由深层断裂和次级褶皱特征。其中,夏河–合作断裂是研究区内最重要的结构,伴有次级东北向断裂[8]。深层的夏河–合作断裂在矿物形成过程中起到了关键的流通作用,矿化流体最终在次级断裂中富集。迄今为止识别的金矿床主要沿夏河–合作断裂及其次级断裂分布,这凸显了这些断裂在控制该地区矿物成因和沉积中的关键作用。

该区域明显出露的大规模侵入岩,可追溯至早燕山期,伴随着少量的喷出岩,表明研究区内频繁的岩浆活动。在夏河–合作断裂北部,显著的侵入岩体呈珠状分布,并向西延伸至甘加盆地,具有明显的构造控制特征。断裂南部的地区主要以岩脉为特征,总体呈现“西北成带、东南成串”的分布模式。岩石类型主要包括闪长岩–闪长斑岩、石英闪长岩–石英闪长斑岩以及花岗闪长岩–花岗闪长斑岩[9]

2.2. 地质数据和地球化学数据

本文数据涉及地球化学采样数据和地质调查数据,具有多源性和异质性。

甘肃省地质矿产勘查局第三地质矿产勘查院提供了1:50,000比例尺的水系沉积物地球化学数据,覆盖整个研究区域,共采集了9041个样品,每个样品包含13种元素,分别为Au、As、Sb、Bi、Hg、Ba、Co、Cu、Pb、Zn、Ag、W、Mo。断层构造与区域成矿密切相关,断层构造旁侧往往是矿床的赋存部位。

在夏河–合作地区的矿床形成过程中,成矿流体的输运、沉淀、空间定位和保存条件与成矿密切相关。断裂构造与矿化之间的关系尤为重要,断裂构造是成矿流体的通道,断裂带内的次级压缩、剪切和伸展性断裂为矿液的富集和沉淀提供了有利的场所,为矿床的形成提供了有利的空间。

区域性断裂在控制浅成热液脉状金矿床的形成与分布方面扮演着关键角色,形成了该地区重要的金矿化带。研究区内的典型矿床,如早子沟大型金矿床、早仁道金矿床等矿床均与断裂构造密切相关。因此,区域性断裂构造可被视为寻找金矿化的重要指标。本文定量提取了构造距离,并将其用作区域矿产资源预测的重要指标数据。

2.3. 数据预处理

论文共收集夏河–合作地区的9041个地球化学数据样本,包含地球化学元素共13种,由于获取到的原始的水系沉积物地球化学数据中部分元素存在着不同位置上的负值、重复值、缺失值、以及异常高值等等问题,需要对其原始数据进行预处理清洗工作。

(1) 缺失值处理

在地球化学数据分析中,处理缺失值是一项关键的预处理步骤,它直接影响到后续的数据解释和分析结果的准确性。存在多种策略来处理这些缺失值,具体方法取决于缺失值的成因。例如,如果缺失是由于数据值低于检测限,常用的做法是将这些缺失值设定为一个较低的固定值,通常是检测限的一半,或者利用多元回归分析来预估这些数据。另外,由于其他原因造成的缺失数据,如样品丢失或数据录入错误,可以采用几种不同的技术来处理。直接使用邻近数据的平均值或采用各种插值方法是常见的选择。此外,K近邻算法[10] [11]和K均值聚类[12]也可用于估计缺失值,这些方法通过考虑数据的相似性或邻近性来提供估计值。更复杂的技术,如随机森林[13]和贝叶斯统计方法,亦广泛用于推断缺失位置的可能值。

本研究采用了克里金插值方法来补全由不同原因导致的缺失值。克里金方法是一种高效的地统计工具,它不仅考虑了数据点之间的空间关系,而且能够提供插值的不确定性估计,从而提高了插值结果的可靠性。此外,为了进一步增强数据的应用性和可比较性,本研究还将地球化学数据网格化至1 × 1公里的分辨率,这意味着每个数据点反映了其周围1平方公里范围内的地球化学元素浓度的平均值。这种网格化处理不仅使数据更易于管理和分析,还有助于在更大的空间尺度上识别和解释地球化学模式和趋势。

(2) 成分数据处理

地球化学数据具有一个独特的特点,即所有元素含量的总和是一个常数(例如100%)。因其定和特性导致的“闭合效应”,使得传统的统计方法直接应用于地球化学数据分析会产生误差。因此,需要针对这种特殊的定和数据研究特定的分析方法。其中,一种常用的方法是采用对数比变换,通过这种方式可以将原始数据“打开”[14],使得每个元素的含量可以独立地进行分析,而不受总量约束的限制。随后,可以利用多元统计方法对经过转换的数据进行进一步的分析和建模。这样的方法有助于更深入地理解成分数据中各个元素之间的关系,为后续的数据处理和解释提供了基础。

基于上述理论可知,中心对数比变换具有独特性,它克服了加法对数比变换中存在的主观性。另外,这种变换方法保持了成分向量的维度和对称性,这在数据处理中非常重要。基于这些特点,对13种地球化学元素数据进行clr变换,以Zn元素为例,统计clr变换后的数据分布,结果显示(图2),在进行clr变换后,各元素含量数据的偏度值明显减小,这意味着clr变换能够使数据分布更加接近于正态分布的特征。这种变换有助于提高后续统计分析的准确性和可靠性,因为它使数据更符合经典统计分析方法的假设条件,从而增强了数据处理和解释的有效性。

Figure 2. Zn element content histogram (left: before clr transformation; right: after clr transformation)

2. Zn元素含量直方图(左:clr变换前;右:clr变换后)

(3) 栅格数据转换

原始地球化学数据以点数据格式存储,而遥感影像则采用栅格数据格式。由于两者在数据格式上的不同,直接融合这两种数据类型变得不可行。为解决这一问题,必须将地球化学数据和遥感数据转换到统一的数据格式。在此背景下,将地球化学数据从点数据格式转换为栅格数据格式显得尤为重要。此转换使得地球化学数据可以与遥感数据在同一平台上进行矩阵运算,从而实现数据的有效融合和分析。该转换过程保持了原始地球化学数据的信息完整性,并为后续的数据处理提供了方便。

(4) 克里金插值

克里金插值,一种基于变异函数和结构分析的空间插值方法,是地质统计学中的一个重要工具,因其无偏、线性且优化的特性而被广泛应用于土壤科学和地质科学领域。此方法通过分析样本特征及其空间关系,赋予不同样本不同的权重系数,进而在指定的范围内进行数据拟合,优化每个数据点的值。克里金插值的类型繁多,包括普通克里金插值、简单克里金插值以及适用于非连续数据的指示克里金插值等。

本研究选用普通克里金插值法来处理原始地球化学数据。该方法考虑了各观测点间的空间关系,从而能较好地揭示区域内地球化学元素的空间分布特征。以As为例,其插值结果显示了该元素在研究区域内的分布情况,如图3所示,提供了一种更为直观的数据表达方式,有助于进一步的地质分析和决策支持。

Figure 3. Geochemical interpolation results of As element

3. As元素地球化学插值结果

2.4. 实验步骤

使用ArcGIS 10.8软件进行数据预处理。选取13个地球化学元素和构造距离作为预测指标。利用逆距离加权(IDW)插值方法,生成了甘肃夏河–合作地区的地球化学栅格数据集。ArcGIS工具创建了构造缓冲距离的证据层。

构建训练数据集是监督学习中的重要环节。本研究使用三条原则用于确定非矿化区域。首先,确保选择的非矿点需要远离已知矿床。其次,负样本的位置需要远离金元素的异常高值区域,因为金的地球化学元素异常与矿床的分布密切相关,因此Au的背景值可以作为判断标准。第三,选择第四系作为负样本区域,因为这些底层单元与成矿作用关联较弱,缺乏暴露的侵入岩。图4显示了正负样本的选择结果。

Figure 4. Selected mining and non-mining areas for the study

4. 研究选定的矿区和非矿区

基于上述标准的负样本位置。该数据集包括训练集和测试集,从西到东覆盖研究区域,指定70%的数据用于训练,剩余30%用于测试。我们从已知矿床和负样本中心提取地质和地球化学信息,每个样本包括了13个地球化学元素和1个构造距离。

3. 方法

3.1. LightGBM

决策树算法自1984年由Breiman等人首次详细描述以来,已成为机器学习中最基础且广泛应用的技术之一。这种算法通过逐层构建树的节点结构来执行分类和/或回归任务。在决策树中,每个内部节点代表一个特征或属性,基于该特征的值,数据被分割成两个或多个子节点。这个分割过程一直持续到叶节点,叶节点包含最终的输出值,如分类标签或回归预测[15]。由于其直观的分层结构,决策树不仅易于实现,而且具有很好的解释性,使得用户可以清楚地理解模型的决策路径[16]

然而,单一决策树在处理复杂或高维数据时往往显示出性能限制,容易出现过拟合或泛化能力不足的问题。为了克服这些局限性,梯度提升算法被提出,它通过迭代地优化损失函数来增强模型的预测能力。梯度提升决策树(GBDT)是该思想的具体实现,它集成了多个弱学习器(通常是决策树)来构建一个强学习器[17]。GBDT的核心在于每一步迭代都在尝试修正前一轮迭代中的错误,通过添加新的决策树来专门针对前一轮的残差进行建模。具体而言,新的树是在损失函数的梯度方向上训练的,从而逐步减少模型误差,提高预测准确性[18] [19]

LightGBM (Light Gradient Boosting Machine)是在GBDT基础上的进一步发展,由微软研究院提出,如图5所示。作为一种高效的梯度提升框架,LightGBM对传统GBDT进行了多项改进,使其在大数据环境下表现更为出色。首先,LightGBM采用了基于梯度的单边采样(GOSS)和互斥特征捆绑(EFB)技术来降低数据在训练过程中的内存消耗和提升计算速度。GOSS保留了梯度较大(即误差较大)的样本,而对梯度较小的样本进行下采样,从而使模型更关注那些难以预测的样本。而EFB则通过捆绑互斥的(即不会同时取非零值的)特征来减少特征的维度,这一技术特别适合处理稀疏特征的数据集。

通过这些创新的技术,LightGBM不仅提高了梯度提升树的训练效率,而且改善了模型在大规模数据集上的表现,使得其在多个领域的数据科学竞赛和实际应用中都显示出强大的竞争力。这些优势使得LightGBM成为当前最受欢迎和最有效的机器学习算法之一。

Figure 5. GBDT algorithm flow

5. GBDT算法流程

给定训练数据集 T=( x 1 , y 1 ),( x 2 , y 2 ),,( x N , y N ) ,其中x是特征向量, y=f( x ) 是目标函数,N是样本数量。给定损失函数:

L( y,f( x ) )= k=1 K y k log p k ( x ) (3-1)

其中,k是类的个数, p k ( x ) 是第k个类的预测概率。GBDT算法在复杂数据分析中的实际应用如下:

(1) 第一步是使用回归树来训练弱学习器 f 0 ( x ) ,以便最小化损失函数。

f 0 ( x )=argmin i=1 N L( y i ,γ ) (3-2)

其中, γ 是一个常数。

(2) 下一步是迭代地训练额外的回归树。在每次迭代过程中,需要计算代表样本i残差的损失函数的负梯度值。

r im = [ L( y i ,f( x i ) ) f( x i ) ] f( x )= f m1 ( x ) (3-3)

其中, m( 1,2,,M ) 是训练迭代次数, f m1 ( x ) 表示第 m1 个回归树。

(1) 将预测的数据集和残差组合为下一决策树的训练数据,以获得新的回归树 f m ( x ) ,其中每个叶节点区域表示为 γ jm ( j=1,2,,J ) J表示回归树m的叶节点数。随后,计算最佳拟合值。

γ jm =argmin x i R jm L ( y i , f m1 ( x i ) )+γ (3-4)

(2) 来自第m个分类和回归树的所有J个节点的贡献被相加,以向强学习器提供加法更新。

f m ( x )= f m1 ( x )+ j=1 J γ jm I ( x R jm ) (3-5)

其中, I( x ) 为指示函数,如果 x R jm ,则 I=1 ,否则 I=0

(3) 最终的学习器是通过M次迭代后求和获得的。

f M ( x )= m=1 M j=1 J γ jm I ( x R jm ) (3-6)

在前面的步骤所开发的GBDT模型通常用于解决分类问题。在这种情况下,通常使用归一化指数函数Softmax来计算多个分类结果的概率值 P k ( x )

P k ( x )= e f i ( x ) i1 K e e f i ( x ) (3-7)

其中,特征向量x被分类到类别k (其中 k=1,2,,k )的预测概率值表示为 p k ( x ) 。最终,该模型评估并比较特征向量x的每个类别的预测值。

3.2. 地球化学元素组合提取与推断方法

随着成分数据分析的发展与应用,研究者对于勘查地球化学数据的认识越来越清晰,其具备的成分数据属性已获得广泛共识。成分数据具有“闭合效应”的情况也同样出现在地球化学数据中,这是因为在理想状态下,地球化学样品中不同元素含量的总和为定值。一般而言,受此定和效应的影响,会使得地球化学元素之间具有伪相关现象,数据分析的结果因此而受到影响。

成分数据是指分布在有限区域内的服从单位和约束条件的数据。成分数据的样本空间属于单形(Simplex)空间[20]

成分数据的样本空间属于单形(Simplex)空间:

S D ={ X=[ x 1 , x 2 ,L, x D ]s| x i >0,i=1,2,L,D; i=1 D x i =K } (3-8)

“闭合”操作是地球化学成分数据“打开”前的必要流程:

X=C[ x 1 , x 2 ,L, x D ]=[ x 1 g x i=1 D x i , x 2 g x i=1 D x i ,L, x D g x i=1 D x i ] (3-9)

在成分数据的统计分析中,经常会忽视到数据的定和限制,这会导致传统的统计方法在处理这类数据时出现问题。为了解决这一困境,英国统计学家艾奇逊提出了一种创新的方法,即利用成分数据分量之间的比值(即所谓的“对数比”),作为一种转换工具来应用于数据分析。这种方法充分利用了成分数据比值的特性以及对数正态分布的性质,使得传统的统计分析方法应用于成分数据,从而提高了数据分析的准确性和可靠性。

4. 区域多源信息定量矿产预测与成矿远景区优选

4.1. 基于LightGBM的成矿远景预测

4.1.1. 基本训练流程

将机器学习方法引入到矿产定量预测,主要包括样本数据集的构建、预测变量要素的构建、模型的训练与优化、模型结果与评价。步骤如下:

(1) 正负样本选择:需要选择矿点数据集和非矿点数据集分别作为正负样本,将正样本赋值为1,负样本赋值为0。

(2) 构建数据库:利用ArcGIS中的渔网工具对研究区进行划分,将成矿相关因子属性图层和研究区栅格单元相连接,得到研究区多源成矿信息数据库,构建成矿相关因子属性数据库。

(3) 参数寻优:从标记的栅格单元中随机划分成训练集和验证集,利用机器学习算法训练模型并优化参数。

(4) 模型预测:将预测数据集输入到最优模型中进行成矿预测,并通过克里金插值生成成矿概率图。

本次利用机器学习模型研究二分类判别问题,实现研究区有矿和无矿的判别。选择22个已知矿床点和23个负样本点作为有标记的样本。根据地质 + 地球化学数据集,采用的训练模型为LightGBM模型,实验输出每个样本点成矿可能性的概率值大小结果,分析不同数据集的实验结果,利用克里金插值形成成矿概率平面图,对概率分布进行分析,结合地质背景、遥感蚀变、构造、地球化学异常等多源地质信息进行综合成矿预测,圈定成矿远景区。

4.1.2. 参数优化

在机器学习模型的训练过程中,参数和超参数扮演着至关重要的角色,但它们的功能和调整方式有着明显的区别。参数是模型在学习过程中自动学习和调整的内部配置变量,以随机森林为例,每棵决策树在训练过程中学习得到的,包括决策树中的节点划分点和叶节点等。这些参数是模型在学习过程中自动调整的,它们决定了每棵树的具体结构和如何从输入特征进行决策。参数的好坏直接关系到每棵树预测的准确度。这些参数在训练过程中不断优化,以便模型能更好地适应和预测数据。参数的主要目的是帮助模型精确地从输入数据中学习并预测输出,从而在遇到新数据时也能做出准确的预测。

超参数包括树的数量(即森林中决策树的总数)、每棵树的最大深度、在每个分裂节点考虑的特征数量等。这些超参数不会从数据中自动学习得到,而是需要在训练模型前由数据科学家设定。超参数的选择直接影响模型的学习能力和泛化性。例如,树的数量越多,模型的稳定性通常越好,但计算时间和内存需求也随之增加。每棵树的最大深度若设置得过高,可能会导致过拟合;设置得过低,则可能无法充分学习数据的特征,导致欠拟合。

本文所探讨的参数优化指的是超参数的调整,而不是模型内部参数。LightGBM的内部参数,比如树中的节点划分和叶节点的值,是在训练过程中通过优化算法自动学习得到的。与之相对的,超参数,如树的数量、学习率、树的最大深度等,需要在模型训练前手动设定,并且它们对模型的性能和训练效率有显著影响。目前常见的参数优化方法有:网格搜索(Grid Search)、随机搜索(Random Search)和贝叶斯优化(Bayesian Optimization)等。

与网格搜索和随机搜索相比,贝叶斯优化有几个显著的优点,这使得它在处理复杂的超参数优化任务时特别有效:首先是贝叶斯优化使用概率模型(通常是高斯过程)来预测超参数的性能,并基于先前的评估结果指导后续的搜索,而网格搜索需要遍历所有可能的参数组合,而随机搜索由于其选择是随机的,虽然减少了搜索空间,但仍然缺乏针对性和高效性;由于贝叶斯优化的搜索都是基于以往的结果,因此它往往能够更快地收敛于最优解;贝叶斯优化特别适合处理非常复杂和高维的参数空间,其中一些超参数可能会影响结果的不稳定性。高斯过程模型能够处理这种复杂性,通过对目标函数的平滑和连续近似,它可以有效处理参数间的相互作用和非线性关系。

贝叶斯算法的流程大致如下:

(1) 选择一个先验分布

贝叶斯优化开始于对目标函数的先验假设。通常,先验模型采用高斯过程(Gaussian Process, GP)。高斯过程是一种定义在连续输入空间上的随机过程,其任意点集的联合分布都是多元正态分布。高斯过程由均值函数 m( x ) 和协方差函数 k( x, x ) 定义,通常均值函数可以假设为零,而协方差函数(也称核函数)则反映了输入点之间的相关性。

GP( m( x ),k( x, x ) ) (4-1)

其中, m( x ) 通常为零,而 k( x, x ) 可以选择多种形式,如平方指数核:

k( x, x )= σ 2 exp( ( x x ) 2 2 l 2 ) (4-2)

这里 σ 2 是方差项,l是长度尺度参数,这些都是超参数,需要在优化过程种确定。

(2) 观测数据更新后验分布

根据收集到的目标函数的评估结果,更新高斯过程的后验分布。这一步是通过贝叶斯规则进行的,

其中观测数据 D n ={ ( x i , y i )|i=1,,n } 更新后验分布。后验分布的均值核协方差计算公式为:

μ n ( x )= k n ( x ) T ( K n + σ n 2 I ) 1 Y n (4-3)

σ n 2 ( x )=k( x,x ) k n ( x ) T ( K n + σ n 2 I ) 1 k n ( x ) (4-4)

其中, k n ( x ) 是包含 k( x, x i ) 对所有i的向量, K n 是训练点之间的协方差矩阵, Y n 是观测值向量, σ n 2 是观测噪点。

(3) 选择新的采样点

选择采集函数(acquisition function)来从后验分布中选择新的采样点。这个函数的目标实在探索(尝试未知区域以提高模型的一般性)和利用(使用模型已知的信息来找到最优解)之间找到最佳平衡。常见的采集函数包括:期望改进、概率改进和贪心策略。

期望改进(Expected Improvement, EI):

EI( x )=E[ max( 0,f( x )f( x + ) ) ] (4-5)

其中, f( x + ) 是当前观测到的最大值。

概率改进(Probability of Improvement, PI):

PI( x )=P( f( x )>f( x + ) ) (4-6)

贪心策略(Upper Confidence Bound, UCB):

UCB( x )= μ n ( x )+κ σ n ( x ) (4-7)

其中, κ 是权衡探索和利用的参数。

(4) 重复步骤二和步骤三

使用新选择的采样点更新数据集,重复步骤二和步骤三,直到满足停止条件(如迭代次数、时间限制或性能阈值)。

LightGBM包含多种超参数,调参可以更好地进行成矿潜力预测。由于LightGBM对过拟合非常敏感,必须优化其超参数。在本研究中,使用了贝叶斯优化算法来优化LightGBM的超参数。

LightGBM的基本超参数包括:Num_leaves (每棵树的叶子数)、Learning_rate (学习率)、max_depth (树的深度)、colsample_bytree (提升树的数量)以及n_estimator (提升树的数量)。表1为LightGBM模型参数设置。

Table 1. LightGBM model parameter settings

1. LightGBM模型参数设置

Parameters

LightGBM

reg_alpha

0.5750980844810407

subsample

0.9317386295086748

max_leaves

5

n_estimators

30

reg_lambda

0.31018441796322543

learning_rate

0.3038817993538191

colsample_bytree

0.705047466029596

min_child_weight

2.3325710660543377

colsample_bylevel

1

4.1.3. 模型验证

影响模型拟合效果的因素主要包括数据质量、数据结构的复杂性、特征数量、模型算法和超参数选择、模型构建中的随机性等。因此,在构建模型时为了获得更好的模型拟合效果,需要综合考虑这些因素选择合适的方法和策略。本文采用混淆矩阵和ROC曲线进行评估,以达到更好的模型效果和可解释性。

(1) 混淆矩阵

表2中A、B分别表示真实类别是矿点、非矿点的数量;C、D表示预测类别为矿点、非矿点的数量;E表示样本总个数。基于上述分类,用相应的统计指标来评价模型的分类精度,表3展示了评估指标的计算方式。

Table 2. Confusion matrix

2. 混淆矩阵

预测类别

真实类别

矿产地

非矿产地

总计

矿产地

TP

FN

A

非矿产地

FP

TN

B

总计

C

D

E

Table 3. Evaluation index calculation method

3. 评估指标计算方式

参数

公式

Accuracy

TP+TN TP+TN+FP+FN

敏感度

TN TN+FP

特异性

TN TN+FP

正样本准确率

TP TP+FP

负样本准确率

TN TN+FN

Kappa系数

kappa= p 0 p c 1 p c

将验证数据集输入到训练所得最优参数配置的机器学习模型中,根据经验阈值将概率值大于0.5的输出划分为矿点类别,其他划分为非矿点类别,输出验证数据集的预测类别。在地球化学 + 地质构造样本集下进行成矿预测所得的分类结果绘制出相应的混淆矩阵(图6)。

Figure 6. Confusion matrix of classification results (geochemistry + geological structure)

6. 分类结果混淆矩阵(地化 + 地质构造)

Table 4. Evaluation indicators of data sets

4. 数据集评估指标

数据集

Accuracy

敏感度

特异性

正样本准确率

负样本准确率

Kappa系数

地化 + 地质构造

0.8889

0.826

0.955

0.95

0.84

0.841

数据集的评估指标如表4所示,从准确率来看,地球化学 + 地质构造数据集的准确率为89.9%。从敏感度的角度来看,敏感度也被称为召回率,是衡量分类模型在识别正样本方面的能力的指标。具体来说,敏感度反映了模型对于正样本(矿点)的识别能力,而由于找矿其特殊的经济价值,我们都会希望模型能够尽可能减少正样本被误判,从而保证不遗漏潜在成矿区域,所以模型识别正样本的能力格外重要。观察地球化学+地质构造样本集的敏感度指标,可以发现,该样本集的敏感度为0.826。夏河–合作地区的深大断裂带在热液成矿过程中承担热液通道的作用,矿液最终在局部次级断裂中富集成矿,而且从正样本(矿点)的分布来看,目前已发现的金矿点几乎都沿夏河–合作断裂及其次级断裂分布,说明断裂是致矿的重要控制因素,这也解释了断裂构造信息的加入对模型正样本识别能力的提升。

特异性,作为衡量分类模型在识别负样本方面的能力的指标,反映了模型对于负样本的识别能力。分析地球化学 + 地质构造数据集的特异性,发现其特异性为 0.955,可以看出遥感蚀变信息能够提升模型识别负样本的能力。虽然成矿预测的目的是寻找潜在矿藏,但负样本的识别同样非常重要,过多的负样本被误判为正样本会极大的增加勘查成本,降低勘查效率。

Kappa系数(Cohen’s Kappa)是一种用于衡量分类模型预测与实际观察之间一致性的统计量。Kappa系数通常用于评估分类任务中的分类器性能,特别是在类别不平衡或者观察中存在随机因素的情况下。它通过考虑模型预测与随机预测之间的一致性来度量模型的准确性。Kappa系数为1表示完美一致,即模型的预测与实际观察完全一致。Kappa系数为0表示模型的预测与随机预测一致,即模型没有比随机猜测更好的效果。Kappa系数为负数表示模型的预测比随机预测还要差。地球化学 + 地质构造数据集的Kappa系数为0.841,说明模型的性能较好。Kappa系数的意义在于,它提供了一种考虑分类器预测与实际观察之间一致性的方法,而不仅仅是单纯地考虑准确率等指标。通过Kappa系数,可以了解模型预测的稳定性和一致性,从而更全面地评估分类器的性能。

4.2. 成矿远景区圈定

结合研究区已知矿床(点)与成矿预测结果的空间分布关系,圈定了区域成矿远景区5个,如图7所示,结合地质成矿规律,解释如下:

I号远景区位于研究区的北部,该远景区内的成矿高概率范围受北西向次级断裂和花岗闪长岩的展布联合控制。区内已存在大量基本沿北西向断裂和岩性接触面分布的已知金矿床(点)。可能是由于燕山早期的地质运动中酸性岩浆沿断裂运移而上,以Au元素为主的成矿元素最终在此富集成矿。综合地球化学异常图和潜力图,认为该区除了已有的矿床(点)之外,仍然存在巨大找矿潜力。

Figure 7. Delineation of prospective mineralization areas

7. 成矿远景区圈定

II号远景区位于夏河–合作断裂带,该远景区与花岗闪长岩岩体密切相关,预测结果显示出围绕岩体分布的异常形态。

III号远景区位于合作市北西部,早仁道金矿是该远景区的典型矿床。结合地球化学数据、断裂分布情况,认为矿点南东向存在一定找矿潜力,这与该远景区内北西向分布的花岗闪长岩体也相对吻合。

IV号远景区,该远景区为围绕早子沟金矿的预测高值区,该区断裂分布、成矿概率显示异常,且远景区形态受断裂和岩体控制,是非常值得进一步开展勘查工作的远景区。

V号远景区位于研究区的东北角,该区并没有已知矿点,远景区内存在成矿有利岩体–花岗闪长岩,构造断裂密集,成矿元素组合在此处富集,预测结果也指示此处有较大成矿潜力,因此将该区作为一处有利远景区。

5. 结论

本研究基于LightGBM算法,针对夏河–合作地区进行了矿产定量预测,并得到了以下结论:

首先,通过收集相关的地质、地球化学和地球物理数据,我们构建了夏河–合作地区的数据集,并进行了预处理和特征工程。这为后续的矿产预测奠定了基础。

其次,我们使用LightGBM算法构建了矿产预测模型,并对模型进行了训练和调优。通过训练好的模型,我们能够有效地对夏河–合作地区的矿产进行定量预测,并获得了较高的预测准确性和可靠性。

基于预测结果,我们绘制了夏河–合作地区的矿产远景图,并圈定了5个成矿远景区。这些远景区的圈定是基于地质成矿规律和预测结果的空间分布关系,为进一步的勘探工作提供了重要的参考依据。

本研究结果表明,LightGBM算法在地质矿产勘探领域具有较高的效果和潜力,能够为地质勘探工作提供一种有效的预测方法。未来,我们将继续探索和优化机器学习算法在矿产勘探中的应用,为资源勘探和开发提供更加科学、精准的技术支持。

参考文献

[1] 赵忠海, 陈俊, 乔锴, 等. 基于分形理论的遥感蚀变信息和构造分析研究: 以黑龙江多宝山地区为例[J]. 现代地质, 2023, 37(1): 153-163.
[2] 郭为民. 浅谈地球探测技术的几种方法与应用[J]. 中文科技期刊数据库(全文版)自然科学, 2022(8): 76-78.
[3] 叶成名. 基于高光谱遥感的青藏高原岩矿信息提取方法与应用研究[D]: [博士学位论文]. 成都: 成都理工大学, 2011.
[4] 李程. 深部地质地球化学三维定量矿产预测方法研究[D]: [博士学位论文]. 成都: 成都理工大学, 2022.
[5] 李康宁, 贾儒雅, 李鸿睿, 等. 西秦岭甘肃夏河——合作地区与中酸性侵入岩有关的金铜多金属成矿系统及找矿预测[J]. 地质通报, 2020, 39(8): 1191-1203.
[6] 张帅, 肖克炎, 朱裕生. 甘肃夏河——合作一带成矿预测及预测方法比较[J]. 地质学刊, 2018, 42(3): 393-400.
[7] 毛景文. 西秦岭地区造山型与卡林型金矿床[J]. 矿物岩石地球化学通报, 2001(1): 11-13.
[8] 张帅. 甘肃省合作-美武地区综合信息找矿预测研究[D]: [博士学位论文]. 北京: 中国地质大学, 2021.
[9] 张继荣. 甘肃省夏河地区成矿预测及找矿靶区研究[D]: [硕士学位论文]. 西安: 长安大学, 2016.
[10] Fix, E. and Hodges, J.L. (1952) Discriminatory Analysis. Nonparametric Discrimination: Small Sample Performance. International Statistical Review, 57, 238-247.
[11] Fix, E. (1985) Discriminatory Analysis: Nonparametric Discrimination, Consistency Properties (Vol. 1). USAF School of Aviation Medicine.
[12] Lloyd, S. (1982) Least squares quantization in PCM. IEEE Transactions on Information Theory, 28, 129-137.
https://doi.org/10.1109/tit.1982.1056489
[13] Breiman, L. (2001) Random Forests. Machine Learning, 45, 5-32.
https://doi.org/10.1023/a:1010933404324
[14] Egozcue, J.J., Pawlowsky-Glahn, V., Mateu-Figueras, G. and Barcelo-Vidal, C. (2003) Isometric Logratio Transformations for Compositional Data Analysis. Mathematical Geology, 35, 279-300.
[15] Debeljak, M. and Džeroski, S. (2011) Decision Trees in Ecological Modelling. In: Jopp, F., Reuter, H. and Breckling, B., Eds., Modelling Complex Ecological Dynamics: An Introduction into Ecological Modelling for Students, Teachers & Scientists, Springer, 197-209.
https://doi.org/10.1007/978-3-642-05029-9_14
[16] Charbuty, B. and Abdulazeez, A. (2021) Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2, 20-28.
https://doi.org/10.38094/jastt20165
[17] Friedman, J.H. and Popescu, B.E. (2008) Predictive Learning via Rule Ensembles. The Annals of Applied Statistics, 2, 916-954.
https://doi.org/10.1214/07-aoas148
[18] Friedman, J.H. (2002) Stochastic Gradient Boosting. Computational Statistics & Data Analysis, 38, 367-378.
https://doi.org/10.1016/s0167-9473(01)00065-2
[19] Zuo, F., Memmolo, A., Huang, G. and Pirozzoli, S. (2019) Direct Numerical Simulation of Conical Shock Wave-Turbulent Boundary Layer Interaction. Journal of Fluid Mechanics, 877, 167-195.
https://doi.org/10.1017/jfm.2019.558
[20] Aitchison, J. (1983) Principal Component Analysis of Compositional Data. Biometrika, 70, 57-65.
https://doi.org/10.1093/biomet/70.1.57