有关空气质量预报问题分析与建模
Analysis and Modeling of Air Quality Forecasting Issues
DOI: 10.12677/pm.2024.145203, PDF, HTML, XML, 下载: 22  浏览: 40 
作者: 吴娟娟:上海理工大学理学院,上海
关键词: 多元线性回归BP神经网络深度学习均方误差Multiple Linear Regression BP Neural Network Deep Learning Mean Squared Error
摘要: 空气质量等级综合评价对人们的生产活动有着重要意义。各监测点数据由于包含了连续而丰富的各种气象条件数据,因此能成为空气质量估计与预测的重要手段。本文通过建立多元线性回归方程描述了污染物浓度与气象实测数据的关系;利用BP神经网络深度学习模型来估计各污染物浓度以及进一步可以计算AQI值;建立模型预测空气中五种主要污染物浓度,经过由深及浅、循序渐进的分析,能较为准确地预测空气质量,为人们生产生活提供参考。
Abstract: The comprehensive evaluation of air quality levels holds significant importance for people’s productive activities. The data from various monitoring points, encompassing continuous and rich meteorological conditions, serve as vital means for air quality estimation and prediction. This paper describes the relationship between pollutant concentrations and meteorological observation data by establishing a multiple linear regression equation. Additionally, it utilizes a BP neural network deep learning model to estimate pollutant concentrations and further calculate AQI values. By establishing a model to predict the concentrations of five major pollutants in the air, through a systematic and progressive analysis, it can accurately forecast air quality, providing a reference for people’s production and life.
文章引用:吴娟娟. 有关空气质量预报问题分析与建模[J]. 理论数学, 2024, 14(5): 489-508. https://doi.org/10.12677/pm.2024.145203

1. 引言

由于全球经济的快速发展,城市化和工业化进程加快,大气污染问题愈发严重,已经成为社会关注的焦点。针对大气污染问题,我国在1987年9月5日发布了《中华人民共和国大气污染防治法》、2013年9月10日印发了关于大气污染防治行动计划的通知《大气污染防治行动计划》、2016年12月20日印发并实施《“十三五”节能减排综合工作方案》等。

大气污染是人类活动或者自然过程排放的污染物导致大气质量下降的现象。为减少大气污染灾害,提高人民生活质量,建立空气质量预报模型是很有效的方法之一。

目前比较常用的是WRF-CMAQ模型。WRF-CMAQ模型是基于气象信息及场域内的污染排放清单,通过耦合了物理、化学机制的空气质量模型进行预测的过程 [1] 。WRF是一种中尺度天气预报系统,通过数据处理可以为预测提供所需的气象场数据,CMAQ则根据WRF的数据对对流层臭氧、能见度和颗粒物等物理和化学过程进行预报和模拟。但由于模拟的气象场及排放清单的有限性,及臭氧生成机理的不完全明晰,预测的结果准确性有待提高。

本项目重点关注实测得到的气象与污染物数据对预测的影响,利用提供数据对预报数据进行修正,增强数据相关性,提高空气质量预报的精确度。

2. 问题描述

基于上述研究背景,题目提供了监测点A、B、A1、A2、A3空气质量预报基础数据,本文需要解决以下四个问题:

问题1:使用附件1的数据,监测点A从2020年8月25日到8月28日每天实测的AQI和首要污染物。

问题2:在污染物排放情况不变的条件下,某一地区气象条件有利于污染物扩散或沉降时,该地区的AQI会下降,反之会上升。使用附件1的数据,根据对污染物浓度的影响程度,对气象条件进行合理分类,并阐述各类气象条件的特征。

问题3:使用附件1、2,建立一个同时适用于A、B、C三个监测点的二次预报数学模型用来预测未来三天6种常规污染物的单日浓度值,计算相应的AQI和首要污染物,要求二次模型AQI预报值的最大相对误差尽量小,且首要污染物预测准确度尽量高。

问题4:相邻区域的污染物浓度往往具有一定的相关性,区域协同预报可能会提升空气质量预报的准确度。根据图4,建立包含A、A1、A2、A3四个监测点的协同预报模型,要求二次模型预测结果中AQI预报值的最大相对误差尽量小,且首要污染物预测准确度尽量高。使用该模型预测以上四个监测点未来三天6种常规污染物的单日浓度值,计算相应的AQI和首要污染物。

注:本文中提及的附件1和附件2的数据来自2021年中国研究生数学建模竞赛B题附件1和附件2。

3. 模型基本假设与符号说明

3.1. 模型假设

假设一:假设其他气象条件对污染物浓度影响很小;

假设二:假设各气象监测点在2020年7月23日至2021年7月13日之间没有变化;

假设三:假设各气象监测点不存在较大的海拔起伏;

3.2. 符号说明

IAQIP:污染物P的空气质量分指数,结果进位取整数;

IAQIHi:与BPHi对应的空气质量分指数;

IAQILo:与BPLo对应的空气质量分指数;

BPHi:与CP相近的污染物浓度限值的高位值;

BPLo:与CP相近的污染物浓度限值的低位值;

CP:污染物P的质量浓度值;

AQI:空气质量指数。

4. 建模与求解

4.1. 问题一建模与求解

4.1.1. 问题描述与分析

空气质量预测的过程中涉及对数据的处理和预测,现要求基于已有的计算空气质量指数(Air Quality Index, AQI)的计算方法,并结合已有监测点A的数据,计算监测点A从2020年8月25日到8月28日每天实测的AQI和首要污染物。

第一步需得到各项污染物的空气质量分指数(IAQI),其计算公式如下:

IAQI P = IAQI Hi IAQI Lo BP Hi BP Lo ( C P BP Lo ) + IAQI Lo

第二步需要根据第一步得到的各项污染物的空气质量分指数(IAQI)计算出空气质量指数(AQI)。

已知公式:空气质量指数(AQI)取各分指数中的最大值,即

AQI = max { IAQI 1 , IAQI 2 , IAQI 3 , , IAQI n }

式中, IAQI 1 , IAQI 2 , IAQI 3 , , IAQI n 为各污染物项目的分指数。

在本题中,对于AQI的计算仅涉及表1提供的六种污染物,因此计算公式如下:

AQI = max { IAQI SO 2 , IAQI NO 2 , IAQI PM 10 , IAQI PM 2.5 , IAQI O 3 , IAQI CO }

第三步由于空气质量等级依据空气质量指数(AQI)划分,因而进一步由第二步得到的监测点A从2020年8月25日到8月28日逐日AQI得出对应每天的空气质量等级。

已知空气质量等级及对应空气质量指数(AQI)范围见表1

当AQI小于或等于50 (即空气质量评价为“优”)时,称当天无首要污染物;

当AQI大于50时,IAQI最大的污染物为首要污染物。若IAQI最大的污染物为两项或两项以上时,并列为首要污染物。

当IAQI大于100时,IAQI最大的污染物为超标污染物。

Table 1. Air quality levels and corresponding Air Quality Index (AQI) ranges

表1. 空气质量等级及对应空气质量指数(AQI)范围

4.1.2. 问题求解

现已知监测点A从2020年8月25日到8月28日逐日污染物浓度实测数据,对应得到各指标的数值并计算出IAQIP,见下表2

Table 2. Display of various data

表2. 各项数据显示表

根据以上表格数据得知:监测点A从2020年8月25日到8月28日逐日各项污染物的空气质量分指数(IAQI),再根据空气质量指数(AQI)公式,计算出逐日AQI,见下表3

Table 3. AQI calculation results

表3. AQI计算结果表

4.2. 问题二建模与求解

4.2.1. 问题分析

由于气象条件的变化会影响不同污染物在大气中的存在方式,在污染物排放情况不变的条件下,某一地区的气象条件有利于污染物扩散或沉降时,该地区的AQI会下降,反之会上升。现要求使用附件1中的数据,根据污染物浓度受影响程度,对气象条件进行合理分类,并阐述各类气象条件的特征。因此,我们将基于监测点A逐小时污染物浓度与气象实测数据建立合理模型,分别分析气象条件对各种污染物浓度的影响。

4.2.2. 模型的建立与求解

针对问题一,使用相关性分析的方法建立了多元线性回归模型,得出各污染物浓度与气象实测数据呈线性相关的结论。对描述污染物浓度与气象实测数据(温度、湿度、气压、风速和风向)之间的关系这一问题,首先对给出的监测点A逐小时污染物浓度与气象实测数据进行预处理,将因各种因素导致实测数据缺失的异常数值剔除,避免其对结果产生影响。

建立多元线性回归模型为:

y = β 1 x 1 + β 2 x 2 + + β m x m + c

其中 β 1 , β 2 , , β m ,c都是与 x 1 , x 2 , , x m 无关的未知参数,其中 β 1 , β 2 , , β m 称为回归系数。

现得到n个独立观测数据 ( y i , x i 1 , x i 2 , , x i m ) , i = 1 , , n n > m 由上式得

y i = β 1 x i 1 + β 2 x i 2 + + β m x i m + c i

X = [ x 11 x 1 m x i 1 x i m ] , Y = [ y 1 y m ] , β = [ β 1 β m ] , C = [ c 1 c i ]

表示为

Y = X * β + C

然后根据上述公式计算,可以得到污染物SO2浓度与气象条件指标关系可以描述为

Y SO 2 = X SO 2 * β SO 2 71.64344

其中

X SO 2 = [ X 1 , X 2 , X 3 , X 4 , X 5 ] , β = [ 0.038303 0.103664 0.085643 1.202434 0.000096 ] .

综上,对于SO2浓度与气象实测数据表现线性相关的关系。具体来说,与温度、气压成正相关,即随着这两项特征指标数据的增大,SO2浓度增大,反之降低。与湿度、风速成负相关,即随着这两项特征指标的增大,SO2浓度降低,反之增大。此外,气象条件中风向指标对SO2浓度的影响回归系数对应的p值小于0.05,因此,我们可以认为气象条件中风向指标对SO2浓度的影响不显著。

污染物NO2浓度与气象条件指标关系可以描述为

Y NO 2 = X NO 2 * β NO 2 + 334.6392

其中

X NO 2 = [ X 1 , X 2 , X 3 , X 4 , X 5 ] , β = [ 1.426152 0.235013 0.221603 17.32874 0.012604 ] .

综上,对于NO2浓度与气象实测数据表现线性相关的关系。具体来说,与温度、湿度、气压、风速和风向成负相关,即随着这两项特征指标的增大,NO2浓度降低,反之增大。

污染物PM10浓度与气象条件指标关系可以描述为

Y PM 10 = X PM 10 * β PM 10 1004.682

其中

X PM 10 = [ X 1 , X 2 , X 3 , X 4 , X 5 ] , β = [ 0.352132 0.704038 1.096292 14.25169 0.002754 ] .

综上,对于PM10浓度与气象实测数据表现线性相关的关系。具体来说,与温度、气压成正相关,即随着这两项特征指标数据的增大,PM10浓度增大,反之降低。与湿度、风速成负相关,即随着这两项特征指标的增大,PM10浓度降低,反之增大。此外,气象条件中风向指标对PM10浓度的影响回归系数对应的p值大于0.05,因此,我们可以认为气象条件中风向指标对PM10浓度的影响不显著。

污染物PM2.5浓度与气象条件指标关系可以描述为

Y PM 2.5 = X PM 2.5 * β PM 2.5 652.4166

其中

X P M 2.5 = [ X 1 , X 2 , X 3 , X 4 , X 5 ] , β = [ 0.044559 0.350171 0.708250 10.75726 0.003465 ] .

综上,对于PM2.5浓度与气象实测数据表现线性相关的关系。具体来说,与气压、风向成正相关,即随着这两项特征指标数据的增大,PM2.5浓度增大,反之降低。与湿度、风速成负相关,即随着这两项特征指标的增大,PM2.5浓度降低,反之增大。此外,气象条件中温度指标对PM2.5浓度的影响回归系数对应的p值大于0.05,因此,我们可以认为气象条件中温度指标对PM2.5浓度的影响不显著。

污染物O3浓度与气象条件指标关系可以描述为

Y O 3 = X O 3 * β O 3 1124.352

其中

X SO 2 = [ X 1 , X 2 , X 3 , X 4 , X 5 ] , β = [ 4.645471 1.748656 1.174023 1.300327 0.031807 ]

综上,对于O3浓度与气象实测数据表现线性相关的关系。具体来说,与温度、气压、风速成正相关,即随着这两项特征指标数据的增大,O3浓度增大,反之降低。与湿度、风向成负相关,即随着这两项特征指标的增大,O3浓度降低,反之增大。

污染物CO浓度与气象条件指标关系可以描述为

Y CO = X CO * β CO 0.006788

其中

X CO = [ X 1 , X 2 , X 3 , X 4 , X 5 ] , β = [ 0.012720 0.001502 0.001274 0.118170 0.000136 ] .

综上,对于CO浓度与气象实测数据表现线性相关的关系。具体来说,与气压、风向成正相关,即随着这两项特征指标数据的增大,CO浓度增大,反之降低。与温度、湿度、风速成负相关,即随着这两项特征指标的增大,CO浓度降低,反之增大。

4.2.3. 模型结果与评价

线性回归的优点——具有可解释性:所求得的每个特征所对应的β,其正负代表结果与其正相关还是负相关,绝对值大小表示相关性的强弱程度。本题基于已知数据,通过多元线性回归模型,建立6个线性回归方程,分别计算出5种气象条件对各污染物浓度的影响。现将5种气象条件对6种污染物浓度的影响相关性表示出来,见下表4

Table 4. The relationship between pollutant concentrations and meteorological conditions

表4. 污染物浓度与气象条件关系

注:“1”表示该气象条件对该污染物浓度的影响呈正相关;“−1”表示该气象条件对该污染物浓度的影响呈负相关;“0”表示该气象条件对该污染物浓度的影响不显著。

此外,通过建立协方差方差矩阵,分析污染物浓度与气象条件的相关系数,借助程序可以直观看出以上六种污染物浓度与气象条件的关系,如下图1

Figure 1. Correlation matrix of pollutant concentrations and various meteorological conditions

图1. 污染物浓度与各气象条件相关系数矩阵

4.3. 问题三建模与求解

4.3.1 . 问题分析

问题三要求根据题目提供的A、B、C点6种常规污染物实测数据建立一个适用于A、B、C三个监测点的二次预报数学模型来预测未来三天6种常规污染物浓度以及相应的AQI值,并要求误差尽量小,结果尽量准确。本章我们首先尝试了运用多元线性回归模型来预测未来的浓度值,但发现多元线性回归模型比较简单,算法相对低级,并且对于非线性数据或者数据特征间具有相关性多项式回归难以建模,经过我们实践也得出线性回归模型的误差较大,所以最后我们选择了BP神经网络 [2] 来进行预测,具体做法如下:

首先,对题目提供的A、B、C三个监测点6种常规污染物浓度逐日实测数据进行预处理,删除无效和缺失的数据,再按照合适的时间间隔关联AQI实测数据,然后查找资料用专业的软件对数据中的各指标进行统计处理,进行降维处理,用SPSS分析出相关性大的因子,删除相关性较差的因子,然后根据挑选出来的数据利用BP神经网络建立模型,最后再进行精度分析。

4.3.2 . 数据预处理

因为数据量较大,故对于附件中的空值我们采取直接删除不填充的过程,然后将逐小时测量的各种指标转化为日平均指标(除了臭氧求最大八小时滑动平均值,如不满八小时则删除)。如下图2为部分处理数据:

Figure 2. Data processing

图2. 数据处理

4.3.3 . BP神经网络模型建立

BP网络是一种多层前馈神经网络,具有三层或者三层以上神经元的神经网络,包括输入层,隐含层和输出层,上下层之间实现全连接,而同一层的神经元之间无连接,其结构图如图3所示本章解决的是AQI和污染物浓度多元非线性方程的最优化问题,因而可以使用BP网络来预测 [3] 。

Figure 3. Diagram of BP network prediction

图3. BP网络预测示意图

(1) 将污染物浓度作为指标作为神经网络输入数据构成输入层,AQI值作为神经网络目标输出数据构成输出层。

(2) 由于样本数据有不同的数量级,可能会导致网络的训练时间过长,运行速度过慢。最终会导致单位较大的数据作用会更大,单位较小的数据作用更小。则我们需要对样本进行归一化处理。基于MATLAB我们采用mapminmax函数,输入样本归一化为:

[ Y , P S ] = m a p m i n m a x ( X , Y min , Y max )

Y = m a p m i n m a x ( ' a p p l y , X , P S )

X = m a p m i n m a x ( ' r e v e r s e , Y , P S )

其中X是需要规划的数据集合, Y min Y max 是规划的限值范围,默认为[−1, 1],Y为返回规划后的值,则PS在结果反归一化中需要调用的参数。有计算公式:

y * = y y min y max y min

本章将输入层训练集P_train、输出层训练集T_train归一化处理,限定值为[0, 1],归一化后的数据集记为p_train、t_train。对于输入层测试集P_test同样处理记为p_test。最后得到原始预测值,需要对其进行反归一化处理,求得最终预测值。即对输出层测试集t_sim进行反归一化,记为T_sim。

(3) 根据BP神经网络的结构,我们选取6个输入神经单元,1个输出神经单元,隐含层为1层,隐含层节点为2。

4.3.4 . 分析

对于A、B、C三个监测点我们选用BP神经网络,输入层和隐藏层均采用transing函数作为传输函数,purelin函数作为输出层的传输函数,网络迭代次数为500,学习速率为0.01。

对于A点:

(1) 我们用A点的逐日实测数据前620个作为训练集,后200个作为测试集,网络训练过程如图4

Figure 4. Network training process of point A

图4. A点的网络训练过程

设置的最大训练次数为500,实际只训练了152次就达到所设置的误差之内。

(2) 由网络收敛结果(图5)看出,网络训练145次后收敛,网络误差为0.0013,基本达到了网络误差设置的要求。由图还可以看出,随着训练次数的增加,训练集与测试集误差逐渐减小,变化趋势一致,当网络训练达到145次之后,三条曲线基本变成一条,误差逐渐稳定。

Figure 5. The performance of neural networks of point A

图5. A点的神经网络性能

(3) 由图6可以看出,训练样本的拟合优度为98.58%,如果网络已经学会了很好地拟合数据,那么这个输出–目标关系的线性拟合应该与图的左下角和右上角紧密相交。

Figure 6. Regression analysis of point A

图6. A点的回归分析

测试集的拟合优度为97.87%,完全可以用来预测未来三天A点的AQI值。

(4) Learn Rate学习率(默认是0.01)关于学习速率的选取很重要,大了可能导致系统不稳定,小了会导致训练周期过长、收敛慢,达不到要求的误差。一般倾向于选取较小的学习速率以保持系统稳定,通过观察误差下降曲线来判断。下降较快说明学习率比较合适,若有较大振荡则说明学习率偏大。由图7可看出此处学习速率接近0.1为0.1004,说明拟合效果较好,适合建模。

Figure 7. Training status

图7. 训练状态图

最终利用BP网络预测的A点的数据见下表5

Table 5. The data predicted for point A

表5. 预测的A点的数据

对于B点:

(1) 我们用B点的逐日实测数据前620个作为训练集,后200个作为测试集,网络训练过程如图8

设置的最大训练次数为500,实际只训练了152就达到所设置的误差之内。

(2) 由网络收敛结果(图9)看出,网络训练152次后收敛,网络误差为0.00075,基本达到了网络误差设置的要求。由图还可以看出,随着训练次数的增加,训练集与测试集误差逐渐减小,变化趋势一致,当网络训练达到152次之后,三条曲线基本变成一条,误差逐渐稳定。

Figure 8. Network training process of point B

图8. B点的网络训练过程

Figure 9. The performance of neural networks of point B

图9. B点的神经网络性能

(3) 由图10可以看出,训练样本的拟合优度为98.93%,如果网络已经学会了很好地拟合数据,那么这个输出–目标关系的线性拟合应该与图的左下角和右上角紧密相交。

测试集的拟合优度为98.54%,完全可以用来预测未来三天B点的AQI值。

(4) 由图11可知,Learn Rate 学习率此处接近0.01为0.1004,说明拟合效果较好,适合建模。

最终利用BP网络预测的B点的数据如表6

Figure 10. Regression analysis of point B

图10. B点的回归分析

Figure 11. The performance of neural networks of point B

图11. B点的神经网络性能

Table 6. The data predicted for point B

表6. 预测的B点的数

对于C点:

(1) 我们用C点的逐日实测数据前620个作为训练集,后200个作为测试集,网络训练过程如图12

Figure 12. Network training process of point C

图12. C点的网络训练过程

设置的最大训练次数为500,实际只训练了153次就达到所设置的误差之内。

(2) 由网络收敛结果(图13)看出,网络训练153次后收敛,网络误差为0.0013,基本达到了网络误差设置的要求。由图还可以看出,随着训练次数的增加,训练集与测试集误差逐渐减小,变化趋势一致,当网络训练达到153次之后,三条曲线基本变成一条,误差逐渐稳定。

(3) 由图14可以看出,训练样本的拟合优度为97.15%,如果网络已经学会了很好地拟合数据,那么这个输出–目标关系的线性拟合应该与图的左下角和右上角紧密相交。

测试集的拟合优度为97.82%,完全可以用来预测未来三天C点的AQI值。

(4) 由图15可知,Learn Rate学习率此处接近0.01为0.075,说明拟合效果较好,适合建模。

Figure 13. The performance of neural networks of point C

图13. C点的神经网络性能

Figure 14. Regression analysis of point C

图14. C点的回归分析

Figure 15. The performance of neural networks of point C

图15. C点的神经网络性能

最终利用BP网络预测的C点的数据如下表7

Table 7. The data predicted for point C

表7. 预测的C点的数

4.4. 问题四建模与求解

4.4.1 . 问题分析

由于相邻区域的污染物浓度往往具有一定的相关性,区域协同预报可能会提升空气质量预报的准确度。因此,本问题首先要求使用附件1、3中的数据,建立包含A、A1、A2、A3四个监测点的协同预报模型,其中要求二次模型预测结果中AQI预报值的最大相对误差应尽量小,且首要污染物预测准确度尽量高。

其次使用该模型预测监测点A、A1、A2、A3在2021年7月13日至7月15日6种常规污染物的单日浓度值,计算相应的AQI和首要污染物,将结果依照附录“污染物浓度及AQI预测结果表”的格式放在论文中。

最后讨论:与问题3的模型相比,协同预报模型能否提升针对监测点A的污染物浓度预报准确度?说明原因。

首先:对A、A1、A2、A3监测点每天的的逐小时实测数据进行处理,得出该四个监测点的逐日实测数据;对A、A1、A2、A3监测点每天的的逐小时一次预报数据进行处理,得出该四个监测点的逐日一次预报数据。同时,在该过程中对数据进行适当处理,即删去因意外因素导致数据缺失的时刻的所有数据,从而降低对后期数据拟合造成的影响。

其次,根据得出的四个监测点的逐日实测数据和四个监测点的一次预报数据,建立包含A、A1、A2、A3四个监测点的协同预报模型,即利用两类数据进行多元线性回归,建立多元线性方程,通过对数据进行拟合最后预测出未来三日6种常规污染物浓度,并根据问题一中求解AQI的方法,计算得出未来三日AQI值。

4.4.2 . 模型的建立与求解

由于6种污染物浓度受各类气象条件影响较大,根据附件中已给数据可知,我们现只分析15种气象条件对各污染物浓度的影响,因此基于15个气象指标的逐日预报数据和四个监测点A、A1、A2、A3污染物浓度的逐日预报数据之间的关系分别建立多元线性回归方程,得到如下公式:

X = [ x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 , x 8 , x 9 , x 10 , x 11 , x 12 , x 13 , x 14 , x 15 ] T ; SO A = C 1 + β 1 X + β 2 SO AE + β 3 SO A 1 E + β 4 SO A 2 E + β 5 SO A 3 E ; NO A = C 2 + β 6 X + β 7 NO AE + β 8 NO A 1 E + β 9 NO A 2 E + β 10 NO A 3 E ; PM 10 A = C 3 + β 11 X + β 12 PM 10 AE + β 13 PM 10 A 1 E + β 14 PM 10 A 2 E + β 15 PM 10 A 3 E ; PM 2 .5 A = C 4 + β 16 X + β 17 PM 2 .5 AE + β 18 PM 2 .5 A 1 E + β 19 PM 2 .5 A 2 E + β 20 PM 2 .5 A 3 E ; O 3 A = C 5 + β 21 X + β 22 O 3 AE + β 23 O 3 A 1 E + β 24 O 3 A 2 E + β 25 O 3 A 3 E ; CO A = C 6 + β 26 X + β 27 CO AE + β 28 CO A 1 E + β 29 CO A 2 E + β 30 CO A 3 E ;

该公式表示对监测点A的一次预报数据和逐日实测数据进行拟合得到的各污染物浓度预测模型,其中X表示15个气象指标的逐日一次预报数据, β i , i = 1 , , 30 表示相关系数, C j , j = 1 , , 6 表示6个参数,污染物的下标AE,A1 E,A2 E,A3 E分别表示四个监测点的一次预报数据。

依次类推,可以得到A1、A2、A3监测点的多元线性回归方程。

通过以上模型,代入已知数据,可预测出结果如下表8~11:

Table 8. Prediction results for monitoring point A

表8. 监测点A预测结果

Table 9. Prediction results for monitoring point A1

表9. 监测点A1预测结果

Table 10. Prediction results for monitoring point A2

表10. 监测点A2预测结果

Table 11. Prediction results for monitoring point A3

表11. 监测点A3预测结果

4.4.3 . 模型结果与评价

该模型结合了一次预报数据与实测数据,从而建立了二次预报模型。通过分析可知,改进过后的模型的均方误差370.6855,小于问题3中的均方误差423.3183。因此,改进过后的模型拟合程度相较于问题3中模型拟合程度更高,也就说明与问题3的模型相比,协同预报模型能提升针对监测点A的污染物浓度预报准确度。

5. 总结与评价

本文基于题目给出6个监测点的气象条件以及污染物实测浓度与预测浓度,利用多元线性回归模型,BP神经网络深度学习模型,分析了气象条件与污染物浓度以及AQI的关系,并建立了关系式,直观的给出了预测模型的精度与误差。

针对问题一,利用由已给的AQI计算方法,推测出监测点A2020年8月25~28日的AQI值与首要污染物。

针对问题二,利用多元线性回归模型,根据污染物浓度与气象条件实测数据得到了6个线性回归方程,来判断污染物浓度与气象的条件的相关性。SO2浓度与温度和气压呈正相关关系,与湿度和风速呈负相关关系,风向对其影响不显著;NO2浓度与五个气象条件均呈正相关关系;PM10浓度与温度和气压呈正相关关系,与湿度和风速呈负相关关系,风向对其影响不显著;PM2.5浓度与气压和风向呈正相关关系,与湿度和风速呈负相关关系,温度对其影响不显著;O3浓度与温度、气压、风速呈正相关关系,与湿度和风向呈负相关关系;CO浓度与气压和风向呈正相关关系,与温度、湿度、风速呈负相关性 [4] 。

针对问题三,使用BP网络建立了能预测未来污染物浓度以及AQI的模型,且通过迭代选出误差最小,精度最好的预测模型。

针对问题四结合了A、A1、A2、A3四个监测点的数据利用线性回归模型建立了协同预报模型,通过分析得结合四个点的数据预测确实比单独用一个点的数据预报的结果更加准确。

本文也存在一些问题,首先对于数据的处理并没有太细致,空值与不合理的数据没有进行处理,而是直接删除。其次对于建立的BP网络模型不够精准。

参考文献

[1] 伍小丽. 基于新灰色非线性模型的长三角地区空气污染物预测及其缓解策略[D]: [硕士学位论文]. 常州: 常州大学, 2021
[2] 韦琦, 李思颖, 白胤豪, 等. 基于多元非线性回归与BP神经网络模型对土壤水分蒸发量的预测[J]. 水利科技与经济, 2021, 27(8): 28-32.
[3] Kong, D., Ning, G., Wang, S., et al. (2021) Clustering Diurnal Cycles of Day-to-Day Temperature Change to Understand Their Impacts on Air Quality Forecasting in Mountain-Basin Areas. Atmospheric Chemistry and Physics, 21, 14493-14505.
https://doi.org/10.5194/acp-21-14493-2021
[4] 陶晔, 杜景林. 基于随机森林的长短期记忆网络气温预测[J]. 计算机工程与设计, 2019, 40(3): 737-743.