- 收藏
- 加入书签
基于ARIMA和决策树模型研究毫州市空气质量指数
摘要:本文基于亳州市空气质量数据,对于亳州的空气质量指标和六种污染物的时间变化情况进行分析。通过MIV 方法对于六种污染物进行筛选,剔除了影响因子不大的污染物,将剩下的污染物分别建立ARIMA 模型和决策树回归模型,并且得出两者的拟合效果与预测结果。关键词:空气质量指数;MIV 算法;ARIMA 模型;决策树回归模型
二十一世纪以来,中国经历了飞速的发展,而有关污染的种种问题也随之而来。多种疾病被证实与环境污染息息相关,而环境问题对于人体健康影响的研究对于空气质量的准确报告的要求更高,市 AQI 在 2020,2021 年多次登上全国榜首。截至 2020年,根据空气质量检测网站的数据,市 AQI 平均数值为 90,逼近轻度污染,102个数据中空气仅有一天空气质量为良好,市空气质量比起其他城市而言表现一般。本文以市空气质量数据作为研究,对市空气质量进行分析和预测。
本文采集2019 年2 月1 日到2022 年2 月3 日共三年的市空气质量指数检测数据,以及 6 种污染物( O3PM2.5 , PM10 , NO2 , SO2 , )的日均浓度。基于相关数据分析现状以及时空分布特征,在分析影响因素的基础上分别建立 ARIMA 模型和决策树回归模型,平均影响值(MIV)作为一个可以较好筛选和反映输出变量与输出变量的相关性的方法,对六种变量进行筛选,从中选取出影响因子较大的变量,并分别构建模型,对两种模型进行拟合程度,预测程度的比较,从而得出在预测空气质量指数中较优的模型。
1.市空气质量状况分析
市空气状况变化情况可以看出 2 月到4 月时,第一年的空气质量指数明显大于后两年,三者之中的最大值也产生在第一年,而第二年和第三年数据相差并不大,但是临近5 月时第三年的单个值有了显著的增长,可以初步判断,冬季的空气指数在逐年下降。在5 月到 10 月时,后两年的数据赶超了第一年,第二年的夏季空气指数在伊始明显比另外两年糟糕很多,之后第一年继续占据了高点,第三年和第二年相差不大。在11 月到一月时,第二年和第三年总体比第一年严重。
2.空气质量指数的预测
2.1 基于 MIV 分析的参数选择
选取最后一年共366 个数据使用BP 神经网络进行训练,计算出不同变量的影响值。使用输入数据和输出数据建立神经网络:建立径向基网络,目标误差为0.01,径向基的spread=2。建立 BP 神经网络,得到预测值,并且比较预测值与实际值。召回率为 0.71093,说明有 71.093% 数据是预测正确的,之后绘制预测的空气质量指数和实际空气质量指数的图形。用同样的方法计算出其他污染物的MIV 值。并且进行排序,可吸入颗粒物,一氧化碳,细颗粒物对于 AQI 的平均影响值较大,故使用这三者作为输入参数进行ARIMA 建模。
2.2 ARIMA 模型
验证 AQI 在最后一年的平稳性,使用序列图检验对其进行分析,随着时间的推进,数据的平均值并没有围绕着一个值变动。这可以初步判断此序列变量并不是随着时间的变化而改变。转化为平稳序列。使用一阶差分对其进行处理。对其进行单位根检验,从单位根检验可以得出 P 值小于 0.01,故拒绝原假设,序列为平稳序列。接下来对于其使用白噪声检验,由检验结果可知,P 值远远小于原假设,故数据通过白噪声检验。对于模型进行自动定阶处理,得到模型为 ARIMA(0,1,3),做出残差的 Q-Q 图,残差大部分位于 45°线的周围,故残差是基本服从正态分布的。之后用 Ljung-Box 函数检验残差之间是否相关,可以得到表 6,三者残差都大于 0.9,接受原假设,即认为残差之间是不相关的,即残差平稳。
原数据和预测数据的差距较小,拟合度较好。R方的数值为0.6,说明预测值解释了60% 左右的AQI变量的方差。模型的RMSE,MAPE,MAE都在20以下,说明模型的拟合较好,将之后十天作为预测量,预测数据可以较好的拟合,但是与原始数据仍然存在这一定的偏差。
2.3 决策树回归
将数据分为训练集和测试集,其中使用0.2的数据作为训练集,其余的作为测试集。创建决策树的回归器,其中回归器全部使用默认的参数,将训练好的数据拟合分类器模型,对于输入变量的数据标签进行预测。将数据通过tolist转化为列表之后,将其与输入数据,及原始的空气质量指标做对比。预测值与实际值基本重合,说明决策树回归的拟合效果非常好,RMSE,MSE,MAE的误差都在0,拟合的十分好。
3.结论
本文通过平均影响值筛选出六种污染物中影响因素较大的污染物,并且以筛选出的影响因子最大的三个变量为输入变量,空气质量指数作为输出变量,分别建立 ARIMA模型以及决策树回归模型,对输出变量进行拟合,并且以此进行短期预测。关于模型的拟合程度,决策树回归模型相较于 ARIMA 模型有着较大的优势。对于未来十天的数据进行预测,ARIMA 模型对其趋势有着较为准确的预测,但是对于具体值与实际数据有着较大的偏差,因此有着一定的预测能力,却还存在着缺陷。所以在空气质量指数的研究之中,决策树回归模型的优越性比 ARIMA 模型大得多。
参考文献:
[1]肖悦,田永中,许文轩,刘瑾,万祖毅,张雪倩,刘旭东.中国城市大气污染特征及社会经济影响分析[J].生态环境学报,2018,27(03):518-526.
[2]汤泽梅. 我国部分城市空气质量指数的聚类、建模及预测研究[D].云南师范大学,2018.
[3] 林子英, 任妮娜, 刘刚. 大气污染致慢性呼吸道疾病机制研究[J]. 现代医院,2015,15(01):9-12.
作者简介:郝文斌(1997-),男,助教,方向经济统计。
京公网安备 11011302003690号