• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于R语言的时间序列分析在宿州市年降水量预测中的应用研究

李彤 刘茹梦 孙汝甲
  
城市规划集
2022年14期
宿州学院

打开文本图片集

摘要:本文以R语言作为数据分析工具,使用时间序列分析技术对宿州市1971-2020年间的年降水量进行分析,用统计学原理分析年降水量数据的时间变化特征,并探讨R语言在地区年降水量数据分析领域中应用的巨大潜力。结果表明,R语言的数据分析与处理能力非常优秀,面对数据量庞大的地区年降水量统计数据,可高效地处理和分析,同时降水量的变化趋势和规律则可以通过时间序列分析来揭示。

关键词:时间序列分析 降水量 模型拟合 ARIMA模型

1 引言

众所周知,大气降水是水循环的重要环节和组成部分,也是流域内水资源的主要补充来源。近年来,由于各种社会因素和自然环境的变化,全球气候变暖的趋势日益明显,各地也频频发生少见但危害极大的极端气候事件,所以研究区域内的降水循环规律成为了国内外气象研究探索的热点之一。降水量作为水文循环的重要组成,可以直观明了地反映出区域内水资源的丰富程度,对区域水资源的量化及后续相关生态政策的制定有着重要影响,因此研究和探索区域降水量的变化规律和未来趋势具有较强的现实意义。

通常情况下,一个地区的年降水量存在一定的规律,该规律以时间为自变量,呈现出一种特定的趋势,一个地区当前的降水量和历史降水量必然存在着一定的规律和联系,为了准确描述这种关系,并对该地区未来的降水量进行合理预测,本文以1971-2020年宿州市的年降水量统计资料作为研究对象,利用R语言建立了宿州市历史年降水量的ARIMA时间序列模型,并预测了未来10年的降水量情况,文中所用的统计资料来源于《中国统计年鉴》和中国气象数据网,具备较高的完整性和可靠性,主要指标为宿州市的年降水量,时间为1971-2020年,共50组数据。

2 R语言简介

R语言是一门用于统计分析和统计制图的编程语言,语法结构简单、功能强大。R语言中数据类型包含数值型数据(numeric,取值为实数)、整数型数据(integer,取值为整数)、字符型数据(character,取值为字符)、逻辑型数据(logical,取值为TRUE或FALSE)等。

用于编写和运行R语言程序的R软件是一个自由的、免费的开源软件,可以通过CRAN网站下载并且安装,R软件的所有函数和数据集都包含在程序包内,只有当一个程序包被载入时,相关内容才能被访问。R软件界面简陋,通常不能直接使用,而是通过具有图形界面的RSTUDIO软件进行调用。

3 ARIMA模型与时间序列分析

3.1 ARIMA模型

ARIMA模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model),也叫求和自回归移动平均模型。R语言中的ARIMA模型是一种用于时间序列分析的数据分析工具,其中包括时间序列模型判定、以及后期相应参数的估计和预测,ARIMA模型有三个参数(p, d, q),其中p是指模型的自回归部分的阶数,d是指时间序列经过差分的次数,q是指模型平均移动部分的次数。通常分三个阶段完成时间序列分析,首先识别序列,然后估计和诊断检验模型,最后进行预测。

3.2 时间序列分析

从统计学的角度来看,时间序列是指在不同的时间点,由一些指标参数的不同值按时间顺序排列而成的数据序列。在各种外部因素的影响下,时间序列通常具有一定的随机性,时间序列数据挖掘的出发点是各时间点各参数的数据具有直接或间接的相关性。虽然在特定的时间点的位置具有随机性,也就是未来的数据不能准确地通过历史数据预测,但参数值经常在不同的时间显示出特定的趋势,类似的数据可以通过时间序列分析进行建模。

时间序列分析是从传统回归分析方法所衍生的一种数据分析方法,广泛应用于工业生产和经济分析领域,专门处理具有动态性的时间序列数据问题。时间序列分析根据实测研究对象得到的数据建立数据分析模型,然后分析该数据序列的内部变化规律和趋势并将其向前延伸,以获得研究对象在未来的运行和活动中的预测值。

任何时间序列都能够被分解成下面几个部分:

(1)长期趋势变动(Secular Trend)。它是指时间序列朝着一定的方向持续上升或下降,或停留在某一水平上的倾向,它反映了客观事物的主要变化趋势。

(2)季节变动(Seasonal Variation)。通常指时间序列随着季节的变化而产生的周期性波动。

(3)循环变动(Cyclical Variation)。通常是指周期为一年以上,由非季节因素引起的涨落起伏波形相似的波动。

(4)不规则变动(Irregular Variation)。即突然变动和随机变动。

以上四个部分如果相互之间是独立的,可以表示为叠加模型:

如果是相互影响的,可以表示为乘积模型:

3.3 宿州市降水量时序分析

在对时间序列数据进行分析之前,首先要判断平稳性,只有非白噪声的稳定性时间序列才能有预测未来数据的价值。时间序列数据平稳性检验一般采用根据时序图和自相关图显示的特征做出判断的图检验方法,根据宿州市的年降水量数据作时序图如图1所示:

时序图显示该序列没有明显的趋势和周期。进一步观察序列变量x的自相关图,图中两条平行虚线是自相关系数两倍标准差的参考线。根据自相关系数与两倍标准差之间的关系可以简单判断自相关系数大小,在范围外时可以认为,该自相关系数很大,显著非零;在范围内时可以认为,该自相关系数很小,近似为零。从图中可以看出自相关系数在延迟一阶之后,一直落入到两倍标准差之内,但是后续系数分布并不具有周期性和单调趋势的波动规律,说明该序列确实为非平稳序列。所以需要对数据进行一阶差分处理,以便进行下一步分析。

通过对差分后的序列进行ADF检验以确定在差分计算后序列的平稳性,检验结果表明该序列所有ADF检验统计量的P值均小于显著性水平(a=0.05),可以认定在一阶差分计算后该时间序列已经具有平稳性。接下来进行序列白噪声检验,如果序列值之间不存在任何关联关系,则表明过去的行为和变化对未来时间的发展与趋势几乎没有干扰,这种时间序列被称为白噪声序列。检验结果显示差分后序列不是白噪声序列,可以确认一阶差分后序列平稳非白噪声序列。

在时间序列经过预处理后,被判断为平稳时间序列,就可以利用ARMA模型进行建模。计算出该序列的自相关系数和偏自相关系数,再由AR模型、MA和ARMA的自相关系数和偏自相关系数的性质,选择合适的模型(如表2)。建模过程为,第一,先调用R语言通用函数ACF( )和PACF( )来计算ACF和PACF,即待分析的自相关系数和偏自相关系数。第二,进行模型定阶,或叫做模型识别,由AR模型、MA和ARMA的自相关系数和偏自相关系数的性质,选择合适的模型。第三,估计模型中的未知参数的值并进行参数检验。第四,建立模型后,进行模型优化,以最优参数修改模型。第五,对模型进行实际应用。

考虑到前面已经进行的一阶差分运算,所以考虑拟合Arima(1,1,1)模型。

经过在后期进行的对比和检验,不考虑漂移项对模型拟合预测效果要比考虑漂移项的模型拟合预测效果更好,并没有太大区别,所以此处选取不考虑漂移项的模型拟合结果,并进行深入分析。使用Arima模型拟合的不带漂移项的ARIMA(1,1,1)模型为:

展开差分运算,等价表示为:

为确认该模型的拟合性是否符合要求,需要进行显著性检验,以确定该模型是否正确。进行模型参数检验的方法主要有三种,其一是进行参数的显著性检验,其二是进行残差的正态性检验,其三是进行残差的无关性检验。在进行参数的显著性检验时,选取95%的统计置信度,T统计量的临界值为1.96,使用模型估计出的系数与其的标准差得到的商与临界值1.96进行比较,如果商的绝对值大于1.96,则拒绝原假设。

通过画出残差的QQ图判断残差的正态性,如果残差基本完全落在QQ图中45°线上即为符合正态性假设。否则模型可能出现错误。残差的无关性检验也称为残差的白噪声检验,常用LB统计量来检验残差。

通过绘制QQ图,显示残差为白噪声序列,具有显著性,说明该模型拟合良好,模型拟合具有较高的使用价值和实用价值。

接下来利用该模型进行10期预测,并绘制拟合与预测效果图如下:

图中,实线代表序列观察值,虚线代表模型拟合值,阴影部分实线代表预测值,其中分为深色阴影和浅色阴影,前者代表序列80%置信区间,后者代表序列95%置信区间。预测效果图显示,虽然序列并不平稳,但是该获得的拟合模型对测试集数据的拟合效果都不错,预测效果较好,预测值基本延续了原序列的发展趋势。

3 结论

本文对宿州市近50年间的降水量数据进行了时间序列分析,由时序图可以看出宿州市50年以来的降水量并不稳定,可以印证宿州市地处温带季风气候区,降水变率大,具有典型季风气候特征。特别是2003年以来年降雨量波动明显,而且出现极端降水,降水量波动较大。利用R语言作为数据分析工具,通过平稳性检验、一阶差分处理、确定模型参数、进行模型显著性检验,以ARIMA模型为基础,建立了相应的时间序列数据分析模型,并初步预测了未来的降水状况,得到了具有数理统计意义和效果的模型与预测结果,为预测降水量数据提供了参考。事实证明,R语言的数据分析与处理能力非常优秀,面对数据量庞大的地区年降水量统计数据,可高效地处理和分析,而降水量的变化趋势和规律则可以通过时间序列分析来揭示。而降水量的分析与预测,对建设和发展海绵城市,调节降水用水环境,提高水资源的利用率和回收再利用率,加快人类生活与自然实现协调发展进程,对生态环境可持续发展有着重要意义。

参考文献:

[1]国家统计局.中国统计年鉴(2021年版)[M]. 北京:中国统计出版社,1998-2020.

[2]薛薇.SPSS统计分析方法及应用[M]. 北京:电子工业出版社,2017.6

[3]王小宁.R语言实战[M]. 北京人民邮电出版社.2016.5

[4]王燕.时间序列分析[M].北京:中国人民大学出版社.2020.6

[5]陈琳.太原市月降水量时间序列分析[J].太原师范学院学报2011.10(2):38-40

[6]周生辉,刘廷玺.基于时间序列的海流兔河流域降水量模拟预测分析[J].水土保持研究报刊 2021,28(5):89-94

[7]李朋慧.R语言时间序列分析在瓦斯浓度预测中的应用研究[D].西安:西安科技大学 2019.6

[8]刘濛濛,隆永兰.巴音布鲁克近58年气候变化特征分析[J].干旱区地理2019,42(4):715-723

基金项目:

2020年安徽省大学生创新训练项目((S202110379033),项目负责人:李彤)

作者简介:

1.李彤(2000.8—),女,汉族,安徽宿州人,本科,宿州学院管理学院。

2.刘茹梦(2001.4—),女,汉族,安徽亳州人,本科,宿州学院数学与统计学院。

3.*通讯作者/指导老师:孙汝甲(1994.8—),男,安徽,硕士,宿州学院管理学院,助教

*本文暂不支持打印功能

monitor