
- 收藏
- 加入书签
基于神经网络-LSTM的民航客运量预测
摘要: 本文通过爬取2006年1月至2022年12月的各个月度民航客运量数据,统计数据信息并按照时间顺序排列数据,同时对缺失数据进行处理。运用MATLAB语言以及Python语言架构,并将数据集按照疫情前后进行分割,再结合ARIMA模型以及神经网络-LSTM算法对数据集进行进一步的分析以及处理。然后通过对ARIMA数学模型复现的试错以及LSTM-神经算法的参数调整,对数据集进行疫情前三年以及疫情后最新三年分别进行预测,观察预测效果的得分(即R2、RMSE等积分评测),最终得出预测精度更好的方法,即神经网络-LSTM算法为预测效果最好,输出预测模型。
关键词:民航客运量预测; ARIMA模型; LSTM预测模型; 深度学习
中图分类号: 文献标志码: 文章编号:
0 引言
近年来,随着社会的不断发展和人们生活水平的提高,民航业作为现代交通体系的重要组成部分,扮演着连接世界、促进经济发展的重要角色。准确预测民航客运量的变化趋势对于航空公司和相关决策者来说至关重要,它不仅关乎资源的合理配置,也关系着服务的质量和乘客的满意度。在这一背景下,“民航客运量的预测与研究”成为了一个备受关注的课题[1-4]。
在过去的几十年里,时间序列预测方法在领域占据主导[3,5,6]。ARIMA(AutoRegressive Integrated Moving Average)模型作为传统的统计方法,在某些情况下表现出了一定的优势[7]。但随着数据的复杂性和多样性的增加,其在捕捉长期依赖性和非线性关系方面逐渐显露出局限性[8]。因此,研究人员开始寻求更加先进的方法来应对这些挑战。
近年来,随着深度学习技术的迅猛发展,基于神经网络的时间序列预测方法逐渐崭露头角[4,9-16]。其中,LSTM(Long Short-Term Memory)作为一种重要的深度学习模型,在处理时序数据方面展现出了强大的能力。LSTM具备记忆单元和门控机制,能够有效地捕捉时间序列数据中的长期依赖关系,从而更好地适应数据中的复杂模式和趋势变化[13-16]。
本文通过对比分析LSTM神经网络算法与传统ARIMA模型,探讨其在民航客运量预测中的表现差异。本文安排如下:首先通过中国民航局收集的数据进行处理,并通过均值法补齐缺失数据,其次结合MATLAB语言构建符合客运量数据的ARIMA数学模型并进行初步预测,将预测的数据与原始数据进行对比并择优比较参数情况,调整模型适用范围多次试验;然后再运用Python语言构建LSTM算法,将原始数据带入算法中进行算法优化,搜集优化后算法以及预测模型,再次对比原始数据。最后,基于两种不同计算机语言,将两种模型进行对比,筛选出适应性更强预测效果更好的模型,并以此预测中国民航客运量接下来的数据情况。
1.模型收集与数据处理
通过中国民用航空局官方网站http://www.caac.gov.cn/爬取收集相关数据后,我们收集到2006年1月起至2022年12月共204个月的客运量数据情况,将数据集从疫情阶段分开,进行数学统计以及规律总结。整个数据集中有2-3个数据由于民航局的不可控因素存在数据缺失,故本文使用均值法[18]对缺失值进行处理。处理后的数据集图像化由下图所示:
通过研究图像可知,自2006年起至疫情前,民航客运量呈现逐年递增的趋势,且在每年8-10月份客运运载人数为每年最高。由于疫情影响,2020年民航客运量骤降至约2006-2007年客运量人数,并随着疫情的持续,客运量逐渐回暖。
2.预测模型构建
2.1 ARIMA模型构建
ARIMA模型全称是(autoRegressive I integrated Moving average)自回归综合移动平均线的首字母缩写词,它是一类在时间序列数据中捕获一组不同标准时间结构的模型。预测方程中平稳序列的滞后称为“自回归”项,预测误差的滞后称为“移动平均”项,需要差分才能使其平稳的时间序列被称为平稳序列的“综合”版本[5]。
我们因此试图建立一个线性回归模型进行预测。然而,考虑到数据中白噪声的影响,在基本的多元逻辑回归的基础上,结合AR回归公式[19]:
2.2 LSTM模型构建
LSTM长短记忆模型是一种改进的循环神经网络(RNN)结构。常规的RNN结构(如图2 所示)是将神经元的输出通过Logistic函数反馈到输入,使神经元t(n)时刻的输出不仅仅取决 于当前时刻的输入,还受到t(n-1)时刻的影响。然而,随着输入的不断增加,传统RNN结构中的历史信息被不断的覆盖,网络输出受到临近时刻输入数据的影响较大,距离当前时刻越远的输入,对网络输出做出的“贡献”越小,从而导致梯度消失等问题。
Schmidhuber等人提出的长短记忆模型(LSTM)通过设计多层“门”结构[20],使RNN具备了记忆距离较远节点之间的长期联系的能力。它能够对历史信息进行选择性的“记忆”和“遗忘”,从而解决了梯度消失的问题,使网络更加适合用于处理序列数据。“门”是一种让信息选择式通过的方法。一个典型的LSTM单元如图2所示,它包含一个输入门、一个遗忘门和一个输出门。3个门是非线性汇总单元,它们汇集模块内部及外部所有激励,并且通过门限单元控制信元的激励。
LSTM神经网络模型在处理时间序列数据时,能够利用过去信号的时间依赖关系。通过多次训练调整门限权重,记忆特征信息,构建特征空间,从而对未来信号进行合理预测。设当前LSTM神经元的输入为x(t),神经元连接的权重和偏执为W和b,输入信号依次经过遗忘门、输入门、输出门。由于LSTM神经元接受时间序列信号,时间序列组成有序的向量依次进入神经元,在受到当前时刻输入激励时,“遗忘门”首先结合上个时刻神经元的输出和和当前时刻的输入对继续保存在细胞的信息进行“筛选”。
3模型预测与实现
按照数理模型,我们选用ARIMA模型以及LSTM算法分别结合数据集构建预测模型并进行对比,并分别预测其未来三年民航客运量数据的准确性。
3.1 ARIMA模型预测
首先运用MATLAB语言对ARIMA模型进行编译,在ARIMA模型中我们首先验证数据集是否具有自相关性,在确认没有显著的自相关之后,初步得到预测模型为下图所示:
可以看到,作为差分模型,在处理陡然下降变化幅度较大的数据时,整体预测效果不是很好,为了进一步确定ARIMA模型的预测精度,我们暂时剔除疫情时波动情况的大数据,再次预测一遍,此时的预测模型为:
显然,当模型不出现陡然变化时,ARIMA模型的预测精度会更加的好,且预测平滑度也会更高,为了更加直观对比二者的区别,引入MSE、MAE、R2等预测误差值来确立。
通过上表可以更加直观看出,作为回归系数R2来说,当数据集模型呈现平滑趋势时,ARIMA模型的效果很好,可以达到0.99077的水平。
3.2 LSTM模型预测
可是面对民航客运中的整体数据来说,很小概率拥有比较平滑的趋势,故引入LSTM模型进行同样的整体预测进行对比。
由于民航局只公布客运量的月度数据,数据量并不是很庞大,所以选用LSTM模型时,我们选用单步预测[22]来对其进行处理。
以下是预测模型的参数调整情况:
通过以上模型将数据集按照85%以及15%划分为训练集以及测试集,橙色为训练数据集共168个14年数据,绿色为测试数据集共36个3年数据,测试集数据整体囊括疫情下的民航客运量。
3.3 预测结果与分析
通过LSTM得分对比可以得出结论,在同样数据量下,LSTM-神经网络算法更加灵活且得分较高,所预测的数据也能够在波动更大的数据样本下实现更加精确的预测。
4结论
本文深入探讨了基于神经网络的民航客运量预测问题,聚焦于LSTM(长短时记忆网络)神经网络算法与ARIMA模型之间的比较。通过对比实验和数据分析,我们清楚地看到了LSTM在民航客运量预测方面的卓越表现,相较于传统的ARIMA模型,LSTM展现出更加先进和有效的特性。
LSTM作为一种能够捕捉时间序列数据中长期依赖关系的深度学习算法,展现了其在民航客运量预测中的强大潜力。其内部的记忆单元和门控机制使得LSTM能够更好地适应数据中的复杂模式和趋势变化,从而在预测精度上取得了显著提升。与之相比,ARIMA模型虽然在一些场景中有着可观的表现,但在处理长期依赖和非线性关系方面存在一定的局限性。
本文通过充分的数据实验和结果对比,不仅验证了LSTM在民航客运量预测任务中的卓越性能,也为神经网络在时间序列预测领域的应用提供了实际案例。这对于优化民航运营、提升客运服务质量以及有效资源配置都具有重要意义。
尽管LSTM在本研究中表现出色,我们也要承认其作为一种数据驱动的方法,对于数据的质量和数量有一定的依赖。此外,随着深度学习领域的不断发展,未来可能会涌现出更多适用于民航客运量预测的新型模型和算法。
综上所述,本文强调了LSTM神经网络算法在民航客运量预测方面的优越性,并为相关领域的研究者提供了有价值的参考。我们期待在未来的工作中,能够进一步挖掘神经网络在民航领域的潜力,为行业的发展和创新贡献更多可能性。
参考文献:
杨志伟. 我国民航客运量影响因素分析及建模预测[D].广西师范大学,2021.
刘杨.基于线性模型的民航客运量影响因素与预测研究[J].现代营销(下旬刊),2020(04):148-149.
齐子薇.基于ARIMA模型的民航客运量时间序列研究预测[J].电脑迷,2018(12):253.
张良勇,郭猛.基于BP神经网络的北京民航客运量预测[J].河北企业,2020(04):35-36.
熊志斌.基于ARIMA与神经网络集成的GDP时间序列预测研究[J].数理统计与管理,2011,30(02):306-314.
郑腾. 基于对比学习的时间序列预测[D].东华大学,2023.
Zitiantao Lin, Junxian Kuang, Wenhua Li. Predictions and Research about Global Warming Based on ARIMA models. Academic Journal of Environment & Earth Science (2023) Vol. 5 Issue 3: 42-48. 2
荀梦君,李进岚,黄爱菊等.ARIMA模型和Holt-Winters指数平滑法在贵州省肺结核发病预测中的应用[J].中国预防医学杂志,2023,24(07):678-682.
许兴军,颜钢锋.基于BP神经网络的股价趋势分析[J].浙江金融,2011(11):57-59+64.
李朝静,唐幼纯,黄霞.BP神经网络的应用综述[J].劳动保障世界(理论版),2012(08):71-74.
钱宇.基于BP神经网络的课程质量评价体系构建——以物流信息技术应用课程为例[J].物流工程与管理,2021,43(10):172-174.
刘东,李田泽,刘开石等.GA-BP神经网络在光伏阵列故障检测中的应用研究[J].电源技术,2021,45(03):370-373.
苏向敬,周汶鑫,李超杰等.基于双重注意力LSTM神经网络的可解释海上风电出力预测[J].电力系统自动化,2022,46(07):141-151.
李洁,彭其渊,文超.基于LSTM深度神经网络的高速铁路短期客流预测研究[J].系统工程理论与实践,2021,41(10):2669-2682.
梁海峰,袁芃,高亚静.基于CNN-Bi-LSTM网络的锂离子电池剩余使用寿命预测[J].电力自动化设备,2021,41(10):213-219.
王余宽,谢新连,马昊等.基于滑动窗口LSTM网络的船舶航迹预测[J].上海海事大学学报,2022,43(01):14-22.
甘国育,游进国,张婷.基于双向LSTM的民航客运量预测[J].现代电子技术,2022,45(14):175-180.
Peng L,Fengzhi D. A Study of Weighted Average Method for Multi-sensor Data Fusion[J]. 人工生命とロボットに関する国際会議予稿集,2022,27.
Zhang Ge, Bai Jiao, Zhou Zhipeng, Cheng Qian. Prediction of TVOC concentration in museum scripture library based on ARIMA-SVM model[J].HVAC,2022,52(11):100-103.
李伟,申浩,凤少伟等. 基于LSTM的民航客运量预测方法[C],中国科学技术协会,中华人民共和国交通运输部,中国工程院.2019世界交通运输大会论文集(下).,2019:394-402.
甘国育,游进国,段培娟.融合1D-CNN和LSTM的民航客运量预测模型[J].信息技术,2022(03):6-11.
李鑫,李海明,马健.基于单步预测LSTM的短期负荷预测模型[J].计算机仿真,2022,39(06):98-102+117.
基金项目:中国民用航空飞行学院学生科学研究基金(XSB2023-009)
作者简介:林子天涛(2002—),男,云南昆明人,中国民用航空飞行学院学生,通讯作者。