
- 收藏
- 加入书签
基于Xgboost和二分法的郑州市短时强降水概率预报方法研究
摘要:利用2014~2023年郑州市逐小时降水数据和欧洲中心ERA-5逐小时再分析资料,分析了近十年郑州市短时强降水的时间分布特征,并构建了基于Xgboost和二分法的概率预报模型。结果表明:郑州市短时强降水事件主要发生在暖季(5~9月),并以7月为最多,具有明显的午后至傍晚多发特征。通过Xgboost算法对56个物理量因子进行重要性分析,并结合箱线图特征差异分析,筛选出7个短时强降水潜势预报因子。基于Xgboost输出的重要性得分设定各物理量因子权重系数,最后采用二分法建立短时强降水概率预报模型,并利用TS评分对2023年夏季的短时强降水日潜势预报效果进行检验,结果显示,当概率阈值设定为0.97时,预报模型能够很好平衡预报正确次数和漏报次数,达到较高的预报准确率。
关键词:短时强降水;Xgboost算法;概率预报;郑州市
短时强降水是由对流系统引发的短时间内降水强度超过20mm/h的天气现象,通常持续时间不超过6小时,常引发城市内涝、山体滑坡和洪水等灾害,危及人员安全并对经济造成严重影响[1]。如2021年7月20日,郑州市经历了小时雨强超过200mm的极端降水,导致区域洪水泛滥、交通瘫痪等灾情[2]。
传统预报方法在处理非线性关系和高时空分辨率数据时局限性明显,而机器学习算法因其在大数据处理和非线性问题上的优势,逐渐被应用于降水预报中,取得了显著成果。例如,基于决策树、Xgboost等算法的预报模型在多个地区的降水预报中显示出良好效果[3-4]。
目前郑州市缺乏本地化的短时强降水概率预报产品,因此本研究基于2014~2023年逐小时降水数据和ERA-5再分析资料,采用Xgboost和二分法构建短时强降水概率预报模型,以期提升预报的精度和应用价值,为城市防灾减灾提供技术支持。
1资料与方法
1.1资料介绍
研究采用郑州市108个气象观测站的逐小时降水数据,涵盖2014~2023年暖季(5~9月)。在潜势预报中,采用欧洲中心(ECWMF)发布的ERA-5逐小时再分析资料进行物理量分析,网格分辨率为0.25°×0.25°。
1.2预报方法
在对短时强降水的时间特征进行分析时,本研究将任意一个观测站在某一时刻的降水量≥20mm/h,或在不超过2h的间隔内多次出现降水量≥20mm/h的情况,均视为同一短时强降水事件。在潜势预报方法研究中,首先根据108个气象站的位置对ERA-5再分析资料进行双线性插值,得到对应站点的物理量数据;接着利用Xgboost机器学习方法对物理量进行重要性排序,初步选出与短时强降水相关性较大的物理量因子;然后作出各物理量因子的箱线图,依据各因子箱体重叠部分较小原则,最终挑选出最具代表性的物理量因子,同时根据Xgboost输出的重要性得分设定物理量因子权重值;最后采用二分法[5-6]建立短时强降水概率预报模型,并通过实际观测数据进行检验和验证。
2郑州市短时强降水时间分布特征
2014~2023年郑州市短时强降水事件年际变化特征如图1a所示。总体上看,绝大多数年份短时强降水事件均超过45次,其中有两个显著峰值;2021年为第一个峰值年,短时强降水事件达到117次;2023年为第二个峰值年,达100次;2015年短时强降水事件最少,仅为22次。
如图1b所示,2014~2023年郑州市短时强降水事件的月际分布呈明显的单峰型。短时强降水主要集中在5~9月的暖季,总计发生592次,其它月份在3、4、10月出现9-11次,频率相对较低。7、8 月短时强降水事件明显频发,占暖季短时强降水事件的 80.2%,其中又以7月的次数最多,达到291次。
图1c为郑州市短时强降水发生频数日变化特征。如图所示,郑州市短时强降水呈明显午后至傍晚多发的态势。从13时开始,短时强降水频数逐渐增大,15~17时达到一天中短时强降水发生的峰值。出现频数最高时次为16、17时,短时强降水发生频数都达到51次,随后从18时开始频数逐渐下降,在9~10时降落到最低值。
3短时强降水概率预报方法研究
3.1物理量重要性分析
由上述分析可知,郑州市短时强降水事件多发生在暖季,其中以7、8月最多。因此选取2014~2022年的6~8月(夏季)降水数据。从短时强降水发生的环境条件出发,参考前人研究总结的关键物理量[1,7],共挑选出56个物理量,并与雨量数据形成数据集,然后利用Xgboost机器学习方法做重要性分析,得到各物理量对短时强降水的重要性得分(图2)。可以看出,前10个物理量重要性排序从高到低依次为:850hPa比湿(q850)、K指数(K-index)、850hPa温度露点差(ttd850)、850hPa假相当位温(se850)、对流有效位能(cape)、700hPa垂直速度(w700)、700hPa经向风(v700)、925hPa温度(t925)、700hPa散度(d700)、700hPa纬向风(u700)。这些因子基本涵盖了短时强降水发生所需的水汽条件、稳定度条件以及抬升条件。
3.2预报因子筛选
针对图2中列出的物理量,将2014~2022年6~8月的短时强降水数据划分为“发生”和“未发生”两个类别,并作出包含短时强降水日和不包含短时强降水日的物理量因子箱线图(图3),依据各因子箱体重叠部分较小原则,最终挑选出7个因子作为潜势预报方程自变量:850hPa比湿、K指数、850hPa温度露点差、850hPa假相当位温、对流有效位能、700hPa垂直速度以及700hPa经向风。需要指出的是,700hPa比湿和850hPa相对湿度的箱体重叠部分占比也比较小(分别为2.07%和5.43%),但它们重要性得分却靠后,故不作为最终预报因子。
3.3概率预报方法
本研究中概率计算方法采取二分法计算每个格点的短时强降水发生概率。单个格点的短时强降水发生概率为:
式中:N为预报参数个数;当第i个参数的值落在阈值范围内时,则设Ai为1,否则为0;wi为参数i的权重系数。根据图3中各物理量因子在发生与不发生短时强降水时刻的分布状况,可以设置发生短时强降水时上、下四分位值为该参数的判断阈值,将物理量因子对短时强降水的重要性得分用于计算其权重系数,具体公式如下:
式中:Fi表示第i个参数对短时强降水的重要性得分。
4预报效果检验
为检验概率预报模型的实际应用效果,对测试期(2023年6~8月)模型输出结果进行检验。首先计算某日每个时刻每个格点的概率值,插值到108个站点上,然后设定一个概率阈值,当某日站点概率大于此阈值时便认为该日存在短时强降水事件。将其与站点降水数据进行对比判断正误,计算TS预报评分,公式如下:
式中:NA为有短时强降水且正确预报的次数,NB为空报次数,NC为漏报次数,ND为无短时强降水且预报无的次数。如图4所示,随着概率阈值的增大,TS评分先缓慢增长,当概率阈值>0.91后,TS评分急剧上升;概率阈值为0.97时,TS 评分为73.9%;概率阈值为1.0时,TS评分为80.4%,但漏报次数(NC)明显增加,预报正确次数(NA)也显著减少。因此当概率阈值设定为0.97时,预报模型能够很好平衡预报正确次数和漏报次数,达到较高的预报准确率。
5 结论
本研究基于2014~2023年郑州市的降水数据和ERA-5再分析资料,分析了近十年郑州市短时强降水的时空分布特征,并构建了Xgboost和二分法的短时强降水概率预报模型。主要结论如下:
(1)郑州市短时强降水事件集中于暖季(5~9月),尤其是7月的午后至傍晚多发。
(2)通过Xgboost算法和箱线图特征差异分析,筛选出7个关键预报因子,包括850hPa比湿、K指数、850hPa温度露点差等。
(3)采用二分法构建的预报模型在2023年夏季测试中,当概率阈值为0.97时,表现出较高的准确率,能够有效平衡预报正确次数和漏报次数。
参考文献:
[1]孙继松,戴建华,何力富,等.强对流天气预报的基本原理与技术方法:中国强对流天气预报手册[M].北京:气象出版社,2014:1-158.
[2]崔慧慧,李荣,郜彦娜,等."7·20"郑州极端特大暴雨降水细节特征和成灾过程研究[J].灾害学,2023,38(2):114-120.
[3]朱岩,翟丹华,吴志鹏,等.基于Xgboost算法的短时强降水预报方法[J].气象科技,2021,49(3):406-418.
[4]史达伟,沈阳,马晨晨,等.基于决策树算法的江苏省不同区域短时强降水预报研究.气象科学,2022,42(5):631-637.
[5]雷蕾,孙继松,王国荣,等.基于中尺度数值模式快速循环系统的强对流天气分类概率预报试验[J].气象学报,2012,70(4):752-765.
[6]麦哲宁,许东蓓,肖天贵,等.成都市短时强降水概率预报方法初探[J].高原山地气象研究,2022(1):127-134.
[7]章国材.强对流天气分析与预报[M].北京:气象出版社,2011:74-109.
作者简介:孙存永(1995.06),男,汉,江苏连云港,硕士研究生,助理工程师,研究方向:机器学习算法在气象中的运用。