- 收藏
- 加入书签
传染病高风险人群与高风险区域的智能化判别与预警系统研究
摘要:针对传统传染病防控中高风险对象识别效率低、精准度不足及预警滞后等问题,本文提出一种融合多源数据、机器学习与地理信息系统(GIS)的智能化判别与预警方案,并研发相应系统。通过构建多源数据融合体系,实现12 类传染病相关数据的标准化整合;基于XGBoost 算法构建高风险人群判别模型,结合层次分析法(AHP)与GIS 技术建立高风险区域评估体系;最终形成“数据采集 - 风险判别 - 预警推送 - 决策支持”全流程系统。经东部A 市(人口 500 万)与中西部 B 市(人口 200 万)6 个月试点验证,系统高风险人群识别准确率达 92.3%,区域风险划分准确率 89.5%,预警响应时间缩短至15 分钟,较传统防控效率提升100 倍以上,为传染病精准防控提供关键技术支撑。
1. 引言
1.1 研究背景
全球化背景下,传染病传播呈现“跨区域、高速度、强隐匿”特征,如新冠肺炎疫情期间,单例确诊病例关联密切接触者超20 人,3日内可引发跨省市传播 [1]。传统防控依赖人工排查与经验判断,存在三大核心瓶颈:其一,数据孤岛导致信息割裂,医疗机构电子病历、交通卡口轨迹、社区健康监测等数据格式差异显著,数据利用率不足 40%[2] ;其二,风险识别滞后,单区域高风险人群排查周期超 72 小时,难以满足《突发公共卫生事件应急条例》中“24 小时响应”要求 [3] ;其三,精准度欠缺,区域风险划分依赖行政边界,易出现“一刀切”防控,某疫情案例显示传统方法过度管控区域占比达 35%[4]。
1.2 研究现状
国际上,美国 CDC 开发的 Epi Info 系统实现病例数据统计,但缺乏风险预测功能 [5] ;英国 Public Health England 的 FluWatch系统侧重流感趋势分析,未涉及高风险人群精准识别 [6]。国内研究中,王等(2022)基于逻辑回归构建人群风险模型,准确率仅82.1%[7] ;李等(2023)利用 GIS 实现区域风险可视化,但未建立动态更新机制[8]。现有研究尚未形成“数据 - 模型 - 系统 - 应用”一体化解决方案,难以满足复杂传染病防控需求。
1.3 研究意义与创新
1.3.1 研究意义
理论意义:建立多源数据融合的传染病风险评估框架,丰富公共卫生信息化理论体系,为机器学习在传染病防控领域的应用提供方法论支撑。实践意义:缩短防控响应时间,降低人工成本 45% 以上,助力卫生防疫部门实现“精准防控、科学施策”,为突发公共卫生事件应急处置提供技术保障。
1.3.2 创新点
1. 提出“特征分层筛选 + 多模型对比优化”的人群风险判别方法,通过相关性分析与递归特征消除(RFE)筛选20 项核心特征,对比4 类机器学习算法,优选 XGBoost 模型提升识别精度。2. 构建“传播风险 - 防控能力 - 人口特征”三维区域风险评估指标体系,结合 AHP 确定指标权重,实现网格级(1km×1km)动态风险划分。
3. 研发分布式系统架构,支持 1000 + 并发访问,数据查询响应时间≤2.1 秒,满足大规模区域防控需求
2.1 多源数据融合技术
采用“数据层 - 特征层 - 决策层”三级融合架构 [9] :数据层通过ETL 工具(Kettle)实现结构化数据清洗,采用BERT 模型对非结构化文本(如医生诊断记录)进行实体识别,实体抽取准确率达 91.2% ;特征层通过主成分分析(PCA)降维,将 38 维原始特征压缩至20 维,保留95% 以上信息;决策层基于加权投票法整合多源特征,提升数据可靠性。
2.2 机器学习算法原理
2.2.1 XGBoost 算法
XGBoost(Extreme Gradient Boosting)通过梯度提升框架构建集成模型,其目标函数包含损失项与正则项:
L(\phi)=\sum_{i=1}^{n}l(y_i,\hat{y}_{i-1}+f_t(x_i))+\Omega(f_t)
其中,l(y_i,\hat{y}_i) 为损失函数(采用对数损失),\Omega(f_t)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2 为正则项,控制模型复杂度 [10]。本研究通过网格搜索优化参数:学习率0.1,树深度 6,estimators 数量 100,交叉验证(5 折)准确率达 92.3%,优于随机森林(88.7%)、逻辑回归(85.2%)及 LightGBM(90.5%)。
2.2.2 层次分析法(AHP)
AHP 通过构建判断矩阵确定指标权重,步骤如下:
1. 建立递阶结构:目标层(区域风险评估)- 准则层(传播风险、防控能力、人口特征)- 指标层(8 项核心指标);2. 构造判断矩阵:采用 1-9 标度法,如病例密度与人口流动强度重要性比为 2:1,判断矩阵一致性比例 CR=0.042<0.1,满足一致性要求 [11] ;
3. 计算权重:传播风险维度权重 0.52,防控能力 0.28,人口特征 0.20,其中病例密度权重最高(0.21)。
2.3 GIS 空间分析技术
采用 ArcGIS Engine 组件开发空间分析模块,实现三项核心功能
1. 网格剖分:基于渔网工具将研究区域划分为 1km×1km 网格,共生成 1286 个单元;
2. 空间插值:采用克里金插值法处理病例分布数据,生成病例密度热力图,插值误差≤
3. 叠加分析:将风险得分网格与行政边界、交通网络叠加,生成高风险区域分布图
3.1 系统架构设计
3 系统设计与实现
采用 B/S 架构,分为前端展示层、后端服务层、数据存储层三层结构,如图 1 所示
(此处插入系统架构图:前端(Vue.js+ECharts)→后端(Spring Boot 微服务:数据采集服务、模型服务、预警服务、报表服务)→数据存储层(MySQL+PostgreSQL+Redis)
3.1.1 前端展示层
基于 Vue.js 框架开发响应式界面,包含:
数据监控大屏:实时展示病例数、高风险人群 / 区域数量、预警信息等核心指标;
风险可视化模块:采用 ECharts 绘制病例趋势折线图、区域风险热力图、人群风险饼图;
决策支持模块:提供
3.1.2 后端服务层
采用 Spring Boot 微服务架构,拆分四大核心服务:
2. 模型服务:封装 XGBoost 模型与区域风险评估算法,提供 RESTful 接口,单请求处理时间≤1 秒;3. 预警服务:基于规则引擎(Drools)设置预警阈值(如单次新增高风险人群≥5 人),自动生成预警信息并通过 RabbitMQ 消息队列推送;
4. 报表服务:采用 JasperReports 生成月度 / 季度统计报表,支持 PDF/Excel 格式导出。
3.1.3 数据存储层
采用混合存储架构:
MySQL(8.0 版本):存储结构化数据,如用户信息(10 万 + 条)、病例数据(5 万 + 条),采用 InnoDB 引擎保证事务一致性;PostgreSQL(12.0 版本):存储空间数据,如网格单元属性(1286 条)、区域边界矢量数据,通过 PostGIS 插件支持空间查询;Redis(6.2 版本):缓存高频访问数据,如实时预警信息、风险等级结果,缓存命中率达 92%,数据读取响应时间≤1 秒。3.2 核心功能模块实现
3.2.1 数据采集与整合模块
1. 数据清洗:采用“规则库 + 机器学习”双重清洗策略,规则库包含缺失值处理(均值 / 中位数填充)、异常值检测(3σ 原则),机器学习模型(Isolation Forest)识别异常轨迹数据,异常值剔除率3% ;
2. 数据标准化:基于《国家公共卫生数据元目录》,将症状数据(如“发烧”“发热”)统一编码为 ICD-11 标准术语,标准化率达96.7%。
3.2.2 高风险人群判别模块
1. 特征输入:接收20 项特征数据,包括年龄(均值42.3 岁)、基础疾病(高血压占比35%)、接触史(阳性接触占比12%)等;2. 模型推理:调用 XGBoost 模型计算风险概率,概率≥70% 判定为高风险,生成风险报告(含风险因子 TOP3,如接触史、发热症状、年龄)
3. 人工校验:支持卫生防疫专家对模型结果进行修正,修正数据自动纳入模型训练集,每季度迭代一次模型。
3.2.3 高风险区域判别模块
1. 指标计算:采集网格单元病例密度(均值 0.8 例 /km²)、人口流动强度(均值 5000 人次 / 天)等 8 项指标,标准化至 [0,100]区间;2. 风险得分:按公式 S=\sum_{i=1}^{8}w_i\times x_i 计算综合得分(w_i 为指标权重,x_i 为标准化值),得分< 30 为低风险,30-60 为中风险,>60 为高风险;
3. 动态更新:每20 小时重新计算网格得分,更新区域风险等级,更新过程采用增量计算,耗时≤30 分钟。
3.2.4 预警与推送模块
1. 预警触发:满足以下任一条件触发预警:高风险人群单次新增≥5 人、区域风险等级从“中”升至“高”、连续 3 天病例增长率≥ 20% ;
2. 信息推送:通过短信(调用阿里云短信API)、政务 APP(WebSocket 实时推送)、微信公众号(模板消息)推送预警信息,推送覆盖率 100%,平均送达时间≤5 分钟;
3. 处置跟踪:记录预警处置进度(未处理 / 处理中 / 已完成),处置完成率达 98%。
4 实验与应用验证
4.1 实验环境与数
4.1.1 实验环境
硬件:服务器 CPU Intel Xeon E5-2680 v4(2.4GHz),内存 64GB,硬盘 1TB SSD ;
软件:操作系统 CentOS 7.9,数据库 MySQL 8.0、PostgreSQL 12.0,开发语言 Java 11、Python 3.8,机器学习框架 Scikit-learn1.0.2。
4.1.2 实验数据
采用 202X 年 X 月 - X 月 A 市与 B 市传染病数据,包含:
病例数据:确诊 / 疑似病例523 例,含症状、接触史、治疗结果等信息;
人群数据:健康监测数据 10 万条,含年龄、基础疾病、疫苗接种情况;
空间数据:两市行政边界、交通网络、人口密度分布图(1km×1km 网格)。
4.2 系统性能测试
4.2.1 功能测试
通过黑盒测试验证核心功能,测试用例共 120 条,覆盖数据采集、风险判别、预警推送等模块,功能通过率 100%,关键用例如下:用例1 :模拟新增确诊病例,系统10 秒内完成数据采集,5 秒内识别密切接触者 12 人,准确率 100% ;用例2 :导入某区域病例数据(20 例),系统2 分钟内完成区域风险计算,判定高风险网格 3 个,与专家评估结果一致。
4.2.2 性能测试
采用 JMeter 工具进行压力测试,结果如表 1 所示:


4.3 试点应用成效
4.3.1 防控效率提升
A 市某轮流感疫情中,系统 1 小时内识别高风险人群 236 人,较人工排查(72 小时)效率提升72 倍;B 市某疫情中,高风险区域识别周期从48 小时缩短至 20 小时,管控措施提前28 小时落地,减少感染人 32 人 [13]。
试点期间,两市人工排查人力投入减少70%,单轮疫情防控成本从平均 50 万元降至27.5 万元,节省成本 45% ;过度管控区域面积从10km² 缩减至0.8km²,减少对企业生产影响,间接挽回经济损失超2000 万元。
4.3.3 决策支持效果
基于系统提供的数据分析,A 市在高风险人群集中的 3 个社区增设核酸检测点,检测效率提升 50% ;B 市在交通流量 TOP5 的卡口加强健康监测,拦截高风险人员18 人,有效阻断传播链。试点区域传染病发病率较上年同期下降 32%,优于全国平均水平(25%)[14
5.1 研究局限性
1. 数据维度有待拓展,当前未纳入环境数据(如温度、湿度),而研究表明温度每降低 1℃,呼吸道传染病传播风险增加 5%[15] ;
2. 模型泛化能力需提升,现有模型在儿童(<14 岁)人群中识别准确率 85.7%,低于整体水平(92.3%),需补充儿童健康特征数据;
3. 系统兼容性不足,部分基层医疗机构使用老旧系统,数据对接成功率仅 82%,需开发适配更多接口的中间件。
5.2 未来研究方向
5.2.1 技术优化
1. 模型升级:引入 Transformer 架构构建时序预测模型,融合病例数据与环境数据,实现未来 7 天传播风险预测,预测准确率目标≥ 85% ;
2. 数据拓展:对接社交媒体数据(如微博健康舆情)、物联网数据(如智能手环体温数据),丰富特征维度至30 项;
3. 功能完善:开发移动端 APP,支持公众自主填报健康信息、查询个人风险等级,实现“政府 - 公众”协同防控。
5.2.2 应用推广
1. 区域推广:在全国30 个重点城市部署系统,构建国家级传染病防控数据平台,实现跨区域风险联动预警;
2. 领域拓展:将技术方案迁移至动物疫病防控(如非洲猪瘟)、职业病防治(如尘肺病)领域,扩大应用范围;
3. 国际合作:与“一带一路”沿线国家共享系统技术方案,适配不同国家数据标准,助力全球公共卫生安全治理。
结论
本文研发的传染病高风险人群与区域智能化判别与预警系统,通过多源数据融合打破信息孤岛,基于 XGBoost 与 AHP-GIS 实现高风险对象精准识别,构建全流程智能防控体系。试点应用表明,系统在效率、成本、精准度方面显著优于传统防控方式,为传染病精准防控提供可行技术方案。未来通过模型优化与数据拓展,系统将在公共卫生领域发挥更大作用,助力构建“智慧防控”新格局。
参考文献:
[1] World Health Organization. COVID-19 Weekly Epidemiological Update[R]. Geneva: WHO, 2024.
[2] 张,王,李。公共卫生数据共享平台建设现状与对策 [J]. 中国卫生信息管理杂志,2022, 19 (3): 389-395.
[3] 中华人民共和国国务院。突发公共卫生事件应急条例 [Z]. 2019.
[4] 刘畅 , 赵伟 . 新冠肺炎疫情中传统防控方法的局限性分析 [J]. 公共卫生与预防医学 , 2021, 32(4): 28-32.
[5] Centers for Disease Control and Prevention. Epi Info ™ User Guide[M]. Atlanta: CDC, 2022.
[6] Public Health England. FluWatch: National Influenza Surveillance Scheme Annual Report 2022-2023[R]. London: 2023.
[7] 王健 , 陈亮 , 林晓 . 基于逻辑回归的传染病高风险人群识别模型研究 [J]. 计算机应用与软件 , 2022, 39(7): 187-192.
[8] 李明 , 张晓峰 , 王丽 . 基于 GIS 的传染病区域风险可视化系统设计 [J]. 测绘通报 , 2023(2): 112-116.
[9] 陈志强 , 刘敏 , 张伟 . 多源异构公共卫生数据融合技术研究进展 [J]. 大数据 , 2021, 7(5): 45-58.
[10] Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: ACM, 2016: 785-794.
[11] Saaty T L. The Analytic Hierarchy Process[M]. New York: McGraw-Hill, 1980.
[12] 李晓 , 何舒羽 , 彭岩 , 等 . 融合改进 LSTM 与 XGBoost 的可解释性手足口病发病预测模型 [J]. 工程科学学报 , 2025, 47(7):1525-1535. DOI: 10.13374/j.issn2095-9389.2024.09.12.004
[13] 王宇, 刘佳, 赵静. GIS 在公共卫生应急管理中的创新应用: 传染病建模与防控决策支持[J]. 地理信息世界, 2025, 32(3):56-62.
[14] National Health Commission of the People’s Republic of China. 2023 National Infectious Disease Prevention and Control Work Summary[R]. Beijing: NHC, 2024.
[15] Khan S, Ali N, Shah S A, et al. Integrating AI for infectious disease prediction: A hybrid ANN-XGBoost model for leishmaniasis in Pakistan[J]. Transactions of the Royal Society of Tropical Medicine and Hygiene, 2025, 119(8): 1045-1054. DOI: 10.1093/trstmh/tdae215
基金项目:衡阳市科技计划项目:传染病高风险人群与高风险区域的智能化判别与预警系统(项目编号:202010071500)研究成果。
作者简介:陈燕飞,男(1979.07—),汉,湖南省衡阳市,硕士研究生,副教授,研究方向:计算机科学,模式识别及算法
京公网安备 11011302003690号