收藏
加入书签

添加成功

收藏成功

传染病高风险人群与高风险区域的智能化判别与预警系统研究

陈燕飞黄强

湖南交通工程学院湖南衡阳 421009

摘要：针对传统传染病防控中高风险对象识别效率低、精准度不足及预警滞后等问题，本文提出一种融合多源数据、机器学习与地理信息系统（GIS）的智能化判别与预警方案，并研发相应系统。通过构建多源数据融合体系，实现12 类传染病相关数据的标准化整合；基于XGBoost 算法构建高风险人群判别模型，结合层次分析法（AHP）与GIS 技术建立高风险区域评估体系；最终形成“数据采集 - 风险判别 - 预警推送 - 决策支持”全流程系统。经东部A 市（人口 500 万）与中西部 B 市（人口 200 万）6 个月试点验证，系统高风险人群识别准确率达 92.3%，区域风险划分准确率 89.5%，预警响应时间缩短至15 分钟，较传统防控效率提升100 倍以上，为传染病精准防控提供关键技术支撑。

1. 引言

1.1 研究背景

全球化背景下，传染病传播呈现“跨区域、高速度、强隐匿”特征，如新冠肺炎疫情期间，单例确诊病例关联密切接触者超20 人，3日内可引发跨省市传播 [1]。传统防控依赖人工排查与经验判断，存在三大核心瓶颈：其一，数据孤岛导致信息割裂，医疗机构电子病历、交通卡口轨迹、社区健康监测等数据格式差异显著，数据利用率不足 40%[2] ；其二，风险识别滞后，单区域高风险人群排查周期超 72 小时，难以满足《突发公共卫生事件应急条例》中“24 小时响应”要求 [3] ；其三，精准度欠缺，区域风险划分依赖行政边界，易出现“一刀切”防控，某疫情案例显示传统方法过度管控区域占比达 35%[4]。

1.2 研究现状

国际上，美国 CDC 开发的 Epi Info 系统实现病例数据统计，但缺乏风险预测功能 [5] ；英国 Public Health England 的 FluWatch系统侧重流感趋势分析，未涉及高风险人群精准识别 [6]。国内研究中，王等（2022）基于逻辑回归构建人群风险模型，准确率仅82.1%[7] ；李等（2023）利用 GIS 实现区域风险可视化，但未建立动态更新机制[8]。现有研究尚未形成“数据 - 模型 - 系统 - 应用”一体化解决方案，难以满足复杂传染病防控需求。

1.3 研究意义与创新

1.3.1 研究意义

理论意义：建立多源数据融合的传染病风险评估框架，丰富公共卫生信息化理论体系，为机器学习在传染病防控领域的应用提供方法论支撑。实践意义：缩短防控响应时间，降低人工成本 45% 以上，助力卫生防疫部门实现“精准防控、科学施策”，为突发公共卫生事件应急处置提供技术保障。

1.3.2 创新点

1. 提出“特征分层筛选 + 多模型对比优化”的人群风险判别方法，通过相关性分析与递归特征消除（RFE）筛选20 项核心特征，对比4 类机器学习算法，优选 XGBoost 模型提升识别精度。2. 构建“传播风险 - 防控能力 - 人口特征”三维区域风险评估指标体系，结合 AHP 确定指标权重，实现网格级（1km×1km）动态风险划分。

3. 研发分布式系统架构，支持 1000 + 并发访问，数据查询响应时间≤2.1 秒，满足大规模区域防控需求

2.1 多源数据融合技术

采用“数据层 - 特征层 - 决策层”三级融合架构 [9] ：数据层通过ETL 工具（Kettle）实现结构化数据清洗，采用BERT 模型对非结构化文本（如医生诊断记录）进行实体识别，实体抽取准确率达 91.2% ；特征层通过主成分分析（PCA）降维，将 38 维原始特征压缩至20 维，保留95% 以上信息；决策层基于加权投票法整合多源特征，提升数据可靠性。

2.2 机器学习算法原理

2.2.1 XGBoost 算法

XGBoost（Extreme Gradient Boosting）通过梯度提升框架构建集成模型，其目标函数包含损失项与正则项：

L(\phi)=\sum_{i=1}^{n}l(y_i,\hat{y}_{i-1}+f_t(x_i))+\Omega(f_t)

其中，l(y_i,\hat{y}_i) 为损失函数（采用对数损失），\Omega(f_t)=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2 为正则项，控制模型复杂度 [10]。本研究通过网格搜索优化参数：学习率0.1，树深度 6，estimators 数量 100，交叉验证（5 折）准确率达 92.3%，优于随机森林（88.7%）、逻辑回归（85.2%）及 LightGBM（90.5%）。

2.2.2 层次分析法（AHP）

AHP 通过构建判断矩阵确定指标权重，步骤如下：

1. 建立递阶结构：目标层（区域风险评估）- 准则层（传播风险、防控能力、人口特征）- 指标层（8 项核心指标）；2. 构造判断矩阵：采用 1-9 标度法，如病例密度与人口流动强度重要性比为 2:1，判断矩阵一致性比例 CR=0.042<0.1，满足一致性要求 [11] ；

3. 计算权重：传播风险维度权重 0.52，防控能力 0.28，人口特征 0.20，其中病例密度权重最高（0.21）。

2.3 GIS 空间分析技术

采用 ArcGIS Engine 组件开发空间分析模块，实现三项核心功能

1. 网格剖分：基于渔网工具将研究区域划分为 1km×1km 网格，共生成 1286 个单元；

2. 空间插值：采用克里金插值法处理病例分布数据，生成病例密度热力图，插值误差≤

3. 叠加分析：将风险得分网格与行政边界、交通网络叠加，生成高风险区域分布图

3.1 系统架构设计

3 系统设计与实现

采用 B/S 架构，分为前端展示层、后端服务层、数据存储层三层结构，如图 1 所示

（此处插入系统架构图：前端（Vue.js+ECharts）→后端（Spring Boot 微服务：数据采集服务、模型服务、预警服务、报表服务）→数据存储层（MySQL+PostgreSQL+Redis）

3.1.1 前端展示层

基于 Vue.js 框架开发响应式界面，包含：

数据监控大屏：实时展示病例数、高风险人群 / 区域数量、预警信息等核心指标；

风险可视化模块：采用 ECharts 绘制病例趋势折线图、区域风险热力图、人群风险饼图；

决策支持模块：提供

3.1.2 后端服务层

采用 Spring Boot 微服务架构，拆分四大核心服务：

2. 模型服务：封装 XGBoost 模型与区域风险评估算法，提供 RESTful 接口，单请求处理时间≤1 秒；3. 预警服务：基于规则引擎（Drools）设置预警阈值（如单次新增高风险人群≥5 人），自动生成预警信息并通过 RabbitMQ 消息队列推送；

4. 报表服务：采用 JasperReports 生成月度 / 季度统计报表，支持 PDF/Excel 格式导出。

3.1.3 数据存储层

采用混合存储架构：

MySQL（8.0 版本）：存储结构化数据，如用户信息（10 万 + 条）、病例数据（5 万 + 条），采用 InnoDB 引擎保证事务一致性；PostgreSQL（12.0 版本）：存储空间数据，如网格单元属性（1286 条）、区域边界矢量数据，通过 PostGIS 插件支持空间查询；Redis（6.2 版本）：缓存高频访问数据，如实时预警信息、风险等级结果，缓存命中率达 92%，数据读取响应时间≤1 秒。3.2 核心功能模块实现

3.2.1 数据采集与整合模块

1. 数据清洗：采用“规则库 + 机器学习”双重清洗策略，规则库包含缺失值处理（均值 / 中位数填充）、异常值检测（3σ 原则），机器学习模型（Isolation Forest）识别异常轨迹数据，异常值剔除率3% ；

2. 数据标准化：基于《国家公共卫生数据元目录》，将症状数据（如“发烧”“发热”）统一编码为 ICD-11 标准术语，标准化率达96.7%。

3.2.2 高风险人群判别模块

1. 特征输入：接收20 项特征数据，包括年龄（均值42.3 岁）、基础疾病（高血压占比35%）、接触史（阳性接触占比12%）等；2. 模型推理：调用 XGBoost 模型计算风险概率，概率≥70% 判定为高风险，生成风险报告（含风险因子 TOP3，如接触史、发热症状、年龄）

3. 人工校验：支持卫生防疫专家对模型结果进行修正，修正数据自动纳入模型训练集，每季度迭代一次模型。

3.2.3 高风险区域判别模块

1. 指标计算：采集网格单元病例密度（均值 0.8 例 /km²）、人口流动强度（均值 5000 人次 / 天）等 8 项指标，标准化至 [0,100]区间；2. 风险得分：按公式 S=\sum_{i=1}^{8}w_i\times x_i 计算综合得分（w_i 为指标权重，x_i 为标准化值），得分＜ 30 为低风险，30-60 为中风险，＞60 为高风险；

3. 动态更新：每20 小时重新计算网格得分，更新区域风险等级，更新过程采用增量计算，耗时≤30 分钟。

3.2.4 预警与推送模块

1. 预警触发：满足以下任一条件触发预警：高风险人群单次新增≥5 人、区域风险等级从“中”升至“高”、连续 3 天病例增长率≥ 20% ；

2. 信息推送：通过短信（调用阿里云短信API）、政务 APP（WebSocket 实时推送）、微信公众号（模板消息）推送预警信息，推送覆盖率 100%，平均送达时间≤5 分钟；

3. 处置跟踪：记录预警处置进度（未处理 / 处理中 / 已完成），处置完成率达 98%。

4 实验与应用验证

4.1 实验环境与数

4.1.1 实验环境

硬件：服务器 CPU Intel Xeon E5-2680 v4（2.4GHz），内存 64GB，硬盘 1TB SSD ；

软件：操作系统 CentOS 7.9，数据库 MySQL 8.0、PostgreSQL 12.0，开发语言 Java 11、Python 3.8，机器学习框架 Scikit-learn1.0.2。

4.1.2 实验数据

采用 202X 年 X 月 - X 月 A 市与 B 市传染病数据，包含：

病例数据：确诊 / 疑似病例523 例，含症状、接触史、治疗结果等信息；

人群数据：健康监测数据 10 万条，含年龄、基础疾病、疫苗接种情况；

空间数据：两市行政边界、交通网络、人口密度分布图（1km×1km 网格）。

4.2 系统性能测试

4.2.1 功能测试

通过黑盒测试验证核心功能，测试用例共 120 条，覆盖数据采集、风险判别、预警推送等模块，功能通过率 100%，关键用例如下：用例1 ：模拟新增确诊病例，系统10 秒内完成数据采集，5 秒内识别密切接触者 12 人，准确率 100% ；用例2 ：导入某区域病例数据（20 例），系统2 分钟内完成区域风险计算，判定高风险网格 3 个，与专家评估结果一致。

4.2.2 性能测试

采用 JMeter 工具进行压力测试，结果如表 1 所示：

4.3 试点应用成效

4.3.1 防控效率提升

A 市某轮流感疫情中，系统 1 小时内识别高风险人群 236 人，较人工排查（72 小时）效率提升72 倍；B 市某疫情中，高风险区域识别周期从48 小时缩短至 20 小时，管控措施提前28 小时落地，减少感染人 32 人 [13]。

试点期间，两市人工排查人力投入减少70%，单轮疫情防控成本从平均 50 万元降至27.5 万元，节省成本 45% ；过度管控区域面积从10km² 缩减至0.8km²，减少对企业生产影响，间接挽回经济损失超2000 万元。

4.3.3 决策支持效果

基于系统提供的数据分析，A 市在高风险人群集中的 3 个社区增设核酸检测点，检测效率提升 50% ；B 市在交通流量 TOP5 的卡口加强健康监测，拦截高风险人员18 人，有效阻断传播链。试点区域传染病发病率较上年同期下降 32%，优于全国平均水平（25%）[14

5.1 研究局限性

1. 数据维度有待拓展，当前未纳入环境数据（如温度、湿度），而研究表明温度每降低 1℃，呼吸道传染病传播风险增加 5%[15] ；

2. 模型泛化能力需提升，现有模型在儿童（＜14 岁）人群中识别准确率 85.7%，低于整体水平（92.3%），需补充儿童健康特征数据；

3. 系统兼容性不足，部分基层医疗机构使用老旧系统，数据对接成功率仅 82%，需开发适配更多接口的中间件。

5.2 未来研究方向

5.2.1 技术优化

1. 模型升级：引入 Transformer 架构构建时序预测模型，融合病例数据与环境数据，实现未来 7 天传播风险预测，预测准确率目标≥ 85% ；

2. 数据拓展：对接社交媒体数据（如微博健康舆情）、物联网数据（如智能手环体温数据），丰富特征维度至30 项；

3. 功能完善：开发移动端 APP，支持公众自主填报健康信息、查询个人风险等级，实现“政府 - 公众”协同防控。

5.2.2 应用推广

1. 区域推广：在全国30 个重点城市部署系统，构建国家级传染病防控数据平台，实现跨区域风险联动预警；

2. 领域拓展：将技术方案迁移至动物疫病防控（如非洲猪瘟）、职业病防治（如尘肺病）领域，扩大应用范围；

3. 国际合作：与“一带一路”沿线国家共享系统技术方案，适配不同国家数据标准，助力全球公共卫生安全治理。

结论

本文研发的传染病高风险人群与区域智能化判别与预警系统，通过多源数据融合打破信息孤岛，基于 XGBoost 与 AHP-GIS 实现高风险对象精准识别，构建全流程智能防控体系。试点应用表明，系统在效率、成本、精准度方面显著优于传统防控方式，为传染病精准防控提供可行技术方案。未来通过模型优化与数据拓展，系统将在公共卫生领域发挥更大作用，助力构建“智慧防控”新格局。

参考文献：

[1] World Health Organization. COVID-19 Weekly Epidemiological Update[R]. Geneva: WHO, 2024.

[2] 张，王，李。公共卫生数据共享平台建设现状与对策 [J]. 中国卫生信息管理杂志，2022, 19 (3): 389-395.

[3] 中华人民共和国国务院。突发公共卫生事件应急条例 [Z]. 2019.

[4] 刘畅 , 赵伟 . 新冠肺炎疫情中传统防控方法的局限性分析 [J]. 公共卫生与预防医学 , 2021, 32(4): 28-32.

[5] Centers for Disease Control and Prevention. Epi Info ™ User Guide[M]. Atlanta: CDC, 2022.

[6] Public Health England. FluWatch: National Influenza Surveillance Scheme Annual Report 2022-2023[R]. London: 2023.

[7] 王健 , 陈亮 , 林晓 . 基于逻辑回归的传染病高风险人群识别模型研究 [J]. 计算机应用与软件 , 2022, 39(7): 187-192.

[8] 李明 , 张晓峰 , 王丽 . 基于 GIS 的传染病区域风险可视化系统设计 [J]. 测绘通报 , 2023(2): 112-116.

[9] 陈志强 , 刘敏 , 张伟 . 多源异构公共卫生数据融合技术研究进展 [J]. 大数据 , 2021, 7(5): 45-58.

[10] Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: ACM, 2016: 785-794.

[11] Saaty T L. The Analytic Hierarchy Process[M]. New York: McGraw-Hill, 1980.

[12] 李晓 , 何舒羽 , 彭岩 , 等 . 融合改进 LSTM 与 XGBoost 的可解释性手足口病发病预测模型 [J]. 工程科学学报 , 2025, 47(7):1525-1535. DOI: 10.13374/j.issn2095-9389.2024.09.12.004

[13] 王宇, 刘佳, 赵静. GIS 在公共卫生应急管理中的创新应用: 传染病建模与防控决策支持[J]. 地理信息世界, 2025, 32(3):56-62.

[14] National Health Commission of the People’s Republic of China. 2023 National Infectious Disease Prevention and Control Work Summary[R]. Beijing: NHC, 2024.

[15] Khan S, Ali N, Shah S A, et al. Integrating AI for infectious disease prediction: A hybrid ANN-XGBoost model for leishmaniasis in Pakistan[J]. Transactions of the Royal Society of Tropical Medicine and Hygiene, 2025, 119(8): 1045-1054. DOI: 10.1093/trstmh/tdae215

基金项目：衡阳市科技计划项目：传染病高风险人群与高风险区域的智能化判别与预警系统（项目编号：202010071500）研究成果。

作者简介：陈燕飞，男（1979.07—），汉，湖南省衡阳市，硕士研究生，副教授，研究方向：计算机科学，模式识别及算法

*本文暂不支持打印功能