呼吸道传染病疫情流行病学调查数据智能采集策略研究

周静

中国人民大学流行病与卫生统计学北京市 100872

摘要：呼吸道传染病疫情流行病学调查（流调）是阻断传播的关键环节，但是传统数据采集方式在时效性、完整性和多维性方面存在不足。为提高流调数据采集的效率和深度，需要建立智能化的采集策略。研究流调数据的动态性、异构性特征，建立多源数据融合框架，设计自适应采集触发与响应机制，规范数据标准与前馈应用路径。该策略意在改进数据采集流程，由被动收集转变为主动捕获，给呼吸道传染病疫情的精准研判与快速处置提供高质量的数据支撑。

关键词：呼吸道传染病；流行病学调查；数据采集；智能策略

呼吸道传染病传播速度快、影响范围广，疫情控制效果的好坏取决于流行病学调查的及时性、准确性。现有的流调数据采集过程中存在着信息孤岛、数据冗余、重要信息缺失三者并存的问题，特别是在疫情初期爆发的时候，由于数据采集的滞后性而使防控决策滞后。因此，如何利用智能化思维对数据采集模式加以重新构建，改善采集指标体系，从而对疫情传播链条实施细粒度的描述，成了公共卫生领域的一项关键课题。探索新型数据采集策略，对提高流调工作的主动性和前瞻性有现实意义。

一、流行病学调查数据采集的瓶颈分析

传统呼吸道传染病流行病学调查数据采集过程，主要依靠标准化的纸质或者电子问卷，再加上现场询问。该模式在面对突发疫情时会遇到诸多障碍。首先，采集内容比较固定，不能随疫情不同发展阶段、特定场景（学校、聚集性活动）灵活调整数据维度，造成关键风险因素的遗漏。其次数据来源有限，主要依赖个案的主动报告和回忆，对环境暴露、潜在接触等隐匿性信息的挖掘不足。数据时效性差，从现场采集到数据录入、审核、汇总的时间很长，信息延迟导致分析结果滞后于疫情的变化。除此之外，不同的调查主体之间缺乏统一的数据标准，信息壁垒普遍存在，影响了数据的综合利用[1]。

二、多源异构数据融合的采集框架

（一）个案流调数据的结构化拓展

个案流行病学调查是数据采集的重中之重。智能采集策略要求超越传统的三间分布信息，对个案数据进行深度的结构化扩展。疾病发生、发展过程中出现的各种症状，按照发生发展顺序进行标注，从疾病的首发症状一直到就医、检测采样再到最终诊断，需要记录在案。细化个案的活动轨迹，不能只记录地点信息，还要采集同空间内的人群密度、通风状况、停留时长等半定量化风险指标。对职业暴露、社交模式、基础疾病史等个体特征数据，应建立标准化字段，减少开放性描述，用逻辑关联设计（如职业与特定暴露风险的关系）引导调查员主动追问。另外要加强对个案主观上的感知（自觉的风险程度）以及防疫行为（口罩佩戴是否规范）等的收集，为后续的风险评估提供更多的维度。

（二）密切接触者关联数据的动态捕获

密切接触者的判定与追踪，是控制呼吸道传染病传播的关键。智能采集策略重视动态采集相关数据，而不是静止地记录。采集个案信息的同时要启动密切接触者数据采集模块。此模块要创建起个案和密切接触者之间的唯一联系标识。采集的内容除了基本的生活情况及接触方式（共居，共用交通工具等）外，还应该注意采集接触时的具体情况，即地点的封闭程度，是否有防护措施，接触的频率以及单次接触的最短时长。随着密切接触者健康状况的变化（比如出现症状、检测结果更新等），采集系统需要支持信息的即时更新和状态的改变，从而可以追踪传播链上的二级、三级关联个案[2]。

（三）哨点监测数据的协同整合

哨点监测系统（流感样病例监测、病原学监测）就是疫情早期预警的触角。冲破流调系统、哨点监测系统壁垒，达成数据的协同整合，这就是智能采集策略所要突破的关键。哨点监测发现异常信号（某个区域流感样病例突然增多、或者检测出新的 / 变异的病原体）的时候，流调系统就会被触发。流调采集框架应该预设接口，主动抓取哨点监测系统中的相关数据，即病例初步诊断信息、地理分布、时间趋势、病原学检测结果等。如此整合可以避免流调人员二次录入，可以把哨点发现的“点”状信号，迅速转变成流调系统需要深究的“线索”，指引流调资源朝着高风险区域倾斜。

（四）环境与生物样本数据的时空锚定

呼吸道传染病的传播不只包含人际传播，也可以是环境媒介。智能采集策略应该包含环境与生物样本数据的采集。在流调过程中要根据个案活动轨迹，在判断为高风险点位（个案居所、工作地、就餐场所的空调出风口、电梯按钮、卫生间）的时候同步进行环境采样。采集数据时要实现时空锚定，即精确记录采样的经纬度、具体点位描述、采样时间，并将该时间点上关联的个案活动信息链接起来。对采集的生物样本（咽拭子、痰液、血清）其检测数据（核酸 Ct 值、抗体滴度、基因测序数据）要同个案的临床症状、发病进程数据关联起来保存，以此给病毒溯源和传播力评判给予支撑。

（五）跨区域流转数据的联动机制

人员在疫情时期的跨区域流动是造成疫情扩散的主要原因。智能采集策略要形成有效的跨区域流转数据联动机制，关键之处在于达成数据交换的标准化，自动化以及安全化。当流调发现个案或者密接有跨区域活动史的时候，系统就应该马上启动推送模块，自动产生符合统一数据字典的标准协查信息包，包含必要的个案信息，活动轨迹以及风险等级。该信息包使用预设的安全交换协议（加密 API 接口等）即时传送给相关的疾病预防控制中心，该设计要考虑异构系统间的兼容性，保证数据包可以被无障碍接收并自动解析，从技术上替代传统公函流转的延迟[3]。

联动效果体现在回复的迅速以及闭环上。接收方系统接到推送的风险信息之后要立即启动本地风险评价模块，依据风险等级自行调用防控资源，并准确将核实、追踪的任务分配给一线流调人员。最重要的是系统应该具备回执和进展反馈功能，当协查对象被落实管控之后，信息会自动回传给发起地系统。这样双向的信息流转就形成了跨区域流调的闭环，保证每一个流转的线索都能够及时落地核查，防止疫情因为人员流动出现“飞火”式的蔓延。

三、智能采集的触发与响应机制设计

（一）基于风险评估的采集等级划分

疫情的不同时期，流调资源的配置应当有所侧重。智能采集策略的关键之处在于其自适应性，即依据疫情风险评价结果，动态改变数据采集的等级。疫情初期或者散发的阶段要启动最详细的“详尽模式”采集，对每一个案进行全方位的挖掘，尽可能地找出所有的传播联系。当疫情进入社区传播阶段，流调资源紧张时，可改为“重点模式”，优先收集核心信息（发病时间、主要活动场所、高危接触人员等），以便快速识别关键传播链。对高风险人群（入境人员、高暴露风险职业人群），应启用“前瞻模式”，对其进行周期性主动的数据采集，即使他们还没有发病。

（二）早期预警信号的即时响应

智能采集不应该等到确诊病例出现之后才开始，而应该在接收到早期预警信号时立即响应。预警信号可以是多方面的，哨点监测数据异常、聚集性发热报告、非官方来源的多点信息（需鉴别）。一旦达到预警阈值，就应当立刻在相应的区域内展开加密的流调数据采集工作。对特定药店中退热、止咳类药品销量异常高的情况，可以触发对购药人员进行抽样随访数据的采集。对于社交媒体上有关某个场所出现多例症状相似的讨论，可以促使流调人员主动核实和现场采集数据。即时响应机制把数据采集的关口前移，给“早发现”提供可能。

（三）传播链关键节点的采集强化

疫情传播中的超级传播者、聚集性疫情暴发点是阻断传播的关键节点，智能采集策略要对这些地方加大数据采集。策略智能之处在于通过数据驱动把那些重要节点找出来。流调分析系统在实时数据建模的时候，发现某个个案的关联病例超过平均值，即该人疑似超级传播者，或多个不相关的人共同指向同一个时空点位的时候，流调系统应该立刻向流调团队发送强化采集警告，并把该个案或者场所标记为高优先级。这样的机制取代了以前依靠人工经验判断的滞后性，保证了流调资源第一时间集中到最要紧的传播“放大器”上。

强化数据采集不单是内容的增加，更是维度的深化。对被标记的超级传播者立即开展二次或者多次补充流调，利用视频轨迹，消费记录等多源数据加以交叉比对，重新构建起超级传播者的高精度活动史。对于聚集性疫情暴发点，除了采集全部暴露人群外，还要进行针对性的环境调查数据采集，从场所的空间布局、空调（HVAC）运行记录等角度，挖掘传播动力学的因素。最重要的是要把这些强化采集的流行病学数据同环境样本、相关病例样本的病毒基因测序结果联系起来，搭建起完整的证据链，以此为依据来评估传播风险、提出针对性防控措施[4]。

（四）调查问卷的动态适配调整

传统的标准化问卷在智能采集上应该被动态问卷所替代。问卷的动态适配体现在两个方面。根据个案基本特征（职业、年龄）等自动加载不同问题模块。例如采集对象是学生，则加载校园活动相关详细问题；对象是医护人员，则加载院内暴露风险特定问题。其次根据流调过程中已经填写的内容来实时调整后面的问题。例如，当个案报告参加过某次宴会后，系统会自动推送该宴会的同餐人员名单供辨认，或者追问宴会中的具体座位。动态适配可以减少不必要的问题所造成干扰，提高调查的效率，并用逻辑跳转方式引导调查员去获得更加深入的信息。

（五）数据回溯的触发条件设定

疫情溯源属于流调任务之一。智能采集策略需要设置数据回溯的触发条件。当出现首例病例、来源不明、无法判断的聚集性疫情或者发现病毒基因序列出现关键变异的时候，应该启动数据回溯机制。该机制要求流调人员不仅要采集个案近期的活动，还要把暴露时间窗前推（前推14 天甚至 30 天），采集其更早期的活动轨迹、物品接触史、动物接触史等。同时回溯采集要和多源数据（冷链物流数据，早期哨点监测的留存样本）做交叉比对。根据明确的回溯触发条件，把常规流调和深度溯源调查相结合，提高溯源成功率。

四、数据标准化与前馈应用策略

（一）统一数据字典与编码规范

多源异构数据的融合采集的前提是数据的高度标准化。必须建立呼吸道传染病流调专用的统一数据字典。该字典要包含个案信息，临床症状，时空轨迹，样本检测，接触者判定等全部数据模块。制定全国统一编码规范对职业分类、症状描述、暴露方式、场所类型等重要字段进行。像“咳嗽”就统一编码成“C01”，“乏力”编码成“C02”，这样防止“无力”“没劲”这些同义词造成数据统计上的差错。数据字典和编码规范要内置到采集终端中，流调人员在录入的时候直接选择标准条目，而不是用开放式的文本录入，从数据源头上保证数据的一致性、可机读性。

（二）核心数据集与扩展模块构建

针对不同的呼吸道传染病（流感、新冠、结核病）的特性差异，智能采集策略应该采用“核心数据集 + 扩展模块”的模式。核心数据集包括所有呼吸道传染病流行病学调查必须的共性信息，即人口学信息、发病就诊情况、主要轨迹。这是数据采集的最低标准，保证基本数据完整。在此基础上根据特定疾病的传播特点设计可以插拔的扩展模块。对于结核病，可以加载“服药史及耐药情况”模块；对于新发突发传染病，可以加载“动物接触和野生动物制品暴露”模块。该模块化设计既保持了统一性，又具有针对病种的灵活性和深度。

（三）采集入口的数据逻辑校验

数据的准确性是智能采集的生命线。要在数据采集入口处设置严格的逻辑校验规则。校验贯穿数据填报的全过程。设置时间逻辑校验，个案发病日期应早于诊断日期，采集日期应早于检测日期；若发病日期在密切接触日期之后，则系统提示这次接触不是感染的来源。设定阈值校验，例如个案的体温数据应该在合理的生理范围（35℃到 41^qC ）内。设置关联校验，如判定为无症状感染者，则其临床症状字段应该自动置灰或者限制填报。经过前置的逻辑校验，可以及时发现并改正录入错误，减轻后期数据清洗的工作量[5]。

（四）数据向防控决策的前馈路径

采集数据的最终目的就是为防控决策服务。智能采集策略应该包含数据的前馈应用路径，实现从数据到信息的快速转换。采集到的结构化数据要立刻汇入分析系统，自动产生疫情发展曲线，病例时空分布图，传播链网络图等可视化成果。当采集的数据达到一定阈值（例如跨代传播、某个场所的关联病例 >3 人）时，系统应自动生成预警信息并推送至决策端。这就形成了一个前馈机制，防控措施的调整（风险区域的划定、隔离策略的改变等）不再依靠滞后的周期性报告，而是根据实时采集的数据进行动态调整，实现“边调查、边分析、边决策”。

（五）现场采集终端的适配优化

流行病学调查主要在现场进行，采集终端的友好性以及智能化水平直接影响数据采集的效果。智能采集策略要针对终端设备（平板电脑，智能手机）的应用软件实施深度适配优化。终端应具有离线数据采集、存储功能，网络信号不好（如偏远地区、地下空间）等地方也能正常使用，待网络恢复时自动上传。终端应该集成辅助功能，例如利用定位服务（GPS）自动获取流调地点的经纬度，用光学字符识别（OCR）技术快速读取身份证件信息，用语音识别辅助录入大段文本描述。优化后的采集终端可以减轻流调人员的录入负担，使流调人员可以更多地关注现场的询问和观察。

五、结语

呼吸道传染病疫情流行病学调查数据的智能采集，是多源整合、动态响应、标准规范的一种系统策略。建立有效的采集框架、灵敏的触发机制和规范的数据应用路径，是提高流调工作效率的必然选择。未来要不断改进采集指标的精确度，加强不同数据系统之间的深度融合，促使流调数据采集模式由经验依赖型向数据驱动型转变。智能化采集策略完善之后，反应迅速、应对准确的呼吸道传染病防控体系就会拥有稳固的数据根基。

参考文献

[1] 孟玲 , 牛艳 , 向妮娟 , 等 . 呼吸道传染病疫情流行病学调查数据智能采集策略研究 [J].中国公共卫生 ,2025,41(4):385-390.

[2] 王维笑 , 贾露荣 , 陶焜 , 等 . 基于人工智能的新型冠状病毒肺炎流行病学信息采集系统的开发 [J]. 中国医学装备 ,2020,17(11):143-146.

[3] 陶沛 , 刘莹 , 张颀 . 基于 VB 的通信数据智能采集系统设计 [J]. 机电工程技术 ,2022,51(12):165-168.

[4] 魏雅娟 , 叶玲玲 , 陈文生 , 等 . 检验实验室设备数据智能采集系统的设计 [J]. 科技资讯 ,2024,22(13):27-29.

[5] 高翔宇, 米白冰, 武文韬, 等. 电子数据采集系统REDCap 在大型自然人群队列研究中的应用 [J]. 中华流行病学杂志 ,2020,41(9):1542-1549.

*本文暂不支持打印功能