• 收藏
  • 加入书签
添加成功
收藏成功
分享

可视化技术在流行病“时空伴随”场所中的应用研究

黄家麒
  
大通媒体号
2023年9期
浙江安防职业技术学院 浙江温州 325000

打开文本图片集

摘要:当前,新冠病毒感染施行“乙类乙管”,而以流感为主的呼吸道感染性疾病仍呈现季节性上升。在这一背景下,有效预测和预警流行病势态,提醒公众采取必要的防护和防控措施变得至关重要。本文以新冠病毒感染疾病为例,详细阐述了一种利用爬虫技术采集主流媒体的人员轨迹信息的方法。通过运用自然语言大模型和地址识别技术,对数据进行深度分析,提取“时空伴随”场所地理信息,结合可视化技术进行标注。同时提供场所感染病例发现时间序列,使决策管理部门和公众能够更及时地观察和理解疾病传播动态,从而制定更有效的应对策略。

关键词:新冠病毒感染;大语言模型;Echarts;可视化技术

一、引言

历史发展中,对重大事件数据进行可视化分析,可以达到直观表达、交流思想、增强说服力的效果,更有助于挖掘事件中隐藏的、深层次的规律和趋势。例如,John Snow的伦敦霍乱地图、Charles Minard的俄法战争(拿破仑远征图)、Florence Nightingale的战争死亡统计(南丁格尔玫瑰图)、Hans Rosling的世界经济变迁(气泡图)等。[1]

2019年爆发的新冠病毒曾席卷全球。截至2023年1月8日24时,据31个省(自治区、直辖市)和新疆生产建设兵团报告,累计死亡病例5272例,累计报告确诊病例503302例。[2]

由于新冠病毒的独特性决定了我国新冠肺炎疫情防控的总方针无法做到“静态清零”即“零感染”,而是“动态清零”,即对感染者快速识别处置,切断传播链,社会面总体上向动态清零逐渐迈进。施行“动态清零”需配套必要的疫情流调朔源,其中一度出现“时空伴随”现象。[3]

在疫情防控过程中,各地卫生部门通过发布通告,寻找疑似病例和密切接触者的“时空伴随者”,以提醒公众采取必要的防护和自我隔离措施。目前常见的行为轨迹分析方法主要基于移动手机信令,存在一系列问题,包括时效性不足、精准度不够以及人工分析工作繁重等。

本文以温州市新冠病毒疾病人员轨迹为研究对象,针对上述问题,设计并实现了一种创新性的方法。通过利用爬虫技术采集主流媒体上发布的人员轨迹通告信息,借助自然语言大模型和地址识别技术对信息进行了清洗和提取,运用可视化技术,对“时空伴随者”场所进行标注,同时呈现交互式时间点提示,为管理部门和公众提供一种直观、易理解的流行病可视化应用。

二、应用设计

本文目标是收集分析温州市官方通告感染者行程轨迹信息数据,研究一种基于地址智能识别的时空数据的可视化应用,即在地图可视化基础上绘制确诊者行程所涉及的场所,并提供时间序列展示,帮助用户直观获取本区域“涉疫”场所分布和“时空伴随”预警信息,提高用户对行程信息理解效率,为规划行程和活动范围提供依据,帮助判定是否“时空伴随者”,减少区域性恐慌,降低用户焦虑恐惧心理,并为流调朔源、精准防控和管控决策提供辅助支撑。

主要应用路径和步骤流程为人员轨迹数据采集、人员轨迹数据处理,地理数据识别、地图可视化实现等四部分。主要步骤及相关任务描述表2-1 所示。

三、技术选型

(一) 工具软件选型

当前各项技术迭代迅速,同时出现大量的大语言模型应用。按照应用需求分解子任务后,按照网址收集、文本采集、数据整理提取、地址识别编码以及地图可视化等应用场景,调研并选择具体的技术软件。工具软件选型结果如表3-1所示。

常见技术工具专注于特定的专业细分领域,虽然能够满足特定场景的应用需求,但在实际应用中存在一个数据互通的挑战。为了解决这一问题,本文选择使用Python脚本语言作为一种“胶水”,以数据文件(或数据库)作为载体,从而打通各个应用场景之间的“数据流”。

(二)相关技术

1.八爪鱼采集器简介

八爪鱼采集器是一款功能强大的网络数据采集工具,可以通过录制回放脚本的操作,自动解析网页元素,帮助用户快速、方便地抓取网页上的信息,并将其导出为各种格式,适用于各种数据采集和预处理需求。

2.Selenium简介

Selenium是一套用于Web浏览器的自动化工具,可用于网页测试和浏览器自动化。搭配编程语言,可以模拟浏览器访问网页,使用Xpath等语法定位HTML元素下,完成网页数据提取任务。

3.文心一言大语言模型简介

文心一言是百度推出的一款大语言模型(以下称“LLM”),其基于人工智能和自然语言处理技术,主要实现文本摘要、推断、转换文本以及扩展文本等功能。在数据处理方面,它能够迅速从海量文本数据中提取出关键信息,清洗和预处理数据,消除噪音和冗余信息,从而显著提升数据的质量和可用性。

4.百度地图地址识别接口简介

百度地图地址识别接口允许用户通过编程调用,完成地址识别,返回对应的经纬度坐标等POI数据。

5.ECharts简介

ECharts是百度开源的一整套数据可视化图表工具,提供丰富的图表类型,能够满足绝大部分数据可视化需求。其中,地图是ECharts的重要组件之一,支持POI点标注,交互性提示框等特性。广泛使用在空间分布、密度展示等场景。[4]

四、应用实现

(一)人员轨迹数据采集

1.人员轨迹数据来源网址收集

在进行数据采集之前,确保数据来源的可靠性、真实性和权威性是至关重要的。本文明确了数据采集的范围,选择了包括中国温州市、鹿城区、龙湾区等在内的多个政府官方网站,以及权威媒体公众号如温州发布、温州都市报、温州商报等。通过在搜狗微信板块进行关键字匹配并结合人工研判的方式确定目标文章,随后使用八爪鱼采集软件批量抓取相似目标文章。重点提取了文章标题、发布时间、以及URL网址等关键信息。这些信息被整理导出为数据文件(.CSV格式),以便为后续的数据处理和分析提供有力的支持。网址数据样本如图4-1所示。

2.人员轨迹数据文章文本采集

本文采用了Selenium作为网络爬虫工具,以下是获取目标数据的具体步骤:

a)环境搭建: 在运行Selenium网络爬虫之前,安装Firefox浏览器和对应版本Geckodriver。

b)获取文章: Selenium是一种无头爬虫,通过启动GeckoDriver,它能够驱动浏览器发送请求获取目标URL的网页数据。

c)数据解析: 利用WebDriver方法,直接从浏览器渲染的网页文件中解析出包含日期时间、人员轨迹描述等正文数据。保存在数据文件中,便后续的处理和分析。

(二)人员轨迹数据处理

1.设计大语言模型提示词

本文使用文心一言大语言模型的文本提取和转换功能,使用迭代的Prompt(以下称”Prompt“)工程驱动大预言模型开展数据清洗、整理以及文本提取任务。主要步骤如下:

使用"背景-角色-目标-结果-约束-改进"的原则设计Prompt内容。处理人员轨迹文本数据的提示词示例如图4-2所示。

2.数据提取

发送Prompt后,LLM会解析并暂时记住任务要求。随后按LLM的Token限制,分批次发送若干个网页通告文本给LLM对话框,驱动LLM清洗和提取数据。

在数据清洗过程中,会发生一些问题,如地址丢失,提取不必要的人物动作,缺少日期,空值,错值等,在人工审核后持续优化Prompt,将解决方案写成规则追加到约束条件中,以此提高数据清洗和提取的准确度。

最终提取人员轨迹数据706条。如图4-3所示。

3.数据审核

为了确保LLM提取的人员轨迹数据的准确性、一致性和标准化,我们进行了进一步的规范性检查,主要包括以下方面:

信息缺失检查: 仔细检查了提取的数据,确保关键信息如日期、地点等没有遗漏或缺失。这有助于保证数据的完整性和可用性。

格式一致性检查: 验证了数据的格式是否一致,包括日期、时间、地点等信息的呈现方式。通过规范化格式,提高了数据的整体一致性。

内容逻辑检查: 进行内容逻辑检查,以排除明显不符合实际情况的数据,例如地点为省市外地点等。这有助于确保数据的逻辑合理性。

去重处理: 我们对数据进行了去重处理,以确保最终的人员轨迹数据的唯一性。

经过这些规范性检查和处理步骤,最终获得有效的人员轨迹数据375条。

五、地理数据识别

(一)地址识别接口编程

本研究通过Python脚本调用百度地图的地址识别接口的方式,对样本数据中的地点一栏数据进行批量识别和解析,获得可供标注的地址及其地理坐标数据,接口配置关键代码如图5-1所示。

(二)地址识别实现

人员轨迹数据经地址识别后,获得地点名称、地址、坐标和区域等POI地理标注数据,如图5-2所示。

六、地图可视化实现

(一)可视化数据准备

本研究利用Python脚本从POI数据中提取用于地图标注的数据,构造标注点列表常数(data)、地理坐标列表常数(geoCoordMap)以及同一地址多个时间的ToolTips标签(dataMap)等必要的变量参数。

(二)可视化组件配置

按照Echarts框架规范,对提示框参数进行详细配置,确保地图的交互性和信息呈现效果。同时,对地图的初始坐标点以及标题等信息进行规范设置。

通过以上步骤,成功生成“时空伴随”场所分布图,按照新冠病毒感染案例发生场所及时间点,在地图上准确标注其地理位置。当用户点击场所时,可显示该场所所有“时空伴随”时间节点,具备基本的交互性,达到了从人员轨迹信息生成“时空伴随”场所可视化的目标。最终可视化效果如图6-1所示。

七、结束语

本研究实现了一套“数据采集——数据处理——数据可视化”的创新路径,以新冠病毒疾病为例,开展对可视化技术在流行病“时空伴随”场所中的应用研究。将大语言模型、数据采集技术、地址识别技术和可视化方法相结合,针对公开发布的疫情人员轨迹信息进行采集、清洗和提取,从而生成“时空伴随”场所分布地图。本研究不仅为大语言模型在数据处理领域开拓了新的应用途径,同时为公众提供了更深入、更直观的理解疫情传播趋势的方式,为决策管理部门做出应对策略提供有力参考。

不足之处是随着新冠病毒感染在2023年1月8日由“乙类甲管”调整为“乙类乙管”[5],国家卫生健康委员会不再每日发布疫情信息,导致可用于研究的人员轨迹数据有限。此外,尽管国内外厂商纷纷推出大语言模型,但在推动其在数据处理等领域的应用成熟,提高数据采集、清洗和处理的效率和准确度方面,仍需要进行大量的后续研究。

参考文献

[1]刘建湘, 刘海砚, 陈晓慧, 李佳, 康磊, 赵清波.新冠肺炎疫情数据多维度可视分析方法[J]. 计算机辅助设计与图形学学报, 2020, 32(10): 1617-1627.

[2] 中国疾病预防控制中心. 截至1月8日24时新型冠状病毒感染疫情最新情况[EB/OL]. (2023-01-09)[2023-11-20]. https://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/jszl_11809/202301/t20230109_263283.html.

[3] 中华人民共和国国家卫生健康委员会. 关于印发新型冠状病毒肺炎防控方案(第九版)的通知[EB/OL]. (2022-06-28)[2023-11-20]. http://www.nhc.gov.cn/jkj/s3577/202206/de224e7784fe4007b7189c1f1c9d5e85.shtml.

[4]彭顺生.基于ECharts的肺炎疫情数据处理与可视化[J].计算机时代,2020(7):47-4953

[5]中国政府网. 重大调整!新冠病毒感染将由“乙类甲管”调整为“乙类乙管”[EB/OL]. (2022-12-27)[2023-11-20]. https://www.gov.cn/xinwen/2022-12/27/content_5733672.htm.

资助项目:温州市科学技术局基础性公益科研项目(项目编号R20220057)

*本文暂不支持打印功能

monitor