
- 收藏
- 加入书签
基于人工智能的电子病历数据质量控制研究进展
摘要:为进一步提高电子病历的质控方法和质控水平,鉴于目前我国电子病历数据质控定量研究薄弱,该研究将人工智能技术和统计学方法相结合。通过分析不同类型医院临床医生在使用电子病历过程中出现的问题及原因,提出相应建议与对策。并对未来进行展望。最后给出论文结论。以期能为后续工作提供参考借鉴。结果以多维数据质量定量评估和医疗文本数据事后结构化为手段,结合自然语言处理技术,规范化模型开展数据清理和病历内涵质控系统研发,能有效改善电子病历数据质量。实现患者就诊前信息录入、住院登记、出院查询等功能;解决医务人员不规范操作、书写不准确、漏诊误诊现象以及病案内容混乱导致错药误治现象;提高医护人员工作效率,减少差错事故发生率;促进医疗机构之间协作交流。基于此,本篇文章主要阐述了结构化电子病历数据质控方法,并且对非结构化电子病历数据质控方法作了初步探讨,以期对相关领域的研究人员起到一定的借鉴作用。
关键词:人工智能;统计学方法;医疗数据;质控;数据清洗
随着我国医院信息化建设的不断推进和发展,医疗卫生数据已进入大数据时代。电子病历作为医疗信息的主要承载者,在医疗数据中起着决定作用。它记载了病人自入院至出院过程中疾病的发生,发展以及转归过程,对医疗管理和临床研究提供了大量资料[1]。而且在实践中,电子病历数据由于种种原因出现了差错,无效,不全,不连贯和异构现象,与之对应的质量定量评估和治理措施也比较缺乏,严重地影响了它在医疗管理,临床科研等方面的二次利用与有效发掘。在此基础上,有必要采用人工智能技术来控制案例中数据类型的质量,以促进电子案例数据质量的提高。
1.结构化的电子病历资料质控的方式
结构化数据在收集过程中通常会设定一些质控条件,例如病案首页数据和检查检验数据,这些质控条件都是比较好的,可采取对数据进行质控评价、寻找定位问题资料以清洗资料的想法,以得到可利用资料。
1.1多维数据的质量评价方法
对于结构化数据而言,需要从数据完整性,规范性,逻辑性和准确性角度构建多维数据质量评估指标体系。其中完整性指对关键指标数据填写的完整程度,评价包括个人信息中核心字段的缺失程度,首次病程记录中重要字段的获取程度。如果一个必填指标,例如性别,未填写的指标被认为是缺乏的,而且数据不完整。规范性是指数据是否按规定的赋值字典填写,如病案首页赋值字典中规定“住院后情况”为“1.危、2急、3.一般”,然而,在实际填写中,除了1~3以外,阿拉伯数字或者其他文字及字符都是填写不正确的。逻辑性是指关联数据间逻辑关系是否正确,具体表现为逻辑缺失、逻辑错误等,如主诉与现病史对同一疾病的时间描述不一致[2]。例如:某患者患白血病已经五年了,其发病前一个月内曾有一次体检报告显示该患者患有慢性淋巴细胞性淋巴瘤并伴有全身症状和体征。如果将相关内容写进病历记录则会导致错漏严重甚至无法核实结果。完整性是指数据之间相互独立。不能互相代替或重叠。准确度是指非精确程度。准确性是指数据是否真实、可信,需溯源核查,但可通过指标极端值辅助判断,比如人口学指标、生活习惯描述应在合理取值区间,根据不同的指标有无实际意义进行判断,如身高超标、妊娠年龄过小、日吸烟支数、日饮酒量超标均被定为疑似值进行后续的核查与清洗。
1.2数据清洗
从质量评估结果来看,在对问题数据进行定位之后,可以对不同数据问题进行不同清洗策略来对数据进行质量控制。如果数据缺失,不正常或者逻辑矛盾,则可以利用自然语言处理技术对电子病历医疗文本数据做语义分析和抽取,并由此得到缺失数据的可能填补值,核对变量逻辑性和准确性,将关键变量标准化,例如入院时的状况,输血标志和其他资料;对于不能进行填补和修正的资料进行标注。若对纵向数据的某一次记录值进行了多次重复记录检查检验缺失时,还可依据缺失机制及所占比例用统计学方法予以弥补,例如多重弥补法等。
2.提出非结构化电子病历资料质控方法
2.1利用多层级自然语言处理技术
自然语言处理是电子病历文本数据结构化后的最佳处理方式。通过几年来的实际应用,证明了这种方法能很好的适应医疗诊断中涉及到数据压缩存储的需要。该研究以中文语言转换技术为核心,设计一个文档自动生成系统。系统主要包括词库管理模块、数据库管理子系统和用户操作接口3个部分。其中,词库管理模块承担词库的构建工作。为得到更加准确和丰富的后结构化数据结果采用多层级自然语言处理技术,根据文书类型进行处理,分别构建满足文书内容特点和上下文语义关联的数据提取模型以避免数据遗漏和信息提取错误。
2.2数据清洗
本论文采用分类回归树方法进行研究,支持向量机分类算法等,通过标准化数据清洗流程对医学自然语言进行规范化和标准化处理并完成从多样化数据到标准化和规范化数据的过渡,根据文献报道,目前我国在语言类文本上还存在大量未被识别的词汇或词组。由于这些词语不具备特定意义,且与人们生活关系密切,容易引起误解甚至产生歧义,因此需要借助计算机来实现语音识别[3]。
2.3数据质控系统构建
以上环节从过程上讲均属收集到的资料后加工,为从收集源头上控制质量,构建了内涵质控体系并通过病历生成时自动验证和控制内容,达到从资料收集源头上控制品质的目的。
3结语
综上所述,本篇文章提出了一种可以应用于电子病历质控中人工智能与统计学相结合的方法和技术,在病历管理的工作过程中,积极应用此种方法能够大大提升电子病历数据质控工作的效率与水平,从而不断提升医疗大数据的价值。
参考文献:
[1]吴骋, 王志勇, 周全. 基于人工智能的电子病历数据质量控制[J]. 解放军医院管理杂志 2021年28卷2期, 134-135,168页, ISTIC, 2021:海军军医大学第一附属医院"234学科攀峰计划".
[2]王玮璐. 基于人工智能的疫情预测方法,装置,设备及存储介质:, CN114388138A[P]. 2022.
[3]张迪. 电子病历数据应用现状分析及思考[J]. 数字技术与应用, 2021.