• 收藏
  • 加入书签
添加成功
收藏成功
分享

预测急性缺血性脑卒中合并房颤院内死亡风险的模型:基于可解释性机器学习方法

李博文 刘俊杰
  
大健康
2023年12期
华北理工大学临床医学院 唐山 063000

打开文本图片集

摘 要:目的:构建基于机器学习的急性缺血性脑卒中合并房颤患者院内死亡风险预测模型。方法:收集2001年至2019年美国重症监护信息数据库III和Ⅳ(MIMIC-III v1.4,MIMIC-Ⅳ v2.0)中符合纳入标准的患者共1435例,按8:2的比例划分为训练集和测试集,构建XGBoost、逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、K-近邻(KNN)共5种模型,绘制ROC曲线比较不同模型的预测效果。利用基于python的SHAP模型,对预测效果最佳的模型进行解释性分析。结果:经对比,XGBoost模型的预测效果最好,AUC值为0.815。逻辑回归、随机森林、支持向量机、K-近邻模型的 AUC 分别为 0.732、0.777、0.714、0.635。根据SHAP解释模型得出,特征重要性排名前五的变量分别是OASIS、血糖、血氧饱和度、血尿素氮和体温。结论:XGBoost模型对预测急性缺血性脑卒中合并房颤患者院内死亡风险有较好的预测效果。

关键词:急性缺血性脑卒中;房颤;机器学习;院内死亡风险预测

脑卒中的死亡率和残疾率很高,是导致我国成人死亡的主要原因。我国脑卒中的主要类型是急性缺血性脑卒中,占比约百分之七十[1]。心房颤动是急性缺血性卒中的主要危险因素,会显著增加急性缺血性卒中发生和相关死亡的风险[2]。房颤发作时,心房血流混乱,可能导致血栓脱落堵塞脑血管,引发脑卒中或其他血栓栓塞症。因此,急性缺血性脑卒中合并房颤的病人一般病情严重,预后不佳,需要更紧密的监测和治疗[3]。

急性缺血性脑卒中合并房颤的传统院内死亡风险预测为逻辑回归模型。该模型容易受到多重空间性的影响,在预测弱线性相关关系的高维数据时,其准确性较于超参数的机器学习模型会显著偏低。因此,有必要寻求更优的方法,来建立能够真实反映变量和结局之间关系的预测模型。

近年来,大数据挖掘等相关技术不断进步,推动机器学习在辅助临床诊断中的广泛运用。机器学习模型比传统的统计方法更能充分利用数据的信息,因为它们可以发现大数据中复杂的非线性关系和未知的关联性。因此,本研究借助可解释的机器学习方法构建急性缺血性脑卒中合并房颤患者院内死亡风险预测模型,以帮助临床治疗工作。

1.资料与方法

1.1数据来源

数据来自美国的重症监护医学信息数据库-III(MIMIC-III, version 1.4)和重症监护医学信息数据库 IV(MIMIC-IV, version 2.0),共收集了2001年至2019年间共1435例患者的相关信息。

急性缺血性脑卒中和房颤的诊断基于国际疾病分类第九版和第十版,急性缺血性脑卒中的定义为,ICD-9编码: 34660,34661,34662,34663,43301,43311,43321,43331,43381,43391,43401,43411,43491;ICD-10编码:I63。房颤的定义为,ICD-9编码:42731;ICD-10编码:I48。

纳入标准如下:(1)患者年龄≥18岁;(2)符合急性缺血性脑卒中合并房颤诊断并进入ICU治疗的患者。排除标准为:(1)多次(≥2次)ICU住院;(2)ICU住院时间<24h

为了保护患者的隐私,所有数据都会被匿名处理,因此无需征求患者的同意。本研究人员已经获得了对数据库进行数据提取的权限(编码:11800689)。

1.2变量研究

本研究结局指标为住院期间急性缺血性脑卒中合并房颤患者是否会发生院内死亡。收集以下指标数据用于建立模型:

(1)特征:年龄、性别、心率、收缩压、舒张压、平均动脉压、呼吸频率、体温、血氧饱和度;(2)在入院后的 24 小时内,需监测重症监护病房患者的实验室数据参数,包括阴离子间隙、碳酸氢盐、血清肌酐、氯化物、血糖、红细胞比容、血红蛋白、血小板、钾离子、凝血激活酶时间、国际标准化比值、凝血酶原时间、钠离子、血尿素氮、白细胞计数;(3)合并症:充血性心力衰竭、外周血管疾病、慢性阻塞性肺疾病、糖尿病、肾脏疾病、肝脏疾病;(严重程度评分系统:牛津急性疾病严重程度评分(OASIS)。

1.3数据处理

(1)数据清洗:本研究缺失特征比例均小于20%,予以保留,对数据缺失采用均值填充法进行填补,共纳入31个变量。

(2)特征选择:本研究通过Relief算法来计算每个变量的特征权重,并逐个删去权重最低的变量从而确定最佳变量数

(3)模型开发与验证:本研究采用了五种不同的机器学习方法用以建立预测模型,如下:逻辑回归、决策树、支持向量机、XGBoost、随机森林。训练和测试集按8:2的比例划分,并迭代50次。使用5折交叉验证评估模型的性能指标包括准确性、灵敏度、特异度、F1值和AUC。

(4)可解释性分析 本研究基于Python 3.8.3构建模型并通过SHAP方法对模型进行解释。

1.4统计学分析

使用R 4.1.2分析纳入患者的基本特征,为了检验数据是否存在显著差异,根据变量的分布特征进行分类,本文使用了不同的方法:对于连续变量中满足正态分布的样本,采用了配对样本t检验;对于不满足正态分布的样本,采用了Mann Whitney U检验。我们使用Chi-square检验来表示分类变量,以频数(百分比)的形式展示。若P值小于0.05,则认为差异具有统计学意义。

2.结果

2.1基线特征比较

该研究选取了1435例患者进行最终的数据分析,分为生存组(1091例)和死亡组(344例),纳入过程如图1所示,基线特征详见表1。有344例(24.0%)患者在院内死亡,男性有644例(44.9%),其年龄为76.2±11.2岁。其中,心率、收缩压、呼吸频率、体温、阴离子间隙、碳酸氢盐、血清肌酐、血糖、血小板、钠离子、血尿素氮、OASIS这些指标在生存组与死亡组之间存在显著的统计学差异(P<0.05)。

2.2各模型性能比较

经筛选,本研究使用22项特征变量构建了5种模型,并应用其进行预测。本研究通过AUC、准确性、灵敏度、特异度、F1值五个指标共同反映模型的预测能力,各模型的预测性能见表2,ROC曲线见图2。经比较,XGBoost模型在AUC、准确性、特异度和F1值上表现最好,其AUC达到0.815;相比之下,K-近邻模型表现最差,其AUC仅为0.635。

2.3基于SHAP特征解释性分析

本文利用SHAP方法对急性缺血性脑卒中合并房颤患者的死亡风险预测模型进行分析,SHAP权重排名前20的变量见图3。图中点的位置代表特征的SHAP值,其值为每个特征提供了一个相对贡献度的度量,正值表示该特征对于增加模型输出的预测结果有正向影响,负值表示贡献是负向的。绝对值越大表示该特征对于预测结果的影响越大。红色表示高值,蓝色表示低值。颜色越深表示该特征对目标变量的影响越强。其中,影响死亡率因素的前五个重要特征变量依次是OASIS、血糖、血氧饱和度、血尿素氮和体温。

3.讨论

缺血性脑卒中是一种多因素疾病,若干危险因素对其结果有影响。与其他病因引起的卒中相比,心房颤动相关卒中的死亡率更高,功能结局更差[4]。因此,预测急性缺血性脑卒中合并房颤患者在医院内死亡的风险,具有重要意义。

机器学习算法在医疗领域的应用有着广阔的前景。其中,XGBoost算法有预测性能高,可解释性强等优势。逻辑回归模型因其简单易实施、解释明确等优势,常作为机器学习算法预测效果的参考标准。近年来,运用机器学习进行临床预测的研究越来越多,上官艺等[5]基于14885例缺血性卒中患者进行研究,结果表明,CatBoost和XGBoost建立的预后模型预测效果均优于传统logistic回归模型。陈思玎等[6]采用XGBoost和Logistic回归方法对缺血性卒中3个月死亡风险预测进行预测,发现XGBoost模型效果更优。因此,本研究利用机器学习方法构建预测模型,AUC值分别为0.815、0.731、0.777、0.714和0.635。结果表明,XGBoost模型在预测急性缺血性脑卒中合并房颤患者院内死亡风险方面,其性能明显优于逻辑回归及其他机器学习模型。

同时,本研究采用SHAP方法对XGBoost模型进行可解释性分析,影响死亡率因素的前五个重要特征变量依次是OASIS、血糖、血氧饱和度、血尿素氮和体温。牛津急性疾病严重程度评分是一种不涉及实验室检查或影像学检查的评分系统,其被广泛用于急性疾病严重程度的鉴别诊断,也被证实对ICU患者的预后具有很高的识别和校准效率。朱姗姗等[7]报告称,在6种常见的重症评分中,OASIS在神经病学领域对危重症患者的死亡率表现出最高的预测性能。先前临床试验表明,入院时的高血糖与临床结局恶化相关。Kes等[8]针对缺血性卒中患者入院时和入院后72小时的平均血糖水平进行研究,发现长期高血糖会增加患者住院28天内死亡的风险。此外,Yin等[9]研究发现,脑梗死患者血氧饱和度与院内死亡率之间的关系呈U型,最低点为饱和度的94-96%,提示过高的血氧饱和度也会导致住院死亡率增加。

本研究也存在一定的局限性:(1)由于数据库本身的限制,未纳入与缺血性脑卒中相关的NIHSS评分等,无法充分利用机器学习算法的优势。(2)本研究基于美国重症监护医学信息数据库,尚未使用我国数据对模型进行外部验证。

综上所述,本研究通过MIMIC数据库,构建可解释性机器学习模型,并利用SHAP方法对最佳模型进行可解释性分析。结果显示,XGBoost模型在预测缺血性脑卒中合并房颤患者院内死亡风险方面效果优于其他模型,且具有较强的可解释性。对模型影响最大的前五个重要特征变量依次是OASIS、血糖、血氧饱和度、血尿素氮和体温。但该模型还需通过外部验证进一步优化,从而更好的辅助临床医生进行临床决策,调整治疗方案,减少不良结局的发生。

参考文献

[1]於帆, SHA A, 张苗, et al. 人工智能在急性缺血性脑卒中影像的研究进展 [J]. 中华老年心脑血管病杂志, 2023, 25(03): 334-6.

[2]YAN X, XIA P, TONG H, et al. Development and Validation of a Dynamic Nomogram for Predicting 3-Month Mortality in Acute Ischemic Stroke Patients with Atrial Fibrillation [J]. Risk management and healthcare policy, 2024, 17(145-58.

[3]宋洁,张小雪,常青清, et al.中性粒细胞百分比/白蛋白比值与非瓣膜性心房颤动患者缺血性脑卒中发生风险的关联[J].中国循环杂志, 2023, 38(08): 854-60.

[4]ALBERTS M, CHEN Y W, LIN J H, et al. Risks of Stroke and Mortality in Atrial Fibrillation Patients Treated With Rivaroxaban and Warfarin [J]. Stroke, 2020, 51(2): 549-55.

[5]上官艺,王孟,王春娟, et al.基于机器学习的缺血性卒中功能预后预测模型研究[J].中国卒中杂志,2021,16(09):895-900.

[6]陈思玎,刘欢,黄馨莹, et al.基于机器学习算法构建缺血性卒中3个月死亡预测模型研究[J].中国卒中杂志, 2020, 15(06): 595-9.

[7]朱姗姗,成慧昕,李祥,et al.基于MIMIC-Ⅳ数据库评价6种重症评分对综合ICU和专科ICU患者28 d死亡风险的预测价值[J].中华危重病急救医学, 2022, 07): 752-8.

[8]KES V B, SOLTER V V, SUPANC V, et al. Impact of hyperglycemia on ischemic stroke mortality in diabetic and non-diabetic patients [J]. Annals of Saudi medicine, 2007, 27(5): 352-5.

[9]YIN H, YANG R, XIN Y, et al. In-hospital mortality and SpO2 incritical care patients with cerebral injury: data from the MIMIC‑IV Database [J]. BMC anesthesiology, 2022, 22(1): 386.

通讯作者:刘俊杰

*本文暂不支持打印功能

monitor