
- 收藏
- 加入书签
基于可解释性CT影像组学模型预测非小细胞肺癌新辅助化疗的疗效
摘要:新辅助化疗可以有效的提高晚期NSCLC生存质量。临床实践发现,部分患者对新辅助化疗并不敏感。为了预测非小细胞肺癌治疗前患者对新辅助化疗的反应,本研究纳入177例接受化疗的非小细胞肺癌患者,将患者分为训练组(N=142)和测试组(N=35)。从化疗前的CT影像中提取875个影像组学特征。经过数据预处理和特征选择后,分别采用逻辑回归、支持向量机和随机森林构建影像组学模型并评价其预测性能,其中最优性能为随机森林模型(AUC=0.82)。最后,利用SHAP方法,从整体和个体的角度了解影像组学特征对模型预测结果的影响。研究结果表明,我们开发的可解释影像组学模型可以及时准确可靠评价NSCLC化疗疗效,并能够以可解释的方式解释影像组学模型,从而提高了影像组学模型对医生和患者的可信度。
背景:
肺癌是最常见的恶性肿瘤之一,其发病率和死亡率在全球所有癌症类型中居首位,其中85% 以上为非小细胞肺癌 (NSCLC)[1-2]。新辅助化疗可以有效的提高晚期NSCLC生存质量。临床实践发现,部分患者对新辅助化疗并不敏感。致使他们延误治疗时机、承受化疗带来副作用,严重影响患者生存预后。因此,对新辅助化疗的疗效评价极其重要。目前,NSCLC疗效评价主要是基于影像实体瘤疗效评价标准(RECIST1.1)[3],它通常依赖于影像中肿瘤大小变化,用于确定实体肿瘤接受化疗后的疗效,而NSCLC进行新辅助化疗时,在影像上可能出现延迟反应或假性进展现象,如肿瘤区域表现密度减低或坏死组织被吸收后形成的空洞,而肿瘤在影像上没有大小的改变;部分肿瘤周边可因炎性渗出或肿瘤内出血而使病灶体积变大[4]。难以准确的反应NSCLC新辅助化疗疗效,可能导致“过度化疗”或“化疗不足”[5]。因此,迫切需要探索及时准确可靠评价NSCLC化疗疗效的新方法,从而指导医师更早、更精准地调整或优化治疗方案。
影像组学(Radiomics)方法是一种新兴的定量分析方法,可自动、高效、可重复地从CT、MRI、PET等医学影像中高通量提取大量、客观和肉眼难以识别的肿瘤特征。这些特征可以直接或间接反映肿瘤微观层面的基因或蛋白质模式改变,可较全面地描述肿瘤在空间和时间上异质性[6],解析影像组学特征与不同临床表型的患者在诊断鉴别、分期、病理分型、分化程度、治疗效果评价、临床结局间的关联,以建立临床预测模型,能够精确地进行肿瘤诊断、精准地预测肿瘤分期以及准确地评价肿瘤的治疗反应。我们的团队已经使用影像组学预测NSCLC新辅助化疗疗效,但是机器学习的“黑箱”性质使得很难解释为什么对患者做出某些预测。机器学习的解释本质上是一个多面的概念,例如,被解释的是什么?谁需要可解释性? 为了更好地解释医疗人工智能模型,需要解释内部特征是如何影响结果,以便医生了解整个决策过程,以便他们能够信任模型做出的决策。然而,用于建模的医学数据往往是复杂的、模糊的和异构的,这使得可解释极具挑战性。为了克服“黑箱”问题,Lundberg和Lee提出了SHAP方法来提高模型的可解释性,其中正值或负值表示影响的方向,值的大小描述特征的“权重”或“重要性”(A positive or negative value indicates the direction of influence, and the magnitude of the value describes the “weight” or “importance” of the feature). 它可以帮助我们理解每个特征对于整体样本和单个样本在预测过程中的作用(It can help us understand the role of each feature for the overall samples and for individual samples in the prediction process). 将SHAP应用到影像组学领域,能够以可解释的方式解释影像组学模型,从而提高了影像组学模型对医生和患者的可信度。
在本研究中,我们旨在建立基于CT的影像组学模型来预测非小细胞肺癌新辅助化疗疗效。同时,我们结合SHAP技术,直观地解释模型决策过程,了解影像组学特征与新辅助治疗疗效的关系,即提高模型对医生和患者的可靠性。
2.方法
这是一项单中心回顾性实验,收集2015-2021年间进行新辅助化疗的NSCLC患者271例CT影像。对CT影像进行肿瘤分割、特征提取、特征选择、机器学习模型构建、可解释性分析等。本文采用SHAP进行可解释性分析。
SHAP值被用来解释机器学习模型对某一输入状态中的各特征值对预测输出的贡献(重要程度)。计算步骤如下:
定义(联盟):假定状态空间为n维,标记为, 我们此时要估计第i个特征对预测输出的贡献,若有一集合S满足,且,假定有一样本,则称为特征的一个联盟。
例如:假定一样本,需要计算的SHAP值,当时有联盟。
定义(在联盟下,的贡献):假定为的一个联盟,则在该联盟下,的贡献定义如下:
其中为的分布函数。
式(1-1)可以简写成,是子集的预测值在未包含中的特征期望。
定义(SHAP值):SHAP值是特征所有可能联盟下的贡献的加权和。
其中代表特征的SHAP值。
将SHAP引入到影像组学模型构建过程中,其工作流程如图1所示:
3.结果
采用LR、SVM和RF三种机器方法构建模型。其中RF算法性能最佳(AUC:0.82),SVM和LR算法的AUC分别为0.75和0.73,具体见图2。
计算最佳性能模型(RF)所有选定影像组学特征的SHAP值。SHAP值越大,特征越重要。图3按降序列出了所有保留的影像组学特性,SHAP值越大的特征对模型的贡献最大,并且比SHAP值小的特征具有更高的预测能力。wavelet-LLHfirstorderMinimum是RF模型中最重要的特征,对预测结果的影响最大。
4.讨论
本文从化疗前CT影像中提取影像组学特征,经ICC、方差、T-test和Lasso特征选择后,最终保留10个影像组学特征。在此基础上分别使用LR、SVM和RF机器学习方法,构建用于预测NSCLC新辅助化疗疗效的影像组学模型。其中基于随机森林的影像组学模型表现最佳性能(AUC=0.82)。然而模型的决策过程、推理方式及其内部机制对人类几乎是一个“黑盒子”。为了探明“黑盒子”决策过程,本文将可解释性技术SHAP 应用到影像组学疗效评价模型中,以此来揭示模型内在的决策逻辑。
计算每一个特征的SHAP值,可根据SHAP值大小确定特征的重要性。传统的特征重要性只告诉哪个特征重要,但并不清楚该特征是怎样影响预测结果的。SHAP值不仅能够反映出特征的重要性,而且还能确定特征对模型影响的正负性。
SHAP瀑布图可以解释某一样本预测过程,并比复杂的评分系统的nomogram方法要快得多。同样清楚的是,相同特征的重要性在两组病例中有所不同,对于不同的患者,在某些情况下,重要性较高的特征可能对预测结果影响较小。因此,在个体预测方面,SHAP也具有很好的特异性
我们的研究有一些局限性。首先,这是一项回顾性的单中心研究,模型的性能需要更多的多中心数据集和前瞻性数据来验证。其次尽管SHAP值提供了高度的可解释性,很容易受限于数据集的噪声或异常值,且作为一种概率方法,它们无法给出绝对的解释。
[1] Cannone G, Comacchio GM, Pasello G, Faccioli E, Schiavon M, Dell’Amore A, Mammana M, Rea F. Precision Surgery in NSCLC. Cancers. 2023; 15(5):1571. https://doi.org/10.3390/ cancers15051571.
[2] Wang, K., An, Y., Li, N., Zhou, J,C., Chen, X.L. Robust identification of subtypes in non-small cell lung cancer using radiomics[J]. Traitement du Signal,2022, 39(4):1399-1406.
[3] Amarnath C, Aboagye EO. Positron Emission Tomography Imaging of Tumor Cell Metabolism and Application to Therapy Response Monitoring[J]. Frontiers in oncology,2016,6:44-54.
[4] Nishino M, Jagannathan JP, Krajewski KM, et al. Personalized tumor response assessment in the era of molecular medicine: cancer-specific and therapy-specific response criteria to complement pitfalls of RECIST[J]. American journal of roentgenology,2012,198(4):737-745.
[5] Stinchcombe T E, Choi J , Schell M J ,et al. Carboplatin-based chemotherapy in patients with advanced non-small cell lung cancer and a poor performance status[J].Lung Cancer, 2006, 51(2):237-243.DOI:10.1016/j.lungcan.2005.10.018.
[6] Dercle L, Fronheiser M, Lu L, et al. Identification of Non–Small Cell Lung Cancer Sensitive to Systemic Cancer Therapies Using Radiomics[J]. Clinical Cancer Research, 2020, 26(9):2151-2162.
2023年湖南省自然科学基金项目(项目编号:2023JJ50354);2022年度湖南省教育厅科学研究一般项目(项目编号:22C0500)资助。