• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于改进型C4.5决策树算法的败血症疾病分类研究

王晓娟 玉臣选
  
科创媒体号
2023年12期
正德职业技术学院 江苏省南京市 211106

摘要:败血症属于致死率较高的一种疾病,研究败血症疾病是我国医疗事业中的关键一环。目前医疗数据存在不平衡、特征属性多且互相影响的特点,在传统的疾病分类研究中,无法通过简单的症状分析、临床表现以及各种身体指标中分析其相关规律,而传统决策树算法在应用分类预测中容易过拟合、精度不高。针对C4.5决策树算法在疾病分类研究中的不足,以败血症为研究对象,对C4.5决策树算法进行改进,设计并提出了基于改进型C4.5决策树算法的败血症疾病分类模型。在C4.5决策树算法思想的改进中,结合肯德尔和谐系数对不同等级变量进行等级评定,进行算法改进并命名为K-C4.5算法。基于改进的决策树算法,进行数据集清洗和预处理工作,以超参数调整修改模型进行实验,使算法模型达到更优的预测分类效果。在改进算法与原算法运算时间、实验结果指标对比中,表明算法模型的分类准确率与正确率中有所提升。

关键词:败血症疾病;机器学习;C4.5决策树算法;肯德尔系数;等级评定法

0引言

2020年,世界卫生组织发布了全球首份败血症报告,呼吁采取全球行动来对抗这种导致全世界五分之一死亡的疾病。该报告指出,败血症每年导致1100万人死亡,并使数百万人失去生活自理能力,给医疗卫生系统造成了极大的负担和经济损失。随着社会医学的快速发展,医疗行业的临床治疗和健康管理服务已积累了丰富的败血症疾病数据,如何更好的分类预测败血症也成为当下比较紧迫的话题。早期发现败血病可以及时控制病情,做到早发现、早治疗,对于社会具有重大现实意义。

败血症疾病分类本质上属于机器学习的分类预测问题,核心在于通过对不同的血液指标进行分析,以更优的分类模型进行运算评估,得出病人身体变化以及是否有转变为败血症的趋势。传统的决策树算法在心血管疾病等医学诊断方面应用的效果也不尽相同[1-6]。岳根霞(2021)等学者提出了在决策树算法下的医疗领域大数据填补及分类方法,为医疗行业大数据体系的构建开辟了新的思路[7]。李春生等人(2020)提出另一种改进的K-C4.5算法,主要是结合麦克劳林和泰勒公式,从公式的角度简化,使信息增益率公式从对数函数转为非对数函数,大大提高时间效率[8]。李颖(2022)提出了基于决策树算法的信息系统数据挖掘方法。以C4.5决策树算法计算属性的信息增益率和属性值的信息熵为基础,提出基于余弦相似度改进的C4.5决策树算法,数据挖掘效率高[9]。

1基于C4.5决策树算法的疾病分类的模型构建

1.1传统分析方式在血液疾病研究中的优缺点

随着医学领域中对于血液疾病的研究更加深入,其传统研究模式主要有回顾性模式和统计学模式构成,以医学数据样本为研究对象,依赖医生经验能力进行。在回顾性分析模式中,由于具体资料繁多,与败血症疾病相关的各种病理学元素综合较为复杂,无法在简单的症状分析、临床表现以及各种身体指标中归纳分析其相关因素。并且在各种观察的数据中,存在差异化,无法统计归纳出该特殊情况的因素影响程度。引入统计学的相关指标以及运算公式可以在一定程度上得出许多血液疾病中的指标差异以及作用,但仍存在数据多样化、数据不均衡的特点,此时运用统计学进行相关分析需要进行的工作较重,效果不是很理想[10-11]。

在机器学习算法应用模型的方面,数据特点还有如数据量大、数据多样化、数据不均衡、数据价值高等。对于这些海量的血液疾病医学数据,传统医学方法很难适用。然而这类非结构化的、多元化的数据却可以通过先进的大数据技术进行研究与挖掘出与血液疾病关联的高价值信息、有意义的医学特征[12]。

尽管机器学习模型引入相比传统的分析模式更专业准确,但仍存在一些难点,如数据库的构建,在数据累积阶段,这些数据没有进行良好的管理和归纳,研究人员的工作便会存在相当大的影响,甚至在分析时产生误差。对于数据分析模型而言,若对数值和图像数据进行更为合理的分析,则要选择最合适或者相对合适的机器学习的方法。在一定程度上可以决定构建的数据分析模型的分类效果是否理想。关于机器学习的各类方法中,有不少领域使用的监督学习外,还有如聚类等诸多的无监督学习算法也各有特点,效果也存在不同。

1.2K-C4.5算法改进思想

1.2.1肯德尔和谐系数

在本文中考虑了肯德尔系数(Kendall)作为一种方法不仅仅在衡量评分者可信度方面发挥作用,还可以运用在决策树算法中信息增益率的运算当中,对不同等级的变量,或者相同等级变量之间的相关程度进行比较,通过计算此系数,决策出变量之间的相关程度[13]。

如下文中,优先考虑多个不同等级变量之间的关系衡量。假设在一堆数据T当中,存在条件属性、决策属性分别以X、Y命名。此时存在N个条件属性X,存在K个决策属性Y;用Bk(k =1,2,…,N)表示X的具体值,Ri(i=1,2,…,K)表示每一行Bk的总值;假设决策属性中有多个类别记为Ci(i=1,2,…,K)。存在以下两种不同情况:

(1)评定等级无相同等级时肯德尔和谐系数的计算,此时认定Ci均为不同值时,公式如下:

(2)评定等级存在相同等级时肯德尔和谐系数的计算,此时认定Ci均为相同值时,公式如下:

式中:S为每个每行Bk总值Ri与所有这些总值的平均数的离差平方和。

对于肯德尔和谐系数的取值而言,限制于-1~1内,存在三种极端情况:(1)当W=1时,这些等级变量间存在一致相关性,(2)当W=-1时,等级变量内部存在完全相反的相关性,(3)W=0时,表示等级变量相互而言是独立的。

1.2.2评定等级法

评定等级法指出在评定等级相同或评定等级不同时,对数据集的不同指标计算出它的肯德尔系数。但是对于数据集中非数字的数据,或是离散的取值时,会造成一定的麻烦。那么便需要在计算之前,利用评定等级的方法赋予以上数据相应的数字意义。

假设存在一个名为S的数据集,以一个名为A的特征取值,将此数据集划分为n个子集部分S1,S2,…,Sn。对于Si子集的个数以Ni定义。假设决策属性中有K个类别为C1,C2,…,Ck,那么对于类别个数以Ck定义。对于Si中属于CK的样本集合定为Sik,它的样本个数为Nik。此时设定C1的等级数最高,等级数为1。k=2,n=3,统计Di中属于类C1的样本集合个数为Ni1,得到概率分布为: 同理得到P2、P3。针对以上设定,将属性的等级数评定分为下列几种:

(1)当P1>P2>P3时,D1、D2、D3的等级数分别为1、2、3。

(2)当P1=P2>P3,则D1、D2、D3的等级数分别为1.5、1.5、3(1.5为1和2的平均数)。

(3)当P1>P2=P3时,则D1、D2、D3的等级数分别为1、2.5、2.5(2.5为2和3的平均数)。

1.2.3K-C4.5算法改进

在以上算法改进思想的规划下,进行了公式改进,有以下流程的工作。算法的主要步骤为:

(1)使用等级评定法,划分不同属性等级。

(2)划分后结果带入公式计算出相关系数W。

(3)引入系数W,得到公式如下:

(4)以数学中的换底公式lbx=lnxln2和等价无穷小原理ln(1+x)≈x为基础,简化相关对数的公式如下:

2实验过程及结果分析

2.1实验数据及预处理

实验数据以599名患者数据作为训练集,169个测试集进行测试。包含了9个属性特征,PRG(血糖)、PL(血液检查结果-1)、PR(血压)、SK(血液检查结果-2)、TS(血液检查结果-3)、M11(体重指数)、BD2(血液检查结果-4)、Age(患者年龄)、Insurance(保险卡)。

字段筛选及纠正中为了保护患者的隐私,对其ID将在投入训练模型前应当进行删除。对于原始数据集中的“Sepssis”列拼写错误,利用算法将其重命名为正确的拼写“Sepsis”以避免混淆。

在异常值的处理中发现数据不存在缺失值,但是在数据标准化过程中部分值不在预见范围如图1、图2进行异常值处理。此时异常值使用四分位距(IQR)确定。任何高于Q3+1.5IQR或低于Q1-1.5IQR的值点都被视为异常值,其中Q1是数据的25百分位数,Q3是数据的75百分位数,IQR=Q3-Q1。

2.2实验过程

2.2.1改进算法与原算法运算比较实验

测量出两种算法在运用数据集计算时间。通过对比发现,两种算法的实验10次结果中,原C4.5算法实验速度约为7.9055s,而改进算法K-C4.5算法约为6.6695s,速度提升了近15.63%。由此,可以得出改进算法方法切实可行,在实验耗时方面明显优于原算法,如图3。

两种算法的对比还从准确率、召回率、精准率、F1分数方面进行。此时从测试集的分类结果出发,得到如下评估结果,总体指标对比上改进的K-C4.5算法更优,如表1。

2.3基于改进型C4.5决策树算法模型

进行一次评估,模型有一个明显大的过拟合现象,并且预测精度却没有预期的高,一定修剪过程和超参数调整过程,使精度提升。在修剪中,专注于叶子的杂质,有效 (ccp_alphas)和节点数。进行属性的重要性分析,用于选择稍后训练的max_feature的值,从而加大重要属性的权重,减轻非重要属性权重。

进行杂质处理及重要属性权重处理后得出新的模型F1分数和准确率如表2所示。

2.4实验结果分析

从图可见,本文构建提出的模型在此时进行评估ROC曲线分析,得出的AUC值为0.8510257245197004,

针对分类器(模型)妥善设定阈值的话,便可以产生相应的预测价值。在后续尝试进行超参数的调节,寻找更优的超参数组合,采用Optuna这一个自动超参数优化软件框架,过程中可以动态地构建超参数的搜索空间,最终进行AUC评分为0.9269781830022793。如图5.6:

通过准确率评估与F1分数的体现,发现并调整了该算法过拟合现象,在ROC曲线评估之后,进行超参数的调节分析,得到更加的参数组合,并绘制出了更加优良的ROC曲线图像,显示出在改进后的C4.5决策树算法构建中模型当中,效果比较理想。

3结束语

该文主要以败血病为研究对象,在传统C4.5决策树算法的基础上,提出改进算法模型,实现基于改进型C4.5决策树算法的败血症疾病分类研究[14]。使用了肯德尔和谐系数和评定等级法进行改进的算法模型,避免数据分析过程中一些非数字数据无法使用或产生噪音。但是C4.5决策树算法在模型训练中的构建会产生过拟合效应,得到的分类效果与现实产生偏差。同时在分类实验中的数据内存在不同权重的特征值,常常以相等的权重进行运算,导致小权重特征过多影响分类效果,而大权重特征影响力变弱。

基于以上存在问题,引进超参数调整法,不断调整模型的可变参数组合,获取合理的分类组合,进行决策树修剪动作可以在最大限度地减少过度拟合问题[15]。并且在实验中,对重要属性权重处理,确定好重要属性后加大其在运算中的权重比例,达到更合适的影响比例。在此调整过程中,修改实验模型的各种属性参数组合,进一步实验分析。

最后,完成了改进算法K-C4.5算法模型的构建并实验,算法模型在符合医学认识的前提下,还能达到更加优良的预测分类效果。与原C4.5算法相比运算速度提升了近15.63%。在准确率、召回率、精准率、F1分数方面比较中均比原C4.5算法有更好的效果,说明进行的改进在实验中发挥良好的提升作用,改进方案具备一定的现实意义。改进模型实验得出的ROC曲线下AUC值证明了模型得到提升改进。为血液疾病领域研究以及分类模型提出新角度。

参考文献:

[1]陈健. 决策树数据挖掘技术在医学诊断中的实现[J]. 佛山科学技术学院学报(自然科学版),2021,39(02):47-52.

[2]郭星晨,王青青,王亚. C4.5决策树算法在医疗数据分类中的应用研究[J]. 安庆师范大学学报(自然科学版),2021,27(02):49-53.

[3]Jung JiYong,Yang ChangMin,Kim JungJa. Decision Tree-Based Foot Orthosis Prescription for Patients with Pes Planus[J]. International Journal of Environmental Research and Public Health,2022,19(19).

[4]Dong Yu,Fan Baochao,Yan Enliang,Chen Rouhao,Wei Xiaojing,Zhan Jie,Zeng Jingchun,Wen Hao,Lu Liming. Decision tree model based prediction of the efficacy of acupuncture in methadone

[5]Seto Hiroe,Oyama Asuka,Kitora Shuji,Toki Hiroshi,Yamamoto Ryohei,Kotoku Jun’ichi,Haga Akihiro,Shinzawa Maki,Yamakawa Miyae,Fukui Sakiko,Moriyama Toshiki.  Gradient boosting decision tree becomes more reliable than logistic regression in predicting probability for diabetes with big data[J].  Scientific Reports,2022,12(1).

[6]郑涵耘,朱薪君,张政,孟娇,谭明亮. 基于决策树的心血管疾病预测研究[J]. 信息与电脑(理论版),2022,34(21):46-48+52.

[7]岳根霞,刘金花,刘峰. 基于决策树算法的医疗大数据填补及分类仿真[J]. 计算机仿真,2021,38(01):451-454+459.

[8]李春生,焦海涛,刘澎,刘小刚. 基于C4.5决策树分类算法的改进与应用[J]. 计算机技术与发展,2020,30(05):185-189.

[9]李颖. 基于决策树算法的信息系统数据挖掘研究[J]. 信息技术,2022(02):116-120+126.

[10]孟林,桑艳峰,冯会颖等. 90例新生儿败血症临床及病原学特征分析[J]. 中国病原生物学杂志,2023,18(01):86-89+93.

[11]韦楠,江傲霜,马典庆等. 52例儿童急性淋巴细胞白血病诱导期合并败血症临床分析[J]. 医学研究杂志,2022,51(04):50-53.

[12]王渝钦. 机器学习在血液疾病数据分析中的应用[D]. 四川师范大学,2022.

[13]刘艳锋. 肯德尔和谐系数的实际运用[J]. 河南机电高等专科学校学报,2006(01):41-42.

[14]汪靖翔. 决策树算法的原理研究和实际应用[J]. 电脑编程技巧与维护,2022(08):54-56+72.

[15]范劭博,张中杰,黄健. 决策树剪枝加强的关联规则分类方法[J/OL]. 计算机工程与应用:1-10[2023-02-27].

【作者简介】

王晓娟,1980年生,女,副教授,正德职业技术学院电子与信息技术系。

玉臣选,年生,男,研究生,南京航空航天大学经济与管理学院。

【基金项目】2022年教育教学改革研究项目课程建设专项(No.JG22KCJSCO2)

*本文暂不支持打印功能

monitor