• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于机器学习的血液遗留时间及浓度的拉曼光谱特性研究

毛程阳
  
创新版媒体号
2024年23期
浙江警察学院 浙江杭州 310053

打开文本图片集

摘要:为了实现对犯罪现场遗留的被冲刷、清洗过的血液的鉴别判断,本研究以不用浓度以及遗留时间的血液为研究对象,采集人体指尖血液静脉血,配置成四种不同浓度的血水混合物,采集2-720h共20个时间点血液拉曼光谱数据,建立SVR、Adaboost等五种回归预测模型,血液浓度预测模型准确率最高达96.7%,血液遗留时间预测模型准确率最高达99.11%,结果表明机器学习结合拉曼光谱方法可为血液浓度以及遗留时间鉴别提供新方向,SVR和Stacking算法分别在血液遗留时间和血液浓度鉴别中有较为广阔的研究空间和应用前景。

关键词:血液浓度;机器学习;拉曼光谱;血液遗留时间

1.引言

血液作为一种重要的生物证据,在刑事调查和司法鉴定中扮演着至关重要的角色,对于犯罪现场发现的血迹进行遗留时间的检测能为公安侦查案情走向提供重要的时间信息,进而极大影响案件侦破效率。然而,随着时间的推移,血液的化学和物理性质会发生变化,这给血液遗留时间的准确鉴定带来了挑战。在传统的法医学和犯罪学研究中,对于血液遗留时间的鉴别往往依赖于经验判断,通过观察血迹的形状、大小和位置来推断遗留的时间长短。较新的血迹可能具有更明显的红色边缘,而较旧的血迹可能边缘模糊或颜色深。随着血迹遗留时间检测要求的不断提高,检测技术也在不断的更新发展,出现了血液分解产物分析方法,技术人员通过对血红蛋白分解产物(HbF)和胆红素存在和相对含量进行检测,从而推断血液的遗留时间;蛋白质分解产物分析方法,血浆中的白蛋白可以分解成较小的肽段,通过检测这些肽段的存在和数量,从而推断血液的遗留时间。

拉曼光谱技术是一种新兴的检测分析技术。它基于拉曼散射效应,即当激光光束与物质相互作用时,其中一部分光子会以不同频率散射回来,这些散射光中包含了与分子振动和转动相关的信息。通过分析这些散射光的频率和强度,可以获取样品的分子结构、化学成分、形态以及物理状态等信息。拉曼光谱技术具有非破坏性、高灵敏度、高分辨率、快速性等优点,被广泛应用于化学、材料科学、生物医药、环境监测等领域。近年来,随着拉曼光谱技术的发展和研究的进一步深入,其逐渐被应用于血液鉴别分析和相关领域。Igor K.Lednev和他的团队[1]通过拉曼光谱技术对不同液体的拉曼光谱进行了分析,并发现了这些液体之间的特征性差异。通过分析这些差异,他们建立模型来区分不同的液体,证明通过拉曼光谱能区分血液、唾液、汗液等多种液体。Kelly VirKler等[2]采用近红外拉曼光谱分析人、犬、猫的血迹。用主成分分析法统计分析,能将三组物种间显著分离,扩展了血液鉴定领域的应用范围。为了提高鉴别能力的准确度,Gregory McLaughlin等[3]采用载体上凝固血样,采集了10种动物和人的血液拉曼光谱数据,构造PLS-DA模型对人血与10中动物血样进行了有效区分,其进一步将二元分类模型改进为多元分类模型验证了人血与10种动物以及这10种以外的动物血样的有效区分,这项研究证明了拉曼光谱学结合机器学习方法在血清学领域的巨大潜力,特别是对于可疑血迹的种类鉴定。Kyle C. Doty[4]利用拉曼光谱技术,并引入机器学习算法,结合二维相关光谱(2D CoS)和统计建模技术,在环境条件下对10个时间点的新鲜血迹进行分析,构造PLSR模型,预测结果r>0.97,实现一周内对血迹遗留的时间的高度准确的预测,提供了一种无损、准确实现血液遗留时间鉴别的新方法。杨志超[5]等人通过采集志愿者指尖血液进行拉曼光谱样本收集,采集了0.5h-240h中10个时间点的血液拉曼光谱,结合机器学习算法,发现拉曼光谱在680cm-1等6个特定波段随时间有明显的变化,进一步验证了拉曼光谱结合建模分析进行10日内血液遗留时间预测可行性。

本研究基于拉曼光谱技术探究以水为介质对血液进行稀释后不同浓度的血水混合物的鉴别,以四种不同浓度的血水混合物为研究对象,通过采集、处理拉曼光谱数据以及机器学习的模式选择与优化,为拉曼光谱技术实现不同浓度血液的区分的可行性应用提供参考。同时,通过采集2-720h内共20个时间点的四种浓度的血液拉曼光谱,构建多种机器学习模型,探究结合拉曼光谱技术和机器学习算法实现一个月内血液遗留时间区分的可行性,进一步扩大拉曼光谱技术在血液遗留时间检测鉴别领域的影响力,拓展血液拉曼光谱的研究深度和应用前景。

2.实验设备与方法

2.1实验器材

本研究所有血液光谱数据采集均使用Thermo fisher Scientific公司生产的DXR2xi型光谱仪,光谱测定范围为50-6000cm,光谱重复性优于±0.1cm,空间分辨率500nm,最低波数50cm,光谱分辨率<2cm, 仪器使用前均采用标准物质进行校准。

本研究所采用的实验室温度为20摄氏度,相对湿度为50%。

2.2血液样品

本研究所用的人血样品均为新鲜全血,于4名血型分别A、B、AB、O型的成年健康的献血志愿者处获得。采集2ml指尖血液静脉血液装与EDTAK2采血管中,统一贴上标签,所有血液样本不进行任何前处理。以超纯水为稀释溶剂,采用200 μL移液枪采集100μL血液样本分别与相应含量的超纯水混合制备成100%、10%、1%、0.1%四种浓度的检测样本,制作检测样本总数为16个。利用移液枪取20ul检测样本滴于干净的载玻片表面,并置于空气中自然干燥。

2.3拉曼光谱数据采集

经过前期预实验对实验参数的选择与优化,本研究选择532nm的激发光源,采用20×物镜聚焦,1.0mW的激光强度,0.5s的曝光时间,1000次的扫描次数,并选取100~1800cm-1波段进行研究。

自然干燥2小时后首次采集拉曼光谱数据,每个样本随机采集20-30个点的拉曼光谱数据。在一个月的时间内完成16个检测样本2h、6h、12h、24h、48h、72h、96h、120h、144h、168h、192h、216h、240h、264h、288h、312h、336h、360h、480h、720h共20个时间点的拉曼光谱数据采集,采集样本总数为6785例。

3.光谱数据预处理

为了消除基线漂移、噪声干扰、波长漂移、强度差异等干扰因素,增强数据的质量和解释能力,以提高后续分析的准确性和可靠性,本研究对原始光谱数据进行预处理。

3.1 Savitzky-Golay滤波

Savitzky-Golay滤波是一种常用的信号处理技术,它是基于最小二乘原理的多项式平滑算法,通过在局部数据段上进行多项式拟合,并用该函数的导数来近似原始数据。由于采用了多项式拟合的方法,SG 滤波器的计算效率通常较高,适用于处理大量数据点的情况。此外相对于简单的移动平均滤波器,Savitzky-Golay方法不受样本数据限制,可以尽量减少对数据整体形状和特征的改变,更好地保留数据的信息,同时有效地去除数据中的高频噪声,从而提高数据的信噪比[6]。本研究选取121 cm-1-1754 cm-1波段光谱数据,使用Savitzky-Golay(最小二乘平滑滤波)方法对光谱曲线进行平滑滤波。

3.2 AIRPLS基线校正

基线漂移是光谱中由于仪器漂移、背景扰动或其他因素引起的缓慢变化的部分,它可能掩盖或混淆样品的特征。AIRPLS(Adaptive Iteratively Re-weighted Penalized Least Squares)通过自适应迭代的方式,利用最小二乘法拟合数据的基线,并结合惩罚项以降低过拟合的风险。在每次迭代中,根据残差的大小调整数据点的权重,使得对基线的拟合更加精确,以减小基线对原始数据的影响[7]。因此它被广泛应用于光谱数据的预处理和分析中,能够有效去除基线漂移,提高数据的质量和分析结果的准确性。对采用Savitzky-Golay滤波后的光谱数据进行AIRPLS基线校正。

3.3 Min-Max Scaling

在光谱数据集中,不同特征的取值范围相差很大。某些特征值在

几十或几百之间,而部分特征值在0到1之间。这种不一致的数据范围会导致某些特征在模型训练过程中占据主导地位,而其他特征则被忽略。因此本研究采用Min-Max Scaling方法,将所有特征的取值范围限制在相同的区间内。使用Min-Max Scaling可使得所有特征在模型训练中的权重更加均衡,降低模型对训练数据的过度拟合程度,从而提高模型的泛化能力和稳定性。

3.4 PLSR降维

PLSR (Partial Least Squares Regression) 是一种同时进行回归分析和降维的方法。它主要用于处理多重共线性问题,即自变量之间存在高度相关性的情况。PLSR通过将自变量和因变量的信息进行压缩,找到它们之间的共同结构,从而降低数据的维度,提取出最重要的信息,同时保留了与因变量相关的信息。本研究光谱数据包含1695个特征维度,考虑到数据可能存在冗余或者噪声,从而增加建模的复杂度并可能导致过拟合,为了简化建模复杂度,提高模型的泛化能力,减少计算成本,本研究使用PLSR算法降低数据维度,采取交叉验证方法选取最佳参数,得到最佳参数n_components为300。

4.回归模型构建

4.1回归评估标准

本研究利用均方误差(MSE)、平均绝对误差(MAE)、决定系数(R-squared)三种指标来对回归模型进行评估。

MSE是预测值与真实值之间差值的平方的平均值。适用于评估模型的整体预测精度,MSE的数学表达式如式(1),MSE越小表示模型的预测值与真实值之间的差异越小,模型性能越好。

MAE是预测值与真实值之间差值的绝对值的平均值。MAE的数学表达式如式(2),MAE越小表示模型的预测值与真实值之间的差异越小,模型性能越好。MAE度量了预测值与真实值之间的平均绝对偏差,具有较好的鲁棒性,但不像MSE那样能够放大较大的误差,适用于对异常值不敏感的情况。

R-squared也称为拟合优度,用于衡量模型对数据方差的解释能力。R-squared的数学表达式如式(3),其取值范围在0到1之间,值越接近1表示模型对数据的拟合越好,越接近0表示模型拟合效果较差。

4.2  支持向量机回归(SVR)

支持向量回归(Support Vector Regression),是一种基于支持向量(SVM)的回归分析方法。SVR旨在是找到一个回归的超平面,在数据点之间创建边界,正确分离具有最大几何边距的数据集,使得所有样本数据点距离这个平面的总偏差最小,分离超平面不仅可以很好地处理高确定性的训练数据,还可以很好地处理未知数据[8]。假设有的数据集,其中

4.3  Stacking回归

Stacking算法,又称为堆叠泛化,是一种集成学习方法,其核心思想是将多个基础预测模型的输出作为新的特征,输入到一个元模型中,从而获得更加准确和稳健的预测结果。Stacking集成模型框架如图4-2-1所示

4.4 Adaboost回归

Adaboost算法是一种集成学习方法,通过组合多个弱分类器(例如本研究所用的决策树)来构建一个强分类器[9]。在每一轮迭代中,通过调整数据集的权重,使得前一轮分类器错误分类的样本在下一轮受到更多关注,从而重点关注难以分类的样本,达到提高分类准确率的目的。具体流程图如图4-3-1:

4.5  XGboost回归

XGBoost(Extreme Gradient Boosting)结合了梯度提升(Gradient Boosting)和决策树(Decision Tree)方法,通过迭代地训练多个决策树模型,并结合它们的预测结果来提高整体模型的性能。假设数据集有n个样本m维特征 (如血液拉曼光谱等)且

式中为独立树结构,F为树空间,表示模型预测的高程方向位移值,为损失函数,为节点切分的难度,T为叶的数量。

XGBoost具有可大规模并行计算、内存使用优化等特点,使得XGBoost在速度上比现有梯度提升算法至少有着10倍的提升[10]。除此之外,与RandomForest相比,XGBoost会基于上棵树的预测结果对下棵树的结构进行调整,模型预测精度通常会比前者好。

4.6  随机森林(RandomForest)回归

随机森林回归算法是目前使用最广泛的一种机器学习算法,他是基于决策树的集成学习方法,通过以随机的方式建立一个森林,森林由许多决策树组成,在训练得到一个随机森林模型后,构建多个决策树模型并将它们的预测结果进行平均或投票来进行回归预测。

随机森林回归算法使用了决策树作为基本的学习器,每个决策树都是在随机选择的子样本和随机选择的特征子集上进行训练的。这种随机性有助于减少过拟合,提高模型的泛化能力。

4.7  超参数优化

预测回归模型找到最佳目标函数,并避免过度拟合,必须设定合适的参数。本研究采用贝叶斯优化SVR、Stacking 、Adaboost、XGboost、RandomForest五种回归模型进行超参数优化。

贝叶斯优化依据先验信息通过采集函数采样,建立概率代理模型,选择新的超参数组合更新模型,最后,根据更新后的概率代理模型来最小化目标函数的值,从而找到使得机器学习模型性能最佳的超参数组合。本研究过程中使用Gaussian Process(高斯回归)[11]作为后端模型来建模目标函数的未知映射关系,得到的最佳超参数

5.模型分析

5.1 血液浓度拉曼光谱回归模型分析

本研究采集的1829例100%浓度光谱数据、1855例10%浓度光谱数据、1787例1%浓度光谱数据、1704例0.1%浓度光谱数据进行Savitzky-Golay平滑滤波、AIRPLS基线校正、Min-Max Scaling归一化处理后,对所得结果分别进行均值计算,对拉曼光谱的特征峰进行对比研究,数据制图如图5-1-1所示:

观察图5-2,可以看出不同浓度血液拉曼光谱整体保持稳定,但在某些位置光谱曲线也发生了明显的变化,本研究选取了674cm-1、747 cm-1、1126 cm-1、1173 cm-1、1586 cm-1、1638 cm-1 较为稳定的特征峰进行比较分析。随着血液浓度的降低,747 cm-1和674cm-1、1126 cm-1和1173 cm-1、1586 cm-1和1638 cm-1这三对拉曼光谱特征峰的相对强度差值呈现变大的趋势,当血液浓度继续下降,三对拉曼位移的光谱数据相对强度差值变化幅度加强,有较强的区分性,说明基于拉曼光谱建立机器学习预测模型具有可行性。

对前期处理好的光谱数据进行PLSR降维,选取300个特征维度之后随机选择70%的光谱数据作为训练集样本构建预测回归模型,30%的光谱数据作为训练集来检验模型,采用MAE、MSE 、R-squared来评估模型,得到结果如表5-1-1:

研究结果表明,血液浓度的拉曼光谱曲线预测模型表现出较好的效果,构建的五种模型R-squared均大于0.90,其中Stacking预测模型效果最好,MAE=1.12,MSE=57.47,R-squared=0.967。由此可知,拉曼光谱结合机器学习算法可实现0.1%、1%、10%、100%四种浓度血液的区分,且在多种集成学习算法之中,Stacking算法对于不同浓度血液拉曼光谱的预测效果要最好,在血液浓度拉曼光谱检测领域中具有较强的适用性、较高的预测精度和较好的泛化能力,存在着重要的研究价值。

5.2  血液遗留时间拉曼光谱回归模型分析

在前期实验中,对0.1%、1%、10%、100%四种浓度的血液分别采集了2h、6h、12h、24h、48h、72h、96h、120h、144h、168h、192h、216h、240h、264h、288h、312h、336h、360h、480h、720h共20个时间段的血液拉曼光谱曲线,按照浓度分组,对光谱数据进行预处理之后,采用PLSR降维,选择300个特征维度,选取300个特征维度之后随机选择70%的光谱数据作为训练集样本构建预测回归模型,30%的光谱数据作为训练集来检验模型,采用MAE、MSE 、R-squared来评估模型的准确度,得到结果如表所示:

在划分浓度之后构建的血液遗留时间拉曼光谱预测模型中,除了采用RandomForest对10%浓度的血液拉曼光谱遗留时间进行预测判断准确率在0.8561,其余预测模型的准确率都达到了0.90,进一步证实了拉曼光谱用于鉴别血液遗留时间的可行性,在构建的预测模型之中,SVR算法的决定系数(R-squared)和均方误差(MSE)相对其他四种模型来说是最高的,在浓度为1%的遗留时间预测模型中R-squared=0.9911,十分接近于1,说明SVR预测模型效果最好、最为可靠,同时MSE为270.53,表明预测模型没有过拟合,模型的精确度高,是五种模型之中预测可靠性最高的。如图5-2,在误差分布图中,模型在大多数样本上的预测与真实值之间的差异较小,这意味着模型在这些样本上的预测比较准确,与真实值接近。散点图中大部分点都集中在一条直线附近,说明模型的预测与真实值之间存在较强的线性关系,模型比较准确地捕捉到了数据的趋势,性能较好。

6.  结论

本次研究创新性的提出了利用拉曼光谱与机器学习算法相结合的血液浓度的检测办法,首先找到了747 cm-1和674cm-1、1126 cm-1和1173 cm-1、1586 cm-1和1638 cm-1这三对拉曼光谱特征峰的相对强度差值呈有稳定的变化趋势,之后构建了SVR、Stacking 、Adaboost、XGboost、RandomForest五种回归预测模型,采取贝叶斯优化寻找最佳超参数,得到较为准确的预测结果,并通过比较,发现了Stacking模型对于血液浓度的预测效果最好,其预测精度达到了0.967。

并且,在实现了血液浓度判别的基础上,本研究探究了四种不同浓度血液2-720h共20个遗留时间点的血液拉曼光谱遗留时间的检验鉴别,同样构建五种回归预测模型,并采取贝叶斯优化寻找最佳超参数,得到的预测结果表明,除了RandomForest回归模型的预测精度较低之外,其余四种预测模型都表现出较好的预测能力,其中SVR模型的预测精度均高于0.98,体现了其在高维空间运算中的表现能力,证明了SVR在血液遗留时间鉴别中有较为广阔的研究空间和应用前景。

参考文献:

[1]Virkler K , Lednev I K .Analysis of body fluids for forensic purposes: From laboratory testing to non-destructive rapid confirmatory identification at a crime scene[J].Forensic Science International, 2009, 188(1-3):1-17.DOI:10.1016/j.forsciint.2009.02.013.

[2]Virkler K , Lednev I K .Blood species identification for forensic purposes using Raman spectroscopy combined with advanced statistical analysis.[J].Analytical Chemistry, 2009, 81(18):7773-7.DOI:10.1021/ac901350a.

[3]Mclaughlin G , Doty K C , Lednev I K .Raman Spectroscopy of Blood for Species Identification[J].Analytical chemistry, 2014(86-23).

[4][1] Doty K C , Mclaughlin G , Lednev I K .A Raman "spectroscopic clock" for bloodstain age determination: the first week after deposition[J].Analytical & Bioanalytical Chemistry, 2016, 408(15):3993-4001.DOI:10.1007/s00216-016-9486-z.

[5]杨志超,赵森,蔡竞,等.基于拉曼光谱的血液遗留时间研究与模型预测[J].中国法医学杂志, 2022, 37(1):4.DOI:10.13618/j.issn.1001-5728.2022.01.013.

[6]雷林平.基于Savitzky-Golay算法的曲线平滑去噪[J].电脑与信息技术, 2014,22(05): 30-31. DOI:10.19414/j.cnki.1005-1228.2014.05.011.

[7]郑成霞. airPLS算法去除拉曼光谱背景噪声的有效性研究[J].电子元器件与信息技术, 2021, 5 (02): 195-196. DOI:10.19772/j.cnki.2096-4455.2021.2.086.

[8]郭龙,郭文文.基于SVR和随机森林模型的动力煤高位发热量预测研究[J].能源工程, 2024, 4401): 35-42. DOI:10.16189/j.nygc.2024.01.005.

[9]倪龙飞,白倩,张治斌.基于AdaBoost算法的新能源汽车电机异常故障检测[J].计算机仿真, 2024, 41 (04): 97-101.

[10]刘巧红,马雨生,蔡雨晨.基于XGBoost算法的糖尿病分类预测模型及应用[J]. 现代仪器与医疗, 2023, 29 (04): 1-6+11.

[11]Snoek J , Larochelle H , Adams R P .Practical Bayesian Optimization of Machine Learning Algorithms[J].Advances in neural information processing systems, 2012, 4.DOI:10.48550/arXiv.1206.2944.

*本文暂不支持打印功能

monitor