• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于Copula-RF-CNN模型的胰腺癌致病基因的筛选与控制

周超逸 田雨飞 李昊霖 曹文宇
  
扬帆媒体号
2025年27期
天津工业大学数学科学学院 天津 300387

打开文本图片集

摘要:本研究通过结合Copula函数、CNN和RF模型,旨在提升胰腺癌致病基因筛选与控制的准确性和效率。利用影像组学技术从CT图像中提取定量影像特征,并通过深度学习技术进行特征学习。引入Copula函数优化RF模型的随机采样过程。使得CNN显示出高分类性能。研究证明了结合Copula函数与传统CNN和RF模型用于胰腺癌致病基因筛选能够提高模型准确性。未来将优化模型性能,并扩展至更多医疗图像和器官组织的分析,以支持胰腺癌的早期诊断和治疗。

关键词:机器学习;Copula;卷积神经网络;随机森林;胰腺癌

中图分类号:TP391.4

“中国高等教育学会高等教育科学研究规划课题重点课题(24SX0209)”,“天津市普通高等学校本科教学质量与教学改革研究计划项目(B231005804)”;“国家级大学生创新创业训练计划项目资助”(202310058018)

0 引 言

随着全球癌症发病率的持续上升,胰腺癌作为一种高度侵袭性和预后不良的恶性肿瘤,已经成为医学界和公众关注的热点问题。胰腺癌早期诊断的困难性、治疗手段的相对局限性以及生存率普遍偏低的现状,迫切需要科研工作者与临床医师紧密合作,共同应对这一医学挑战。

人工智能技术快速发展推动了影像组学兴起,该技术能从影像中提取大量定量特征,转化为高分辨率空间数据,通过自动化算法深入挖掘分析,全面、无创识别病变异质性,反映生物学行为,辅助医师准确诊断。影像组学流程包括图像采集、分割、特征提取、选择、模型建立和评估等。目前,针对胰腺癌患者预后生存状况的预测模型已取得新进展。研究者广泛报道了多种关键指标,包括血清学指标、影像学资料、基因表达数据及术后病理情况。其中,血清学标志物因高敏感性成为研究焦点。现有研究显示,研究者构建了基于18F-FDG PET/CT影像特征的PDAC-TME模型预测脉管侵犯状态[1],这些方法在胰腺癌预测中展现了巨大潜力,为胰腺癌的治疗提供了有力支持。

此外,研究者还在探索其他多种生物标志物和影像学技术,以期进一步提高胰腺癌的早期诊断率和治疗效果。例如,通过分析患者的基因表达数据,可以发现与胰腺癌相关的特定基因突变[2],从而为个性化治疗提供依据。影像学资料,如CT、MRI和超声等,也在不断改进,以期更准确地评估肿瘤的大小、位置和侵袭范围。

1 Copula函数的介绍

Copula[3]函数是一种用来处理随机变量之间相关性的统计学工具。下文主要说明:Copula函数将如何量化随机变量之间的相关性。

Copula这个单词来自于拉丁语,意为“连接”,最早由Sklar在1959年提出。用公式表达为:,上式中和表示两个随机变量的边缘累积分布函数,C为Copula函数,F表示联合概率密度函数,即两个变量之间的相关性完全由Copula函数来描述。

以基本为例,设是随机变量和的联合分布函数,设和是它们各自的边际分布函数。存在一个Copula函数C,使得

对所有的和都成立。如果和是连续的 ,则C是唯一的。相反,如果C是一个Copula函数,和是和的边际分布函数,那么,由定义,是随机变量和的连接分布函数。

2卷积神经网络和随机森林

2.1卷积神经网络的结构

卷积神经网络(CNN[4])是深度学习算法的一种,能自动提取数据的空间层次结构。CNN由输入层、卷积层、池化层、全连接层和输出层组成,每个层次执行特定的数据处理任务。CNN的发展基于多层感知机(MLP[5]),其在图像处理中的优势源于局部区域连接、权值共享和降采样。CNN的权值共享和局部连接特性减少了网络复杂性和参数数量,使其更接近生物神经网络。

在图像处理领域,卷积神经网络(CNN)所提取的特征相较于传统手工特征具有显著优势,这一现象归因于CNN独特的架构设计。CNN通过卷积层与池化层的协同作用,能够有效地从图像中提取高质量的特征。卷积层的主要功能在于从图像中提取特征信息;而池化层则负责对提取的特征进行降维处理,通过减少训练参数的数量,达到减轻网络过拟合现象的效果[6]。

2.2决策树特征选择及随机森林的构建

决策树[7]是基于树状结构的分类与回归方法,通过递归分割数据集形成子集,选最优特征值分割,构建树状模型,叶节点代表分类或回归结果。它适用于明确分类界限的数据集,模型可视化好,能处理多类别分类和缺失值,集成后可提升预测性能。本文选择基尼系数(GINI)的特征选择[8]。

通过集成多个决策树[9],可以有效降低分类或回归任务的方差,增强模型的泛化能力,集成过程中通常采用投票或平均值方法确定最终结果;最后,决策树剪枝技术的运用,通过预剪枝或后剪枝策略减少决策树的复杂度,避免过拟合现象。

3 模型的构建

3.1 Coupla函数引入

首先进行数据采集与预处理,获取相关样本的病理数据和图像数据,对数据进行预处理,将未标记数据进行补充,删减噪声以及损坏数据。

然后对每个病理属性进行评价:对于每个病理属性,评估对应的Coupla联合分布模型。利用经验函数建立经验模型,并计算同一因素下每个二元模型和经验模型之间的欧氏距离,用于评估各种属性连接时的相对性能,选取最小距离的作为理想的Coupla函数参数,估计方法采用极大似然估计,待选Coupla函数如表1所示。最后得到各个属性间的相关性和分布,作为后续随机森林生成的调整因子。

3.2网络构架

在本研究中,我们以卷积神经网络(CNN)作为核心架构,通过迁移学习的方法来测试这种模型对于特定数据集的适用性。参考AlexNet、VGG和GoogLeNet等知名模型的优点,本文针对当前任务进行了优化,平衡了模型复杂度与性能之间关系。考虑到实际的数据量,该模型采用了经典的三级结构:首先是连续布置的卷积层与下采样层构成的基础处理单元,随后是一系列这样的单元串联起来,最后是几个全连接层用于整合信息并作出最终分类决策。

3.3架构设计

具体来说,改CNN包含3个卷积层、3个池化层以及3个全连接层。此外,选取ReLU激活函数来缓解梯度消失问题,加速训练过程;应用局部响应归一化(LRN)技术增强模型稳定性以及Dropout机制被用来减少过拟合风险,结构如图3所示。

在核函数设计上,参考不同CNN网络的构型:在 AlexNet、VGG 和 GoogLeNet 中,输人层大小是 256,但在实际应用中常被调整至224,这里也对数据进行裁剪。以池化层作为模块的分界,VGG用较多的卷积层逼近较大的卷积核,因此对训练数据要求多,训练时间也更长。权衡的感受野和 CNN 模型的深度,这里选择卷积核大小为 7。参考AlexNet和GoogLeNet的参数设置,第一个池化层的大小为3,步长为2,采用了一个有重叠的池化,有利于防止过拟合。相对第一个模块而言,第二个模块能捕捉到更高层次的特征信息,模型遵循了大多数现有架构的做法,设置了三个全连接层来完成最终的分类任务。此外在全连接层设置了概率为0.5的Dropout 来防止单元适应过度。

3.6随机森林引入

同时本次实验中我们使用通过卷积神经网络提取图像数据特征,并利用随机森林作为有监督学习分类器,替代最后的神经网络作为分类系统最后的分类器。

随机森林能在高维数据集上表现良好,又较好的泛化能力。这里我们将Coupla函数得出的分布应用于随机森林的随机采样过程,并且通过病理特征的相关系数,来调节不同属性间的选择概率,能够大大加快收敛速度同时减少了过拟合的问题[10]。这里将提取的4096维的一维特征向量作为每一幅图像数据的特征向量。然后将训练数据的特征向量和病理数据,以及相应的标签输入适配好参数的随机森林中进行训练,构建分类系统,观察其分类效果。

参数上,设置树的棵数为200棵;特征选择的依据为gini指数;最大深度15;叶子结点中最少样本数量1;此外使用bootstrap采样获取训练样本。

4预测结果的比较

在对相关文献进行深入研究后,我们发现胰腺癌检测模型的平均准确率大约为80%,且所用数据集规模普遍较小。本研究旨在提升该检测模型的精度,同时避免诸如过拟合和欠拟合等非理想情况的发生。在本项目中,我们采用了4196张CT图像,并将数据集划分为训练集、验证集和测试集。具体分布为:训练集占70%,测试集和验证集各占15%。在构建的模型中,我们记录并分析了训练与验证阶段的精度和损失值,以确保模型性能的稳定性。由于模型未出现过拟合或欠拟合现象,我们得以顺利进入最终阶段。最终,我们对模型在测试数据集上的表现进行了评估,并通过构建混淆矩阵来直观展示模型的分类性能。

根据混淆矩阵,计算各评价度量值可见下表:

准确率指标接近90%,同时精确度、查全率及F1分数分别达到0.8997、0.8939和0.8968。此外,对训练过程中产生的损失值进行了细致的评估,结果显示损失值表现令人满意。

5结语

我们成功地将Copula模型与传统的CNN和RF模型相结合,用于胰腺癌致病基因的筛选与控制。这一创新性的方法显著提高了预测模型的精度,为胰腺癌的早期诊断和治疗提供了新的可能性。我们采用的CNN架构在图像分类问题中已经证明了其卓越的性能,但通过我们的研究发现,尽管引入了Copula模型,相较于传统的基于CNN与RF的预测方法,新模型在精确性上的提升并不如预期显著,同时运算时间也相对较长。这一发现提示我们在未来的工作中需要进一步优化模型性能。

参 考 文 献

[1] 高艳,周维燕,黄琪,等.基于18F-FDG PET/CT纹理分析预测胰腺癌脉管侵犯状态[J].中国医学计算机成像杂志,2022,28(06):653-657.DOI:10.19627/j.cnki.cn31-1700/th.2022.06.020.

[2] 魏伟,欧政林,窦晓淋,等.基于机器学习的胰腺癌特征基因筛选初步研究[J].中国普通外科杂志,2022,31(09):1203-1209.

[3]钟润.基于多元混合Copula-GARCH模型的深圳股票市场中收益相关性分析与VaR风险度量[D].南京财经大学,2013.

[4]陆继翔,张琪培,杨志宏,等.基于CNN-LSTM混合神经网络模型的短期负荷预测方法[J].电力系统自动化,2019,43(08):131-137.

[5]李正义.基于强特征CNN-SVM的宫颈癌细胞检测[D].北京交通大学,2018.

[6]周俊宇,赵艳明.卷积神经网络在图像分类和目标检测应用综述[J].计算机工程与应用,2017,53(13):34-41.

[7]李军锋,王钦若,李敏.结合深度学习和随机森林的电力设备图像识别[J].高电压技术,2017,43(11):3705-3711.DOI:10.13336/j.1003-6520.hve.20171031028.

[8]曹文哲,应俊,陈广飞,等.基于Logistic回归和随机森林算法的2型糖尿病并发视网膜病变风险预测及对比研究[J].中国医疗设备,2016,31(03):33-38+69.

[9]陈岩.基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究[D].杭州电子科技大学,2009.

[10] 魏存超.基于卷积神经网络的医学图像分类的研究[D].哈尔滨工业大学,2017.

*本文暂不支持打印功能

monitor