
- 收藏
- 加入书签
基于机器学习方法的学生抑郁症影响因素研究
摘要:本文基于机器学习方法,对青少年学生抑郁症的影响因素进行了深入研究。通过分析《国民抑郁症蓝皮书(2022-2023年发布)》中的数据,我们发现青少年学生群体正逐渐成为心理健康问题的主要受影响群体。本研究利用kaggle竞赛的Student Depression Dataset数据集,筛选了27796名印度在校人员的数据,并采用二元逻辑回归、支持向量机、随机森林等七种机器学习算法进行模型训练和参数调优。研究结果显示,是否有过自杀念头、学习压力、经济压力和年龄是影响学生抑郁症的三个关键因素。逻辑回归和极限梯度提升模型在分类任务上表现最佳。本研究不仅揭示了影响学生抑郁症的几个关键因素,而且为未来的研究和实践提供了方向,强调了在教育实践中采取综合性干预措施的重要性。
关键词: 青少年学生;抑郁症;机器学习;影响因素;心理健康
0 引言
青少年学生抑郁问题日益严峻。心理健康危机正呈现出年轻化的趋势。根据《国民抑郁症蓝皮书(2022-2023年发布)》显示,18岁以下抑郁症患者占总人数的30%,且50%的抑郁症患者为在校学生。这一数据揭示了青少年学生群体正逐渐成为心理健康问题的主要受影响群体[1]。社会转型加剧了青少年面临的社会比较、经济压力和社交隔阂,可能对他们的心理健康产生负面影响,增加抑郁情绪[2]。不良的家庭教育方式、亲子关系紧张、校园欺凌、学业压力等都是促使学生抑郁发作的危险因素[3]。个体心理特征与生活方式的影响也不容忽视,如睡眠障碍、不健康饮食和缺乏运动等[4]。数据驱动的研究需求日益增长。随着大数据和人工智能技术的发展,利用现有数据集进行抑郁症状的预测和分析成为可能。了解抑郁症可能的成因,利用人工智能技术挖掘抑郁影响因素,可以为该人群制定有针对性的预防措施,
1 对象与方法
1.1研究对象
本研究数据来源于kaggle竞赛的Student Depression Dataset数据集,从中筛选了27796名印度在校人员。纳入标准为:1)年龄≥18,且年龄≤34;2)为在校学生。排除标准:1)非学生人员。2)数据存在缺失情况。主要标签详见表1。
1.2研究方法
二元逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)、极限树(ET)、极限梯度提升(XGBoost)、K邻近(KNN))和决策树(DT)是七种常用的机器学习算法,它们分别适用于二分类问题、高维数据分类回归、集成学习减少过拟合、随机特征选择提高泛化能力、梯度提升优化模型性能、基于距离的分类以及基于规则的决策过程,通过不同机制预测样本类别,优化模型。
2 结果
2.1 参数调优
由于数据量相对较小,模型调优方面使用的网格搜索,表2为模型各模型最优参数。
2.2 影响因素重要程度排序
利用极限梯度提升模型对各个特征对预测结果的贡献程度如图1。图中的特征按照其F score从高到低排序,F score是衡量特征重要性的指标,通常与特征在决策树中的信息增益有关。年龄以265.0的高分位居榜首,成为模型中最重要的预测因素,这表明个体的年龄对于预测结果具有显著的影响。紧随其后的是学习压力,其F score为215.0,这反映了学习压力在预测中的关键作用。经济压力以185.0的F score排在第三位,同样是一个重要的预测因素,这些都有可能与个体的心理健康状态密切相关。
2.3 各模型表现
根据表3,我们对比分析各个模型的性能,逻辑回归模型在本次比较中表现最为出色,尤其在测试准确度上以0.849的平均值领先,这表明它在正确分类所有样本方面具有最高的准确性。同时,逻辑回归在测试F1分数上也取得了0.873的高分,这进一步证实了它在精确度和召回率之间取得了优秀的平衡。
SVM模型在多个关键指标上也展现出了卓越的性能,尤其是在测试召回率上以0.8910的平均值领先,这表明SVM在识别所有正类样本方面的能力非常强。同时,SVM在测试精确度上与逻辑回归相差无几,平均值为0.853,这显示了它在预测正类时的准确性。
相比之下,KNN模型在这次模型对比中的表现相对较弱。在测试精确度上,KNN的平均值为0.770,这是所有模型中最低的,表明它在预测正类时的准确性较低。同时,KNN在测试召回率和测试F1分数上也表现不佳,平均值分别为0.832和0.800。此外,KNN在测试准确度上以0.755的平均值排名最后,这进一步证实了它在正确分类所有样本方面的不足。
从图2的ROC曲线图中,我们可以看到这七种不同机器学习模型在分类任务上的表现。其中逻辑回归表现最好,其AUC值达到了0.920这是所有模型中最高的,意味着它在区分正负类方面具有较高的准确性。。XGBoost的AUC值紧随其后,为0.915,同样显示出了卓越的性能。这两个模型的AUC值远高于其他模型,如SVM的AUC值为0.910,而随机森林和极限树的AUC值分别为0.913和0.912,虽然也表现良好,但略逊于逻辑回归和XGBoost。
2.4 可解释性
鉴于机器学习的“黑盒”问题,本研究引入SHAP值提升模型可解释性。SHAP值摘要图揭示了多个特征对一个机器学习模型预测结果的影响。图3中列出了七个特征,包括“是否有过自杀念头”、“学习压力”、“经济压力”、“年龄”、“工作/学习时间”、“饮食习惯”和“学习满意度”。每个特征的SHAP值分布在横轴上,表示它们对模型输出的影响程度和方向。SHAP值越大,特征对模型输出的正向影响越显著;反之,SHAP值越小,负向影响越明显。
我们可以从图4中发现在摘要图前4的影响因素的表现。随着年龄的增长,对于抑郁症有抑制作用,随着学习压力和经济压力的增长,抑郁的概率会增加。当有自杀念头的时候,抑郁的概率会明显提高。
3 讨论
3.1 结果的解释与意义
本研究通过应用多种机器学习算法,揭示了影响学生抑郁症的几个关键因素。其中,是否有过自杀念头、学习压力、经济压力和年龄是模型中最重要的影响因素。这些发现强调了在青少年学生群体中,心理健康问题与个体的生活经历和社会环境紧密相关。特别是学习压力的显著影响,提示了教育系统和学校环境在学生心理健康中扮演的重要角色。
3.2 与现有研究的比较
在与现有研究的比较中,本研究通过应用多种机器学习算法,揭示了影响学生抑郁症的几个关键因素,包括自杀念头、学习压力、经济压力和年龄。这些发现与Veal的研究相呼应,Veal曾经讨论了医学生抑郁和自杀问题,强调了学生因害怕在学术评价或住院医师申请中受到影响而不敢寻求帮助的耻辱感[5]。Neary评估了助理医师学生在教学培训期间的抑郁风险、自杀意念和心理健康求助行为,强调了了解抑郁风险与人口统计因素之间关系的重要性[6]。Gin等人研究了研究生研究和教学对生命科学博士生抑郁症的影响,确定了博士生项目中需要改进的心理健康支持领域。Qasrawi等人在2021年2022年利用机器学习技术预测学龄儿童的抑郁和焦虑风险因素,强调早期发现和干预的重要性[7,8]。
本研究的比较优势在于其综合运用了多种机器学习算法,并通过对大量数据的分析,提供了更为精确的影响因素识别。此外,本研究还引入了SHAP值来增强模型的可解释性,这在以往的研究中并不常见。通过这种方法,我们不仅能够识别出影响学生抑郁症的关键因素,还能理解这些因素是如何影响模型预测的,从而为制定针对性的预防和干预措施提供了科学依据。
3.3 局限性与未来研究方向
尽管本研究提供了有价值的见解,但也存在一些局限性。1)数据集的地域限制可能影响了结果的普适性。未来的研究可以考虑更多样化的样本,以增强结论的普适性。2)尽管本研究中的机器学习模型在当前数据集上表现良好,但它们的泛化能力仍需在其他数据集上进行验证。同时,尽管某些模型如极限梯度提升提供了特征重要性排序,但模型的决策过程和预测结果的解释性仍有待提高。未来研究可以探索更多可解释的机器学习模型,以帮助我们理解模型预测背后的逻辑。3)本研究主要关注了可量化的外部因素,对于个体内在的心理特质和应对策略的探讨不足,考虑到不同个体对同一干预措施的反应可能不同,开发个性化的干预方案,以提高干预效果,是未来研究的一个重要方向。
4 结论
本研究通过应用机器学习方法,为理解学生抑郁症的影响因素提供了新的视角。研究发现,年龄、学习压力和经济压力是模型中最重要的预测因素,这些发现强调了在青少年学生群体中,心理健康问题与个体的生活经历和社会环境紧密相关。特别是学习压力的显著影响,提示了教育系统和学校环境在学生心理健康中扮演的重要角色。
通过识别和优化这些关键因素,我们可以更有效地预防和干预青少年学生的抑郁症状。未来的研究可以考虑更多样化的样本,以增强结论的普适性,并探讨个体内在的心理特质和应对策略。
参考文献
[1]抑郁研究所. 国民抑郁症蓝皮书(2022-2023年发布)[R]. 人民日报健康客户端、好心情、灵北中国,2022.
[2]李莎,欧阳健舒,张仁丰. 文化潮流与社会转型对我国青少年心理健康的影响[J]. 心理月刊,2022, 17(5): 198-200.
[3]丁吉,万芹,干敏雷,尹小俭,吴慧攀,马渊源,侯宇欣,李佳威,李勇,刘媛. 青少年家庭环境与抑郁症状的相关性[J]. 中国学校卫生,2023, 44(5): 10.16835/j.cnki.1000-9817.2023.05.009.
[4]汤雅诗,洪显利,姚彦岐. 国内外关于青少年抑郁症影响因素及其干预方法的研究综述[J]. 国际心理学进展,2024.
[5]Veal C T. We Burn Out, We Break, We Die: Medical Schools Must Change Their Culture to Preserve Medical Student Mental Health[J]. Academic Medicine: Journal of the Association of American Medical Colleges, 2021, 96(1): 13-15.
[6]Gin L E, Wiesenthal N J, Ferreira I, et al. PhDepression: Examining How Graduate Research and Teaching Affect Depression in Life Sciences PhD Students[J]. CBE Life Sciences Education, 2021, 20(3): ar52.
[7]Qasrawi R, Vicuna Polo S, Abu Al-Halawah D, et al. Schoolchildren’ Depression and Anxiety Risk Factors Assessment and Prediction: Machine Learning Techniques Performance Analysis[J]. JMIR Formative Research, 2021, 5(11): e26988.
[8]Qasrawi R, Vicuna Polo S P, Abu Al-Halawa D, et al. Assessment and Prediction of Depression and Anxiety Risk Factors in Schoolchildren: Machine Learning Techniques Performance Analysis[J]. JMIR Formative Research, 2022, 6(1): e33101.
作者简介:吴剑(19970819),男,汉,江西九江人,MBA硕士,上海理工大学。