基于生成式AI与深度学习的课堂专注度识别技术应用研究

蒋佳娟梁慧欣梁芷淇谢婷谭嘉蓉

广州城市理工学院

摘要:针对当前学生课堂专注度识别领域存在的真实课堂样本稀缺、复杂环境下模型鲁棒性不足、泛化能力有限等核心问题，本文提出一种融合生成式 AI 数据扩增与改进 YOLOv11 卷积神经网络的课堂专注度识别方法。该方法以DAiSEE 学生专注度基准数据集为基础，完成视频抽帧、无效帧过滤、标签二分类映射等标准化预处理流程；采用 Stable Diffusion v1.5 与SDXL 扩散模型对训练集实施生成式数据扩增，弥补真实数据在光照、视角、遮挡、姿态等场景分布上的固有缺陷；通过改进YOLOv11 模型实现人脸检测与骨骼关键点提取，融合面部、姿态、视角多维度特征后，采用 XGBoost 模型完成专注度二分类判断。消融对比实验结果表明，加入生成式扩增数据后，模型识别准确率由 61%提升至 77%，AUC 由 71%提升至 85%，F1-Score 由 55%提升至 73% ，各项核心性能指标均实现显著提升。本文所提方法可为智慧课堂无感监测、实时学情分析与精准教学干预提供可靠的技术支撑。

关键词：课堂专注度识别；生成式AI；数据扩增；YOLOv11；DAiSEE 数据集

0 引言

随着教育数字化转型的持续推进，智慧课堂建设、无感式学情监测、精准化教学干预已成为我国教育技术领域的核心发展方向。学生课堂专注度是反映学习投入程度、认知参与状态与课堂教学效果的核心量化指标，传统依靠教师主观观察、课后问卷调查、人工课堂记录的评估方式，存在主观性强、反馈滞后性高、难以实现全时段实时量化等固有局限。基于计算机视觉与深度学习技术，通过自动识别学生面部表情、头部姿态、肢体动作等视觉特征实现专注度的客观量化评估，可为一线教师提供实时教学反馈，支撑课堂节奏优化与个性化教学干预，已成为当前智慧教育领域的研究热点。

现有课堂专注度识别相关研究多基于公开数据集开展模型训练与优化，其中 DAiSEE 是面向课堂环境学生情感与专注度识别的权威基准数据集，包含大量真实课堂视频片段与多维度专家标注数据。但真实课堂场景存在光照不均、学生坐姿多样、面部频繁遮挡、拍摄距离差异大等复杂情况，原始公开数据集难以覆盖全场景特征分布，导致训练完成的模型在实际课堂部署时泛化能力不足、环境鲁棒性偏低，在暗光、侧脸、遮挡等极端条件下识别精度出现显著下降。

生成式AI 技术的快速发展为上述数据困境提供了全新的解决路径。以 Stable Diffusion 为代表的扩散模型，可在保留图像目标主体与场景核心结构的前提下，生成高保真、高多样性的图像样本，实现了比传统旋转、翻转、加噪等几何变换方式更高效的数据增强。将生成式数据扩增技术与 YOLO 系列目标检测、卷积神经网络特征提取相结合，可显著提升模型在复杂课堂环境下的识别精度与运行稳定性。

目前国内相关研究中，针对课堂专注度识别的算法优化多集中于模型结构改进，将生成式 AI 技术应用于该领域数据扩增的研究仍较为匮乏，现有成果多验证了多特征融合在专注度评估中的优势，但未涉及生成式数据扩增对小样本场景下模型性能的提升作用。基于此，本文构建了一套融合生成式 AI 数据扩增与改进 YOLOv11的课堂专注度识别全流程方案，通过消融对比实验验证了方法的有效性，并基于真实课堂时序数据验证了模型的实际应用价值。

1 核心理论与技术基础

1.1 基准数据集

DAiSEE 是面向在线与线下课堂环境学生情感状态识别的权威基准数据集，发布于 Kaggle 平台。该数据集包含9068 个课堂视频片段，总时长约112 小时，视频分辨率为1920×1080，帧率30fps，全面覆盖了真实课堂中不同光照条件、拍摄角度、面部遮挡程度的学生场景。

数据集中每个视频片段均由 4 名教育领域专家完成独立标注，标注内容涵盖无聊、专注、困惑、挫折 4 个情感维度，每个维度分值为03 分（0 为对应状态程度极低，3 为对应状态程度极高）。本文仅提取数据集中专注度维度的标注信息，将 01 分（低/极低专注度）映射为“不专注”类别，2~3 分（高/极高专注度）映射为“专注”类别，构建课堂专注度二分类基准数据集。

1.2 核心技术框架

本文研究的核心技术框架针对课堂场景的特殊性做了针对性设计，主要包含三个核心功能模块。生成式数据扩增模块以Stable Diffusion 系列扩散模型为核心，与传统几何变换式数据增强不同，该模块可从数据分布层面完成场景重构，生成真实数据中难以采集的暗光、侧脸、遮挡、极端坐姿等稀缺样本，从根本上缓解训练数据分布不均与小样本学习的行业痛点；改进YOLOv11 特征提取模块对YOLOv11 单阶段目标检测模型进行针对性优化，通过引入DCNv4 可变形卷积提升模型对形变目标的适应性，加入ASFF 自适应空间特征融合模块增强多尺度特征表达能力，显著提升复杂场景下人脸检测与骨骼关键点提取的精度与稳定性；多模态融合分类模块采用 XGBoost 梯度提升树模型完成多维度特征融合与分类决策，依托其强抗过拟合、多类型特征适配能力，融合面部表情、肢体姿态、拍摄视角三类核心特征，输出稳定可靠的专注度二分类结果。

2 数据集预处理与生成式扩增方案

2.1 数据集标准化预处理

DAiSEE 数据集以视频片段为核心存储单位，需转换为图像帧后方可用于深度学习模型训练。本文采用OpenCV 开源工具对数据集内的视频按10 帧/秒的频率完成抽帧操作，同步执行无效帧过滤流程：一是去除模糊帧、黑屏帧、严重遮挡帧等无效数据；二是通过平均哈希算法过滤重复相似帧，避免数据冗余；三是通过快速傅里叶变换完成图像清晰度检测，剔除低质无效帧。

抽帧与数据清洗完成后，按6:2:2 的固定比例将数据集划分为训练集、验证集与测试集，划分过程中严格保证专注与不专注两类样本的分布均衡，避免数据偏置对模型训练造成负面影响。同步完成标签二分类转换，使分类标签与图像帧一一对应，形成可直接用于模型训练的标准化二分类数据集。

2.2 生成式数据扩增策略

为提升模型的场景泛化能力，本文仅对训练集实施生成式AI 数据扩增，核心策略围绕样本多样性、实验效率与扩增效果展开。采用Stable Diffusion v1.5 与SDXL 双模型并行生成，兼顾扩增样本的多样性与生成质量，通过设置正向提示词保留教室场景、学生面部特征与核心姿态信息，设置负向提示词过滤图像失真、结构模糊、人物变形、非课堂场景等不良生成结果，单张原始图像对应生成20 张扩增图像，全面覆盖不同光照、拍摄角度、遮挡程度、肢体姿态的场景变化。同时设计断点续扩逻辑以优化实验效率，若扩增目录已存在有效生成数据则直接加载，仅对未完成扩增的样本执行生成操作，大幅提升实验流程效率。此外，严格控制扩增效果，确保生成的扩增样本完整保留原始图像对应的人物核心特征与专注度标注信息，同时实现姿态微调、光照变化、视角偏移、轻微遮挡等多样化场景补充，有效弥补真实数据的场景覆盖缺陷，为模型鲁棒性提升奠定数据基础。

3 实验设计与结果分析

3.1 实验环境与参数设置

文实验的硬件环境为：Intel Core i7-12700H CPU，NVIDIA RTX 3060 6GB GPU，16GB 运行内存；软件环境为：Python 3.8，PyTorch 2.0 深度学习框架，Ultralytics YOLOv11 算法库，diffusers 0.20 生成式模型库，OpenCV4.7 计算机视觉库，XGBoost 1.7 算法库。

核心模型参数设置如下：YOLOv11 模型输入尺寸为 640×640，训练轮次 epoch=50，批次大小 batch_size=16，初始学习率设置为 0.001；XGBoost 模型最大树深 max_depth=6，学习率 0.1，迭代次数 n_estimators=100；生成式模型采样步数设置为30，引导系数设置为7.5。

3.2 对比实验设计

为验证生成式AI 数据扩增对模型性能的提升效果，本文设计三组消融对比实验，三组实验的验证集与测试集完全一致，仅训练集的构成存在差异。三组实验方案分别为基线实验组、SD v1.5 扩增组与SDXL 扩增组，其中基线实验组仅使用原始真实数据完成模型训练， 1.5 扩增组使用原始真实数据与 Stable Diffusion v1.5 扩增数据完成模型训练，SDXL 扩增组则使用原始真实数据与SDXL 扩增数据完成模型训练。

实验采用分类任务通用的三项核心指标综合评估模型性能，分别为准确率（Accuracy）、AUC、F1-Score，其中准确率反映模型整体识别精度，AUC 反映模型的分类排序能力与抗干扰能力，F1-Score 为精确率与召回率的调和平均值，反映模型的综合分类性能。

3.3 实验结果与分析

生成式AI 数据扩增可显著提升模型的识别性能，相较于基线实验组，加入SDXL 扩增数据后，模型识别准确率提升16 个百分点、AUC 提升14 个百分点、F1-Score 提升18 个百分点，证明生成式扩增有效补充了训练集的场景多样性，缓解了模型过拟合问题，显著提升了复杂课堂环境下的识别鲁棒性；SDXL 模型的扩增效果优于Stable Diffusion v1.5，其生成的样本细节更清晰、人物结构更准确、场景还原度更高，对模型性能的提升效果更显著，印证了生成样本质量对模型最终识别效果的决定性作用；改进 YOLOv11+XGBoost 的整体架构具备良好的课堂场景适配性，可稳定提取多维度视觉特征并完成精准分类，模型运行效率与识别精度能够满足课堂实时监测需求，具备良好的工程落地性。三组对比实验的核心性能指标结果，如表 1 所示。

表1 不同实验方案的模型性能对比

3.4 课堂注意力时序规律验证

基于训练完成的最优模型，对45 分钟标准课堂教学视频进行全时段持续监测，结果显示：课堂前20 分钟，学生平均专注度维持在90 分以上，整体处于高认知投入状态；20~30 分钟区间，学生平均专注度出现缓慢下降，部分学生出现轻微疲劳与走神现象；30 分钟之后，学生平均专注度显著下降至60 分左右，普遍出现姿态松散、表情消极等不专注特征。

该监测结果与认知负荷理论及课堂注意力衰减的经典规律高度吻合，证明本文提出的模型可真实反映学生课堂注意力的动态变化过程，能够为课堂节奏设计、互动环节安排、教学策略优化提供科学的量化数据支撑。

4 结论与展望

本文针对课堂专注度识别领域真实样本稀缺、复杂环境鲁棒性不足、模型泛化能力有限等核心问题，提出了一种融合生成式AI 数据扩增与改进Y 的课注度识别方法，构建了从数据预处理、生成式扩增、特征提取到多模态分类的全流程技术体系。生成式增可有效补充真实场景中的稀缺样本，显著提升模型的识别性能，加入 SDXL 扩增数据后，识别准确率由61%提升至 77%，各项核心性能指标均实现大幅提升。本文所提方法可精准捕捉课堂注意力的时序衰减规律，可为智慧课堂无感监测与精准教学干预提供可靠的技术支撑。

本研究仍存在一定的优化空间：一是仅基于 DAiSEE 公开数据集开展实验，未在多校区、多学段、多课型的真实课堂数据中完成跨域验证；二是模型未进行极致轻量化优化，在低端设备与边缘端的部署能力有待提升；三是仅采用了视觉单模态信息，未融合课堂语音、师生答题交互等多维度数据。

针对上述不足，后续将从以下方向开展进一步研究：一是构建覆盖不同学段、学科、课型、场景的真实课堂数据集，进一步提升模型的场景泛化能力；二是对模型进行轻量化、量化、知识蒸馏优化，降低硬件部署门槛，实现边缘端实时运行；三是融合视觉、语音、课堂交互等多模态信息，提升专注度判断的全面性与可解释性；四是完善数据脱敏、权限管理、使用规范等伦理体系，实现安全合规的课堂智能监测。

参考文献

[1] 祝智庭,戴岭,胡姣.ChatGPT 赋能教育数字化转型的新方略[J].开放教育研究,2023,29(04):4-13.

[2] 刘邦奇,聂小林,王士进,等.生成式人工智能与未来教育形态重塑:技术框架、能力特征及应用趋势[J].电化教育研究,2024,45(01):13-20.

[3] 吴南中,陈咸彰,冯永.从“失序”到“有序”:生成式人工智能教育应用的转向及其生成机制[J].远程教育杂志,2023,41(06):42-51.

[4] 黎先平.基于时序多特征融合的课堂专注度评估研究[D].南昌:江西财经大学,2024.

*本文暂不支持打印功能