收藏
加入书签

添加成功

收藏成功

分享到微博分享到空间分享到微信

基于虚实交互技术的分析反馈系统在防治校园霸凌的应用

孙宗照郁天鑫马浩轩

中央司法警官学院 071000

打开文本图片集

摘要：教育是关系着国家富强、独立自主的命脉。校园霸凌是教育中普遍的热门问题，有着广泛的全民参与度。针对“如何有效防治校园霸凌并为学子保驾护航”的问题，设计了基于虚实交互技术的分析反馈系统。此系统对学生进行防霸凌知识教育测试，通过外设收集学生信息（情绪、动作等），凭借云计算，通过深度学习等方法，进行分析。该系统教育学生预防霸凌，同时发现被霸凌而不敢告知的学生。

一、需求分析

近年来，校园霸凌在各地屡见发生，直接或间接影响学生群体的身心健康发展。被校园霸凌的学生群体遭受严重程度的身心创伤，存在着被霸凌而不敢告知等难以察觉的情况。系统包括信息捕捉板块，自主训练模块等。对学生进行防霸凌知识教育测试，具有一定教育功能，同时，可以根据过程中收集到的信息，发现被霸凌而不敢告知的学生，教育后告知老师、学校与其他相关人员。

中共中央、国务院在2025年1月印发《教育强国建设规划纲要（2024－2035年）》，第三十三条明确指出构建校园智能化安防体系，完善学生欺凌和暴力行为早发现、早预防、早控制机制，完善校园安全纠纷多元化解机制和安全风险社会化分担机制。随着教育进入发展新阶段，国家对教育的投入增大，由于系统全过程，全方位参与防治霸凌，具有普适性与实用性，该系统将会被推广和应用，具有良好的发展前景。

二、设计原理

该技术以虚实交互技术为基础的交互设备为载体。多个受教育学生配备设备，进行以现实学校为背景的沉浸式剧情教育。技术后台以深度学习技术为基础，对各个学生的行为进行实时分析反馈，判断被霸凌学生或霸凌倾向学生，通过剧情引导的同时，教育学生，防治霸凌。进一步通过后台情绪反馈技术，提前发现学生的心理问题，协同家长学校，为孩子的校园安全保驾护航。

分析反馈原理是技术的核心。它基于虚实交互技术对霸凌教育的分析与反馈系统（Analysis and feedback system），通过外置设备传感器提取信息（人脸、声音、动作）后上传至云端，凭借云计算的算力，通过深度学习等方法，对测试人员进行情绪，动作，倾向分析，从而在主控器上进行反馈。

（一）主控模块

深度学习算法尤其是人脸识别算法需要大量的计算资源，因此需要配备高性能GPU。所以选用NVIDIA的最新的RTX系列。除了GPU外，选择 AMD Ryzen 5 5600X作为CPU以确保系统的其他部分（如数据加载和预处理）不会成为瓶颈。深度学习模型可能需要大量的内存来存储中间数据，尤其是在训练阶段。所以选择高速的固态硬盘（SSD）可以加快数据的读写速度，提高整体性能。选择与深度学习软件包兼容性更好的Ubuntu作为开发环境。

（二）外部信息捕捉模块

1.人脸信息捕捉

硬件上，选择具有高清晰度、广角、低光补偿等特性的内置摄像头，如索尼旗下的4k单目红外摄像头。在保证图片质量的情况下，单目摄像头可以快速完成图像采集，并传输给后端。芯片选用Intel Movidius Neural Compute Stick （NCS）：Intel的Movidius NCS是一个小型的AI计算棒，专为边缘计算设计，适用于低功耗的人脸识别应用场景，可以降低功耗。

算法上相比于对计算性能要求较高的深度学习模型Single ShotMultibox Detector（SSD）模型我们采用轻量级人脸检测模型RFB-320。

（1）轻量级人脸检测模RFB-320计算效率高，可以在计算资源有限的虚实交互外置设备上运行时更加高效。

（2）轻量级人脸检测模RFB-320实时性能高，可以及时上传云端，对人脸信息进行处理分析。

（3）节能，可以提高外置设备的续航，保证进行完整的教育。

（4）由于是通过设备内置摄像头，直接对人脸进行拍摄，外部复杂环境影响很小，避免了此模型在理复杂任务和极端情况的劣势

2.动作信息捕捉

主要以 OpenPose 算法为主。

OpenPose 算法的关键技术包括置信图（CMP）和局部亲和场（PAF）。该算法可以对输入信息进行一定处理和重复特点识别，辨别出不同个体关节，同时通过亲和场把人体各部分关节连接起来，进而再通过二分图匹配得到最终的关节连接结果。

该模型使用 VGG-19 深度神经网络提取图像的原始特征图，然后将其分为两个分支输入。一部分使用卷积网络预测人体关节点的热图，另一部分使用CNN 得到所有连接关节点的部分亲和域。每个阶段的关键点热图和部分亲和域与输入特征层的映射分别视为St和Lt。除第 1 层外的输入层为 VGG-19 网络输出的特征层，输入层为上一阶段的两个输出向量和 VGG-19 输出层的组合，但是在杂乱的环境下对于每个人的关节识别存在困难，所以使用二分图算法可以将不同个体连接区分。

（1）置信度

OpenPose 使用置信图对每个关节进行检测，对不同点进行一定定义，用置信度来评判每个关节所处位置是否正确，因此在检测过程当中先输出人体 j 的置信图，其中Xij∈ ℝ2表示 j 的每个关键点所处坐标，通过调整参数 δ，可以改变最大值的扩散程度。当位置点 p 接近关键点所处坐标Xij时，得到了置信图的最大值。当输入的图像信息中只存在清晰出现、未受到外物遮蔽的独立个体时，输出的置信图峰值仅存在一个。

如果输入的视频图像文件不仅仅存在一个人，而是有着不同程度遮挡的杂乱多人环境下，就需要对每个人体状态进行识别和有效划分。可以通过计算不同点的置信度，进而从多人环境当中挑选出置信度值最大的，并将它当做总体的置信度。计算方法如公式如图。

（2）局部亲和域

在经过置信度的评判之后，要进行的下一个环节就是把不同的关节连接形成不同个体。在连接的过程中出现了一个问题就是当面临人群环境时，前人所提出的判断不同关键点的中间点情况的方式受到了阻碍，通过检测中间点在连接线上与否的方式存在误差，会因为背景混乱和人物之间的遮挡造成连接错误的情况，缺乏鲁棒性。基于此，关节局部亲和域的检测连接方式应运而生，通过这种方式可以更高精度地对相同个体的肢体关节进行检测连接。

PAFs 为了判断关节之间的方向指向性，引入二维向量场来定义人体中不同关键点的向量。在图 2.5 中，定义出了手肘处位置与手腕位置Xi1，j 、Xi2，j。当点 p 存在于小臂上时，可以得出的值是从Xi1，j到Xi2，j的单位向量，而图中的其他点值为 0。

这个过程可以用数学公式

在公式 2.13 中，是手臂上的单位方向向量，在得到了多个 PAFs 之后可以对它们求取平均数，来得到最终的 PAFs。

公式中的代表在点 p 处，提取出的所有 PAFs 中非零向量的个数在第一个获取置信图的过程中，能够任意挑选关节点来获取它们的像素点，例如点和，可以对它们经过上述的计算来判断这两个点的关联程度，进而给出是否存在于一个人体上的判断。置信度 E 的计算具体公式如 2.15 所示。在公式中，P（u）表示关节点和这两个点的连接经过点上的像素点，计算方式如 2.16

（3）多人关节点匹配

当画面中有多个行人时，会有多个节点匹配候选。我们可以用数学表达式2.17 来表示多个行人的关节点候选集Dj，其中Nj表示关节点类型j的候选数量，表示第 m 个人体的第 j 个关节点的位置。

我们可以用变量来衡量不同关节之间是否相连，并用取值为0和1来分别代表不相连与相连的状态，以此求出最优连接解。人群间关节检测连接其实可以使用二分图的方式求解，因为我们事先已经得知人体各个关节点的连接模式，并且不同个体的连接方式都不存在差异，比如头部的下一个连接点始终是脖颈处，所以使用最大匹配的方式可以挑选固定的关节点来当做顶点，利用公式 2.18 得出关联置信度 E，并将 E 当做处理图的边权，再使用二分图最大匹配算法来为不同关节定义最佳匹配。

Zc表示肢体 c 待选的连接，对于给定的肢体 c，通过训练找到一种连接配对方法，使得总亲和力最高，如式2.18所示，式Emn为和的亲和力。Ec是肢体上涉及的两个关键点之间连接的总亲和力 c，式2.19和2.20 对关节点进行了一定的匹配限制，降低了关节点匹配的重复使用问题。当遇到多人检测时，这个优化问题可以通过 K 分图匹配算法来解决，如公式 2.21 所示，通过肢体之间的独立优化匹配，可以解决每个肢体所涉及的两个关键点连接的聚类问题，

（3）声音信息捕捉

采用Audio-Technica AT2020 麦克风。它是一款高性能的侧向型（心形指向性）电容麦克风。Audio-Technica AT2020 设计采用轻量膜片，有助于提供宽频率响应和良好的动态范围，使其能够处理高声音压力级别。心形指向性收音设计则有助于减少旁边和后方的噪声干扰，可以清晰捕捉分析对象的精细声音细节。

3.信息处理模块

（1）情绪信息提取

人脸情绪信息识别是指对人脸图像进行分析处理，提取表情特征，并与已有的情绪模型进行匹配。情绪信息识别包括：人脸识别，人脸特征提取，情绪分类模型。

外置设备向云端上传人脸后，采用最常用的深度学习的方法卷积神经网络（CNN）提取人脸特征，相比于其他算法。深度学习的精确性高，能够自动学习复杂的特征表示。这一人脸特征提取通过云端来提供算力，不会受限于外置设备，从而缓解了算力资源不足的问题。

在提取人脸特征之后，与已有的情绪模型进行匹配。相比于单一的情绪模型，采用CIAIC多模态情感识别数据集：这个数据集由中国信息通信研究院开发，包括面部表情、语音、生理信号等多种模态的数据，适合进行多模态情绪识别研究，可以通过对面部，声音，动作等多个因素，综合判断情绪，提高了情绪识别的准确性。

（2）霸凌倾向和被霸凌可能分析

采用深度学习模型，用动作特征分析：分析用户在平台上的行为，例如发言频率、发言内容、互动模式等，以识别潜在的霸凌行为或被霸凌行为。这些行为可能包括频繁发表攻击性言论、恶意评论、挑衅他人等。

采用HMDB-51数据集：这是一个广泛使用的行为识别数据集，包含6849个视频，分为51个动作类别，每个类别包含101个视频片段。这个数据集的挑战在于摄像机视角和运动的变化、背景杂乱以及志愿者位置和外观的变化。在使用数据集之前，通常需要对数据进行预处理，如标注、裁剪等。处理好的数据集可以通过Python和深度学习库，利用卷积神经网络（CNN）提取图像特征，循环神经网络（RNN）处理序列数据，来进行人体行为分析，判断是否存在暴力倾向。

用自然语言处理（NLP）：通过NLP技术，深度学习模型可以理解用户发言的含义和情感倾向。模型可以识别出包含负面情感、侮辱性词汇或攻击性意图的发言，从而判断用户是否存在霸凌倾向或被霸凌的可能。

（3）自主训练模块

深度学习模型的自我训练，也被称为自我学习或无监督学习，是一种让模型在没有明确标签的数据上进行训练的方法。

预训练：采用各种开源的大型标注数据集上（如上文提到的CIAIC多态情绪分类模型）进行监督学习，以获得一个初始模型。这个模型可以捕捉到数据的基本特征和结构。

模型更新：在每次迭代中，模型都会根据其对未标注数据的预测来更新其参数。这个过程可以重复多次，直到模型的性能达到满意的水平。

评估与调整：在自我训练过程中，定期在验证集（如果有的话）上评估模型的性能，并根据需要调整模型的参数或结构。

三、结论

防治校园霸凌仅通过传统手段是不够的，应当将传统方法中适用性部分同最新的科学理论相结合。通过基于虚实交互技术的分析反馈系统，教导孩子遇到校园霸凌该如何做，给予科学合理的应对措施，在推动预防教育的同时发现潜在校园霸凌受害者，协助家校治愈其身心问题，收集数据帮助政府把控宏观政策方向。为防治和减少校园霸凌事件贡献力量，为家庭的孩子，学校的学生的茁壮成长保驾护航，创造一个更加安全、健康的校园环境。

参考文献

[1]王乐.基于DT-SVM的校园霸凌检测算法[D].哈尔滨工业大学，2019.DOI：10.27061/d.cnki.ghgdu.2019.001365.

[2]邓惠方.基于多模态视频的校园暴力检测研究[D].南昌大学，2024.DOI：10.27232/d.cnki.gnchu.2024.002405.

[3]宋凯.面向视频监控的暴力行为检测技术研究[D].哈尔滨工程大学，2018.

作者简介：孙宗照（2004.04.27-），男，汉族，山东省济南市，学历：本科。

项目名称：智境学堂—基于虚实交互技术的分析反馈系统，构建家校-师生-父母子女间的协商对话机制在防治校园霸凌的应用；项目编号：zysf2024035。

*本文暂不支持打印功能