收藏
加入书签

添加成功

收藏成功

分享到微博分享到空间分享到微信

基于YOLOv5的类人化逻辑物体识别架构应用研究

刘爽陶咏志杨海涛

安家（建筑与工程）

北京电信规划设计院有限公司北京 100048

“E —v针对智慧建造行业中工地物体识别误差大，非人行为误报多等现象，提出基于YOLOv5的类人化逻辑物体识别架构应用研究。在YOLOv5的算法网络的基础上，将数据集二级分类、预训练数据增强、训练特定场景算法模型和类人逻辑判断进行组合，搭建一套解决实际问题的识别架构。

物体检测类人化逻辑架构 YOLOv5

0 引言

随着新兴技术的发展，智慧工地日渐成熟。为了提供有效的施工过程趋势预测和专家预案，往往需要机器来代替管理者进行大量长时间重复的检查工作，以确保工人操作安全合规。目前行业存在物体识别速度慢，识别正确率低和非检测物体误报多等痛点。目标检测技术逐渐成为了解决这些行业痛点的首要切入点。

1相关技术

1.1目标检测

目标检测技术的目的是识别一个预定义的目标类别集的实例并使用一个边界框标出图像中每个被检测出的目标[3]。目前，目标检测基于阶段数不同可以分为两类：双阶段（Two stage）目标检测算法和单阶段（One-Stage）目标检测算法。双阶段算法对输入需要进行两阶段的处理，而单阶段算法只需在联合解码的同时获取候选区域和类别这一个阶段，直接通过主干网络预测出所有边界框再通过NMS筛选出最优结果。两种方法的差异，使得前者在定位精确度上占优势，后者在算法速度上占优势。

1.2YOLOv5检测模型

YOLO系列算法以其轻量级、速度快、灵活性强和准确度高的特点成为单阶段目标检测算法中的首选，其中2020年6月发布的YOLOv5的速度性能最为突出，匹配工地监控对检测速的需求。

YOLOv5是一个在COCO数据集上预训练的对象检测体系结构和模型家族，代表Ultralytics开源研究进军未来视觉AI方法。其网络结构分为输入端、Backbone、Neck和输出端四个部分。

输入端主要功能为对图片进行Mosaic数据增强、自适应锚框计算和自适应图片缩放;

Backbone由Focus结构和CSP结构组成：Focus结构的关键是通过切片操作将原始图像变成特征图， Yolov5中有两种CSP结构，CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck中;

Neck由FPN+PAN结构组成，借鉴CSPnet设计的CSP2结构，加强网络特征融合能力;

输出端采用CIOU_Loss+DIOU_nms做为目标检测的后处理过程，使算法对一些遮挡重叠的目标更加友好。

1.3数据增强

数据增强对对象识别的分类问题来说是特别有效的方法。在神经网络的输入层简单地将随机噪声添加到输入再进行训练，也可以看作数据增强的一种方式。通常情况下，人工设计的数据集增强方案可以大大减少机器学习技术泛化误差。

基于目标检测技术和开源模型，我们展开了针对提升复杂多变的工地背景中，目标检测识别准确率的研究。研究过程中提出了一种新的架构——类人逻辑架构。基于这种新型架构进行了深入研究与对比实验验证。

2架构应用研究

2.1数据预处理

为了得到效果最佳的算法检测模型，在模型训练前每一类数据集均会经过数据预处理使原来特征不明显的区域变得相对突出，同时也可抑制一些不感兴趣的特征区域，本研究采用的数据预处理方式有以下五种：

（1）旋转：对原始图像数据做90°的旋转操作。

（2）对比度及亮度增强：通过调整像素值的增益和偏差参数使得图像对比度、亮度增强。

（3）加噪声：对图像的像素点随机加入高斯噪声，增加鲁棒性。

（4）模糊：边缘模糊，对图像非感兴趣区域进行模糊操作。

（5）镜像：水平镜像及垂直镜像翻转图像。

2.2算法集成

本研究通过对现有工地项目中采集的大量实际生产环境图像数据的分类，采用YOLOv5中的YOLOv5s分别对每种分类进行模型训练并将训练好的模型集成于算法集成模块中。

2.3类人化逻辑架构

本研究中的类人化逻辑架构由Java语言编写，独立于算法集成模块，通过接口调用的方式与算法关联。架构流程如下所示：

1 public class DetectStruc {

2 private static HashMap<CameraLocationAndTime，ModelName> modelHashMap;

3 private Detect detectModel;

4 public static void main（String[] args）{

5 Image image = inputImage（cameraLocation，time）;

6 ModelSelect modelSelect = modelHashMap.get（cameraLocation+time）;

7 ImageDetect imageDetect = detectModel.modelSelect;

8 List<Results> result = imageDetect;

9 for（int i = 0;i<result.size（）;i++）{

10 if（result[i].safeHatBox not in result[i].personBox）{

11 result.remove（safeHatBox）;

12 }

13 }

14 System.out.println（“结果检测框：”+result）;

15 }

16 }

在输入待检测图片后，根据其相关属性配置，调用相应的算法模型进行检测。并对某些场景进行类人逻辑二次判断，最终输出带有检测框和置信度的AI检测结果。

3实验验证

本实验为验证类人逻辑架构是否可以提升整体检测准确率。以对比实验的方式，使用相同的安全帽识别模型，将类人逻辑架构作为变量，并对所的结果进行分析，探究本架构是否可以提升最终检测结果的准确率。

3.1 实验环境设置

考虑到本架构专有应用场景的特殊性，实验中训练的数据集均为工地实景不同机位的彩色监控截图。安全帽检测模型由1500张监控截图训练而成，训练集的标注分为两类，正向样本和反向样本，两种样本的比例为：5：1。

实验图像数据处理在Windows_x64系统中进行，应用LabelImg软件进行图片标注。模型训练和检测在服务器主机中进行。服务器已搭建了训练以及检测需具备的环境。

3.2实验结果

利用本文的类人化逻辑物体识别架构和单纯的安全帽识别模型分别对200张监控图片进行5组安全帽识别对比实验。

每组对比试验中，引入类人化逻辑架构的识别正确率要高于单纯的模型识别。引入类人化逻辑架构的识别正确率在98.5%左右，在单纯模型识别的基础上通过外层逻辑架构起到了有效的矫正效果，提升了最终结果的准确率。

4结语

基于YOLOv5的物体识别架构应用提出了一种算法与类人逻辑组合的新型架构，提出的数据增强训练方法，可以提高单阶段算法在杂乱的工地背景中对小目标识别的准确度，提出的类人逻辑判断，可以减少非人误报和重复告警等问题，在一定程度上可以提升检测结果准确度。其速度快、准确度高、非人误报低的特点，符合工地复杂实景的实时监测需求。下阶段可以考虑在架构封装与轻量级部署方向进行深入研究。

参考文献

[1]谢文凯，彭鑫，赵文耘.软件开发问答网站代码片段自动分类方法研究[J].计算机应用与软件，2021，38（08）：1-6.

*本文暂不支持打印功能