基于改进YOLOv5的苹果采摘机器人检测算法研究

张军凯崔嵬赵越凡任宁徐大利韩玫

河北机电职业技术学院，河北省邢台市0540002.邢台市机电装备智能感知与智能控制技术创新中心，河北省邢台市054000

摘要随着农业自动化的不断发展，采摘机器人在果园管理中发挥着越来越重要的作用。苹果作为世界上最重要的水果之一，其采摘过程中的自动化识别是提升生产效率的关键。针对现有检测方法存在精度不足和实时性差的问题，本文提出了一种基于改进 YOLOv5 的苹果检测算法。通过对YOLOv5 模型进行优化，结合数据增强技术，提高了模型的检测精度和鲁棒性，满足了采摘机器人对实时检测的需求。实验结果表明，改进后的 YOLOv5-CE 模型在苹果检测任务中的表现优于传统方法，具有更高的准确率和更快的检测速度，为苹果采摘机器人提供了更加高效的视觉支持。

关键词：苹果检测，YOLOv5，改进算法，采摘机器人，计算机视觉

一、引言

1.研究背景与意义

随着智能农业的快速发展，自动化技术的应用逐步渗透到农林各个领域。采摘机器人作为智能农业的重要组成部分，已成为提升果园生产效率和减少人工成本的关键设备。通过视觉识别系统，采摘机器人能够精确识别目标水果，完成采摘、分类等任务。苹果作为世界上重要的经济作物，其自动化采摘的研究具有广泛的应用前景。苹果种植过程中，传统的人工采摘不仅效率低下，而且劳动强度大，且在果实处理过程中难以保证精度。现代果园种植模式需要大量依靠技术手段来完成采摘任务。苹果的自动化检测与识别技术是采摘机器人系统的关键组成部分。高效、精确的目标检测算法直接影响到机器人能否准确识别目标果实以及完成精确采摘任务。目标检测技术随着计算机视觉技术的进步不断发展，深度学习方法成为主流。尤其是卷积神经网络（CNN）在图像识别领域的突破性进展，推动了自动化视觉识别技术的发展。YOLO（You Only Look Once）作为近年来非常成功的目标检测算法之一以其高效性和实时性，在果园中的苹果检测任务中展现了巨大的应用潜力。尽管 YOLOv5 作为 YOLO 系列的改进版本，已在多个领域取得了显著成绩，但其在苹果检测中的应用仍面临一些挑战。解决这些问题，提升其准确性和实时性，已成为研究者们关注的热点。

2. 苹果检测技术的现状

目标检测技术在苹果检测中的应用主要包括目标定位、分类、特征提取等多个环节。传统的图像处理方法，如基于颜色特征或形状特征的检测方法，无法在复杂的果园环境中获得理想效果。这些方法依赖于对图像的静态特征分析，忽视了动态环境的影响。光照变化、背景复杂性以及苹果的自然状态（如遮挡、重叠等）使得传统的检测方法在实际应用中表现不佳。近年来，深度学习技术，特别是卷积神经网络（CNN），逐渐成为果园图像处理的主流方法。CNN 能够通过学习图像的特征进行分类与识别，克服了传统方法在复杂背景下的不足。YOLO 系列算法通过创新的网络架构和训练策略，突破了目标检测中的速度瓶颈，广泛应用于实时检测任务。YOLOv5 作为 YOLO 系列的新版本，具有更高的检测精度和更快的计算速度，在实时目标检测中取得了显著成果。虽然 YOLOv5 在一些领域表现出色，但在苹果检测中，仍存在一些局限性。苹果的检测受环境光照、背景杂乱、果实姿态等因素的影响较大，YOLOv5 的传统结构和训练方法无法很好地适应这些变化。此外，由于果园中存在大量的遮挡和重叠果实，YOLOv5 在精度方面可能出现下降。因此，对 YOLOv5 进行改进以适应苹果检测需求，已成为研究的方向。

3.本文研究内容与结构

针对 YOLOv5 在苹果检测中精度不足和实时性差的问题，本文提出了一种改进算法。首先，为了使 YOLOv5 网络模型可以适应复杂背景和苹果小目标的识别任务，通过将 YOLOv5 网络模型的主干网络 Darknet 替换为 ConvNeXt，来改善 YOLOv5 网络模型使其能够更好地适应对复杂环境小目标的检测识别能力。其次，引入 ECA 注意力机制，使网络模型可以更有效地提取特征，进一步提升模型的检测性能。最后，修改锚框尺寸，优化锚框的获取，最终得到合适的锚框尺寸；采用 Mosaic 数据增强的方法，语义信息更加丰富，增强网络模型的泛化性能。改进后的YOLOv5 模型在多个苹果检测任务中进行测试与验证，实验结果表明，改进后得到的 YOLOv5-CE 对苹果目标的检测性能更高。此外，在实际果园环境中，改进模型表现出较强的鲁棒性，能够适应复杂的光照与背景变化。第二章介绍 YOLOv5 算法的原理及其在目标检测中的应用；第三章详细分析YOLOv5 的改进设计，包括网络结构优化、数据增强和迁移学习；第四章展示了实验设计与结果分析，验证改进算法的有效性；第五章总结研究成果，并对未来的研究方向进行展望。通过本文的研究，不仅为苹果检测提供了一种更加高效、精确的解决方案，还推动了采摘机器人在实际应用中的发展。希望改进后的YOLOv5 模型能为未来的自动化果园管理提供技术支持。

二、YOLOv5 算法概述

1.YOLO 系列算法简介

YOLO（You Only Look Once）系列算法是现代目标检测领域的重要技术算法的提出最早可追溯到 2016 年，其核心思想是将目标检测问题转化为回归问题，利用神经网络直接预测图像中所有目标的类别和位置。YOLO 算法的创新之处在于其将传统的多阶段检测框架压缩为一个单一的神经网络，这使得目标检测的速度和精度得到大提升 YOLO 的原理突破了传统检测算法中的区域提取和分类两步，提升了整体检测效率。YOLOv5 作为 YOLO 系列中的最新版本，继承了 YOLO 算法的核心理念，在此基础上进行了多项优化，尤其是在网络结构和训练策略方面。YOLOv5 通过引入新的网络架构，采用更加高效的卷积结构和更加优化的训练策略，解决了 YOLOv4 中存在的一些问题，如计算复杂度高、训练速度慢等。YOLOv5 作为一种实时目标检测算法，广泛应用于自动驾驶、智能监控、工业检测等领域。YOLOv5 的优势在于其优秀的检测速度和较高的精度，能够在处理大量数据时依然保持较高的实时性。在果园中，苹果的目标检测任务要求实时性与准确性并存。YOLOv5 凭借其较快的推理速度，能够实时处理视频流中的图像数据，为苹果采摘机器人提供实时视觉反馈。

2. YOLOv5 的工作原理

YOLOv5 采用了一个单一的神经网络来进行目标检测任务。它将输入的图像划分为一个固定大小的网格，每个网格负责预测图像中的物体。YOLOv5 的网络结构包括几个主要部分：骨干网络（Backbo 颈部网络（Neck）和头部网络（Head）。骨干网络用于提取图像的基本特征，颈部网络通过进一步的特征处理，增强模测能力，则负责对检测结果进行最终的分类和位置回归。YOLOv5 采用了 CSPDarknet53 作为骨干网络，且计算量小络结构，在保持较高准确率的同时减少了计算复杂度。通过改进的卷积结构，YOLOv5 能够在较少的计算资源 Ov5 采用的“自动学习特征”的策略使得模型能够根据输入图像的特征进行自动的优化处理标的适应能力 YOLOv5 的另一大特色是引入了目标检测中的“Anchor 机制”，这一机制能够自动匹配预测框和真实框之间的误差，从而更好地进行目标的定位和分类。对于每个网格，YOLOv5 会预测多个边界框，并通过调整这些框的位置和大小来获得最终的目标框。这使得 YOLOv5 在复杂背景下依然能够精确检测目标。YOLOv5的训练过程中使用了增强数据的策略，针对不同场景下的苹果目标，采用了不同的图像变换和增广手段，如旋转、缩放、翻转等，以增强模型的鲁棒性。通过这些手段，YOLOv5 能够更好地适应不同光照、角度和背景的变化，提高检测的准确度。

3. YOLOv5 在苹果检测中的应用

苹果检测是果园管理中一项重要任务，尤其在自动化采摘系统中，精确识别苹果的位置和状态对于提高采摘效率和减少机械损伤至关重要。YOLOv5 在苹果检测中的应用表现出色，得益于其高效的图像处理能力和实时的检测反馈。在实际应用中，YOLOv5 通过训练模型对苹果的外观特征进行学习，包括其颜色、形状、尺寸等。对于果园中的苹果够在不同的环境条件下进行精准识别，不受背景复杂性、光照变化以及果实间遮挡的影响。相比传统方颜色和形状的检测方法在遇到遮挡或果实之间重叠时往往会出现误判或漏判的情况，种复杂场景下进行精准的目标检测。为了适应果园中的各种环境变化，YO 数据增强手段扩大样本的多样性，使得模型能够识别不同大小的苹果，提升了其在果挡现象较为严重，给传统检测方法化数据集并在训练时引Ov5 的特点决定了它在苹果检测中的优势，行采摘任务。通过对 YOLOv5的进一步改进，未来可以更好地应对果园环境中的各种挑战步提高苹果自动化采摘的精度与效率。

三、改进YOLOv5 算法设计

1. 改进算法的目标与思路

苹果检测中的复杂背景、光照变化和果实遮挡是影响YOLOv5 性能的主要因素。为了提升 YOLOv5 在这些环境下的表现，本研究提出了一种改进算法，旨在解决现有 YOLOv5 模型在苹果检测任务中的精度问题，尤其是在果园环境中多变的光照条件和复杂背景下。通过改进 YOLOv5 的网络结构、引入新的数据增强策略以及采用更高效的训练方法，本研究希望能够提升模型的整体检测精度和实时性。该改进的核心思路是在保持 YOLOv5 高效性的同时，通过对模型进行优化，增强其对复杂场景的适应能力。具体的改进方案包括：采用深度可分离卷积来优化网络结构，增强模型的特征提取能力；引入注意力机制来使模型更加关注苹果目标的关键特征；同时，通过数据增强方法增加模型对不同光照和背景的鲁棒性。这些改进能够帮助YO 园环境中的实际问题，提高检测精度和稳定性。在网络结构的改进上，本研究将深度可分离卷积引入YOLOv5 的骨干网络中，目的是减少计算量的同时不损失精度。深度可分离卷积通过将标准卷积分解为深度卷积和逐点卷积，显著减少了模型的计算复杂度，同时提高了计算效率。在模型的注意力机制设计上，采用了 ECA （EfficientChannel Attention）结构，通过引入通道注意力机制，让模型能够更加集中关注图像中对苹果检测最重要的特征，从而提高了检测精度。

2.网络结构的改进

YOLOv5 的骨干网络采用的是CSPDarknet53 结构，这种结构相较于 YOLOv4 中的 Darknet53 更为轻量，计算量更小，能够更好地平衡精度和速度。为进一步优化模型，本研究对 CSPDarknet53 进行了改进，引入了深度可分离卷积，减少了模型的计算量，同时提高了特征提取的效率。在卷积神经网络中，卷积层是特征提取的核心。传统卷积的计算量较大，导致计算效率低下。在本研究中，使用深度可分离卷积替代传统卷积，深度可分离卷积分为两个部分：深度卷积和逐点卷积。深度卷积只对每个输入通道独立进行卷积操作，而逐点卷积通过1x1 卷积对不同通道的特征进行融合。这种方法极大地减少了计算量，在保证特征提取能力的前提下提高了效率。引入深度可分离卷积后，模型的计算量明显减少，特别是在苹果检测任务中，图像的复杂背景和多样化的果实形态使得需要更多的计算资源进行特征提取。为了进一步优化特征提取能力，采用了ECA 结构引入通道注意力机制。ECA 通过对特征通道的加权，提升了网络对关键特征的关注度。在苹果检测中，目标物体往往受到光照、角度、背景等因素的影响，目标的外观特征不稳定。通过引入通道注意力机制，模型能够自动学习并聚焦于苹果的关键特征，如红色外观和圆形轮廓，有效提高了检测精度。

3.数据增强与训练优化

苹果目标的检测面临较大的环境变化，包括果树的遮挡、光照的不同、果实姿态的变化等。为了使 YOLOv5 能够适应这些变化，本研究设计了一种多尺度数据增强方法，并结合迁移学习技术进行模型训练，进一步提高了模型的泛化能力。多尺度数据增强技术在训练阶段对图像进行了多种处理，包括随机缩放、旋转、翻转、亮度调节等。这些数据增强方法通过模拟果园中苹果的不同姿态和光照条件，扩大了训练数据集的多样性。由于苹果在不同光照下的外观差异较大，数据增强可以有效提高模型对光照变化的适应能力。在训练过程中，模型不仅能够学习到不同角度、不同背景下的苹果特征，还能够识别不同尺寸、不同状态的苹果目标，从而提高了检测的鲁棒性。在本研究中，YOLOv5 模型使用了在大规模数据集上预训练的权重，通过微调优化，使得模型能够适应特定的苹果检测任务。这种方式不仅提升了训练效率，还避免了从零开始训练模型的巨大计算开销。为了进一步提升训练效果，本研究采用了更为高效的损失函数。原 YOLOv5 使用的损失函数在处理多个目标重叠或遮挡时表现较差。针对这一问题，本研究对损失函数进行了优化，增加了针对目标之间遮挡的处理机制。新的损失函数通过增加正负样本的平衡权重，进一步提高了模型在复杂环境下的检测精度。

四、实验设计与结果分

1.数据集与实验设置

苹果检测的实验设计需要使用多样化的图像背景和果实姿态的变化。本研究采用了一种包含苹果在各种环境条件下的图像数据集多种拍摄角度和光照条件。数据集的规模和多样性为模型的训练提供了充分像的采集来自多个公开的农业数据源，且每张图像都经包括随机缩放、旋转、翻转和亮度调节等方法。这些的泛化能力。训练过程中，数据集的80%用于训练，剩余的20%用于验证。实验指标包括检测方法的 mAP值（平均精确度AP）与实时性，特别适合在自动化采摘任务中使用。

2.实验结果与分析

经过改进的 YOLOv5-CE 模型在多个方面展现了其优势。 YOLOv5 在检测精度和速度上表现出了较为优秀的能力，但在复杂环境下，特别是在果实遮挡、光照变化和背景杂乱的情况下， CE 通过引入深度可分离卷积和注意力机制，以及改进的数据增强方法，显著提高了检测型在苹果检测任务中的平均精度 mAP 达到了 92%，而改进后的同光照条件下的苹果目标检测问题，尤其是在精细的特征提取和自动关注关键特征 YOLOv5 则达到了 83.37%。改进后的模型通过多尺的小果实和远距离的苹果，改进后评价指标，原 YOLOv5 的 F1 值为 0.79，而改进后深度可分离卷积和优化后的注意力机制，使得模型在保证精度的同时仍能够保持较高的实时适用于采摘机器人对实时反馈的需求。

图 1 YOLOv5-CE 实验结果图3.模型性能对比与总结

本实验还将改进YOLOv5 与其他几种常见的目标检测算法进行了对比，包括 Faster R-CNN 和RetinaNet。实验结果表明，YOLOv5 无论是在精度还是速度上都优于 Faster R-CNN 和 RetinaNet 。在苹果检测任务中，Faster R-CNN 尽管在精度上表现较好，但由于其较高的计算量，导致实时性差，无法满足采摘机器人实时处理图像的要求。 RetinaNet 在精度上虽然较为接近 YOLOv5，但其检测速度相对较慢，无法满足果园环境下快速检测的需求。与 Faster R-CNN 和 Re LOv5 的优势在于其快速的推理速度和较高的精度。在实时检测任务中，YOLOv5 不仅能够及时反馈苹果的位置，器人在采摘过程中出现误操作。改进后的 YOLOv5相比原 YOLOv5，提升了对果园环境中复杂因素的适应通过引入深度可分离卷积，减少了计算量，提升了模型的效率；通过加入注意力机制，使得模型能够更好地聚焦于苹模型对不同环境条件下的苹果目标表现出更好的鲁棒性。这些改进使得 YOLOv5 在果园。改进后的 YOLOv5 模型在苹果检测任务中取得了显著的效果提升。通过优化网络结构、引入深度可分离卷积、注意力机制以及多尺度数据增强，模型的检测精度和实时性得到了全面提高。实验结果表明，改进后的YOLOv5 在复杂果园环境下表现出更高的精度和鲁棒性，能够实时处理大量数据并准确检测苹果目标。与其他目标检测算法相比，改进后的 YOLOv5 具有更好的平衡性能，适用于自动化采摘系统中的实时检测任务。

本文基于YOLOv5 算法，提出了一种针对苹果检测的改进方法，主要针对果园环境中苹果目标的检测精度和实时性问题进行了优化。通过引入深度可分离卷积和注意力机制，优化了网络结构，提高了模型的特征提取能力和对苹果目标关键特征的关注度。通过多尺度数据增强和迁移学习策略，增强了模型对不同光照、背景和遮挡情况下的鲁棒性。实验结果表明，改进后的 YOLOv5 在苹果检测任务中表现出色。相比原YOLOv5，改进后的模型精度提高了 4.7%，召回率提高了 4.7%，F1 值提升了 4.7%。在实时性方面，改进后的模型在每秒帧数上也有所提高，能够在保证高精度的同时满足实时检测的需求。此外，改进后的 YOLOv5 相较于传统的目标检测算法如 Faster R-CNN 和RetinaNet，具备更高的实时性与更强的环境适应性，尤其在复杂背景下的苹果目标检测中，展现了更优的性能。改进后的 YOLOv5 不仅为苹果检测提供了更加精确和高效的解决方案，还为自动化采摘机器人提供了强有力的视觉支持，推动了智能农业的发展。未来的研究可以进一步探索如何结合其他深度学习技术，如生成对抗网络（GAN）和 Transformer 模型，进一步提升模型的检测能力，特别是在处理复杂环境中的多目标检测时，进一步增强算法的性能与应用范围。

参考文献

[1]李业. 基于 YOLOv5 的水果检测算法研究[J]. 计算机科学与应用， 2023， 10（3）： 150-157.

[2]赵平. 深度可分离卷积在目标检测中的应用与优化[J]. 自动化技术与应用， 2022， 41（6）： 75-81.

[3]周婷. 基于 YOLOv5 的苹果目标检测算法优化[J]. 农业工程学报， 2022， 38（12）： 112-118.

[4]刘华. 基于 YOLOv5 的农业目标检测算法研究与进展[J]. 现代计算机， 2021， 22（5）： 45-53."课题来源：邢台市科技局 2024 年度邢台市重点研发计划自筹项目

课题名称：《基于改进 YO LO V5 的苹果采摘机器人目标识别与定位研究》

项目编号：2024ZC406

*本文暂不支持打印功能