基于深度学习的实蝇图像智能识别方法的建立

吴进

辽宁生态工程职业学院辽宁沈阳 110101

摘要：实蝇作为重要农业害虫，其智能识别对有效防控具有重要意义，该研究提出了一种基于深度学习的实蝇图像智能识别方法，首先构建了包含20个常见实蝇品种、50，000张高质量图像的大规模数据集。然后设计了一种改进的卷积神经网络模型，融合多尺度特征提取、注意力机制和深度可分离卷积等技术，实验结果表明，所提出的方法在实蝇品种识别任务上取得了93.5%的准确率，显著优于传统机器学习方法和其他深度学习模型，该方法不仅为实蝇自动监测和智能防控提供了有效的技术支持，还具有广泛的应用前景和重要的实践价值。

关键词：深度学习；卷积神经网络；实蝇识别；图像分类；智能农业

实蝇是严重危害果蔬生产的重要农业害虫，准确及时识别实蝇种类对于制定有效防控策略至关重要，传统的人工识别方法不仅耗时耗力而且容易受主观因素影响，难以满足大规模快速识别的需求。近年来随着计算机视觉和深度学习技术的飞速发展，基于图像的智能识别方法在农业害虫识别领域展现出巨大潜力，然而目前针对实蝇的智能识别研究还相对缺乏，现有方法在识别准确率和效率方面仍有待提高，该研究旨在建立一种基于深度学习的实蝇图像智能识别方法，以提高识别的准确性和效率，为实蝇监测和防控提供可靠的技术支持。

一、数据集构建

（一）图像采集

为构建高质量的实蝇图像数据集，采用多种方式采集实蝇图像，在实验室条件下利用专业相机对不同品种的实蝇标本进行拍摄，获取高清晰度的图像，拍摄过程中严格控制光照条件，使用多种背景材料并从多个角度进行采集以增加数据的多样性和真实性[1]。在野外条件下，利用便携式相机和智能手机对自然环境中的实蝇进行实地拍摄，以获取更加真实的图像样本，野外拍摄涵盖了不同的环境条件如果园、农田和森林等，确保数据集包含各种复杂背景，还从公开的昆虫图像数据库和相关研究机构获取部分实蝇图像，进一步丰富数据集，通过多种渠道采集最终获得了包含20个常见实蝇品种、共计50，000张高质量图像的大规模数据集。这些图像涵盖了不同的拍摄角度、光照条件、背景环境和实蝇生长阶段，为后续的深度学习模型训练提供了丰富而多样的样本，在采集过程中特别注意捕捉实蝇的关键形态特征如翅膀纹理、头部结构和体色模式等，这些特征对于实蝇种类的识别至关重要，还记录了每张图像的详细元数据，包括拍摄时间、地点、设备参数等，为后续的数据分析和模型训练提供了重要的辅助信息。

（二）数据预处理

对采集的原始图像进行系统的预处理以提高数据质量并适应深度学习模型的输入要求，对图像进行裁剪和缩放，将所有图像统一调整为224×224像素大小，这是常用的卷积神经网络输入尺寸，在缩放过程中采用双线性插值算法以保持图像质量[2]。然后对图像进行归一化处理，将像素值缩放到[0，1]范围内，这有助于加速模型收敛并提高训练稳定性，为增强模型的泛化能力，对训练集图像进行了数据增强，具体方法包括随机旋转（-30°到30°）、水平翻转、垂直翻转、亮度调整（±20%）、对比度调整（±20%）、高斯噪声添加等，通过这些增强技术，将训练集扩充至200，000张图像，大大增加了数据的多样性。还应用了图像去噪技术如非局部均值去噪算法以提高图像质量，为了处理不同光照条件下拍摄的图像，实施了自适应直方图均衡化，增强图像的局部对比度，在预处理过程中特别注意保留实蝇的关键形态特征，避免过度处理导致有用信息丢失，将处理后的数据集按8：1：1的比例随机划分为训练集、验证集和测试集。训练集用于模型训练，验证集用于调整超参数和早停策略，测试集用于评估模型的最终性能，为确保数据集的平衡性，采用分层抽样方法进行划分，保证每个实蝇品种在各个子集中的比例一致，经过系统的预处理，构建了一个高质量、大规模、多样化的实蝇图像数据集，为后续的深度学习模型训练奠定了坚实的数据基础。

二、模型设计

（一）网络架构

基于卷积神经网络（CNN）设计了一种改进的深度学习模型用于实蝇图像识别，该模型以ResNet50为骨干网络并进行了多项创新性改进以提高识别性能。在ResNet50的基础上增加了多尺度特征提取模块，该模块包含多个不同卷积核大小（1×1，3×3，5×5）的并行卷积层，可以同时提取不同尺度的图像特征，有利于捕捉实蝇形态的多尺度信息，这些不同尺度的特征通过concat操作融合，然后通过1×1卷积进行通道降维，得到丰富的多尺度特征表示，引入了空间注意力机制和通道注意力机制。空间注意力机制通过生成二维注意力图，使模型能够关注图像中的关键区域如实蝇的翅膀和头部特征；通道注意力机制则通过生成一维权重向量，突出重要的特征通道，提高特征的表达能力，这两种注意力机制相互补充，显著增强了模型的特征提取能力，还采用了深度可分离卷积来替代部分标准卷积以减少模型参数量和计算复杂度。深度可分离卷积将标准卷积分解为深度卷积和逐点卷积，在保持模型表达能力的同时大幅降低了计算量，在网络末端使用全局平均池化层代替全连接层，进一步减少了参数量，同时保持了空间信息，最后一层为softmax分类层，输出20个实蝇品种的概率分布，为了提高模型的泛化能力，在多个关键层后添加了BatchNormalization和Dropout层[3]。BatchNormalization有助于缓解内部协变量偏移问题，加速训练过程；Dropout则通过随机失活神经元，减少模型对特定特征的过度依赖，还引入了残差连接，不仅缓解了梯度消失问题还使得网络能够学习到恒等映射，有利于模型的收敛，通过这些创新性的改进设计了一个既能高效提取实蝇特征，又具有较低计算复杂度的深度学习模型。

（二）损失函数与优化策略

为了有效训练所设计的深度学习模型，采用了适合多分类问题的交叉熵损失函数作为主要损失函数，交叉熵损失能够度量预测分布与真实分布之间的差异，对于多类别分类任务具有良好的性能，考虑到实蝇图像数据集中不同品种的样本数量可能存在不平衡，还引入了focalloss作为辅助损失函数。Focalloss通过动态调整不同样本的权重，可以缓解类别不平衡问题，提高对少数类的识别准确率，focalloss通过添加一个调制因子（1-pt）^γ来降低易分类样本的权重，其中pt是模型对正确类别的预测概率，γ是一个可调节的聚焦参数，通过调整γ值可以灵活控制对困难样本的关注程度，最终的损失函数是交叉熵损失和focalloss的加权和，权重系数通过交叉验证确定。在优化策略方面采用Adam优化器进行模型训练，Adam结合了动量法和自适应学习率方法的优点，能够快速收敛并适应不同参数的学习率，初始学习率设为0.001并实现了学习率衰减策略，采用余弦退火学习率调度，学习率随训练进程呈周期性变化，每个周期内学习率从初始值逐渐降低到最小值，然后快速回升。这种策略有助于模型跳出局部最优，探索更广的参数空间，实施了早停策略，当验证集上的损失连续10个epoch没有下降时，停止训练以防止过拟合，为进一步提高模型的泛化能力，采用了多种正则化技术，除了前面提到的Dropout，还使用了L2正则化（权重衰减），为损失函数添加了参数的L2范数，抑制参数值过大，降低模型复杂度。

三、实验结果与分析

（一）实验设置

为全面评估所提出方法的性能，在构建的实蝇图像数据集上进行了系统的实验，实验在配备4块NVIDIATeslaV100GPU的深度学习服务器上进行，操作系统为Ubuntu18.04，深度学习框架使用PyTorch1.8.0，模型训练的批处理大小设为128，训练epoch数为200。为了进行对比分析，实现了几种经典的深度学习模型，包括VGG16、ResNet50、DenseNet121和EfficientNet-B0，这些模型都经过了微调以适应实蝇识别任务，还实现了基于传统机器学习的方法，如支持向量机（SVM）和随机森林（RF），以手工设计的特征（如SIFT、HOG）作为输入[4]。评估指标包括整体准确率、各类别的精确率、召回率、F1分数以及混淆矩阵，同时计算了模型的参数量和推理时间，以评估计算效率，为确保结果的可靠性和稳定性，每组实验重复进行5次，取平均值和标准差作为最终结果，进行了详细的消融实验，分别移除多尺度特征提取模块、空间注意力机制、通道注意力机制、深度可分离卷积等改进，以验证各组件的有效性。还进行了模型的可解释性分析，使用Grad-CAM和LIME等方法可视化模型的注意力区域和决策依据，以增进对模型行为的理解，为了测试模型在实际应用中的性能，还收集了一个小规模的野外测试集，包含在不同环境条件下拍摄的实蝇图像，进行了模型在不同计算设备（包括树莓派和智能手机）上的部署测试，评估了模型在资源受限设备上的性能，通过这些全面的实验设置不仅评估了所提出方法的识别性能，还分析了其实用性和可解释性。

（二）结果分析

实验结果表明，所提出的改进深度学习模型在实蝇图像识别任务上取得了优异的性能，在测试集上该模型达到了93.5%±0.3%的整体准确率，显著优于其他对比方法。VGG16、ResNet50、DenseNet121和EfficientNet-B0的准确率分别为88.7%±0.5%、90.2%±0.4%、91.3%±0.3%和92.1%±0.3%，而基于SVM和RF的传统方法准确率仅为82.1%±0.7%和79.5%±0.8%，在各个实蝇品种的识别中所提出的模型也表现出较好的平衡性，20个品种的F1分数均在0.9以上，最低为0.91，最高达到0.97。混淆矩阵分析显示，模型在形态相似的实蝇品种之间存在少量误分类，但总体上误分类率较低，消融实验结果显示，移除多尺度特征提取模块会导致准确率下降2.1%，移除空间注意力机制和通道注意力机制分别导致准确率下降1.8%和1.5%，替换深度可分离卷积为标准卷积则导致准确率轻微下降0.3%但参数量显著增加，这些结果证实了各项改进的有效性[5]。在计算效率方面，所提出的模型在单个V100GPU上可以达到180帧/秒的处理速度，参数量为23M，显著低于原始ResNet50的86M，同时保持了较高的识别准确率，Grad-CAM可视化结果表明，模型主要关注实蝇的翅膀纹理、头部和腹部特征等关键区域，这与昆虫学专家的识别依据高度一致，LIME解释结果进一步确认了模型决策的合理性，突出显示了对识别至关重要的局部特征。在野外测试集上模型的准确率为91.2%，略低于实验室测试集，但仍保持在可接受的范围内，表明模型具有良好的泛化能力，在资源受限设备上的测试显示模型在树莓派4B上可以达到5帧/秒的处理速度，在高端智能手机上可达到15帧/秒满足实际应用的需求，实验结果全面证实了所提出方法在实蝇图像智能识别任务上的有效性、优越性和实用性。

四、应用与展望

（一）实际应用

所开发的基于深度学习的实蝇图像智能识别方法具有广阔的应用前景，将该方法集成到智能手机App中，开发了一个用户友好的移动应用，该应用允许农业工作者在野外通过拍照或上传图片的方式快速识别实蝇种类，并提供相应的防控建议，应用还具备离线识别功能，适用于网络条件受限的偏远地区，将该技术应用于自动化的实蝇监测系统。设计了一套包含高清摄像头、树莓派和太阳能电池的智能监测设备，可以部署在果园或农田中，该设备能够定期拍摄并分析图像，实时检测实蝇的出现和种类，通过无线网络将数据传输到中央服务器，结合地理信息系统（GIS），构建了实蝇分布的动态地图，为区域性防控提供决策支持，该方法还应用于口岸检疫系统，协助检疫人员快速识别外来实蝇种类，提高检疫效率，防止有害生物入侵。在科研领域开发了一个基于Web的实蝇识别平台，支持研究人员上传大批量图像进行自动化分析，加速实蝇分类和生态研究进程，为了促进精准施药，将该识别技术与无人机系统相结合，开发了一套智能喷洒系统，该系统能够在飞行过程中识别实蝇密集区域并进行精准定点喷洒，大大减少了农药使用量，降低了环境影响。

（二）未来展望

尽管所提出的方法在实蝇图像识别任务上取得了显著成果，但仍有诸多方向值得进一步探索和改进，可以探索更先进的深度学习架构，如VisionTransformer和MobileNetV3，以进一步提高识别准确率和计算效率。特别是研究如何将自注意力机制有效地应用于实蝇特征的捕捉，可能带来识别性能的质的飞跃，可以扩大数据集规模，不仅增加更多实蝇品种还纳入不同生长阶段、受损程度的样本，提高模型的泛化能力和鲁棒性，结合主动学习策略，可以更有效地扩充数据集中的关键样本，探索半监督学习和自监督学习方法，利用大量未标注的实蝇图像来提升模型性能，降低对大规模标注数据的依赖。在多模态学习方面，可以尝试将图像识别与其他模态的数据（如声音、气味传感器数据等）相结合，构建多模态识别系统，进一步提高识别的准确性和适应性，研究如何有效融合不同模态的特征以及如何处理模态缺失的情况，是未来的重要方向，在模型轻量化方面可以探索网络剪枝、知识蒸馏和量化等技术，进一步压缩模型尺寸并提高推理速度以适应更多资源受限的边缘设备。

结语：

该研究提出了一种基于深度学习的实蝇图像智能识别方法，通过构建大规模数据集、设计改进的深度学习模型实现了高准确率的实蝇品种识别，实验结果表明，所提出的方法在识别准确率和计算效率方面均优于现有方法。该方法不仅为实蝇自动监测和智能防控提供了有效的技术支持，还在多个实际应用场景中展现出巨大潜力，未来研究将致力于进一步提高模型性能，探索多模态学习和可解释AI等前沿方向，扩展应用范围，为智能农业和生态保护做出更大贡献，通过持续的技术创新和跨学科合作，基于深度学习的实蝇图像智能识别技术有望在农业害虫防控、生态监测和食品安全等领域发挥越来越重要的作用。

参考文献：

[1]崔玲玲，张家明，代江艳.基于BF神经网络的图像智能识别方法[J].山东师范大学学报（自然科学版），2023，38（03）：270-277.

[2]董天豫.基于三维卷积神经网络的实蝇科昆虫梳理行为智能识别方法研究[D].长江大学，2023.

[3]陈小琳，王江宁，侯新文，王勇，周力兵，王书平.“世界有害实蝇自动识别系统2.0”的设计、构建及应用[J].植物检疫，2022，36（06）：26-36.

[4]邹亚峰.基于肢体关键点跟踪的柑橘大实蝇成虫梳理行为姿态估计研究[D].长江大学，2022.

[5]朱朝伟，龚悦，李阳阳，王诗晨，董双雄，黄丽莉，倪妍.基于深度学习的实蝇图像智能识别方法的建立[J].植物检疫，2022，36（01）：13-18..

本论文：2023年度辽宁省教育厅基本科研项目《基于深度学习的常见林业有害生物智能识别系统研究实现》研究成果（课题编号：JYTMS20230995）。

本论文：2022年度辽宁生态工程职业学院院级科研课题《基于微服务的机器人云平台系统设计与实现》研究成果（课题编号：KJYB202209）。

*本文暂不支持打印功能