- 收藏
- 加入书签
基于注意力网络与特征融合的垃圾分类算法
摘要:传统的图像分类算法在精度上已难以能满足现今垃圾分拣设备的要求。本文提出一种基于注意力机制与多尺度特征融合的垃圾图像分类模型,通过注意力机制优化图像特征的有效信息,同时通过特征融合机制,将不同尺度及深度的特征进行融合,提高特征信息利用率,最后针对样本分布不均的问题,采用Focal Loss进行损失计算用以提高分类精度,实验结果表明,本文所提方法在垃圾分类数据集上取得了良好的结果,提高了垃圾识别精度。
关键词:卷积神经网络;垃圾分类;注意力机制;Focal loss;图像处理
0 引言
随着我国经济的高速发展,城市化进程加快,垃圾产生量大幅增加,随意倾倒或无序处理会导致土壤、水源和空气的污染0,严重影响生态环境和人类健康。城市生活垃圾的主要问题在于其多种废弃物混合在一起,采取卫生填埋、堆肥或焚烧等处理方式都无法有效解决。为了实现垃圾处理的资源化、减量化和无害化,分类处理0是必不可少的。
在图像分类领域研究中神经网络分类方法逐渐成为主流,2012 年, AlexNet0 取得了 ImageNet 图像分 类竞赛的冠军, 标志着深度学习的崛起,并逐渐成为研究的热门方向,在此基础上后续又提出了如GoogLeNet0、VGGNet0、ResNet0等图像分类网络。
对于垃圾图像分类任务,石等人0提出一种基于 MobileNetV3 网络模型改进的轻量化垃圾分类算法加入 CBAM 注意力模块提高垃圾分类的准确率。周等人0提出一种改进的 YOLOv5 算法,结合注意力模块CBAM和SENet提高了地面裂缝识别的平均准确率。
1 方法
本文提出一种基于注意力网络与特征融合的垃圾分类算法。其中以ResNet18作为主干,共包括4个残差层。在不同的残差层后加入了高效多尺度注意力(Efficient Multi-Scale Attention,EMA)模块,并对不同残差块提取到的特征进行了特征融合,以融合后的信息产生分类结果。
1.1 EMA注意力机制
注意力机制是一种启发自人类视觉系统的机器视觉技术,用于有选择性地关注特定区域,以更有效地利用认知资源。为了解决垃圾分类任务中特征融合和注意力机制的问题,本文参考了Daliang Ouyang等人0提出了一种新的高效的多尺度注意力(EMA)模块,通过跨空间学习来增强模型对不同尺度特征的感知能力,如图2所示。
1.2 特征融合
在神经网络中,随着特征图尺寸的减小,语义信息可能会丢失,因为较低层次的特征图可能只包含较低级别的特征。通过多尺度特征融合,可以将不同尺度的特征结合起来,从而更好地保留语义信息。我们将不同尺度的特征EMA后进行池化操作,只保留通道纬度C,然后把不同尺度的得到的, ,拼起来,然后通过全连接层融合信息。具体如图3所示。
1.3 Focal loss
为了让模型更关注于少数类别,从而提高了对少数类别的分类准确率,本文采用Focal Loss0进行网络损失计算,通过降低易分类样本的权重,减少了它们对整体损失的影响,使模型更专注于难以分类的样本。Focal Loss的数学表达式如式(1)所示。
其中C为当前样本的类别, 表示类别c对应的权重,表示类别c对应的权重表示输出概率分布对于类别 C 的概率值。
2 实验
2.1 实验环境
实验使用PyTorch框架对网络模型进行构建,训练在NVIDIA GeForce RTX 3090上进行。
2.2 数据集
实验采用斯坦福大学公开的Trashnet垃圾分类数据集,改数据集涵盖了六类垃圾:玻璃、纸、硬纸板、塑料、金属和垃圾,共包括2527张图片。
2.3 模型的训练
实验的训练设置主要为:Batchsize设置为8,最大训练次数为100,优化器选择 Adam,初始学习率为0.001,训练过程中保存损失值最低对应的模型为最终结果。
2.4 实验结果
实验对比结果如表1所示。
由实验结果可知,改进后的网络模型准确率达到了 81.2%,相比于Resnet18网络模型的准确率提升了 10.9%,相比VGG11网络模型的准确率提升了 20.0%。实验结果表明,我们改进后的网络模型在垃圾识别准确率更能够满足实际应用的需求。
3 结论
本实验针对城市生活垃圾处理问题,提出了一种基于卷积神经网络的垃圾图像分类算法。
本实验以ResNet18为主干网络,引入了EMA注意力机制进行及特征融合,最后添加了Focal loss函数构建了垃圾图像分类算法。相比于原来的未改动的算法,提高了垃圾分类的准确率。
参考文献
[1]魏潇潇,王小铭,李蕾等.1979~2016年中国城市生活垃圾产生和处理时空特征[J].中国环境科学,2018,38(10):3833-3843.
[2]Krizhevsky A , Sutskever I , Hinton G .ImageNet Classification with Deep Convolutional Neural Networks[J].Advances in neural information processing systems, 2012, 25(2).
[3]Szegedy C , Liu W , Jia Y ,et al.Going Deeper with Convolutions[J].IEEE Computer Society, 2014.
[4]Simonyan K , Zisserman A .Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science, 2014.
[5]He K , Zhang X , Ren S ,et al.Deep Residual Learning for Image Recognition[J].IEEE, 2016.
[6]董子源,韩卫光.基于卷积神经网络的垃圾图像分类算法.计算机系统应用,2020,29(8):199-204.
[7]周双喜,杨丹,潘远,丁建新,丁杨.基于注意力机制的 YOLOv5 路面裂缝检测与识别[J].华东交通大学学报.
[8]Ouyang, Daliang, et al. “Efficient Multi-Scale Attention Module with Cross-Spatial Learning.” ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023.
[9]石琦.基于注意力模块的轻量化垃圾分类算法[J].信息技术与信息化,2023(09):29-32.
[10]Lin T Y , Goyal P , Girshick R ,et al.Focal Loss for Dense Object Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99):2999-3007.





京公网安备 11011302003690号