• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于注意力机制的多任务网络在人脸属性识别中的研究

杨士猛
  
大海媒体号
2025年109期
安徽职业技术学院 计算机与信息技术学院 合肥 230011

摘要:人脸属性识别(Face Attribute Recognition, FAR)是计算机视觉领域的重要研究方向,广泛应用于人脸识别、图像检索与人机交互等场景。传统多任务网络(Multi-Task Network, MTN)在处理多属性识别任务时,存在模型参数随任务数量指数增长、高层特征交互不足以及任务收敛不同步等问题,严重制约了模型的泛化能力与训练效率。为此,本文提出一种融合注意力机制的多任务网络模型——FAR-AMTN(Attention-based Multi-Task Network for Face Attribute Recognition)。该模型引入权重共享组特定注意力模块,在增强组内特征表达能力的同时有效降低模型复杂度;设计跨组特征融合模块,挖掘不同属性组之间的语义关联;并提出动态加权策略,平衡各任务间的梯度变化与损失尺度,实现多任务同步收敛。实验在 CelebA 和 LFWA 两个公开数据集上进行,结果表明,FAR-AMTN 在 CelebA 上准确率达 92.40% ,在 LFWA 上达 87.72% ,模型参数量仅为27.36M。与现有先进方法相比,该模型在保持高识别精度的同时显著提升了效率,具备良好的实时性与应用前景。

关键词:人脸属性识别;多任务学习;注意力机制;特征融合;动态加权

引言

人脸属性识别旨在通过计算机视觉技术自动提取人脸图像中的高层语义信息,如性别、年龄、发型、面部表情等。这些属性信息可广泛应用于人脸识别、智能监控、人机交互等领域。例如,在人脸识别系统中引入属性信息可提升模型在复杂环境下的鲁棒性。

近年来,随着深度学习的发展,基于卷积神经网络的人脸属性识别方法取得了显著进展 [1]。然而,由于人脸属性之间存在复杂的语义关联,单一任务学习难以充分挖掘这些潜在关系。多任务学习通过共享底层表示,协同优化多个相关任务,能够有效提升模型的泛化性能 [2],因此在人脸属性识别任务中得到了广泛应用。

尽管多任务学习在该领域展现出良好性能,但现有方法仍面临以下三方面挑战:

模型参数膨胀:传统MTL 网络通常采用“共享底层 + 独立任务层”的结构,随着任务数量增加,模型参数量呈指数增长,导致训练难度加大、部署成本上升。

特征交互不足:各任务独立的高层模块限制了属性组之间的信息交流,难以充分利用属性间的语义关联。

任务收敛异步:不同属性任务的损失函数尺度与梯度变化速率不一致,易引发“跷跷板效应”,导致部分任务过拟合或收敛滞后,影响整体性能。

本文旨在提出一种高效的多任务网络架构,解决现有人脸属性识别方法中参数膨胀、特征交互不足和收敛异步的问题。主要贡献如下:

设计权重共享组特定注意力模块(WSGSA),在保持组特征表达特异性的同时,通过共享卷积参数显著降低模型复杂度;

提出跨组特征融合模块(CGFF),实现属性组间特征交互,增强模型对语义关联的建模能力;

引入动态加权策略(DWS),综合考虑任务梯度与损失尺度,动态调整任务权重,实现多任务同步收敛;

在 CelebA 与 LFWA 数据集上开展大量实验,验证所提方法在识别精度与模型效率方面的优越性。

1 研究方法

FAR-AMTN 由共享底层网络、WSGSA 模块、CGFF 模块及任务特定预测层组成。模型以 ResNet50 为骨干网络,conv1 至 conv4 层用于提取通用底层特征;在conv5 层中嵌入WSGSA 模块以增强组特征表示;CGFF 模块实现属性组间特征交互;最终通过多个全连接层输出各属性预测结果。

WSGSA 模块旨在在降低参数量的同时提升组特征表达能力。具体流程如下:首先对输入特征进行平均池化压缩,得到全局特征 Z,计算公式为:

其中,X 为 WSGSA 模块的输入特征图, H 和 W 分别为特征图的高度和宽度。

随后,每个属性组通过两层全连接层学习组特定通道注意力,公式为:

其中,C 为输入特征的通道数,fc 表示全连接层,ReLU 和Sigmoid 为激活函数。

最后,通过共享卷积操作 f 处理输入特征,并与注意力权重进行element-wise 乘法,得到增强后的组特征。

为挖掘不同属性组间的语义关联,设计 CGFF 模块实现组间特征交互。跨组特征融合模块通过非线性变换增强特征的表达能力,对每个组的增强特征进行两两交互,计算组间特征相关性,融合交互特征与原始组特征,通过 Softmax 激活函数输出每个属性的预测概率。CGFF 模块通过特征交互增强了组间语义信息的传递,使模型能够更好地利用属性间的关联关系,提升识别精度。本文采用 Focal Loss 结合 KL 散度作为损失函数,同时引入动态加权策略平衡多任务损失。DWS 同时考虑梯度下降速率和损失尺度,避免单一因素导致的权重分配不合理,实现多任务同步收敛。

2 结果与分析

将 FAR-AMTN 与现有先进方法在 CelebA 和 LFWA 数据集上进行对比,FAR-AMTN 在 CelebA 数据集上的准确率达到 92.40% ,LFWA数据集上达到 87.72% ,均优于对比方法。

对比 WSGSA 与不同注意力机制(通道注意力 CA、空间注意力SA、非局部注意力NL)在共享权重和非共享权重下的性能,结果显示,WSGSA-CA 相比 WNGSA-CA,参数减少 23.88% ,准确率提升 0.09% ;WSGSA-SA 相比 WNGSA-SA,参数减少 27.40% ,准确率略有下降但仍保持较高水平;WSGSA-NL 相比 WNGSA-NL,参数减少 9.79% ,准确率提升 0.06% 。这表明权重共享机制在减少参数的同时,能够保持甚至提升特征表示能力。

3 总结与展望

本文提出一种基于注意力多任务网络的人脸属性识别方法 FAR-AMTN,通过 WSGSA 模块、CGFF 模块和 DWS 策略,有效解决了传统多任务网络参数膨胀、特征交互不足和收敛异步的问题。在 CelebA和 LFWA 数据集上的实验结果表明,FAR-AMTN 在保证高识别精度(CelebA 92.40% ,LFWA 87.72% )的同时,具有参数少(27.36M)、推理速度快(42.8 fps)、内存占用低(90.7MB)的优势,优于现有先进方法。

各模块的协同作用显著提升了模型性能:WSGSA 模块通过权重共享平衡了特征表示能力和模型复杂度;CGFF 模块通过跨组特征融合挖掘了属性间的语义关联;DWS 策略通过动态调整任务权重实现了多任务同步收敛。

未来研究将从以下方面进一步优化模型:1) 探索更精细的属性分组策略,结合属性间的语义相似度和相关性,设计自适应分组机制。2)引入度量学习方法,通过约束正负样本间的距离,进一步提升特征的判别性。3) 扩展模型在低分辨率、遮挡、复杂光照等恶劣条件下的鲁棒性,推动其在实际场景中的应用。

参考文献

1. 刘航, 孔维泽, 牟卓晶, 等. 基于卷积神经网络的人脸识别[J].科学技术创新 , 2024(14):65-69.

2. 朱新远 . 基于多任务学习和注意力机制的人脸及表情识别研究[D]. 四川师范大学 ,2024.

*本文暂不支持打印功能

monitor