- 收藏
- 加入书签
基于MobileNetV2的轻量级卷积神经网络人脸表情分类研究
摘要:在深度学习快速发展的今天,人脸表情识别一直是人们关注的焦点。在深度学习中,人脸表情识别算法对网络模型结构和算法模型实现效果有很高的要求,算法参数优化困难,计算量越来越大,网络结构越来越复杂,预测和训练需要更多的硬件资源,这就需要高计算能力的服务器,来进行深度学习神经网络模型的运行。
关键词:深度学习;表情识别;人脸识别
引言
在深度学习快速发展的环境下,移动设备由于硬件资源和计算能力有限,很难运行复杂的深度学习网络模型,这对便携设备非常不友好。为了解决这个问题,我们还开发了深度学习中的轻量级神经网络算法,类似shufflenet、squeezenet、mnasnet、nasnet和mobilenet的轻量级神经网络被提出对便携式设备的智能化发展具有重要意义。
1脸表情识别方法
在人脸面部表情识别,训练的新网络模型不能用于直接分类,因为图像识别的类别与表情识别的类别有很大不同。网络模型参数必须基于面部表情的变化需要进行修改、根据面部表情的图片训练,通过预测网络识别面部表情进行修改,基于新的数据进行再训练,达到优化模型的目的,从而更好的进行人脸表情识别。
2 MobileNetV2卷积网络
自卷积神经网络问世以来,经过不断的研究和优化,出现了各种各样的卷积神经网络,深度可分卷积广泛用于网络中的线性瓶颈结构。
深度可分卷积是一种卷积结构,它由一层深度卷积结构和一层逐点卷积结构组成[1]。卷积的每一层后面都是归一化和relu激活函数。与标准卷积不同,当精度基本不变时,参数和计算量显著减少。
(1) 深度卷积
与一般的普通卷积不同,深度卷积结构中的卷积核只有一个维度,只负责一个通道,一个通道只由一个与输入维度相同维度的卷积核构成,每个通道在卷积运算后相加。以5x5x3的RGB图片为例。每层的深度卷积核具有与前一层相同的信道数量。如果偏执狂为1,步距为1,三通道图像运算后生成三个特征矩阵映射。
(2) 逐点卷积
逐点卷积(PW)运算非常类似于标准卷积运算。
逐点卷积核为1×1xm (M为输入数据的维数),一次卷积一个像素。点对点卷积操作将在深度(通道)方向上加权和组合上部特征图,以生成新的特征图。新进来的数据和特征图基本一致。这种卷积方法可以用较少的计算量减少或增加维数(改变输出数据的维数)。逐点卷积通常用于整合信息。
以5x5x3(宽度5,rgb3通道)彩色图像为例,使用4个1x1x3点对点卷积核进行卷积,经过点对点卷积运算后生成4幅特征图像。此示例使用逐点卷积来添加维度,而特征图将维度从5x5x3增加到5X5X4,结合深度和逐点卷积构成深度可分卷积。
(3) 线性瓶颈结构
瓶颈结构最早是在RESNET网络中提出的。第一层使用PW逐点卷积,第二层使用3 × 3大小的卷积核,第三层使用PW逐点卷积。MobileNet V2中瓶颈结构的最后一层使用线性激活函数来进行普通的点到点卷积,因此被称为线性瓶颈结构。有两种线性瓶颈结构。第一个是使用步骤1中的剩余结构是长的,第二个是不使用步骤2中的剩余结构。
在每个瓶颈结构中,一个是步骤1,一个是步骤2。只有值为1的图才能使用残差,因为当条带值为1时,输出要素地图与原始影像相同,并且可以添加。
线性瓶颈结构的深度卷积部分可以减少参数数量和卷积计算量,有效优化网络模型。而PW维度升级增加了一些参数,1x1conv增加的并不多)。进一步优化模型。
(4) 反向剩余结构
mobilenetw2基于RESNET残差结构进行了优化,提出了逆残差的概念。RESNET中提出的残差结构解决了训练中梯度随网络深度增加而消失的问题,使得深度网络中的浅层网络在反向传播中也能获得梯度,从而训练浅层网络的参数,提高特征表达能力。
MobileNet V2的剩余结构实际上增加了基于线性瓶颈结构的剩余传播。Mobilenet V2中的逆残差结构是先用层点对点卷积增加维度,再用深度卷积,再用点对点卷积,用的激活函数是RELU6激活函数,最后全连接层是线性激活函数[2]。这种卷积运算方式更有利于移动终端的使用(减少参数和m-adds计算)。由于大小提升模式在RESNET中是相反的结构,mobilenetv2将其描述为反向剩余。
3基于MobileNetV2网络模型的表情识别技术的实现
在mobilenetv2网络模型中每个瓶颈包含两个深度可分离的卷积层,构造了两个逐点卷积结构,以及一个标准卷积连接,共有十七个瓶颈层,以及54个可训练参数层[3]。在mobilenetv2中,为了使网络更深,但模型更小更快,所以使用线性瓶颈和反向残差来优化网络。
4验证、分析和课堂评估
(1)资料组
本实验中使用的数据集是正常自然状态下的fer2013数据库。
该数据库由48 × 48像素的人脸灰度图像和7类自然表情类别组成,共有35,887幅表情图像,图集包括训练、验证和测试样本。数字“0”到“6”分别代表愤怒、厌恶、恐惧、喜悦、悲伤、惊讶和平静。本实验使用的数据集不直接提供图片,而是提供一个C SV文件,包含所有的情绪和人脸数据。实验预测发生在将CSV数据转换成图像之后。
(2)实验测试
使用经过分析的FER2013数据集进行训练,并使用经过训练的MobileNetV2模型进行预测,预期结果所有表情状态准确率范围0.825~0.945,损失值范围0.055~0.175,共针对7种类型表情,进行210次测试,实验结果中,对于“平静”识别度最高,准确率达到0.913,对于“厌恶”识别度较低,准确率为0.697,整体准确率主要集中在0.763~0.867,损失值范围控制在0.133~0.227。
5结论
本文提出了一种轻量级神经网络mobilenetv2。该模型的线性瓶颈结构和逆残差结构不仅大大降低了传统神经网络的参数和计算量,而且优化了模型在相同参数下识别预测目标的精度。与ssd300、ssd521和yolov2相比,mobilenetv2网络的参数和计算量更少,精度更高,运行速度越来越快。在后续的工作中,我们将继续优化参数和模型,参考和提炼各模型的结构和优势,完善网络,为便携设备的AI应用带来无限可能。
参考文献
[1]冯扬,刘荣,陆田。基于小尺度核卷积的人脸表情识别[J].计算机工程,2021,47 (4): 262-267。
[2]基于迁移深度模型的人脸识别研究[J],广西大学学报(自然科学版),2020,10。13624 / j. cnki。issn。1001-7445.2020.1180.
[3]金辉,加韦恩,人脸,混合人脸识别系统[J],计算机学报,2000,6.
京公网安备 11011302003690号