基于嵌入式系统病人行踪溯源的应用

郝天然

徐州联通江苏省徐州市 221000

打开文本图片集

摘要：本文深度学习的基础上，针对人脸检测与识别模型在身份认证上的准确性和嵌入式系统算力的特点，提出了基于嵌入式系统的人脸监测系统，本文的研究内容主要包括四个方面：人脸检测、人脸姿态优选、人脸识别和人脸检测系统设计，研究成果在医院病人行踪溯源中进行了应用。

关键词：人脸检测；人脸识别；身份认证；姿态优选

1研究背景

人脸监测的应用非常广泛，尤其是在医院病人的行踪溯源中，能够快速定位到相关目标人员的位置，但是由于深度学习模型的参数量过大、推理速度过长以及算力要求过高的因素的影响，导致其在实际的部署应用中存在大量的困难，尤其是在同时监测大量目标时，对运行硬件的算力要求也呈几何倍率增加。人脸监测系统主要是实现在视频监控中自动找寻给定目标的功能，该系统由两部分构成：人脸检测和人脸识别。人脸检测是从从原始人脸图像中找寻其中隐藏的人脸关键结构信息。人脸识别是基于人脸特征向量数值的不同，映射到欧式空间中再对向量进行比对找寻特定目标的一种识别方法，再对特征信息进行阈值比较，判断是否为目标人物。针对人脸检测与识别网络体积太大，运行速度慢，时间成本高等问题，研究者们开始转向研究轻量级的网络，随着研究的进展，轻量级网络的性能也逐渐提高，也使得其在嵌入式系统上的使用越来越普遍。

传统的方法大致分为两种，一种是将AdaBoost（Adaptive Boost）算法和PCA （Principal Component Analysis）技术结合错误！未找到引用源。，错误！未找到引用源。，对图像中的人脸特征进行检测，并将检测到的特性信息降维到特征脸子空间中，将识别分类器进行预训练后移植到嵌入式系统中，最终对比不同的人脸特征，实现人脸的识别，在小样本测试集上能够取得92.7%的识别率。

另外一种是利用Opencv中的Eigenface、Fisherface以及LBPH三种算法完成人脸识别错误！未找到引用源。，首先是使用Eigenface将主成分分析中的人脸识别和描述特征导出，然后再把Fisheerface与PCA降维以及LDA（Linear Discriminant Analysis）特征提取方法相结合，将多维的人脸投影在一维的特征空间上，从而得到一组特征向量来代表人脸的特征，最后再利用LBPH（Local Binary Patterns Histograms）算法提取人脸特征，获取整幅图像的编码直方图，通过比较不同人脸图像编码直方图完成人脸的识别。

相比于传统的方法需要手动设计来提取图像特征的繁琐，深度学习模型的使用更加简单，但是其结构也更加庞大，对设备的要求也更高，所以在嵌入式系统中使用轻量级神经网络也越来越普遍，李博健错误！未找到引用源。使用残差网络完成人脸的识别，并在全连接层前搭配随机失活，采用比量标准化方法来控制卷积层参数的分布，解决网络的过拟合问题，网络最终测试能够达到92%的准确率。游忍等人使用TINY-YOLO算法，它是YOLO算法的轻量化版本，解决模型过大和在嵌入式处理器上运行时间过慢的问题，人脸检测的精确度能够达到99%，相比于使用MTCNN，精确度降低了0.5%，但是检测速度有明显增加，解决了MTCNN因人脸数量增加运行时间显著增加的问题。轻量化的E-YOLO算法，进一步减少了卷积核的数量，相比TINY-YOLO算法E-YOLO的Recall高，速度也更快，但精度有所下降，测试的准确率仅仅只有85.5%。

Zhao X等人在嵌入式系统上使用EagleEye模型搭建人脸检测系统，该模型能够在低计算能力的嵌入式系统上保持高精度和准实时性之间的良好平衡，并且模型没有太多的冗余结构，能够在不增加太多浮点运算的情况下进一步提高精度。Lv X等人提出改进MTCNN方法，将OMTCNN模型和基于CNN的轻量级人脸识别算法（LCNN）结合，构建了一个多核的嵌入式人脸识别系统，测试精度能够达到95.78%，并且降低了模型本身的复杂度，使得计算速度提高了6.4倍。Saypadith S提出一种多人脸识别框架，并将其应用到嵌入式GPU系统中，实现了多人脸的准实时识别，该模型对网络结构的参数做出调整，进一步减少了网络的参数量，并在框架中加入跟踪技术，标定重复热人脸，以减少处理时间，最终的识别准确率大于83.67%。

通过对人脸识别算法的研究与分析，发现现有的人脸识别算法的识别精度已然很高，但是算法的参数量却较大，较大的模型参数量直接影响了算法的运行效率，导致识别的时间相对较长，无法满足在嵌入式系统上的实时应用。上述算法模型虽然在准确率上取得了不错的成绩，但是模型本身的参数量巨大，导致其很难试试应用在嵌入式系统上，较大的参数量和模型体积仍旧阻碍着模型在嵌入式系统上的应用，所以设计轻量化的高效模型对其在嵌入式上的应用至关重要，目前针对模型轻量化的方法大致分为两类，一类是在现有大网络模型的基础上，对网络的参数进行压缩；另一类是抛弃原有的大型网络，直接设计轻量化的网络

随着计算机视觉技术的发展，基于深度学习的人脸检测方式应用在嵌入式系统上，但是在大多数的医院监控场景中仍然存在着诸多困难，尤其是处理实时视频监控的监测。首先由于需要识别的监控视频众多，对每一个视频进行检测和识别，给后台计算机带来极大的压力，不能实现人脸的快速检测和识别；然后，深度学习模型的大型化也需要很高的计算机性能，尤其是在多路视频同时识别时，后台计算机就显得力不从心。故需要将人脸检测与识别前移到前端摄像机的嵌入式系统中，分散后台计算机同时处理上千路视频的压力，同时要求有较高的实时性，这就要求模型的参数量和体型必须足够精简，而如何对模型进行缩减并保持其较高的识别准确率仍是一个需要深入研究的课题。

2 研究方法

本文通过在嵌入式设备Jetson Xavier NX上部署轻量级的人脸监测系统完成医院中病人行踪溯源工作的身份认证，系统的主要监测模型由人脸检测与人脸识别两部分构成，并在人脸检测的基础上进一步引入了人脸姿态优选方案，提前剔除不符合识别条件的待识别人脸，确保系统监测的高效性与有效性，系统的主要结构如图1所示：

2.1 人脸检测

针对医院场景下模型误检率过高的问题，本文利用空洞卷积操作进一步提升模型的感受野范围，空洞卷积也叫膨胀卷积或者扩张卷积，常用的操作是在卷积核的每一个相邻元素之间插入一个或多个空格，通过插入的空格扩大卷积核的大小，从而使其每一次卷积操作映射到特征图上的区域更大。

空洞卷积有效扩大了感受野的范围，并且由于卷积操作的相关参数和常规卷积保持一致，所有使用空洞卷积的感受野范围更大并且不会因卷积核的扩大而产生更大的计算成本。因此使用空洞卷积能够有效的扩大感受野的范围而不会产生额外的计算量。

通常神经网络结构中会使用大量的池化层操作来进行下采样，大量使用池化层的结果就是网络会损失掉一部分相关信息，在解码上采样重建分辨率的时候产生一定的影响，而采用空洞卷积能够很有效的解决这部分问题。本文在检测模型中加入不同扩张率的空洞卷积操作，进一步扩大网络模型感受野的范围，增强模型获取上下文信息和大尺寸特征信息的能力，并且通过残差连接操作，完成上下层之间的信息融合，实现提取图像特征时的恒等映射，以此来增强模型检测人脸的能力。

2.2 人脸姿态优选

针对医院场景下人脸对姿态的问题，本文设计了人脸姿态优选策略，人脸姿态优选主要是对人脸检测模型的结果进行质量筛选，去除其中不符合条件的人脸信息。最初的方式是对对图像的边缘信息进行检测，根据轮廓信息去除不符合人脸特征的部分，或者直接判断输入图像的清晰度是否达标，但是表现大都不如人意；后面又尝试将人脸信息映射到三维空间，通过计算人脸的姿态角判别人脸姿态的朝向，或者通过深度学习的方式判断人脸是否遮挡、模糊和异常姿态等，但是收效甚微。并且由于人脸姿态的评估非常负责，在评估过程中也会占用非常多的计算资源，所以为了能使模型更好的适应嵌入式系统，本文采用了一种不严格的人脸姿态评估策略。通过对人脸姿态左右偏转和俯仰角度的判断，大致估算人脸的姿态位置，从而剔除不符合条件的人脸信息，通过这种人脸姿态估算策略，能够快速有效的计算出人脸的大致姿态，节省计算资源。

本文在以人脸的五个检测关键点作为本文姿态优选方法的参考点，通过对比左眼，右眼，鼻尖，左嘴角，右嘴角这五个点的相对位置，大致判断出检测到的人脸姿态，从而剔除偏转角度较大的人脸，仅保留在规定角度范围之内能够被后续的人脸识别模型正确识别的小角度人脸。

通过计算人脸的左眼与左嘴角和右眼与右嘴角到鼻尖之间的距离比值来确定人脸左右偏转的姿态，由于人脸具有对称性，在无左右偏转的情况下，人脸的左右距离是大致相等的，此时得到的左右偏转的数值，通过计算人脸的左眼到右眼之间的距离与左眼到左嘴角之间距离的比值来确定人脸上下偏转的姿态，筛选出最适合后续人脸识别网络完成人脸的识别。

2.3人脸识别

针对医院场景下人脸质量较差特征较少的问题，本文在人脸识别模型中引入了注意力增强模块，进一步提取特征信息，强化模型的特征提取能力，使其能够在嵌入式系统上使用，模型在基线算法上引入注意力增强模块，进一步提升网络提取特征信息的能力，该模块由通道注意力模块、空间注意力模块和显著区域挖掘模块组成。

其中通道注意力模块的是找寻图像特征中权重比重最大的通道，主要目的是为了让输入到网络中的图像变得更有意义通道注意力模块关注的是哪个通道上的特征是有意义的，主要是通过网络的计算得出输入图像各个通道的权重，从而获取到不同的权重信息。根据这些权重信息确定哪些通道包含的关键性信息较多加以关注，对不包含重要信息的通道给予较少的关注，并帮助网络对特征信息进行校正，校正后的特征信息会剔除没有价值的信息，仅保留有价值的特征。空间注意力模块是基于一个具体的通道，找到一个特征图上哪一块的聚集信息最多，找寻最有价值的信息，是作为通道注意力的补充。

显著区域挖掘模块，其主要作用是找到特征图中注意力最显著的区域。通过捕捉特征图中局部区域的显著性来确定显著性信息的分布，在注意力模块找到显著区域的基础上，基于整个特征图，找到最有价值的信息区域。

在主干网络后添加注意力增强模块，进一步提取特征信息，强化模型的特征提取能力。工作原理主要是在主干网络的基础上，对主干网络的输出进行特征信息的进一步提取，加入通道和空间注意力模块计算得出特征的权重信息分布，找到当前特征图中最显著的图像特征信息分布区域。通过显著区域挖掘模块对这一部分区域进行标记提取，引导网络的学习重点到最有价值的区域上，将关注的重点信息进行输出。同时对下一次级联的输入特征进行显著区域的抑制，仅保留除最显著区域外的所有特征信息，在抑制显著特征的特征图中再次找寻挖掘当前最显著的特征，通过多次不同的级联操作，完成不同层次的特征信息提取。

2.4 人脸监测系统

在上述人脸检测与识别算法基础上，本文在 Jetson Xavier NX嵌入式设备上设计了人脸监测系统，Jetson Xavier NX 具有高达 21 TOPS的 AI 性能，能够承载深度学习模型的运行。本文设计的人脸监测系统以pytorch 深度学习框架作为算法的实现支撑，搭配 python 的库函数完成对输入视频信息的处理，同时将识别到的目标信息以图片的形式保存，方便后续的查找，并且在实现快速识别视频目标人员信息的同时，系统仍能保持很高的识别精确度。

视频分割后的每一帧视频都要先经过人脸检测网络对画面进行是否有人脸信息的检测，若当前帧中未检测到含有人脸信息，系统跳过对该帧的识别，进行下一帧视频画面的检测。系统检测到画面中的人脸信息之后，会通过人脸姿态优选策略对人脸姿态进行判别，剔除掉较大姿态的人脸框，然后判断姿态优选后的画面是否还有人脸信息。若没有人脸信息则进行下一帧视频画面的检测，最终将经过人脸检测网络检测和姿态优选后的存在人脸信息的一帧画面送入下一步人脸识别网络。

在人脸识别网络中，计算当前帧画面中每一张人脸的特征向量，在对所有的人脸信息计算之后，与目标数据库中的目标特征进行对比，找寻出其中与待识别人员欧氏距离最小的特征向量。判断这个最小欧氏距离是否小于系统设置的阈值，若小于阈值则判定是同一张人脸，系统找到目标并在画面中进行特殊标记，将该帧画面保存到文件中，方便后续的查阅，当数据库中所有的待识别人员都对比完成后，反馈识别结果到用户界面的。当系统对多个标人员进行识别，用多线程的方式完成每一个人员的识别和欧氏距离的对比，节省系统的时间开销。每一帧画面识别完成后都会判断视频是否结束，若监控继续或者视频还未结束则进行下一帧的检测和识别，当所有视频识别完成后，将所有检测识别的每一帧画面合成带识别标记的视频，并将所有的识别出有目标人员的每一帧画面保存到文件中，完成本次视频识别。

3 结束语

本文基于医院中病人行踪溯源的实际案例展开研究，主要研究了其中身份认证的相关问题，针对医院环境中人脸检测的高误检率提出了增大模型感受野的改进方案，并在检测模型后加入人脸姿态优选方案去除了大量的不符合识别条件的待识别人脸；在人脸识别部分加入注意力增强模型进一步增强了模型的特征提取能力，有效提升了模型的识别准确率，并最终搭建在嵌入式设备上使用，对于医院中病人行踪溯源具有重要意义。

参考文献

[1]李博.基于嵌入式人脸识别的高校图书馆智能门禁系统设计[J].现代电子技术，2021，44（04）：49-53.

[2]李妹.基于opencv的人脸识别系统的应用研究[J].信息系统工程，2020（12）：85-87.

[3]吴振.嵌入式平台下戴口罩的人脸识别研究[J].电脑知识与技术，2020，16（30）：228-229.

[4]李博健. 基于Resnet的人脸识别系统的实现[D].哈尔滨理工大学，2020.

*本文暂不支持打印功能