- 收藏
- 加入书签
基于TensorFlow的手势识别研究
摘 要 在手势识别的过程中,手势的多样性和复杂性会对识别的可靠性和准确性带来较大影响。为了能够提高手势识别的识别速度和准确率。本文使用 Google 的开源 TensorFlow 框架构建手势识别模型,介绍了 TensorFlow 的平台特征,提出了基于TensorFlow 框架的卷积网络模型,介绍了深度学习算法的具体流程,并提出对未来手势识别发展的展望。
关键词 手势识别;TensorFlow;卷积神经网络;深度学习算法
1. 引言
随着人工智能技术的快速发展,深度学习算法已经引起了广泛的关注。卷积神经网络是目前深度学习技术领域中非常具有代表性的神经网络之一,在图像分析和处理领域取得了众多突破性的进展。由于其速度快且功能强大的分类能力已成为图像分类领域的一个热点算法。[ ]
手势识别的步骤一般分为测试分割、特征分析 和特征识别。测试分割主要完成手势检查和分割的 任务,特征分析主要进行特征检测,特征识别完成特征提取和手势识别。[ ]
TensorFlow是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现。TensorFlow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算。本文建立在TensorFlow的框架下提出了一种基于卷积神经网络的手势识别模型,并设计了一个手势识别库基本网络。
2. 神经网络的结构设计
2.1 LeNet-G神经网络的概念
LeNet-5是CNN的8层卷积网络结构,其网络结构除了两个卷积层和两个池化层以外,还有两个完全连接的层以及两个输入和输出层。但是,越复杂的网络结构,所需要的训练时间也就越长,这就影响了网络的通用性和实时。本文基于LeNet-5 结构,设计了卷积神经网络 LeNet-G结构,用于手势识别。该网络可以在较短的时间内提取手势特征进行分类。[ ]
2.2 卷积层
卷积层是一个卷积神经网络中最重要的部分。卷积层是一组平行的特征图,它通过在输入图像上滑动不同的卷积核并执行一定的运算而组成。此外,在每一个滑动的位置上,卷积核与输入图像之间会执行一个元素对应乘积并求和的运算,以将感受野内的信息投影到特征图中的一个元素。一般来说,通过卷积层处理之后深度会增加。
2.3 池化层
池化是卷积神经网络中另一个重要的概念,有多种不同形式的非线性池化函数,而其中“最大池化”是最为常见的,可以认为是将一张分辨率高的图片转化为分辨率低的图片,通过池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。
2.4 全连接层
在经过多轮卷积层和池化层处理之后,在卷积神经网络的最后一般会由1到2个全连接层来给出最后的分类结果,且可以认为图像中的信息已被抽象成了信息含量更高的特征。我们可以将卷积层和池化层看成自动图像特征提取的过程,在特征提取完成之后,仍然需要使用全连接层来完成分类任务。全连接层的每个神经元都与所有上层神经元相连。
3. 基于TensorFlow的CNN手势识别模型构建
3.1 TensorFlow 的特点
TensorFlow是一种用数据流图进行计算的开源软件库,每个Tensor 是一个类型化的多维数组,图必须在会话里被启动。相比其他深度学习框架TensorFlow 具有高度的灵活性和可移植性,可以在CPU 和 GPU 上运行,以及台式机、服务器以及移动终端设备上运行。[ ]
该程序分为两个阶段:
第一阶段:定义有向图中的所有计算。执行计算操作前先构造一个有向图、并创建常量和变量,有向图由单个节点和边组成。
第二阶段:执行计算。通过启动有向图来创建会话对象,并通过执行结点操作以更新变量,最后保存数据。[ ]
3.2 CNN模型结构
该模型分为两个部分:训练和识别。模型给出了网络训练部分的初始权重,并通过训练样本对卷积网络结构每一层的权重进行了调整,以减少实际输出误差。识别部分的权重直接使用从训练中获得的权重,并用测试集进行测试,输出为手势识别的结果。
4. 深度学习算法的特点
深度学习算法将大量的训练样本输入到神经网络中,产生预测输出,通过计算预测输出和实际输出之间的误差,并利用误差反馈来优化网络中的权重。具体应用中,将图像展平为矢量,将图像向量传递给单个神经元组件负责处理。有别与传统的特征提取,深度学习算法提取的特征是自己学习计算而来的,而不是人为给定的特征形式。常用的深度神经网络结构通常由数据输入层、卷积计算层、池化层、全连接层构成。
5. 总结与展望
基于深度学习的手势识别算法是当前研究的热点和未来的发展趋势,基于卷积神经网络的手势识别模型的设计具有很大的开发和应用潜力。相对于传统的手势识别算法,深度学习已取得非常高的正确率。静态手势识别是动态手势识别的基础,未来将在不断完善静态手势识别精度和速度的基础上,继续深入研究动态手势识别。
参 考 文 献:
1、陈甜甜,姚璜,左明章,等. 基于深度信息的动态手势识别
综述 [J].计算机科学,2018,45( 12) : 42-51,76.
2、刘玉鹏.动态手势识别和跟踪算法研究[D].济南:山东2019.
3、朱越,李振伟,杨晓利,等. 基于视觉的静态手势识别系统[J].计算机技术与发展,2019,29( 2) : 69-72.
4、祝永志,张彩廷 . 基于 TensorFlow 深度学习的 Minist手写数字识别术 [J]. 通信技术,2020, 53(1):46-51.
5、PHAN-XUAN H,LE - TIEN T,NGUYEN-TAN S.FPGA platform applied for facial expression recognition system using convolutional neural networks[J]. Procedia Computer Science, 2019,151: 651-658.
作者简介:李威醒,男,2001.07,汉,河南省周口市
,本科,研究方向:人工智能
京公网安备 11011302003690号