• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于语音与人脸表情信息的情感识别算法分析

朱良 陈艳 余秋月
  
文理媒体号
2024年14期
安徽文达信息工程学院 计算机工程学院

摘要:随着社会不断的进步,信息科技的不断发展,人机交互技术的出现为人类的生产生活提供了更加快捷的方式。在人机交互的情感识别领域,通过使用计算机处理、分析各种情感信号,可以识别人的情感状态,进而实现人机的良好互动。因此,通过融合不同渠道的情感特征来完成情感识别已成为当下一种新的发展趋势,将语音与人脸表情信息进行融合识别也成为一个研究热点。

关键词:语音;人脸表情信息;情感识别算法

引言

情感识别技术是一种能够识别和理解人类情感状态,它广泛应用于智能交互、情感计算、心理健康评估等领域。在实际应用中,情感识别技术通常需要同时分析语音和面部表情两种模态的信息,因为它们分别携带了不同的情感信号。

1基于语音的情感识别

1.1语音情感特征提取

不同情感状态下人的音调、强度、振幅、基频、共振峰、持续时间等都不尽相同,这些差异为语音情感特征提取提供了丰富的信息。在实际应用中,通过分析这些特征,我们可以有效地识别和理解人类的情感状态,从而为智能交互、情感计算、心理健康等领域提供有力支持。首先,音调是指声音的高低,它与情感状态密切相关。一般来说,快乐、兴奋的情感状态对应的音调较高,而悲伤、沉闷的情感状态对应的音调较低。通过提取音调特征,我们可以初步判断说话者的情感倾向。其次,强度是指声音的响度,它反映了说话者情感的激烈程度。快乐、愤怒等强烈情感通常伴随着较大的强度,而平静、悲伤等较弱情感则表现为较小的强度。因此,通过分析强度特征,我们可以了解说话者情感的强度,进一步丰富情感识别的结果。再者,振幅是指声音波形的峰值,它与声音的响度和情感状态有关。一般来说,较大振幅对应较大响度,而较大响度往往与强烈情感相关。因此,振幅特征可以作为情感识别的一个参考指标。基频是指声音的基本频率,它与音调密切相关。不同情感状态下,基频会有所变化。

1.2MFCC特征提取

MFCC特征提取在语音信号处理中占有重要地位,因为它能够有效地提取出语音信号中的关键特征。MFCC特征提取的主要步骤包括预处理、Mel频率倒谱系数计算和倒谱分析。预处理阶段主要包括采样、窗函数处理和归一化等操作。采样是指将连续的语音信号转换为离散的数字信号,窗函数处理是为了减少信号的边缘效应,归一化则是为了消除信号的强度差异。Mel频率倒谱系数计算是MFCC特征提取的核心部分。它首先将语音信号的频率域转换为Mel频率域,Mel频率是一种非线性的频率单位,能够更好地模拟人的听觉特性。然后,通过一系列的数学运算,将Mel频率域的信号转换到倒谱域,得到倒谱系数。

1.3基于语音特征的情感识别分析

基于单一的语音特征进行情感识别需要在语音情感数据库SAVEE中选择最佳的音频数据。这个过程涉及到对语音信号的预处理,包括去噪、增强和特征提取等步骤。对于情感识别,常用的语音特征包括音高、能量、音色、语速和音量等。这些特征可以从不同的角度反映说话人的情感状态,但单一的特征可能无法准确描述复杂的情感信息。因此,研究者们提出了基于多种特征的融合方法,以提高情感识别的准确性和稳定性。基于多种特征的融合方法可以综合不同特征的优势,提高情感识别的准确性和稳定性。常见的特征融合方法包括早期融合、晚期融合和模型级融合等。早期融合在特征层面进行,即将不同特征进行组合,形成一个统一的特征向量。晚期融合在模型层面进行,即将不同模型的输出进行组合,形成最终的识别结果。模型级融合则是在模型的层面进行,通过训练一个多任务学习模型来同时预测情感类别和具体情感强度。

2基于人脸表情信息的情感识别

2.1图像预处理和人脸检测

图像预处理和人脸检测是表情识别中非常关键的两个步骤。图像预处理主要是为了提高图像的质量,使得后续的特征提取和分类更加准确。人脸检测则是为了定位图像中的人脸,只有找到了人脸,才能对其进行表情识别。在图像预处理阶段,通常会涉及到图像去噪、对比度增强、颜色归一化等操作。这些操作可以有效地改善图像的质量,消除图像中的干扰因素,使得后续的特征提取更加准确。人脸检测通常使用Haar特征和Adaboost算法来进行。这种方法通过训练大量的弱分类器,然后将它们组合成一个强分类器,用于检测图像中的人脸。在实际应用中,还可以使用深度学习的方法来进行人脸检测,例如使用卷积神经网络(CNN)来提取特征,然后使用支持向量机(SVM)来进行分类。在完成了图像预处理和人脸检测之后,就可以对图像中的人脸进行表情识别了。这通常涉及到特征提取和分类两个步骤。特征提取是从图像中提取出与表情相关的特征,例如眼睛的开闭程度、嘴巴的形状等。分类则是根据提取出的特征,将图像中的表情分类到特定的类别中,例如开心、生气、悲伤等。

2.2基于BOW模型的人脸表情图像集合

(1)图像的BOW模型。图像的BOW模型是通过局部关键部位图像块对整体表情进行更高级的描述,其基本原理是将图像类比为文档,将图像看成是一系列独立的图像块,将图像块中的特征向量看成是图像中的单词,然后忽略单词的语法和语序,最终用一个向量表示该文档。BOW模型生成的步骤包括随机提取、密集采样和块提取的局部特征提取,包括具有较强鲁棒性的DenseSIFT特征提取,较为经典的K-means聚类算法,然后生成码本,用直方图进行表示。(2)空间金字塔匹配。空间金字塔匹配是在不同层次上对图像进行规则分块,然后将每个字块中的视觉特征映射形成各自的直方图,然后将其连接起来形成空间金字塔图像描述。SPM算法是用来衡量两个数组的相似度,经过SPM匹配的BOW模型增加了不同情感类别之间的差异性,同时增加了计算的复杂程度,因此需要对其进行进一步的编码处理,以此减少重构误差,提高情感识别的效率。

2.3基于人脸表情信息的情感识别分析

基于人脸表情信息的情感识别,是对人脸表情样本进行预处理之后,提取DenseSIFT特征算子,通过设置单一变量原则进行多次试验,可以选择识别正确率最高的参数,来调整步长控制采样密度。这一过程的关键在于对表情变化的细腻捕捉与精准分析,从而使得机器能够更加准确地识别和理解人类的情感状态。在完成特征提取后,接下来便是通过机器学习算法对表情数据进行训练,以构建出一个高效的情感识别模型。常用的算法包括支持向量机(SVM)、随机森林(RF)、神经网络(NN)等。这些算法都具有各自的优缺点,例如SVM在处理小样本、高维数据时表现优秀,而神经网络则在大规模数据训练上更具优势。因此,选择合适的算法对于提高情感识别的准确性至关重要。此外,为了使情感识别系统具有更好的泛化能力,我们需要对模型进行大量的数据训练和验证。这一过程不仅需要充足的样本数据,还需要考虑到样本的多样性和代表性。只有这样,才能确保情感识别系统在实际应用中能够准确地识别各种复杂的情感状态。

结语

随着社会经济技术的不断发展,情感识别技术已成为当前人机交互领域研究的热门话题。基于单一语音或者人脸表情信息进行的情感识别具有一定的局限性,考虑两者特征之间的内在联系,采用CCA算法融合语音与人脸表情信息的情感识别。通过仿真实验可以融合多种特征,从而提高情感的识别率,最终实现人机之间的良好互动。

参考文献

[1]翟蒙锁.人脸表情特征提取与识别算法研究[D].芜湖:安徽工程大学,2019.

[2]路婷婷.基于语音和人脸表情的多模态情感识别算法研究[D].西安:西北大学,2019.

[3]王喆.基于语音和面部表情融合的情绪识别算法研究及其实现[J].北京:北方工业大学,2020.

项目号:安徽省大学生创新创业训练项目, S202312810027。

基于集成深度神经网络的人脸情感识别算法研究.省级重点科学研究项目.2022AH052852。

青年骨干教师境内访学研修资助项目 JNFX2023091。

*本文暂不支持打印功能

monitor