- 收藏
- 加入书签
文本情感分析方法及应用综述
摘 要:文本情感分析已成为自然语言处理领域的重要分支。通过对相关文献进行调研和整理,得知文本情感分析技术包括基于情感词典、基于机器学习和基于深度学习的方法。通过对每种方法进行阐述,对不同方法的优缺点进行了总结,详述了每种方法针对不同的应用场景的实际应用。最后,总结出文本情感分析在技术上尚有发展空间,在应用上存在巨大的潜力,并针对相关问题对未来文本情感分析的发展趋势做出展望。
关键词:情感分析;情感词典;机器学习;深度学习;应用
0 引言
随着社交媒体、电子商务的快速发展以及移动终端越来越便捷普及,互联网已经与人们的日常生活紧密联系在一起。QQ、微信、微博以及电商平台等无时无刻不在产生大量带有情感的信息,这些情感或喜或悲,有积极的情感有消极的情感,对这些带有情感的文本进行深入的挖掘,会对诸多方面产生巨大作用。在现阶段,通过人工智能的方式来对文本进行情感计算,拥有一个广阔的领域,且具有重要意义。
文本情感分析国外起步较早,因此大多数情感分析方法都是针对英文进行的情感分析,许多相关论述也是以国外著作为权威。但随着我国计算机技术的不断提升,在人工智能尤其是自然语言处理领域,我们也表现出强大生命力,针对中文文本复杂性的特点,越来越有一套成熟的体系来解决中文文本问题。但总体来说,无论哪种语言都离不开三种文本情感分析方法,从时间发展线上依次为基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。
1 基于情感词典的方法
通过使用一个预先标记了不同情绪属性的情感词典,我们可以对文本进行有效的情感分析。通过对待分类的文本进行文本分词,并将其与情感词典中的词语进行比较,可以获取文本中相关的情感值,最终通过加权计算,从而推断出文本的总体情绪倾向。情感词典的构建方法主要包括人工标注方法以及在现有词典的基础上进行自动扩展。
因为最早构建的词典是英文词典,所以李寿山等[1]借助机器翻译,构建了中文词典;周咏梅等[2]基于HowNet和SentiWordNet构建中文情感词典,为情感分析研究提供了有效的词典资源;在中英文混合文本上,栗雨晴等人[3]提出了一种新的多语言情感分析模型,该模型基于双语词典,并在多语言情感分析和分类方面取得了良好的效果。这种方法有效地解决了情感词典在多种语言中的使用问题。随着文本内容的多元化发展,一些新词、专有名词不断涌现,情感词典的领域特性逐渐凸显,传统的情感词典已无法满足需要。为此,针对不同领域,陈国兰[4]基于已有词典和微博文本的特点,通过对微博文本的情感语义规则分析,以及对微博情感词的标注,构建了适合微博文本情感分析的情感词典,该情感分析方法对微博文本具有很强的适用性。Srishti Vashishtha等[5]利用多个词典和数据集的新颖模糊规则来计算社交媒体帖子的情绪。
当前,许多构建领域情感词典的方法是通过自动扩展人工标注的情感词来提供更丰富的信息,以满足用户的需求。具体实现方法有点互信息PMI(Pointwise Mutual Information)[6]和SO-PMI(Semantic Orientation-Pointwise Mutual Information)等[7],这两种方法的基本原理是利用一个庞大的语料库,我们可以评估两个具有不同情绪特征的新词和其他具有相似特征的种子词之间的关联性,以此来反映它们在某一特定场景中的相似程度。吴杰胜等[8]通过优化点互信息算法,通过扩充情感词典,并考虑了文本之间的语义规则,这种方法对于微博情感分析有着重要的意义。
基于情感词典的方法,简单易于理解,且对于特定领域可以取得较好的结果,但其存在以下几点局限,首先,即使情感词典的构建方法在不断更新和进步,但是文本的情感分析效果依旧取决于词典的覆盖率,且对于不同的领域,需要构建专门的词典,即任何一个情感词典都无法完美的涵盖所有的情感表达式。其次,在今天这样的信息时代,网络新词更新速度很快,面对新旧词汇的淘汰,这就要求情感词典需要及时更新。最后,基于词典的方法没有考虑上下文语义,无法灵活的针对文章或语句做出动态变化。
2 基于机器学习的方法
机器学习是一类算法的统称,其核心是学习,学习内容为大量的数据集,可以将机器学习看成通过给定的数据集来训练一个合适的模型,以此模型对待分类数据进行结果的预测。对于文本情感分析领域来说,就是通过大量有标注或者无标注的语料,由计算机构造一个这种模型,对需要进行文本情感分类的文本输出情感标签。这个模型是一个复杂函数的集合,只不过这个过程不需要人来完成,其主要包括有监督学习和半监督学习两种方法。
2.1 有监督学习
通过使用特征提取技术,我们可以从标注好的训练语料中提取出有用的信息,例如词汇、数字、情感词出现次数等。我们可以利用朴素贝叶斯、最大熵、支持向量机、逻辑回归等学习模型,对语料进行训练,并利用训练出的分类器,将其准确地分类到不同的目标群体中,从而实现有效的语言识别。
2002年,pang[9]等人首次将机器学习应用于电影评论,他们的试验结果显示,该技术应用效果良好。由于朴素贝叶斯和支持向量机在单独使用时分别会面临独立条件假设和核函数选择方面的问题,所以Sharma等[10]利用Boosting技术将“弱”支持向量机分类器整合起来,大大提高了分类器的准确度。戚天梅等[11]以外汇新闻为语料,通过对外汇新闻的分析,提出了一种融合情感词权重的机器学习算法,该算法基于朴素贝叶斯、逻辑回归、随机森林和支持向量机4种机器学习技术,实验结果表明,该算法在情感倾向分析方面具有良好的效果。针对Twitter谣言态度分析,
2.2 半监督学习
有监督学习算法需要人工标注样本数据,而互联网上散布着大量的未标注文本,若要对其标注耗费人力物力,所以利用少量有标注数据或者无标注数据的半监督学习的方法受到越来越多的重视。按照学习方法不同,半监督学习方法主要包括自学习、生成模型和协同训练。
(1)自学习方法。顾名思义就是学习器自主地将未经处理的数据进行标记,并从这些标记中挑选出具有较高可信度的样本并将其加入到训练数据中,不断扩大有标记的数据集。Mallapragada等[12]将可信样本迭代地添加到训练数据集中,并将之前的分类器与当前分类器线性合并,以提高分类效果。
(2)生成模型方法。通过生成模型,我们可以将带有标记的样本与没有标记的样本联系起来,从而获取它们的分布特征。在理想情况下,只要每一类文本都包含一条情感标签,我们就可以通过模型参数来获取它们的分布特征。Li等[13]通过引入最大边际深度生成技术,在保留了最大边际学习能力的同时,充分利用半监督学习的优势,显著提高了深度生成模型的预测性能。
(3)协同训练方法。该方法由Blum和Mitchell在1998年提出[14],以双重视角训练两个分量分类器。在训练阶段,从训练集中选择一些具备较高可靠性的伪标签,最终实现了准确的分类。
综上,机器学习技术在文本情感分析中的应用,相比传统的情感词典,更加简单、准确,但是,半监督学习技术仍然需要大量的人工干预,以确保数据的准确性和可靠性。可以在一定程度上解决这个问题,但是这两种方法特别依赖于高质量的特征选取,且均不能考虑上下文语义信息。
3 基于深度学习的方法
深度学习最早被用于图像处理,随着深度神经网络在图像领域的快速发展,它在情感分析领域也开始被广泛应用。通过将数据送入神经网络就可以自动完成对数据特征的学习,提取出数据的特征,不需要构建词典,也不需要人为进行特征设计,当学习到数据的特征后就可以使用分类器进行情感预测。使用深度学习技术来分析文本中的情感,可以克服传统情感词典方法的局限性。按照神经网络模型细分为:单一神经网络情感分析,混合神经网络情感分析,引入注意力机制的文本情感分析和基于预训练模型的文本情感分析。
最早由LeCun[15]等人提出卷积神经网络,并通过实验证明了卷积神经网络(Convolutional Neural Network,CNN)的性能,奠定了CNN的地位,之后CNN就被广泛应用到图像处理以及自然语言领域。CNN可以很好的学习到输入的局部特征,但是它无法结合文本中长距离的上下文信息。Hochreit[16]等人基于RNN 提出了长短时记忆网络,使用了三种门结构,并且加入了细胞状态,学习到的特征信息在细胞状态中进行传输,解决了RNN的长期依赖问题。更多学者使用带有门控装置的长短期记忆模型和门控循环单元等改进的模型处理情感分析任务。
就像人的视觉一样,Google Mind[17]利用注意力机制,把注意力聚焦在某些特定区域,从而使神经网络能够更好地捕捉和理解关键信息,减少无关信息的干扰,大幅提高模型的性能和准确度。Yang 等人[18]提出了一种多层堆叠的注意力网络结构,以解决文档归类问题,而Madasu[19]则将CNN的输出与循环注意力网络相结合,取得了非常出色的效果。
随着硬件设备算力的提升,预训练语言模型也逐渐进入人们的视野。该类模型通过在 大规模语料上进行学习,从而得以将文本映射到低维向量中。这些模型在包括情感分析在内的自然语言处理任务中均获得了在当时较好的表现,如word2vec、GloVe、GPT、ELMo、BERT等。加入注意力机制可以弥补低层网络长期依赖损失,在提升训练速度的同时也获得了更稳定的效果及通用性。Tian等人[20]将双向门控循环单元与注意力机制相结合,通过句子建模词汇之间的联系信息,使用注意力层捕获这些关键信息。Zhou等人[21]在双向LSTM 的基础上引入注意力机制,该模型对双LSTM的输出进行注意力计算,在只有字向量的关系分类任务中获得了更好的表现。
4 总结与展望
尽管情感词典、机器学习和深度学习等技术在情感分析领域中均取得了良好的效果,但它们仍然存在一定的局限性。随着新媒体的迅猛发展,网络上涌现出大量的新词,而这些词汇的含义也在不断变化,甚至可能会在不同的语境下产生截然不同的意义。因此,如何利用最先进的技术和方法,以便我们可以快速、准确地查找出新的词语,并且可以根据语境的变化,调整和完善我们的语言学模型,从而使我们的决策更加合理,使我们未来要努力的方向。此外,随着互联网的普及,多模态融合语料的情感分类也变得越来越重要。总之,文本情感分析面临着前所未有的挑战,但也为其带来了前所未有的发展机会。
参考文献:
[1] Li Shou-shan. Li Yi-wei, Huang Ju-ren, et a1. Construction of Chinese sentiment lexicon using bilingual information and label propagation algorithm[J]. Journal of Chinese Information Processing. 2013, 27(6): 75 81. (in Chinese)
[2] 周咏梅,杨佳能,阳爱民.面向文本情感分析的中文情感词典构建方法[J].山东大学学报(工学版),2013(6):27-33. DOI:10.6040/j.issn.1672-3961.1.2013.246.
[3] 栗雨晴,礼欣,韩煦等.基于双语词典的微博多类情感分析方法[J].电子学报, 2016, 44(9): 2068-2073.
[4] 陈国兰.基于情感词典与语义规则的微博情感分析[J]. 情报探索,2016(2):1-6. DOI:10.3969/j.issn.1005-8095.2016.02.001.
[1] Srishti Vashishtha, Seba Susan.Fuzzy rule based unsupervised sentiment analysis from social media posts[J]. ExpertSystemsWithApplications,2019, 138: 1-15.
[2] Church K W, Hanks P. Word Association Norms, Mutual Information, and Lexicography[J]. Computational Linguistics,1990, 16(1): 76-83.
[3] Turney P D, Littman M L. Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J]. ACM Transactions on Information Systems, 2003, 2 1(4): 3 l 5-346.
[4] 吴杰胜,陆奎.基于多部情感词典和规则集的中文微博情感分析研究[J].计算机应用与软件,2019,36(9):93-99. DOI:10.3969/j.issn.1000-386x.2019.09.017.
[5] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learn-ing techniques[J]. arXiv preprint cs/0205070, 2002.
[6] Sharma A, Dey S. A boosted SVM based ensemble classifier for sentiment analysis of online reviews[J].ACM SIGAPP Applied Computing Review,2013,13(4):43-52.
[7] 戚天梅,过弋,王吉祥等.基于机器学习的外汇新闻情感分析[J].计算机工程与设计,
[8] 2020,41(6):1742-1748.DOI:10.16208/j.issn1000-7024.2020.06.039.
[9] Pavan Kumar Mallapragada, Rong Jin, Anil K. Jain, Yi Liu. SemiBoost: Boosting for semi-supervised learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2009, 31(11):2000–2014.
[10] Li C, Zhu J, Zhang B. Max-Margin Deep Generative Models for (Semi-)Supervised Learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 11(40): 2762-2775.
[11] Zongkai Yang, Zhi Liu, Sanya Liu, Lei Min, Wenting Meng. Adaptive multiview selection for semi-supervised emotion recognition of posts in online student community [J]. Neuro- computing. 2014, 144(1):138–15.
[12] Lecun Y , Bottou L . Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[13] Hochreiter S , Schmidhuber J . Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.
[14] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[C]. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), New Orleans, Louisiana, 2018, 2227-2237.
[15] Mnih V, Heess N, Graves A, et al. Recurrent models of visual attention[J]. Advances in Neural Information Processing Systems, 2014, 3.
[16] Madasu A, Rao V A. Sequential learning of convolutional features for effective text classification[J]. ArXiv, 2019, abs/1909.00080.
[17] Tian Z, Rong W, Shi L, et al. Attention aware bidirectional gated recurrent unit based framework for sentiment analysis[C]. International Conference on Knowledge Science, Engineering and Management, Springer, Cham, 2018: 67-78.
[18] Zhou P, Shi W, Tian J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]. Proceedings of the 54th annual meeting of the association for computational linguistics (volume 2: Short papers), Berlin, Germany, 2016: 207-212
本文系:2021年度河北省高等教育学会“十四五”规划课题,重点课题编号GJXHZ2021-22,一般课题编号GJXH2021-105
京公网安备 11011302003690号