• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于文本情感倾向性的高校网络舆情分析与研究

高远 马新泉 王春一
  
卷宗
2023年22期
南京工程学院

打开文本图片集

摘要:高校网络舆情复杂多样,且往往由突发事件引发,对应急速度有极高的要求。为了把握高校网络舆情的特点、动向和发展态势,采用基于文本情感倾向性的分析方法,利用爬虫收集微博中与高校舆论相关的话题文本,并运用jieba进行词频统计,利用词云实现热词可视化,以直观了解当前高校舆情热点;另外,使用SnowNLP和情绪正负向分析理论对每个帖子文本的情绪倾向进行分析。实验结果表明,包括高校学生在内的公众对高校舆情的态度中,积极情感占比51%,中立情感占比48%,消极情绪占比1%,并得到高校舆情热词词云图和文本情感值列表,为高校舆情管理和引导提供了更为有效的参考依据。

关键词:高校网络舆情;情感分析;微博;词云;Jieba;SnowNLP

引言

根据《2021年中国互联网舆论场发展研究报告》显示,“截至(2021年)第三季度末,微博月活跃用户达5.73亿。”可见微博这类社交媒体在中国互联网场域内具有巨大的影响力[1]。随着互联网的发展,大学生们越来越倾向于通过社交媒体表达对学校管理、社会现象等方面的意见和看法。同时,高校舆情在社交媒体上传播的速度和范围也更快、更广,对高校舆情的处理和管理带来了新的挑战和机遇。

然而,由于网络社交平台的特性,传统的观点挖掘和情感倾向性分析技术已经不能满足高校处理数据的需求。此外,高校舆情信息的数据量更大,传播速度更快,危机事件频发,对高校造成了负面影响[2]。

1研究设计

本研究综合并优化了爬虫技术、Jieba文本处理技术与SnowNLP和情绪正负向分析理论等,采用的研究方法如下:

(1)数据采集:利用Python网络爬虫爬取新浪微博中与高校舆论相关话题下的博文,并将其作为分析对象。

(2)数据清洗:借助第三方库OpenccPy等[3],针对去重复数据等情况进行处理,以提高精确度和可靠性。

(3)Jieba分词及高频词统计:使用Jieba分词来对收集到的高校网络舆情文本进行处理,并进行高频词统计。

(4)Word Cloud词云图绘制:调用WordCloud库设计热词数据词云图。

(5)情感倾向性分析:使用SnowNLP针对每个数据提取情绪倾向,计算高校网络舆情数据中各类情感的占比。

2数据收集与数据清洗

2.1数据源的选取

微博广泛的用户基础和丰富的博客内容使得微博成为了研究校园舆情的有力数据源[4]。我们选择微博作为本文的数据源,主要基于以下几个方面原因:

(1)年轻化用户群体:微博用户以90后和00后年轻人为主,这些人群通常在社会事件中持有不同的观点,并通过微博表达出来。

(2)传播能力强:用户发布的博客可以通过转发等方式推送给其他用户,从而形成更加广泛的互动。

(3)内容即时性高:微博信息共享便捷迅速,其热搜等功能也为用户提供了更方便地了解社会事件和舆情的手段。

2.2数据采集

本研究采用python第三方库selenium进行模拟登录和搜索[3]。首先获取微博登录界面账号登录位置的元素属性,并根据这些属性通过xpath定位方法定位到登录位置。然后,利用相同的定位方法找到搜索框,输入与校园舆情相关的关键词进行搜索。为了提高效率,使用css selector定位方式来抓取所需要的数据信息。与xpath不同,css selector语法简洁、易读,且执行速度较快,因此可以更加高效地抓取大量数据[5]。并保存所爬取的高校舆情相关数据,以便后续分析。本次爬取的有关校园舆情的微博话题包括“#高校学生光盘行动被食堂阿姨记录表白#”等热度较高的话题。

2.3数据清洗

数据清洗可以保障被用于情感倾向性分析的数据质量[6]。由于用户在微博平台上发布的内容都是自行编写,很容易造成收集到的数据内容被不准确分析。针对以下情况进行处理:

(1)去重复数据:用户可能会重复发布同一内容,需采用直接删除等方式来消除其影响[7]。

(2)去无用符号:文本中可能存在空格或由用户误引入的无用符号,容易被误认为是独立词汇而影响分词结果。

(3)去表情符号:表情符号通常带有强烈的情感倾向性,但由于无法被读取,需从数据中删除这些表情符号。

(4)繁体文字转换:若文本既有繁体文字又有简体文字,处理起来会比较困难。

3高频词统计与热词数据可视化

3.1Jieba分词和高频词统计

Jieba分词工具是一款基于Python的中文分词器,采用前缀词典实现了词图扫描和动态规划查找最大概率路径的方法,能够快速地分词并得出最佳组合,同时保证分词准确性[7]。通过Pandas库的read_csv()方法导入经过简单数据清洗的弹幕文本数据,并利用Jieba库中的jieba.lcut()方法实现对高校舆情相关文本的分词处理。然后通过遍历循环将无效词汇进行剔除[4],从而提高分词结果的准确性。

其次,采用基于TF-IDF算法改进的TF-IDF-IF算法的关键词抽取方式[7]。TF-IDF-IF算法如下:

ncij表示术语j出现在我所属的同一类c文档中的文档数,NCi表示我所属的同一类c文档中的文档数。

本研究将出现次数大于等于3次的中文词语作为统计对象,共统计到130个高频词。

3.2Word Cloud词云图绘制

词云是一种可视化方法,通过对文本进行分析和过滤来形成关键词聚类,并突出显示出现频率较高的词汇。

在高校舆情相关博文文本中,通过生成词云并将出现频率较高的“关键词”予以视觉上的突出,直接地展现出博文的主旨,不仅直观地展示公众对高校舆情的主要关注点和态度,还能够更直观地体现出不同热点的热度大小差异。热词生成的词云如图2所示。

4文本情感倾向分析

4.1SnowNLP情感分析原理

SnowNLP使用情绪评分来表示情感极性,得分越接近1,情感表现越积极;得分越接近0,情感表现越消极[4]。本文利用SnowNLP进行相关博文中情感句子以及词汇的提取和情感值分析。首先,读取已经分好类的文本negt.txt和pos.txt,其次,调用SnowNLP库的sentiments方法,将每条博文的文本内容作为输入,获取其情感得分。最后,我们将所有博文的情感得分进行加权评分,以得到人们的情感评分。利用SnowNLP进行高校网络舆情相关话题的博文文本情感分析,有助于高校管理者更好地理解大众对于高校事件的态度和看法,从而指导相关舆情管理和传播策略的制定。

4.2实验结果与分析

情感分析结果显示,在高校相关话题的博文所有情感词汇中,积极情感占比51%,中立情感占比48%,消极情绪占比1%。积极情感占比最高,进一步证实了高校学生对于舆论的关注点和态度整体上是偏向积极正面的;中立情感次之,可以说明公众面对高校舆情时能够保持较理智的态度;而消极情感占比很低,一定程度上从反面证明高校学生心理状态比较正面积极。通过情感分析实验和可视化呈现,得出了高校网络舆情整体上是比较积极正面的结论。

5结论

本章主要研究了基于文本情感倾向性的高校网络舆情分析,阐述了对高校舆情分析方法的整体设计,得出高校网络舆情整体上是比较积极正面的结论,实现了高校舆情情绪倾向的全面分析。该设计能够有效帮助高校更好地预防和应对舆情危机,有利于维护高校的和谐与稳定发展。此外,在捕捉到某些复杂情感状态或面对复杂语境的情况下情感分析存在偏差[4],有待改进。

参考文献

[1]尹公韵.新媒体蓝皮书:中国新媒体发展报告[M].北京:社会科学文献出版社,2002.

[2]白健,洪小娟.基于弹幕的网络舆情文本挖掘与情感分析[J].软件工程,2022,25(11):44-48.

[3]祝永志,荆静.基于Python语言的中文分词技术的研究[J].通信技术,2019,52(07):1612-1619.

[4]石凤贵.基于jieba中文分词的中文文本语料预处理模块实现[J].电脑知识与技术,2020,16(14):248-251+257

[5]王玉宇,董广伟.基于jieba分词的网红图书馆问题与对策研究[J].江苏科技信息,2023,40(06):35-38.

[6]石凤贵.中文文本分词及其可视化技术研究[J].现代计算机,2020(12):131-138+148.

[7]吴宗卓.文本分类中TF-IDF算法的改进研究[J].计算技术与自动化,2022,41(02):84-86.

[8]肖思奇,孙恺毓,顾钦子,黄科锋.基于词云图和FP-tree的历保建筑修缮管控分析[J].建筑经济,2022,43(S1):610-613.

*本文暂不支持打印功能

monitor