
- 收藏
- 加入书签
中国涉外铁路基建舆情情感分析-基于雅万高铁的网络评论舆情调研
摘要:本文针对中国涉外交通基建“雅万高铁”项目,采用情感分析方法,从语言学视角入手,利用爬虫技术等语言分析手段对“雅万高铁”项目舆情评论进行情感分析,探究其在国内网站舆情情况。将应用于弹幕的文本情感挖掘方法拓展到视频平台评论的舆情分析,得出“雅万高铁”项目舆情评论正向情感倾向高于负面情感倾向。
关键词:网络舆情;交通基建;情感分析;语言学
微博、哔哩哔哩、抖音、小红书等社交媒体平台为民众获取信息和表达个人情感提供了广阔空间诸如此类社交媒体平台上就某一事件产生的的社交评论,已成为舆情传播,舆情监测、舆情分析、舆情引导等领域不可忽视的一项重要数据。哔哩哔哩,简称B站,已成为各大舆情舆论传播的主要阵地,是新一代年轻网民的聚集地,不仅具有高度用户黏度,更具有高热度。相关热点事件信息在B站的传播发酵也十分迅速广泛。中国在印度尼西亚修建的“雅万高铁”作为著名的涉外工程项目,自修建以来在各大社交媒体网站,尤其是B站上引发了热议。涉外交通基建项目的实施是培养国际友谊,提升国民自豪感,宣传大国精神的重要方式。因此,挖掘涉外施工项目的网络评论信息,针对相关舆情情况对该项目的舆情情感进行分析研究,可以有效的把握网民的情感倾向,针对不良情感倾向进行合理监测引导,对于相关部门掌握网络舆情趋势和制定相关政策等十分重要。
1.舆情研究现状
网络平台不仅作为传播舆论的媒介,也是群众抒发情感,消解情感的重要平台;而舆情情感与个体或群体乃至网络社会上都强相关[1]。早在2017年,有学者针对“南昌大学自主保洁”事件,对微博上相关舆情进行抓取分析,得出了该事件下的群体舆情趋势,实现了网络舆情事件的舆情预警研判[2]。有研究针对东航MU5735事件在微博引发的舆情舆论,分析了舆情演化,为后续舆情引导提供了参考[3]。针对广播电视和网络突发事件与网络舆情情感的关系的研究进一步提出了广电网络舆情分析架构[4]。学者通过从多源数据角度,通过构建LDA主题模型对网络舆情主题进行了挖掘,分析了舆情演化的时空规律[5]。高校网络舆情演化机理和应对策略的研究对高校网络舆情管理应对有积极意义[6]。有学者对网络舆情热点进行情感词典构建,包括网络用语情感词典,网络表情符号情感词典等[7]。毛君怡等对中医西传采用语料库方法,通过爬取相关商铺下评论等方式,运用LancsBox和情感分析软件MeaningCloud进行了深入研究[8]。
舆情研究技术手段方面,白健等提出采用网络爬虫技术挖掘语料,运用隐含狄利克雷分布(LatentDirichlet Allocation,LDA)模型进行主题词提取,针对弹幕评论进行研究[9]。伍俊等—以乐山师范学院新浪官方微博评论为例,进行K-Means 聚类和 DBSCAN 聚类的文本聚类,研究其舆情情感[10]。上述研究对舆情研究方法的研究已经趋于完善,但针对舆情在研究领域上多为新闻,网络热点等领域,对于交通基建领域方面存在空白;故在上述研究的基础上,本文以交通基建领域舆情情况为研究方向,选取著名涉外交通基建“雅万高铁”相关视频在B站上的评论为研究对象,采用情感分析方法,利用语言学分析手段,分析其舆情情感情况,把握网民舆情情感倾向,为舆情研究提供一个较新的切入视角。
2.研究方法
考虑到对于交通基建舆情的研究处于初步阶段,本研究借鉴了利用自然语言处理技术,采集和分析弹幕数据的舆情分析方法[9]。将同类分析方法拓展到基于评论的交通基建舆情分析。该方法在舆情数据采集分析方面十分有效,且简单易行。
3.数据采集与处理
3.1.数据源选取
B站作为新一代的网络聚集地,以短视频形式吸引大量常驻网民群体,早已成为国内最大的在线视频分享平台之一,集共识性,实时性等优势于一体。其独特的网络社区氛围,大基数用户群体和高用户黏度使其在舆情传播,舆情发酵等方面的重要性日益递增。其日均活跃用户达1亿,评论留言丰富,带有强烈个人特色和情感评论内容相对中肯,舆情环境较为开放。因此,选取B站作为数据源,开展具有一定代表性的研究。选定时间范围为2022年8月25日到2023年10月29日,在B站平台以“雅万高铁”为搜索关键词,按照播放量大小进行排序,综合考量播放量与评论量数量,选取播放量大于等于九万的视频作为评论数据获取源(为增加视频全面性,特别选取一条CGTN发布的视频,播放量:3.7万),人工检索到十五条具有代表性的视频,平均播放量为36.63万次。
3.2.数据采集及处理
数据采集:使用开发者工具,从Headers中获取爬虫所需的URL、Cookie及User-agent[9],利用爬虫软件进行数据采集,共爬取2964条评论并进行存储。
数据处理:采用Python中JIEBA分词,对爬取到的评论数据进行预处理,去除其中停用词。对预处理好的数据利用word count进行词频统计。SnowNLP库自带中文正负情感训练集,可以通过朴素贝叶斯原理实现情感分析、词性标注、文本分类等操作[9]。其通过情感词典,为本文测定情感倾向,统计出情感词和其所在的位置,并进行程度词和否定词的处理,进而进行加权计算[11]。调用SnowNLP,采用s.sentiments情感分析函数,进行情感极值分析,情感得分取值范围为[0,1],代表负面到正面的极性,其值越大越正面。通过wordcloud.WordCloud()函数进行词云图参数设置,本文设置width=1200,height=900,font_path='my font',background_color="white",max_words=1500,确定词云图的形状、尺寸、背景色、字体等[9]。通过matplotlib库进行情感分计算。
3.3.数据处理结果及情感分析
通过文本清洗得到有效评论数据2952条。对得到的有效评论通过word count进行词频统计,得到词频统计表,其中“高铁”数据提及最多,表明网友对雅万高铁关注高,关注点集中,对“中国”提及较多表明民众关注中国与印尼共建“一带一路”倡议的标志性项目,关注中国在其中起到和发挥的作用;对美国的较高提及表明民众将雅万高铁与美国在该领域的表现进行对比评价。
通过SnowNLP库,计算2952条B站评论文本数据的情感得分。操作得出积极评论1855条,消极评论1097条。随后调用matplotlib绘制出情感分析占比图,其中积极情绪占比62.84%,消极情绪占比37.16%。由此得出该项目积极评论数量约为消极评论数量1倍,该项目舆情情感呈正向倾向,在民众心中的评价正面积极,证明该项目实施具有舆论意义,正面宣传卓有成效。
通过matplotlib,numpy库进行情感分析,绘制与“雅万高铁”相关的舆情评论情感分直方图,将获得的2952条数据以直方图的形式呈现“雅万高铁”相关评论情感得分的区间分布,由此发现情感分位于[0.5,1]的评论为积极评论约有1650条;情感分位于[0-0.4]的评论为消极评论约有888条,情感分位于[0.4-0.5]的评论为中性评论约有414条,中性评论较少,数据有效。积极情感评论数量约为消极情感数量的两倍,网民对于“雅万高铁”总体呈现较为积极的态度,但仍旧存在不少的负面评价情况。
通过word cloud对得到的文本数据进行词云图绘制,将得到的词云图与获得的词频统计表进行比较,发现二者的代表性一致。
4.结论
交通基建方面舆情情况相较于其他领域诸如娱乐舆情,民生舆情领域研究较少,涉入较浅。本文通过对雅万高铁相关舆情信息文本进行挖掘和情感分析,探索其评论中体现的情感倾向,从而探究对于此基建项目的情感态度,为后续研究提供经验。我们采用了结合爬虫爬取、清洗文本数据、SnowNLP情感分析,词频统计等步骤的舆情分析方法,得出情感极值占比为积极情感62.84%大于消极情感31.16%,积极评论约有1650条,消极评论约有888条,中性评论约为414条。结果呈现了网民的情感倾向与关注焦点,网民总体对我国涉外交通基建评价呈正向积极。本研究针对舆情情感进行研究,未追踪舆情随时间变化趋势,未来在此基础上还可以针对一定时间段的舆情演化趋势进行研究分析,更加全面的分析交通基建舆情情感演变。
参考文献
[1]姚江龙.网络集群舆情的情感表达分析[J].阜阳师范大学学报(社会科学版),2021(01):143-149.
[2]王英,龚花萍.基于情感维度的大数据网络舆情情感倾向性分析研究——以”南昌大学自主保洁”微博舆情事件为例[J].情报科学,2017,35(04):37-42.
[3]岳扬,山成虎,彭春霖,等.基于新浪微博数据的东航MU5735坠毁事件舆情热度演化及情感分析[J].计算机时代,2023(2):55-60.
[4]何晶.广电网络舆情分析架构与微博文本情感分析研究[J].广播与电视技术,2020,47(8):127-130.
[5]邱泽国,贺百艳.基于文本挖掘的网络舆情主题发现与情感分析[J].对外经贸,2021(2):76-79.
[6]李佳璐.高校网络舆情的演化机理及其应对策略[J].公关世界,2023(14):28-30.
[7]吕翔,刘陆民.群体性事件网络舆情情感分析的情感词典构建[J].信阳农林学院学报,2019,29(2):95-98+103.
[8]毛君怡.中医西传的网络语料库调查——以针灸在英传介为例[J].中医药文化,2021,16(6):514-526.
[9]白健,洪小娟.基于弹幕的网络舆情文本挖掘与情感分析[J].软件工程,2022,25(11):44-48.
[10]伍俊,贾礼平.基于文本挖掘的舆情分析与情感分析——以乐山师范学院新浪官方微博评论为例[J].信息记录材料,2022,23(2):163-166.
[11]王一帆,许楠.自然灾害事件网络舆情情感演化特征分析——以"河南暴雨事件"为例[J].情报探索,2023(3):55-61.
作者简介
龚彦如(2003.9-)女,汉,重庆市,本科,研究方向:语言学。
胡耀予(2003.4-)男,汉,四川省,本科,研究方向:语言学。