一种基于情感分析的网络舆情演化分析方法

时间:2022-08-29 10:06:52

一种基于情感分析的网络舆情演化分析方法

摘 要:以微博作为研究对象,针对微博类短文本数据的特点,从情感的角度出发,提出基于情感分析的舆情演化分析。该方法以文本的情感值作为特征对微博数据进行时间分片,然后使用DTM模型对分片后的数据进行话题演化分析。实验表明,该方法能较好地划分微博数据,有效地找到舆情变化的时间点。

关键词:舆情演化;情感分析;微博;短文本

中图分类号:TP391

文献标识码:A 文章编号:1672-7800(2015)005-0131-04

作者简介:何天翔(1988-),男,四川广安人,西南科技大学计算机科学与技术学院硕士研究生,研究方向为情感分析、文本分类;张晖(1972-) ,男,安徽宿松人,博士,西南科技大学计算机科学与技术学院教授,研究方向为数据挖掘、知识工程;李波(1977-),男,四川绵阳人,中国科学技术大学计算机科学与技术学院博士研究生,研究方向为信息过滤、信息安全;杨春明(1980-),男,云南华坪县人,硕士,西南科技大学计算机科学与技术学院讲师,研究方向为文本挖掘、知识工程;赵旭剑(1984-),男 ,四川绵阳人 ,博士,西南科技大学计算机科学与技术学院讲师,研究方向为中文信息处理、web信息检索。

0 引言

随着互联网的发展及普及,网络逐渐实现了社会化,发挥着强大的舆情表达和传递功能。网民可在互联网上围绕社会中的各种现象及问题表达观点、态度、意见和情绪。对舆情信息进行情感分析,有助于把握网民舆论的态度,对商业智能、信息预测、舆情分析、政府决策均具有重要价值[1-3]。情感分析旨在研究人们针对实体、人物、事件、主题及其属性的主观意见和情感,是一个对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[1]。因此,将情感分析应用在网络舆情中可以很好地监控以及预测网络舆情,帮助相关部门制定相应的解决方案,节省大量的人力、财力,同时也可以避免一些不必要的冲突。

1 相关工作

目前,关于网络舆情演化的研究主要基于LDA模型。单斌等[5]提出了话题演化的两个方面:内容演化和强度演化,总结了基于LDA话题模型的话题演化方法。林萍等[6]基于网络舆情事件时间性强、话题与时间关联度单一的特征,选择特定的新闻报道建立文本集,基于LDA模型抽取话题,使用后离散时间型话题模型思路分析话题热度变化,用先离散时间型话题模型思路分析话题内容迁移。此思路能够较全面体现话题演化路径,为网络舆情事件分析提供了有效途径。部分研究将情感分析应用在舆情演化方面。黄卫东等[2]提出了一种基于概率潜在语义分析(PLSA)的网络舆情话题情感分析方法,该方法不仅可以描述同一个子话题随时间的情感演化过程,还可以描述话题情感随子话题维度和内容的演变情况。为解决微博文本呈现的不完整性、稀疏性及碎片化等特性,李岩等[7]设计了基于短文本聚类及用户评论情感分析的微博舆情系统。

将时间因素结合话题模型建模是话题演化分析的主要方法,已有方法主要包括:①先根据时间段离散化文档,再分别建立话题模的方法,例如动态话题模型(Dynamic Topic Model,DTM),将时间作为随机变量加入到模型中,从而得到关于时间变化的话题模型[8];②先整体建立话题模型,再分析话题在离散时间段上的变化方法。如Griffiths、Thomas L等忽略时间信息,对所有文档建模,然后根据话题在时间上的状态,描述话题在时间上的强度[9];③将时间作为隐含变量引入话题模型的方法,例如连续时间话题演化模型 ( Topic Over Time,TOT),将时间戳作为隐含话题的观测量,避免了对时间粒度的选择[10]。

在先离散后建模的方法中,有效地将文档按照时间段离散化进行深入分析,从而改进此类话题演化方法的分析效果。传统的舆情演化分析较少考虑情感在时间片分的影响,本文将文本的情感值作为特征对微博数据进行时间分片,使用DTM模型对分片后的数据进行话题演化分析,对照仅考虑文本相似度分片以及随机分片的话题演化结果,验证情感值在微博的话题演化分析中的作用。

2 基于情感分析的网络舆情演化分析

2.1 短文本情感值计算

网络舆情与传统媒体不同,其演化和网民对舆情的关注、讨论相互影响,相互推进。对网络舆情中的短文本进行情感值计算需要考虑网络文本的特征:①文本较短且不规范;②时效性;③歧义性。本文利用同义词林等语料对分词后的词语在权重和特征上进行扩展,利用式(1)进行情感值计算:

S(f)=neg*degree*Wf(f)(1)

其中,S(f)表示特征f的情感值;Wf(f)是特征的权重;neg表示特征是否有修饰否定词,如果前面出现否定词,neg=-1,否则neg=1;degree表示修饰特征程度副词,如果特征没有程度副词修饰,degree=1,否则按照表1所示对dgree进行赋值。

2.2 基于情感分析的网络舆情分析

分析方法主要包括两个步骤:①文档按照离散时间段进行分片;②对分片后的文档采用DTM模型进行演化分析。

基于情感值的时间分片,考虑将情感值作为分片的特征。首先,计算两条数据情感值差的绝对值,然后降序排列时间点,以此类推找到满足需求的时间点,对于时间点较为靠近的,计算其平均值当作一个时间点;然后,继续在排序时间点中加入新的节点继续计算,直到满足条件为止。具体流程如下所示:

2.3 实验结果及分析

本文选择新浪微博中“单独二胎”话题进行实验数据的采集,得到50 721条“单独二胎”主题下的数据,详细数据由下表2所示。

实验过程中,过滤掉信息不全和雷同数据,最终得到29 807条数据。利用2.3中的方法对数据进行处理得到分片时间点,本文将数据按照5片和10片两种情况进行分片。为了验证基于情感分析来进行时间点划分的有效性,本文同时利用基于相似度和随机方法对数据进行了划分。具体分片结果如表3、表4所示。

首先,统计出微博数据在时间序列上按照天为单位的热度变化,作为舆情演化整体趋势的基线,如图1所示。

从图1可以看出,关于“单独二胎”的微博从2012年8月13日开始出现,随着时间的推移,数据不断增加,在2013年11月10日和11月15日有激增的趋势,在2013年11月16日和11月19日达到了峰值。图1展示了此舆情话题的整体发展趋势。

采用前述基于情感分析的网络舆情演化分析方法,分别基于情感值、相似度和随机时间划分,在时间划分点处进行主题相关的关键词热度值分析,如图2~图4所示。

对比图2、图3、图4可以看出,舆情随着时间推移,热度在不断增强,整体趋势一致,从图3、图4中可以看到基于相似度分片的第一时间点在11月15日,随机分片的第一时间点在11月12日,而图2中第一时间点在11月6日。从图1中可以看出,11月10日微博数量有明显增长的趋势,由此可以看出,在分片粒度较大的情况下,基于情感值的方法可以较早发现舆情。

最后,将数据划分为10片中的基于情感值、基于相似度和随机分片的关键词热度采用基于情感分析的网络舆情演化分析方法进行了分析,如图5~图7所示。

图5、图6基本一致,在(2013年)11/18处,基于相似度分片的有两个点,而图1显示,此点处在11/17到11/19的上升中间阶段,这与图5基于情感值分片所展示的一致。从图7中可以看出,随机分片的后6个点都集中在11/19后,分片结果不能正确显示舆情发展。在11/20和在11/21处,基于情感值分片的热度没有下降,与舆情发展不符,基于相似度分片的与舆情趋势一致,此处可以理解为针对“单独二胎”话题,网民持有不同意见,于是情感波动较大,所以出现了热度上升情况。由此可以看出,在细粒度分片中,基于情感值分片和基于相似度分片的分片结果都与舆情演化趋势一致,随机分片则不能反映舆情演化趋势。

3 结语

本文将情感分析应用在网络舆情演化分析中,将文本情感值作为依据对数据进行时间分片。为了验证情感分析在舆情演化中的作用,以真实的微博数据作为实验数据,对比了基于文本相似度分片和随机分片。同时,本文分析了3种方法在粗粒度(5)分片和细粒度(10)分片的实验结果。实验结果表明,基于情感值分片的时间划分有助于更好地拟合网络舆情的发展趋势。然而实验中基于情感值的时间分片方法仅仅考虑了情感因素,较为简单,因此对效果有一定的影响。通过分析可以看出,在舆情演化分析中时间分片阶段,可以将文本相似度与情感结合起来作为特征进行时间段划分,这样可以提高时间段划分的准确率。下一步研究将着眼于多维度数据时间段划分,为后续的舆情演化分析打好基础。

参考文献:

[1] 赵妍妍,秦兵,刘挺.文本情感分析[J].Journal of Software,2010,Vol.21(No.8):1938-1848.

[2] 黄卫东,陈凌云.网络舆情话题情感演化研究[J].情报杂志,2014,(1):103-107.

[3] 顾明毅,周忍伟.网络舆情及社会性网络信息传播模式[J].新闻与传播研究,2009(5):67-73,109.

[4] 崔斌.社会网络综述[J].计算机学会通讯,2011,7(10):16-19.

[5] 单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010.43-49

[6] 林萍,黄卫东等.基于LDA模型的网络舆情事件话题演化分析[J].情报杂志,2013(3):22

[7] 李岩,韩斌,赵剑.基于短文本及情感分析的微博舆情分析[J].计算机应用与软件,2013(12):240-243.

[8] DAVID M,BLEI JOHN D,LAFFERTY.Dynamic topic models[C].Proceedings of the 23rd International Conference on Machine Learning.2006:113-120.

[9] GRIFFITHS,THOMAS L,STEYVERS,MARK.Finding scientific topics,proceedings of the national academy of[C].Sciences of the United States of America 101,2004:5228-5235.

[10] WANG XUERUI,ANDREW MCCALLUM.Topics over time:a non-markov continuous-time model of topical trends[C].Proceedings of International Conference on Knowledge Discovery and Data Mining,2006:424-433.

[11] 曹丽娜,唐锡晋.基于主题模型的BBS话题演化趋势分析[J].管理科学学报,2014,17(11).:109-121.

上一篇:基于SQL语句的通用数据交换方法研究与应用 下一篇:《数据结构》课程教学改革探讨