基于改进情感词域识别的舆情情感分析研究

时间:2022-08-22 01:19:28

基于改进情感词域识别的舆情情感分析研究

摘 要 网络作为人们发表其观点和看法的新载体早已成为一个重要的情感抒发与交流平台。对网络中人们所发表的文章、言论进行分析,其中不仅限于包括观点及情感分析,对于有效掌握舆论话题情报、研究网民心里以及预测话题走向就有着重要帮助。本文探讨了目前关于舆情文本情感分析技术现状,使用一种根据情感词识别的优化方法,利用情感词修饰域的判别同时结合语法分析,以提高对于文本情感倾向分析的准确性。

【关键词】舆情分析 情感词识别 语法分析

1 情感分析算法现状

情感分析,又叫做文本情感倾向性分析,即对文本进行在情感上的分析,分析其属于“正面”、“负面”或是“中性”态度。对于中文文本的情感倾向性分析大体可以分为两类方向:一是基于机器学习的方法,二是基于词典识别的方法。本文在现有基于情感词典方法的基础上,引入对中文语言的语法分析,将文本从整体拆分为个体,即将文本视为各个单句的集合。在每一单句中,首先通过情感词库识别出语句中的情感词,结合语法分析树将语句中情感词的前后修饰域确定,后计算出整个情感域的情感分值,最后通过加权平均的方法,得出语句的情感分值,最后计算出通篇文本的情感强度,最终确定文本的情感倾向。

2 情感词库的构建

情感词识别的方法首先要依靠情感词典,情感词典是进行情感倾向分析的基础,情感词典的质量直接影响着情感分析的效果。目前国内用于研究的中文情感词典资源包括如《知网》(HowNet),其以汉语和英语词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。2007年10月22日,《知网》官网了“情感分析用词语集(beta版)”,共有12个文件,包含17887个词语。其中“中文情感分析用词语集”和“英文情感分析用词语集”各6个文件,中文词9193个,为中文情感倾向性分析奠定了基础。该词语集最大的特点是将褒、贬两类细化为了“正面情感词”、“负面情感词”、“正面评价词”、“负面评价词”、“主张词”及“程度词”。

其它的还有台湾大学自然语言处理实验室总结出的中文情感词典NTUSD,以及大连理工大学整理出的中文情感词典等资源。

本改进分析方法中的情感词库的建立,以知网Hownet提供的情感词集为主,结合网络与社会中出现的新词汇,进行去重与人工标注,人工标注则需要对情感词典中情感词强度进行量化,具体方法是根据Hownet知网提供的情感词集选取若干情感义原作为情感词典的基准词集,通过各情感词与情感基准词集进行词语相似度计算,得出情感词的强度(分值)。情感强度为一个正负区间[-1,1],若强度为负,则该情感词表达的是负面消极的倾向,反之若某词的强度为正,则其表达的是正面积极的倾向,而数值大小则代表了其倾向的强度大小,若强度为0,则说明该词为中性词。根据语义相似度计算公式,则有情感强度公式计算出某词语word的情感强度O(word),如式2.1:

式中,N代表正向情感基准词集中词语数量,M代表负向情感基准词集中词语数量,而Pos、Neg分别代表了正向、负向情感基准词集。

3 语义情感倾向计算

构建完善的情感词库之后,便可以进行对文本的情感倾向分析及强度计算。一般情感词识别的方法,仅仅是根据情感词库对识别文本中的情感词汇进行识别,仅以“词”作为情感倾向的主要因素,而忽略了“域”的概念。文本中的情感词在其它修饰词的作用下,与其他词联合形成了“情感修饰域”。而具体舆情情感分析具体算法逻辑如下:

输入中文舆情文本S,则有O(S)为文本的情感强度。

步骤1. 输入文本S,对S进行分词及词性标注。

步骤2. 遍历分此后所得词集合,查找连词与标点,将搜索结果按照标点划分为语句的子句词集SS={s1,s2,…,sn},sn表示S经分词后拆分所得的各子句。

步骤3. 对于每个子句词集sn,获取各子句中情感词,并根据设定好的基准情感词集,根据Hownet提供的语义相似度计算方法计算语义相似度,并以此作为识别道到的情感词的情感分值O(w)。

步骤4. 对于每个情感词w,利用语法分析,分析出词w在句中成分。

步骤5. 利用语法分析,按顺序抽取用于修饰该情感词w的修饰词,包括例如形容词、程度副词、否定词以及短语等,以此建立对于某一情感词的修饰域D(w)。

步骤6. 由各个修饰域D(w)中所有修饰词共同作用,对该域内的情感词w的情感强度进行修正。

步骤7. 根据识别到的连词,对其所对应的子句进行系数修正,在同一连词影响下的各情感域会进行相同的系数调整。

步骤8. 检测正常语句结尾符号是否为情感符号,若为情感符号,则对修饰域做符号系数修正。

步骤9. 将子句词集SS中各子句的情感强度进行加权平均处理,输出最后的文本S的情感分值。

步骤10. 根据分值对文本S的情感进行倾向和强度的判断,所得分值的符号决定情感倾向,所得分值的数值决定情感强度。

4 小结

本文将对文本基于情感词识别的方法进行优化,在综合考虑了程度副词、否定词以及情感符号对于文本中情感词的影响时,通过添加对文中语句的语法分析,建立以情感词为主的修饰域,对各修饰域进行关于相关因素的情感强度修正,以达到舆情文本情感倾向分析的精确化,从实验也可以看出此种方法比较有效,对于舆情监测、舆情分析系统是具有使用价值的。但是基于词典的方法还有很多可以值得深入研究的地方,相信还有更多拓展的空间。

参考文献

[1]魏|,向阳,陈千.中文文本情感分析综述[J].计算机应用,2011,12:3321-3323.

[2]朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,01:14-20.

[3]陈锦禾,范新,沈闻,沈洁.基于情感词识别的BBS情感分类研究[J].计算机技术与发展,2009,07:120-123.

[4]柳位平,朱艳辉,栗春亮,向华政,文志强.中文基础情感词词典构建方法研究[J].计算机应用,2009,10:2875-2877.

作者单位

1.北方工业大学计算机学院 北京市 100144

2.北方工业大学电子信息学院信息与通信工程系 北京市 100144

上一篇:中国最具影响力的电视剧剪辑指导 下一篇:基于云计算的服务器虚拟化研究