一种预测文本情感分类词语权值的算法

时间:2022-10-05 08:52:11

一种预测文本情感分类词语权值的算法

摘要:机器学习方法是识别评论情感倾向的有效方法之一。为了使机器学习的方法得到一个满意的结果,合适的情感词权值是至关重要的。基于中文词语的语义相似度原理,该文提出了一种逐步预测每个情感词权值的方法。实验说明了,利用我们计算的权值,结合TF-IDF公式,分类结果能相对地得到提高。

关键词:权值;情感分类;机器学习

中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2013)12-2879-03

1 概述

网络评论一直是人们表达感受的一种重要方式。而情感分类是这样一种能够区分正面和负面文本情感的技术,它帮助潜在的消费者从各种各样的评论中挖掘有关产品的信息,具有重要价值。

提高情感分类的效率和精度,主要有两种方法,基于规则的方法和基于监督学习的方法。这两种方法都依赖于有效的词汇集,虽然他们的使用方法不尽相同。作为监督学习的一个例子 Turney [1] 只用了两个种子词语(“excellent”和“poor”)来决定句子的情感方向。在他的论文中,一篇评论的分类预测主要取决于论文中的词语的情感倾向平均值。到目前为止,许多监督分类的算法已经被应用于情感极性分类的工作中。在文献[2] 中,Pang 等人采用了三种常用的机器学习方法(朴素贝叶斯,最大熵和支持向量机)来判断评论的褒贬与否。在他们的实验中,SVM 方法在大多数的条件下都能获得最佳的结果。在文献[3] 中,Denecke 使用 SentiWordNet 作为词典资源来分析多领域的观点。结果显示,机器学习的方法比基于规则的方法在跨领域情感分类上能取得更好的表现。与大多数研究只使用一种分类器的方法不同,Fan Wen等人[4] 将多分类器运用到了情感分类中。实验指出,AdaBoost 方法比 Bagging 和单分类器的方法能有更好的表现。

在这篇论文中,我们专注于处理中文评论。我们采用的情感词语主要基于 HowNet [5] 的情感词语集。利用这些情感词语,Zhu Yanlan [6] 利用了语义相似度和语义相关场来判断词语的情感倾向。而在本文中,我们主要研究中文评论情感分类的情感词语的权值计算。我们提出的算法对于高频词和低频词是不敏感的。

本文组织如下。在第二部分,我们进行实验分析不同词频的词语的影响。基于第二部分的分析,我们在第三部分提出了Step by Step算法。在第四部分,第三部分计算出的权值被用于中文酒店评论情感分类上。在第五个部分,我们做了总结,并讨论了未来的工作。

2 种子词语影响的分析

2.1 计算词语的情感权值

我们采用 [7] 中提出的语义相似度公式来计算词语间的语义相似度。通常,一个词语的情感权值同它与种子词的语义关联度有密切关系。[6] 提出了,一个词语与褒贬种子词的关系越密切,则它的褒贬语义倾向就越明显。基于这个假设,一个词语的情感权值可以通过公式1 [6] 得到。

[SO-IR(w)=i=1MSimilarity(Key_pi,w)M-i=1NSimilarity(Key_ni,w)N] (1)

在这里[SO-IR(w)]是词语[w]的情感权值,该值反映了该词语的情感强度,[Key_p]代表褒义的种子词,[M]代表褒义种子词的数目,[Key_n]代表贬义的种子词,[N]代表贬义种子词的数目。[Similarity(key,w)]是词语[key]和[w]通过 [7] 计算得出的相似度值。

2.2 选择测试集

测试词语为知网的词语集,由两组词语组成。第一组包括知网中标记为“良”或“莠”的那些指示情感倾向的词语。该组包括3146个褒义词和3299个贬义词。第二个小组是第一个小组的子集。在这个小组中,人工移除了那些情感不明确的词语。最后得到了2861个褒义词和2923个贬义词。

2.3 计算正确率

为了取得种子词语,我们结合Yahoo的搜索功能进行实验。在每个小组中,我们重复如下的步骤。首先,我们获取由Yahoo返回的每个单词的hits数。然后,我们根据hits数对词语进行降序排列。再者,我们以一定比率得到种子词汇集。最后,我们用公式1来计算每个词语在每个测试集中的情感倾向值。如果值是负的,则被认为是一个贬义词,否则被认为是褒义词。

图1显示了实验的结果。横坐标代表种子词语的比例,而纵坐标代表的是词语情感倾向判断的正确率。

图1所示,正确率先是迅速的上升到超过90%的一个峰值,在比例不高于45%时始终保持着高正确率。随后,正确率急速地下降到大概60%的低值。曲线开始于一个低值是由于没有足够的种子词语用于判断倾向。随后的下降则反映了词语由高频到低频的一种过渡。

由于词语是根据频率进行排列的,我们将这些词语分为两组。一组主要包含高频词语,而另一组则包含低频词语。基于图1,我们猜想高频词语主要体现了一种基本情感的表达。而低频词语则相反,它们主要是一种特殊的情感表达。通常词频越高,词语同其它的褒义词或贬义词的关系越密切,则情感倾向越明显。虽然如此,低频词语从某种程度上,仍然是对结果的一种补充和改进。

怎样权衡高频词和低频词的权值,对情感分类有着重要的影响。

3 Step by Step算法的实现

3.1 Step by Step算法步骤

基于以上的分析,我们提出了一种算法来计算情感词语在情感分类中的权值。考虑到高频词和低频词的不同特性,我们的算法采用一种对词频不敏感的逐步递进的策略。算法步骤如下:

1)从搜索引擎获取情感词语的hits数并将他们按降序排列。

2)选择高频的一个词语集合,赋予一个公共的默认权值 。这些种子词语必须包含有褒义词和贬义词。

3)利用公式1来计算在当前的种子词集下词语的情感倾向和强度。

4)从非种子词集中选择一个词频最高的词语,计算它的权值。然后将该词加入到种子词集中,同时,从非种子词集中移除该词。利用公式1来计算当前种子词集下词语的语义倾向和强度。重复第 4 步,直到所有的语词都被添加到种子词集中。

在该算法中,词语的权值计算来自于一个动态的种子词集。当计算高频词权值时,种子词主要由高频词组成,结果能够反映高频词语的特点。当越来越多的低频词加入种子词集时,低频词的特点则逐渐显现。

3.2 基于当前的公式

我们提出基于当前值的公式来计算算法第4步中的权值。该公式主要基于当前词语与当前种子词集的相似度值。它的目标是挖掘信息并预测权值。该公式描述如下:

[wi=Avgpi-AvgniAvgpi+Avgni] (2)

在这里,[wi]是词语[wi]的权值,[Avgpi]是词语[wi]和当前的褒义种子词集的平均相似度值,[Avgni]是[wi]和当前的贬义种子词集的平均相似度值。如果词语与两类词集的平均相似度值相近,则它的情感倾向是不明显的。反之,如果差异明显,则该词很可能具有强烈的情感倾向,理应被赋予一个高的权值。

4 权值应用

在获得情感词语的权值之后,我们将重点转移到权值的应用上。在这个部分,我们使用VSM来代表文本,并采用工具SVMlight来进行情感倾向分类。我们将TF-IDF公式结合我们的权值以使之效果更好。在这种方案下,我们改进了TF-IDF公式如下:

[w(i,j)=ni,j×witk∈djnk,j×wk×logDj:ti∈dj] (3)

在这里[w(i,j)]代表文本[dj]中的词语[ti]的权值,[ni,j]代表文本[dj]中的词语[ti]的频数,[wi]代表我们在第3部分中计算的词语[ti]的权值。[D]代表训练集的数目,[j:ti∈dj]代表包含词语[ti]的文本的数目。

实验中,采用 [8] 中提到的谭松波搜集的中文酒店评论语料作为测试语料,该语料包含1000组褒义评论和1000组贬义评论。然后我们分别从褒义和贬义评论中选择500组作为训练集,500组作为测试集。我们使用第2部分提到的测试集2作为语义词典。

为了评估该语义倾向方法的效果,我们采用三个文本分类中常用的指标:准确率、召回率和F值。为了比较,我们用四组方法来分类测试集合。在第一组中,我们设置所有词语的权值为1,无论褒贬。在第二组中,我们使用TF-IDF计算出的权值。在第三组,我们应用Step by Step算法和基于当前的公式来计算特征权值。我们采用1%的词语作为初始的种子词以使更多的词语权值能得到计算。同时,我们设置[α]的值为0.9,因为根据图1,在1%的比率下正确率已经超过了90%。结果如表1所示:

实验结果显示了,当所有的权值都设为1时,实验取得了最差的F值,只有78.65%。而采用Step by Step算法时,分类的准确率和召回率都提高了,比最差的结果提高了2.62%。

5 总结与展望

这篇论文提出了一种计算基于选定的语义词典的权值来进行文本情感分类的算法。实验说明该算法提高了情感分类的正确率。由于默认的种子权值[α]和初始种子词比率取决于相关的语义词典,在未来的研究中,我们将会比较在不同的参数下算法的表现,以探索参数和结果的内在关系。

参考文献:

[1] P. D. Turney.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C].40th Annual Meeting of the Association-for-Computational-Linguistics,2002:417-424.

[2] B. Pang,L. Lee.Shivakumar Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques[C].Conference on Empirical Methods in Natural Language Processing,2002:79-86.

[3] K. Denecke.Are SentiWordNet scores suited for multi-domain sentiment classification?[C].4th International Conference on Digital Information Management,2009:32-37.

[4] W. Fan,S. T. Sun,G. H. Song.Sentiment classification for Chinese netnews comments based on multiple classifiers integration[C].4th International Joint Conference on Computational Sciences and Optimization,2011:829-834.

[5] HowNet, HowNet’s Home Page. http:///, 2012

[6] Y. L. Zhu, and J. Min.Semantic Orientation Computing Based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.

[7] Q. Liu,S. J. Li.Word Similarity Computing Based on How-net[C].The 10th Chinese Lexical Semantics Workshop,2002

[8] S. B. Tan, Chinese Sentiment Mining Corpus-ChnSentiCorp.http://.cn/tansongbo/senti_corpus.jsp#1,2012.

上一篇:MD5验证技术讨论和改进设想 下一篇:SQL注入攻击及其防御策略分析