基于情感词典的维吾尔语文本句子情感分类

时间:2022-05-19 06:31:24

基于情感词典的维吾尔语文本句子情感分类

摘要:该文主要是针对维吾尔语中生气,高兴,难过及惊讶等四大类情感分别进行基于情感词典的句子情感分类。首先,结合维吾尔句子中的情感特点,通过人工抽取的方法收集了维吾尔句子中能表达情感的关键词和情感短语,并建立了包含情感关键词和情感短语的情感词词典。然后,利用关键词匹配算法实现了具有分类速度快、分类正确率较高的维吾尔语句子情感分类应用系统。最后,给出了实验结果,并且分析了所存在的问题及提出了相应的解决策略。

关键词:维吾尔语;情感词;情感短语;情感词词典;句子情感;关键词匹配;情感分类

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)10-2371-04

Abstract:This paper is mainly for Uyghur angry, happiness, sadness and surprise etc. four categories respectively based on sentiment dictionary sentence sentiment classification. First, conducted a research on the sentiment features of the Uyghur sentence; through artificial extraction collected Uyghur sentence can be expressed emotional keywords and sentimental phrases and established the emotional dictionary that contains emotional keywords and emotional key phrases. Then, use keyword matching algorithm to achieve a classification with fast, correct classification rate of Uyghur sentence sentiment classification applications. Finally, the experiment results are given, and make an analysis of the existing problems and, for the further research, make recommendations for solution strategies.

Key words:uyghur; sentiment word; sentimental phrase; sentiment dictionary; sentence sentiment; keyword matching; sentiment classification

情感分类(Sentiment Classification)是指根据文本所表达的特点和情感信息,把情感文本划分成两种或几种类型,即对文本作者倾向性和观点、态度的划分[1]。不久以来,随着互联网和通信技术的迅速发展,人们越来越关注网络里面带有情感信息的文本,并相应产生了情感文本分类的研究。尤其是情感文本倾向性分析(也称情感分类)近年来受到了广泛的关注[2-4]。

目前,文本情感分类的研究已经成为在国内外研究的热点问题之一。在国外,甚至出现了针对文本情感分类分析相关的评测标准,例如:TREC2006-2007, Blog Track, NTCIR等。在国内,与情感分析相关的工作相对于国外起步较晚,但近年来也开始逐步兴起,并取得了较好的研究成果。

情感分类作为一种特殊的分类问题,既有一般模式分类的共性问题,也有其特殊性,如情感信息表达的隐蔽性、多义性和极性不明显等。针对这些问题许多研究者进行了研究,并提出了各自所使用的有效的分类方法。总体来看,我们可以把这些方法根据所分析的粒度不同,大致可以分成词汇级别、句子级别和篇章级别的情感分类[5]。其中句子级别的情感分类比词汇级别的情感分类更加可靠,并可以方便地扩展到篇章级别的情感分类研究,因此,句子级别的情感分类具有重要的研究价值,也是本文的研究重点。

至今为止,对于句子级别的情感分类相关的研究工作还处于初步阶段。文献[6]基于情感词典进行词汇级别情感分析,并通过聚合方式得到句子级别的情感。文献[7]采用加权线性组合的方法对句子进行情感类型判断。文献[8]使用条件随机场(Conditional Random Field, CRF)模型生成词汇级别情感,并聚合得到句子级别情感。另外,文献[9]采用互信息,信息增益,CHI统计量,文档频率等特征提取方法和文本特征表示方法,并以Naive Base(朴素贝叶斯)、ME(最大熵)和SVM(支持向量机)作为不同的文本分类方法,分别进行了维吾尔语情感分类。值得提及的是,这种分类方法虽然具有较好的分类效果,但该方法本身存在一个缺点。即该方法中对训练样本集的数量要求较高、覆盖度有限、有效特征的提取工作艰难。因此,我们通过初步地人工收集在句子中既能比较明显地表达情感,又能具有情感分类能力的情感词和情感短语,并建立情感词词典的方法有效地提高了维吾尔语句子的情感分类效果。

本文研究的另一个重点是对维吾尔语文本情感分类的探索。虽然文本情感分类的研究已经有十年左右的历史,但是在维吾尔语上这项研究还很缺乏。这一方面源于维吾尔语言结构的特殊性,如词语本身的多义性/多形性、构词方法的复杂性,导致某些词语在不同的语境下甚至可能表示完全不同的情感倾向;另一方面,出于语料库本身的缺乏,难以进行复杂模型的训练,也无法进行横向对比,这极大限制了维吾尔语文本情感的分类研究。因此,该文利用情感在维吾尔语句子中的特点相结合,通过人工的方法从电影字幕和小说文本中收集了维吾尔语句子的情感分类有所帮助的情感词和情感短语,并构建了一个标准情感语料库。

1 维吾尔语句子情感分析

1.1句子情感的特点

通常,我们所说的情感的概念虽然具有复杂性,如生气、高兴、难过、惊讶等都属于情感范畴,但这些情感在某种程度上可以利用一些区分能力较强的情感词或情感短语来将文本归入某类情感。该文根据维吾尔文本句子中的情感表达特点,主要从维吾尔语的电影和小说文本中收集了生气、高兴、难过和惊讶等各种情感句子。我们发现这些情感句子中既是情感表达能力比较明显,又是具有情感类别区分能力的情感词和短语,在各类句子中确实存在。因此,我们以这种特点为出发,针对生气、高兴、难过和惊讶等四种情感类型进行基于情感词词典的情感分类。表1给出这四类情感词的典型例句。

1.2句子情感分类的难点

相关研究表明,在维吾尔语中大部分情感词归类于名词、形容词、动词[10]等词类,但是在实际应用中对于情感分类有所帮助的这种词汇并不多。因此,在情感分类中对分类有用特征词的选择不仅显著增加维吾尔语句子情感分类的难度,还渐渐受到广大研究人员的密切关注。

通过对大量的情感句子语料进行深入地分析(由上述表1典型例句中也可以看出),在维吾尔语句子的情感分类过程中,句子情感分类的主要难点可以归纳为以下几点:

1)句子口语化:由于语料主要是抽取电影字幕或者小说,绝大部分句子几乎是个口语。因此,语气词对情感分类的贡献是不可忽略的。

2)句子过于简单:这些句子中大都数句子属于简单句,基本上没有复句。句子长度和其中内容十分简约,有的只有一两句话,甚至几个词语,以至于太“短”而难以被看作一篇完整的句子。因此,无法进行句子中的转折性连词成分情感分析。

3)可用资源很少:在维吾尔语中还是没有英语WordNet和汉语的HowNet等已建好的语义网络等可用资源。因此,维吾尔语中尚缺少情感信息标注语料,情感词典等可利用的资源。

4)相关研究极少:目前,虽然对英语和汉语的情感分析研究较多,已经公开的、很有参考价值的研究成果也较丰富,但是针对维吾尔语情感分析的研究却很少。

5)停用词迥然不同:由于在维吾尔语文本处理过程中常用的停用词已包含在情感分类中对正确分类有极大帮助的一些语气词,所以进行情感分类时需要重新处理这些常用停用词。

综上所述,与一般文本分类相比,由于在维吾尔语情感句子文本资源本身存在许多不同的情感分类艰难之处,如:可用资源不够、句子结构简单而趋向于口语话、停用词处理的特殊性等。所以在进行维吾尔语情感分类时,不仅选择能表达情感的词语,还有能区分能力情感类型的情感词,并进行情感类型的分类。为此,针对以上问题,该文在基于情感词典的方法来进行维吾尔句子的情感分类。

2 维吾尔语句子情感分类

由于在本文实验中所用句子的结构不仅是简单,而且接近于口语。所以在句子情感分类实验过程中某个句子中情感词或情感短语的出现次数很低,这种实际情况对情感分类研究工作中提取情感区分能力的有效特征的选择和引用分类器(如:SVM,Na?ve Base等)建模,并进行分类处理带来了巨大的难度。因此,我们通过人工抽取的方法收集了具有区分能力的各类相应的情感词和情感短语,并建立了情感词词典。情感词词典的部分实例表2中所示。

维吾尔语句子情感分类系统运行过程中读取每个句子之后,进行各类情感词典的匹配,其中首先进行句子所包含的情感词的匹配,然后情感短语的匹配操作,最后通过该句子属于各类情感词典匹配次数为统计量,并按照匹配次数的最大值进行维吾尔语句子情感分类。如果情感分类过程中某个句子的情感词匹配次数相等,则以计算情感短语匹配次数的最大值为准进行句子情感分类。

2.2情感分类算法描述

关键词匹配算法是维吾尔语句子情感分类的主要部分,其算法流程,如图2所示。

根据以上算法流程图,我们可以该算法描述为如下:

1)遍历所有的句子并读取当前需要处理的目标句子。如果所有目标句子词典匹配结束,则退出该系统。

2)目标句子与各类情感词词典中的每个关键情感词条进行匹配。如果目标句子与情感词典没有匹配的关键词条,则转至第一步,并开始执行下一个目标句子的匹配操作。如果情感词匹配成功,转至第三步。

3)统计目标句子在各类情感词典中的匹配次数和求出最大值。判断目标句子匹配次数的最大值是否同时等于至少两个情感类型的匹配次数。如果不存在至少两个情感类型匹配次数相等,转至第四步。否则转至第五步。

4)按照情感词匹配次数的最大值进行情感分类,并返回到第一步。即开始执行下一个目标句子的匹配操作。

5)对目标句子匹配次数最大值相等的情感类型分别进行该类情感短语的匹配操作。如果匹配成功转至第四步,否则返回到第一步。

6)输出情感分类结果。

3 实验与分析

3.1实验数据

由于维吾尔语很缺少用于情感分类的标准数据库,我们收集了一个用于情感分类测试的文本数据库,其中包括生气类425个句子、高兴类263个句子、难过类120个句子和惊讶类65个句子。数据库的文本语料主要来源于维吾尔语的电影字幕文本,还有从、、等论坛评语中抽取来的。是因为这些数据源所包含较丰富的情感信息。另外,为了使情感分类系统获得更加广泛的适用性,该文通过人工抽取的方法又收集了情感关键词和情感短语,并建立了规模较小的情感词词典。其中,共有属于生气类的183个情感词条、高兴类81个情感词条、难过类140个情感词条、惊讶类72个情感词条。

3.2实验指标

典型地,在自然语言处理中通常采用准确率,召回率和综合指标F-值是三个常用的实验评测指标。该文在情感关键词词匹配算法的基础上实现的情感分类系统的分类性能进行评测时,同样采用了这3个评测指标:准确率(P),召回率(R),综合指标F-值(F)来评价本系统的性能。计算公式为:

3.3实验结果及分析

本文,在以上所描述的情感分类算法的基础上,利用Visual Studio C Sharp 2010 编程工具实现了维吾尔语句子情感分类系统。为了验证本文所提出的情感分类算法的有效性,我们使用所有资源语料进行情感分类测试实验。实验测试结果如表3所示。

测试结果表明,该情感分类算法对维吾尔语句子情感分类具有相当好的分类效果,该系统中除了惊讶类外,可以达到较高的情感分类的正确率。显然,为高兴类而建立的情感词词典不够大,但是在句子中能表达高兴类的情感关键词比较突出明显和集中化。所以高兴类的情感分类可以达到90.11%的正确率和86.02%的F1值。

另外,从实验结果可以看出,该系统进行句子情感分类时,分类结果中会出现有些情感类型句子的分类总数超过原来的句子总数(例如:生气类中句子总数为480,分类以后所得到的句子总数为509),这是个理所当然的现象。因为系统进行情感分类时,系统错误地属于该类的某些句子同时分类于其它类。

与此同时,一般在惊讶类的句子很少见的缘故,采集该类的语料和抽取较明显表达该类情感关键词工作当中显然存在困惑。因而,可以达到的效果不佳。

4 总结

本文在基于情感词词典的维吾尔语句子进行情感分类研究与分析,并初步实现了维吾尔语句子情感分类应用系统。首先,通过人工抽取方法收集了情感关键词和情感短语,并建立了情感词词典。然后,借助词典匹配的思想,提出了维吾尔语情感分类算法,并利用该算法进行维吾尔语句子情感分类。实验测试结果表明,我们所提出的分类算法在维吾尔语句子的感情分类方面具有相当好的分类效果。另外,在维吾尔语句子情感分类系统中该算法的实用足够地说明该算法的应用性。从而验证我们算法的有效性和可用性。

因此,今后的研究工作中除了改善关键词匹配算法以外,还需要自动提取情感关键词和情感短语方面更进一步地探索。

参考文献:

[1] 宗成庆.统计自然语言处理[M].北京:清华大学出版社,2013.

[2] 代大明,李寿山.基于情绪词的非监督中文情感分类方法研究[J].中文信息学报,2012,26(4):103-108

[3] 赵志伟.中文文本倾向性分析研究[D].安徽:安徽大学,2012.

[4] Kao E C C, Liu C C, Yang T H, et al. Towards Text-based Emotion Detection A Survey and Possible Improvements[C]//Information Management and Engineering, 2009. ICIME'09.International Conference on. IEEE, 2009: 70-74.

[5] 李寿山.情感文本分类研究[D].北京:中国科学院自动化研究所,2008.

[6] 潘文彬.基于情感词词典的中文句子情感倾向性分析[D].北京:北京邮电大学,2011.

[7] 王素格,杨安娜,李德玉.基于汉语情感词表的句子情感倾向分类研究[J].计算机工程与应用,2009,45(24):153-155

[8] 黄俊,田生伟,禹龙.基于维吾尔语情感词的句子情感分析[J].计算机工程,2012(5).

[9] 田生伟,禹龙,王宇光.维吾尔语情感分类算法[J].计算机工程与应用,2011,47(36):147-151

[10] 冯冠军,禹龙,田生伟.基于CRFs自动构建维吾尔语情感词语料库[J].现代图书情报技术,2011,3(203)17:21.

上一篇:激发学生潜能,收获无限惊喜 下一篇:寓人文情怀于语文课堂教学之中