基于情感词典的藏文微博情感分析研究

时间:2022-10-22 12:11:14

基于情感词典的藏文微博情感分析研究

摘 要 本文通过借鉴中文微博情感分析中较为常用的基于统计的方法和基于词典的方法来对藏文微博进行情感分析,通过实验的方式发现基于藏文词典的藏文微博情感分析的准确率明显高于基于TF-IDF的藏文微博情感分析的准确率。

关键词 情感分析;情感词典;藏文微博;TF-IDF

中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2014)20-0220-02

微博作为全球最具创新的信息方式,迅速风靡了整个世界, 这些微博不仅反应了一些事件信息,同时也附加了用户对事件的情感表达。目前国内外对于中文的新闻和博客文本的情感分析研究已经比较成熟。然而,对于藏文微博的相关文本情感分析研究还未全面展开。本文将借鉴中文微博情感分析的相关理论与技术来对藏文微博进行情感分析研究。

1 相关理论与技术

情感分析(Sentiment Analysis)也称为观点挖掘(Opinion Mining),是对给出的文本的感彩进行分析、归纳的过程。即判断一篇文本中观点持有者对某个事件或商品持有的正向、负向或中立的态度。本文将采用情感词典与藏文文本分类相结合的方式对藏文微博进行情感分析。

本文中藏文微博的相关文本处理流程图如图1所示。

图1 文本处理流程图

1.1 藏文分词

目前常见的分词技术有三类,分别如下:基于规则的方式;基于统计的方式;基于两者融合的方式。在该文章中,分词技术软件使用了西北名族大学中国民族信息技术研究院祁坤钰老师所开发的藏文分词软件。该方法处理了紧缩词问题,并把紧缩词识别和藏文分词统一到一个模型中,是一个比较实用的藏文分词方法。

1.2 特征选择

特征选择也叫特征子集选择(FSS,Feature Subset Selection)是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中筛选某些高效特征使数据集维度降低的一个过程。文章在特征选取上将采用基于TF-IDF的值和基于藏文词典两种不同的方式来给特征项词分配权值。

1.2.1 基于TF-IDF的统计方式

理论思想:假如某个词或短语在一篇文章里面出现的频率TF高,并且在其他文章中很少出现,那么就认为此词或者短语就有着不错的区分性能,在分类的应用上有优势。TFIDF实际等于TF*IDF,TF表示词频,也就是某个词语在给定的材料信息中出现的次数;IDF表示逆向文件频率,它的主要理论思想如下:如果包含某词条的文档越少,IDF越大,那么说明这个词条在分类区别上表现出较好的优势。TF-IDF倾向于过滤掉比较普遍的词语,最终留下相对重要的内容。

1.2.2 基于藏文词典

基于藏文词典的方法又叫情感词加权的方法,它主要根据专家词典的基准词做出判定。在英文文本信息处理方面,大都采用普林斯顿大学的创建的庞大的英语词汇数据库――WordNet,数据库中的动词,名词,形容词以及副词分别被构建成了一个认知同义的集合,这里边的每个同义词集合都代表一个基本的语义概念。而中文文本信息处理方面,主要采用知网和同义词词林的扩展版等相关词典。

藏文文本的处理上在理论上与英文和中文上类似,本文实验中采用的藏文词典是在本院实验室常用的特定藏文语料库的基础上自行建立而成。

1.2.3 文本情感分析

文本情感分析是对文本作者的意图或情感实行估算检测,并进行深度挖掘研究分析。文本情感倾向分析牵涉面比较广泛,有人工智能、自然语言处理、机器学习、信息检索等各方面知识。

文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。

2 实验结果与分析

本文通过实验的方式对基于TF-IDF和基于藏文词典的两种不同方法在藏文微博情感分析上的准确率进行了比较,实验结果表明基于藏文词典的藏文微博情感分析的准确率明显高于基于TF-IDF的藏文微博情感分析的准确率。实验具体结果如表1所示。

表1 实验结果

准确率

方法 第一组 第二组 第三组

TF-IDF 40.57% 39.65% 41.26%

藏文词典 65.34% 65.12% 67.02%

3 结束语

本文借鉴了中文微博情感分析的相关理论与技术来对藏文微博进行情感分析研究。对于藏文微博内容的情感分析将有助于准确的了解藏族地区的实时舆情,及时发现热点话题并跟踪能快速而准确的得知藏族同胞当前最为关心的问题,有助于政府有关部门及时做出正确的决策,以保证藏族地区能够继续和谐稳定的向前发展。

基金项目

西北民族大学研究生科研创新项目(ycx14151)。

参考文献

[1]魏,向阳,陈千.中文文本情感分析综述[J].计算机应用,2011,31(12):3321-3323.

[2]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834?1848.

[3]刘红玉.网络舆情情感分析系统的设计与实现[D].电子科技大学,2013.

上一篇:企业信息化管理的战略框架与成熟度模型研究 下一篇:110千伏金洋站F15圣淘线715开关故障保护动作拒...