基于共现词的中文微博观点句识别

时间:2022-09-06 08:41:40

基于共现词的中文微博观点句识别

摘要:近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。由于微博平台数据量庞大,所以会导致提取带有用户观点的句子较为困难,如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,该文将传统观点句识别方法与共现词相结合,提出了基于共现词的中文微博观点识别算法。该文的研究内容包含以下几点:首先,利用主题模型对数据进行聚类分析,提取具有内容代表性的词语,组成共现词集合;然后,使用Stanford Parser句法分析工具对微博数据进行句法分析并且进行模板匹配,识别出较为明显的观点句;最后,使用共现词与2-POS[1]等特征,识别句法分析无法识别的观点句。

关键词:微博;观点句;主题模型;LDA;共现词

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)11-2618-04

随着国外Twitter等微博的风靡,我国国内的微博也开始发展,截至2013年11月,我国微博账号总数已经突破13亿。用户可以在微博平台上自由发表观点与意见,而这些信息有着巨大的潜在价值。微博的观点句识别技术可以帮助人们快速,准确地获得自己感兴趣的内容中的民众观点。因此,近年来微博的观点识别研究逐渐成为了热点。但是,与传统媒体相比,微博的观点句识别更加具有难度。目前,国内对于微博观点句识别的主要技术可以分为两类[2]:基于词典与规则匹配的识别方法和基于统计的识别方法。基于词典与规则匹配的识别方法主要使用情感词本体或者情感词典作为识别的基础。基于统计的识别方法主要使用了支持向量机(SVM),朴素贝叶斯(Naive Bayes)等[3]在已经标注好的语料上进行训练,然后使用训练所得到的分类器进行分类。但是这两类方法很少考虑到微博内容的聚集性特征。

本文决定使用LDA(Latent Dirichlet Allocation)[4]主题模型对微博内容进行分类,并提取出其中的共现词组成词对加入到观点句提取算法中。该文的研究内容:考虑微博数据的内容聚集性,将LDA主题模型与常用观点句提取算法相结合,并且通过实验验证了该方法的有效性。

1 背景

1.1 LDA模型介绍

LDA是一种自生成模型,该模型采用了概率的产生式来对文本进行建模。 LDA主题模型是基于bag of word前提的,即不考虑文档中的单词顺序,其基本思想是每一篇文本都可以看成是所有主题的混合分布,而主题又可以看成是词汇库中所有单词的混合分布。

1.2 微博观点句

根据COAE2013中关于微博观点句定义,可以将微博观点句定义为:微博中对特定事物或者对象的评价,但是不包括对于自身情感或者心情的表达。该文参考张博[5]一文中对于观点句的分类来划分观点句,将观点句分为显性的观点句和隐性的观点句。显性观点句:核心谓语为指示性动词,例如“认为、觉得”等,一般长度较短,具有明显的句法特征。例如:“我觉得蒙牛牛奶很好喝。”。隐性观点句:不带有指示性动词,但是包含了对于特定事物的情感倾向。例如:“奥迪的车型很好看”。

2 观点句提取算法

本文采取了工具模板标注以及Weka工具软件来提取微博观点句。本节将讨论算法设计以及所使用的工具。

2.2 共现词提取

由于微博信息的长度较短,所以微博中的观点句一般会采取具有代表性的词汇来表达观点。通过LDA模型所得到的某个主题下的贡献词汇,一般与该主题有着较大的相关性,故本文采取共现词来识别微博信息的主题,提取观点句。

根据文本预处理的结果,该文使用LDA模型进行分类,然后对于分类结果进行共现词的筛选,并且使得共现词表中的名词达到50%以上时停止筛选。

2.3观点句提取

根据观点句的分类,该文分别提取显性观点句和隐性观点句,同时,对于微博信息具有的特殊格式:转发信息,该文进行了特殊处理,然后按照普通微博信息的观点句提取算法进行观点句提取。

2.3.1 转发信息处理

微博与传统信息的相比,具有其特殊格式:转发信息,这要求我们在提取微博观点句时必须对这种特殊格式进行处理。该文对于大量微博语料进行了研究,提出了以下微博转发信息处理方法:

优先抽取出最后一条微博信息和第一条被转发微博信息,进行观点句判断,如果判断为观点句,则认为该微博信息是观点句;如果判断这两条微博信息都不带有观点,则从左至右依次判断其他转发信息,只要任意一条为观点句,则认为该微博信息为观点句。

2.3.3 隐性观点句提取

对于隐性观点句,该文采用去除离散句子后使用Weka工具中的多数投票算法来识别。

Weka是一款JAVA环境下的开源机器学习以及数据挖掘工具软件,其中实现了多数投票

分类的方法。Weka中投票算法的关键在于特征选择以及特征权重的设置,通常采用词性,情感词,2-POS等特征,并且统计微博中这些特征的出现的次数作为权重。

在这里,该文加入共现词作为特征之一,所选择的特征如下:1.共现词特征,通过LDA模型提取出的共现词;2.形容词、动词特征,微博信息中每个部分的词性,通过ICTCLAS分词标注得到;3.情感词特征,即带有情感倾向的形容词、动名词以及网络词汇;4.2-POS特征,对于分词所标注的词性,每相邻的两个组成一个新的标记串。2-POS是叶强等提出的一种根据连续的双词词性组合来计算句子主观性的发方法,该方法通过统计方法提取2-POS主观模式经过训练样本统计后共发现有223个2-POS标记,我们采用卡方检验,选取了前20个2-POS标记作为特征。

在选取特征并且进行向量化以后,我们使用Weka工具进行了训练、测试以及效果对比。实验中人工标注了3000条隐性观点句,并且将1500条隐性观点句标注数据作为训练集,另1500条作为测试集。3 实验结果

本文采用了第五届中文倾向性分析评测会议(COAE2013)所提供的数据进行试验。

对语料进行预处理:去除语料中的噪音,人工标注了5000条观点句,并且将标注数据中的1500条隐性观点句数据作为训练集,另3500条作为测试集。

使用LDA模型提取共现词:使用LDA模型进行多次分类提取共现词,共进行了10次提取实验,提取出共现词共83个,分为3大类,这三大类共现词分别代表了银行业务类话题,汽车类话题以及牛奶健康类话题。

使用观点句提取算法进行观点句的提取。首先使用显性观点句提取算法对于3500条测试集提取显性观点句,剩下的部分使用隐性观点句提取算法进行提取。4 总结和不足

本文探讨了对于中文微博观点句的提取方法,但是由于微博信息的特殊性,国内对于微博观点句的提取算法效果并不理想。COAE2013评测中,17家单位的平均评测准确率和召回率均在24%左右,最高也仅有35%。所以说,对于中文微博观点句的提取方法,目前还处于初步探索阶段,处理方法有待改进。下一阶段,我们的工作将会集中在:

1)考虑网络标点与新词,扩建情感词典,加入网络词汇。

2)由于LDA模型对于短文本分类效果有限,我们考虑使用中国科学院计算技术研究所科针对短文本所提出的BTM模型[6]替代LDA模型。

参考文献:

[1] 叶强, 张紫琼, 罗振雄. 面问互联网评论情感分析的中文主观性自动判别方法研究[J]. 信息系统学报,2007(01).

[2] 吕云云, 李, 王素格. 基于 Bootstrapping 的集成分类器的中文观点句识别方法[J]. 中文信息学报, 013, 5: 012.

[3] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.

[4] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.

[5] 张博. 基于 SVM 的中文观点句抽取[D]. 北京邮电大学, 2011.

[6] Yan X, Guo J, Lan Y, et al. A Biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2013: 1445-1456.

上一篇:纯FLASH 网站中ActionScript3.0与XML 的结合应... 下一篇:基于AVR ATmega128的迷宫电脑鼠软件设计与实现