改进互联网电商评论特征词典的舆情观点分类

时间:2022-09-19 08:52:51

改进互联网电商评论特征词典的舆情观点分类

摘 要:电商评论数据往往都是以短文本(在电商领域这种用户的声音称为源声)形式存在,它在一定程度上会影响商家的知名度,因此对源声的舆情分析尤为重要。源声分类技术的出现正是为了满足商家的这种需求,针对源声特征稀疏以及观点多样性特征点,而且舆情观点错误识别的问题,提出一种改进互信息的方法实现特征约简,从而创建一个特征词典集合,对源声进行观点分类,并作了大量实验验证该思想的可靠性。

关键词:特征提取;源声;词典集合;互信息

引言

本文将深入阐述在互联网电商评论短文本信息分类领域的研究,构建一个特征词组-分类的map(k,v)集合,观点是消费者从自身立场出发对某产品的看法,由于产品领域的多样性,产品各个领域都会成为评价的对象,因此同一条源声会有多个观点,可以将源声以分隔符进行拆分,短文本通过分隔符由内向外并行分类方法,从而避免错误输出,并针对此多分类问题,构建多映射的hash map集合。

1 短文本结构

1.1 源声组成

在对源声观点识别时常常将源声拆分3种布局方式:“产品”+“评价”的形式;“领域”+“评价”的形式被称为二元观点;“产品”+“领域”+“评价”被称为三元观点。拆分示意图如下所示:

1.2 源声观点输出

VR眼睛这款产品涉及的领域细分有85种。进行源声分类时,如上述源声特征“很差”和“外观”两个特征项构成的单词序列连续出现时,机器很容易理解成“很差的外观”,造成分类观点错误的输出。对于源声“VR眼镜体验效果真心很差,可是外观确实漂亮”,很容易错误输出观点如图2所示:

2 特征选择与特征约简

特征选择是在不丢失文本信息的情况下保留那些最能够代表文档类别的特征,往往对电商评论数据进行观点分类时,起关键作用的不到3个关键词,本文提出一种改进互信息方法提取组成源声文本的前3个强相关特征分别代表“领域”“前缀否定”“评价”。这样可以提高文本分类精度同时减轻计算量和内存的消耗。在构建类标签特征词典时,本文提出一种改进互信息方法对源声文本进行特征提取。

2.1 特征选择

特征词和类别的互信息可表示为特征词和类别同时出现的概率与特征词和类别各自分别出现的概率的比值取对数,主题词和类别的互信息可表示为主题词和类别共同出现的频率与特征词和类别各自分别出现的频率的比值取对数[1],计算公式:

p(wr)表示主题词出现的频率,p(ck)表示类别出现的频率,p(wr,ck)表示主题词wr与类别ck共同出现的频率[2]。

2.2 特征约简

本文提出一种在给定类标签条件下两两不相关特征词之间的改进MI的计算方式:

(2)

(3)

式中wd代表领域词,wp代表前缀否定、we代表样本的评价特征词,p(wd,we)表示代表源声文本观点的“领域”和“评价共同出现的概率”,p(wd|ci)和p(we|ci)分别代表在类标签ci条件下领域特征词wd和评价词we出现的概率。p(wd,wp,we)表示代表源文本观点的3个特征词“领域”“前缀否定”“评价”在该篇文本中共同出现的概率。

3 改进特征词典构建

Bag of Words算法称为词袋模型,它首先假设组成文本的每个特征词是相互独立的,不关心每个特征词出现的顺序,将源声当做多个特征词组成的集合[3]。由于源声观点的多样性以及观点的误分性,利用Bag of Words容易产生错误输出。而map键值对特性易于理解方便存储,领域与评价强关联的词组组成一个map集合,即map(key,value),其中value表示对应类标签,即value={v1,v2,…vn},其中v代表键值类标签。

3.1 词典训练阶段

对每一个类别构建一个类别词典,如舆情观点分类是“外观不好看”,则经过特征筛选组成该类标签的词典是dictionary1={“色泽”,“外观”,“外表”,“没有”,“不”,“好看”,“靓丽”,“上档次”,“鲜艳”,“精美”},将源声经过特征提取后经过每个类标签匹配,若出现该特征词用“1”表示,否则用“0”表示,对于有些源声多个类别,对每个键值使用hash函数,采用链式存储法进行存储。举例:源声“这款VR外观不太好看”,根据dictionary1匹配到当前类别向量是Vector=[0,1,0,0,1,1,0,0,0,0],将匹配到的向量作为map集合的key值存储[4]。

3.2 分类阶段

训练好的词典存储在HDFS分布式文件集群上,对每个文件分配一个Reduce作业,以测试样本为输入,每条样本分词后与词典集合进行匹配,采用分布式可对多个样本集进行并行的测试[5]。

3.3 算法伪代码(见图3)

4 实验

训练样本数据集和测试样本数据集是在各大电商网站等渠道经过爬虫抓取的VR眼镜数据集,主要包含从互联网电商上抓取评论数据,在源声去噪后,提取对训练样本库有效的源声信息,最后根据人工判读来确认源声样本库的分类标签。

本文同样使用覆盖率,准确率,其中准确率和覆盖率分别定义了两个不同侧重点的分类精度,准确率代表组合分类器正确输出的源声观点与已知组合模型输出的比值,覆盖率代表所有实际属于该类的源声中,有多大比率被组合模型准确分到这个类中。为避免出现查全率或查准率其中一端为1而另一端为0的极端情况出现,本文运用了F1测度值对模型精度的整体评价[6],公式如下:

(6)

将采集到16400条的电商数据集按照3:1比例作为训练样本和测试样本,模型观点输出的结果文件以.csv文件存储,汇总输出观点量化指标。表1给出了训练样本经过map特征词典集合观点输出汇总结果:

表2给出了测试样本经过map特征词典集合观点输出汇总结果:

5 结束语

本文将爬取下来互联网电商评论作为数据集,对这种短文本数据进行观点分类,主要工作有:针对观点错误分类的原因进行了阐述;在处理源声观点分类时,源声数据首先经过数据预处理,去除没有观点的噪声数据并分析每条源声X拆分后的形式;提出了一种改进源声特征选择以及特征提取方法;构建了文本特征词典同时构建n个map(k,v)分类集合用于与词典匹配从而进行分类。

参考文献

[1]邓彩凤.中文源声分类中MI特征选择方法研究[D].成都:西南大学,2011.

[2]郭泗辉,樊兴华.一种改进的贝叶斯网络短文本分类算法[J].广西师范大学学报(自然科学版),2010,28(3):140-143.

[3]Uijlings,J.R R,Smeulders,et al.Real-time bag of words,approximately[J].Proc.acm Int'l Conf.image&Video Retrieval,2009(3):375.

[4]刘红光,魏小敏.Bag of Words算法框架的研究[J].舰船电子工程,2011,31(9):125-128.

[5]熊传宇.基于Map-Reduce的海量数据约简算法研究[D].武汉:武汉理工大学,2013.

[6]宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109.

上一篇:螺母维氏硬度测量不确定度的评定 下一篇:碳纤维复合材料车体设计关键技术研究