垃圾评论识别的数学建模

时间:2022-03-06 10:03:26

垃圾评论识别的数学建模

摘 要:如今网络产品的评论中存在较多垃圾评论,提高垃圾评论的识别效率有非常重要的意义。为此我们将评论以段的形式分为相关评论和不相关评论,将评论向量化,并结合KNN分类器进行垃圾评论识别,进而推广对一般化产品考虑,提出一种基于层次分析法的垃圾评论识别研究方法。

关键词:垃圾评论识别;KNN;特征提取;层次分析法

引言

近年来,互联网逐渐发展成为“以用户为中心,用户参与”的开放式架构[1],用户对购买的商品进行评论,消费者和生产商通过产品的评价,也可以了解产品的优势与不足,把握用户需求,改善服务。然而,由于网络评论不受任何约束,使得评论中充斥着大量垃圾评论,故提高垃圾评论的识别效率有非常重要的意义。

1 数据来源与处理

研究以2015年MathorCup数学建模竞赛C题垃圾评论识别的评价数据为基础。文章通过对评论文本进行分析,总结出其在中文评论领域的特点主要表现在以下几个方面[3]:评论文本格式自由多样、评论对象的多样化、评论内容具有近似重复性、不真实评论和广告和不带有感色彩的随机文本。

首先,我们对从京东网站中获得的iPhone 6 Plus的200条评论分析整理,并对评论属性提取并进行向量化处理,将处理后的向量作为训练集。

表1 训练集向量化处理(部分结果)

iPhone 6 Plus手感很好,上手容易。是正品,快递师傅服务也很好!商品封条完整。 (3,2,0,0,1)

2 垃圾评论识别

2.1 KNN 最近邻分类算法算法步骤

(1)根据特征项集合重新描述训练文本向量;

(2)在新文本到达后,根据特征词分词新文本,确定新文本的向量表示;

(3)在训练文本集中选出与新文本最相似的K个文本,计算公式为:

(1)

(4)在新文本的 K个邻居中,依次计算每类的权重,计算公式如下:

(2)

其中,x为新文本的特征向量,Sim(x,di)为相似度计算公式,y(di,Cj)为类别属性函数,即如果di属于类Cj,那么函数值为1,否则为0。

2.2 评论测试集的建立

对附件中的36条评论同样进行向量化处理,作为测试集,结果如图2所示。

图2 训练集和测试集评论数目

2.3 模型求解

根据上节建立的KNN分类器垃圾识别方法,利用训练样本对测试样本进行识别,识别结果如表2所示。

表2 KNN分类算法垃圾识别结果

3 基于层次分析的垃圾评论分类模型

3.1 相关概念定义

在产品垃圾评价识别模型研究中,为了方便问题的研究,我们定义了量化评论、评论者、商家的变量分别为评论句的价值度、评论者的可信度和商家的可靠度。

(1)评论的价值度:表示为P(x),P(x)代表该评论x具有评论特征的程度。(2)评论者的可信度:表示为B(y),B(y)代表我们相信该评论者y的程度。(3)商家的可靠度:表示为R(z),R(z)代表该商家产品可靠性的程度。

3.2 层次分析法

所谓层次分析法就是将一个复杂的多目标的问题作为一个决策系统,该目标问题又可分为多个准则或目标,进而分成具有多准则、多约束的若干层,然后依据求解判断矩阵特征向量的方法得到每一层次的各个元素对上一层次元素的权重,最后使用加权和的方法进行归并,得到对总目标的最终权重,层次分析法的主要的步骤为[4]:

图3 层次分析法流程图

3.3 评价指标的确定

3.3.1 评论的价值度检测

(1)评价句的特征。评价句指构成产品评论文本每个短句中,包含产品特征或评论观点的句子。产品评论质量的高低很大程度取决于评论文本中评价句数量的多少。因此,如何识别评论中的评价句,经分析,若评论句子中存在产品特征词,则该句子具有评价句特征的概率很大。为此,我们参考词性路径模板并用于评价句的检测,同时为了提高分词系统对评价词的识别率,在分词系统中加人自定义评价词顺,最终使用表 所示的词性路径匹配模板集按优先级顺序提取评价句。

图4 词性路径模板集P

图5 罗杰斯特公式图像

对于评论中的每个短句,文章认为如果和表中的任一模板匹配,该短句就有评价句特征。

(2)评论的价值度计算。若一句评论里面的评价句比例大,则该评论为正常评论的可能性也就较大。若一个评论的评价句比例过小,则该评论为垃圾评论的可能性也就较大。所以通过比较该评论的评价句数量和整体评论字符数量,就可以可以得到该评论的价值度。

P(x)=■ (3)

其中P(x)表示的是评论价值度, ■xi是整体评论字符数量,gi是评价句的数量。

3.3.2 评论者的可信度检测

根据评论者可信度和评论价值度的关系以及其变化趋势的研究,我们可以很容易的得到可信度检测计算函数图形为“S”型增长的曲线,如图5所示。为此我们构造如下的得分函数:

(4)

其中B(y)表示的是评论者可信度,y是评论者信息输入集元素。

3.3.3 商家的可靠度检测

若一个商家拥有的来自可信评论者的正面评论越多,它的可靠度值越高,故类似于评论者的分析,我们得到店家的可靠度值变化曲线也是罗杰斯特曲线。所以商家R的可信度关系计算公式如下:

(5)

其中R(r)表示的是商家可靠度度,r是商家信息输入集元素。

3.3.4 评价指标体系的建立

设模型的评价指标体系S为P、B、R加权之和,所以整体评价指标体系R模型如下:

(6)

3.3.5 指标权重的确定

下面借助层次分析法[4]来确定

综合评价指标体系的层次结构见如图6所示 。

图6 层级分析结构

假设对此评论体系,有专家给出成对比较矩阵

求得:一致性指标:?姿max=0.0193一致性比率:?姿max=0.0370,这样就可以确定

通过层次分析法确定了所有权重,因此评价指标体系模型W可表示为:

R=0.1047P+0.2583B+0.6370R(7)

4 结果分析及结论

对一般的产品评价集合,如果我们仍然从评论样本本身单方面考虑会有以下两个难点。

第一,工作量大,时间冗余度长。从评论本身出发,提取该产品主题的关键词和特征进行样本训练,但是这样处理时,当你换另一个产品是有需要对关键词和样本特征提取,人工的工作量很复杂。不能讨论并建立更一般的模型,并谈谈你的该类识别问题的看法;第二,一个评论者对某件产品的评论肯定与评论者的可信度和商家的可靠度有关系,所以我们从三者综合出发,利用层次分析结构分析三者之间复杂的关系,得到三者占评论诚信度的权向量,最后代入得到的指标取值,得到该评论的最后得分,从而判断改评论的极性(是否是垃圾评论)。

文章给出了一般化产品的研究思路和模型,具有一定的创新性和高效性。

参考文献

[1]聂卉.产品评论垃圾识别研究综述[J].情报分析与研究,2014,243(2):63-71.

[2]徐胜国.基于加速近端梯度法和文本语义的垃圾评论信息分类方法[D].江苏:南京邮电大学,2014.

[3]N. Jindal,B. Liu. Opinion spam and analysis. Proceedings of the first ACM international conference on Web search anddata mining 2008:219-229.

[4]司守奎,孙玺菁.数学建模算法与应用[M].国防工业出版社,2011.

[5]游贵荣,吴为,钱 涛.电子商务中垃圾评论检测的特征提取方法[J].现代图书情报技术,2014,10.

上一篇:基于ACCESS的仓储信息管理系统开发 下一篇:大数据影响下网络承载问题研究