基于向量空间模型的网页过滤分析

时间:2022-05-27 10:10:34

基于向量空间模型的网页过滤分析

随着互联网的快速发展和进步,其已经在电子商务、电子政务、金融证券、电力通信、科教文卫等领域得到广泛普及和使用,已经积累了海量数据信息,因此亟需利用先进的机器学习、模式识别等数据挖掘技术过滤网页内容。论文详细地分析了基于向量空间模型原理,详细的研究向量空间模型在网页过滤中的应用。

【关键词】向量空间 网页过滤 相似度 特征项

1 背景

随着大数据、云计算、多媒体等技术的快速发展,促进了互联网的应用,网络为人们工作、生活和学习提供了信息传递和交流的平台。在网络信息迅速膨胀的同时。网络信息迅速膨胀的同时给网络文档检索、信息提取、自动化分类等带来了严重的灾难,亟需采用先进的网络文档数据挖掘技术获取网页内容和信息。通过多年的研究,网页过滤已经得到了较大的改进。Bello G.等人针对Twitter、Facebook和Linkedln等在线文本数据资源进行了研究和分析,通过采用数据挖掘技术、可视化技术、机器学习技术等分析网络中谁是最爱发言的人、谁与谁是朋友、人们在谈论谁等内容,分析网络中现有的人物、兴趣、活动等。Kahya Ozyir midokuz等人详细分析了微博文本处理过程中数量较多的问题,提出采用新的K均值算法分析微博内容情感问题,进一步分析微博情感内容,监控人们的舆论导向,进一步引导人们的舆论向着有利方向发展。Naveed N.等人针对网络文本数据量多、具有稀疏性、文本符号多、文本长度不一致等问题影响网页过滤准确度,提出采用一种基于主题的、最有趣的文本长度推荐方法,归一化文本长度,进一步改进网页内容过滤准确度。Bifet A等人分析了数据挖掘技术在网页过滤分析过程中存在的问题,提出一个滑动窗口Kappa统计分析的准确度,可以有效地避免频率较高的词语影响网页内容分析的准确度。Tsytsarau M等人对网页过滤分析做了详尽的描述,使用词典统计、语义计算、机器学习等方法进一步改进,并且将大量的研究内容转向了门户网平台,改进门户网内容监控准确度。Ghiassi M等人将网页内容过滤分析分为两个关键类别,一种是结合文本词汇数据库分析微博文本的倾向性;一种是使用一个特征向量描述文本,使用已经标注的数据集训练文本分析模型,基于训练模型学习网页内容,进一步提高了网页过滤的准确度,可以使用度量方法获取网页量化数值。Cambria E等人分析了三种有监督的分类方法,分别是支持向量机、最大熵和朴素贝叶斯等,并且针对支持向量机在网页过滤过程中存在的问题,提出了一种基于隐喻改进的网页过滤方法,将相关的文本词汇放在不同的语境中可以得到不同的释义,进一步改进网页过滤的准确度。Jafary F等人基于Twitter的网页过滤文本构建了一个分析词典,基于N-grams和统计分析模型进行了特征降维,在降低网页过滤模型复杂度的同时,进一步改进网页过滤算法的准确度。Ortigosa-Hernández J等人基于半监督学习模式优化网页过滤算法,合并主观性和影响力等内容计算文本者的相关态度,主动学习方法可以结合图模式、产生式模式提高网页过滤准确程度,在标注词汇较少时大大提高网页过滤的准确程度。孙宏纲等人研究了网页过滤情感语句的自动提取过程,设计了一个基于二元切分提取算法获取网页过滤词汇,基于TF-IDF算法获取更多的次要网页过滤内容,并且利用这些网页过滤词充足了相关的原始句,进一步实现了网页过滤准确度。谢丽星等人详细地分析了网页过滤的重要研究内容,深入研究了表情符号规则方法、情感词典规则方法、基于SVM的层次结构的多策略方法,针对基于SVM的层次结构多策略方法进行研究,引入了主题相关的特征分类方法,可以有效的提升网页过滤准确度。

欧阳纯萍等人提出了一种基于多策略融合的细粒度网页过滤方法,第一步采用Stacking组合分类方法对网页过滤分类问题进行研究,构建一种21维度特征向量,采用SVM和KNN算法对网页过滤进行细粒度分析,实验结果表明多策略融合分析方法优于单一分类方法。吴维等人利用网页过滤动词和形容词作为特征语料,提出了一种基于层次结构的特征降维方法,采用表情符号计算特征情感值,提出基于特征情感词的位置权重计算方法,使用支持向量机将网页过滤文本分为正面、负面和中性三个类别,提高网页过滤准确度。

杨武等人首先分析了网络文本特征,采用朴素贝叶斯分类器对网页语句进行主客观分类,提取主客观线索特征,接着使用2-POS模式构建一种最佳的网页过滤模式,最后特征词和主客观线索作为语义特征,提高了网页过滤分类效果。夏梦南等人详细地分析了现代网页用语口语化、简洁化等特征,充分利用句法依存关系及条件随机性,选择有效的评价对象,引入标签等特征,优化网页过滤分类性能,基于机器学习提高网页过滤分类方法的准确度。李婷婷等人提出了一种基于CRF和SVM的网页过滤方法,该方法可以充分利用程度副词、否定词、特殊符号等文本特征,选用不同的特征组合,通过多组合提高网页过滤效果,提高网页过滤准确度。李寿山等人认为网页过滤分类是一种面向主观信息分类的文本分类任务,在自然语言处理过程中得到了普遍的关注,归纳了网页过滤分析存在的问题,提出一种基于Stacking的组合分类方法,引入了组合分类思想,提高了网页过滤分类的准确度。

2 向量空间模型(VSM)

向量空间模型(VSM)是20世纪70年代Salton等人提出的一种SMART文本检索系统,其可以使用向量表示一篇文本,并且将文本集概括为向量集,通过对与文本集关联的向量集进行有效的模式识别,判断文本相似度,统计分析文本特征。

向量空间模型运行时的相关概念如下:文档(D,Document)主要是是指一篇网络文档,也可以是某一篇文档的中的部分内容,比如摘要等。特征项(T,Term)是指能够刻画文档的特征词集合,一篇文档可以使用形式化描述D(t1,t2,…,tn),tn表示第n个特征词。特征项权重可以使用wk(Term Weight)描述,表示某一个特征能够描述文档的能力,权重越大,表示特征词越关键,D(wn1,wn2,…,wnm)可以表示文档D的特征项t1,t2,…,tn等权重取值。

文档相似度(S,Similarity)可以描述任意两篇文章的相关程度,可以通过计算文档的内积、Dice系数、Jaccard系数和余弦系数获取相似度量化值。具体的,假设两篇文档Di=(d1i,d2i,…,dmi)T和Dj=(d1j,d2j,…,dmj)T,他们之间的相似度采用不同计算模式可以获取不同的结果,详细描述如下。

(1)内积。Di与Dj之间的相似度用内积如公式1所示。

(1)

(2)Dice系数。文档Di与Dj的Dice系数如公式2所示。

(2)

(3)Jaccard系数。文档Di与Dj的Jaccard系数如公式3所示。

(3)

(4)余弦系数。文档n与Dj之间的相似度用余弦系数表示,如公式4所示。

(4)

通多对文本空间进行形式化描述,可以将其变换到向量空间,如图1所示。

文本向量空间可以使用相似度计算任意两个文本的相似程度,并且可以扩展到所有的向量空间模型中,并且对其进行排序,同时规定一个代表相似度高的阈值,如果大于阈值则文档间相关程度高,如果小于阈值则文档间相关程度低。如图2所示。

3 向量空间模型在网页过滤中的应用

网页过滤过程中,网页文本信息最小的组成单位就是词或短语,因此词或短语最方便采用的特征,在文本处理过程中,将文本集合中的每个文本实行分词处理后,无论文本用向量空间模型还是概率统计模型来表示,每个特定的特征词对应一个维数,并且含有大量干扰项和无用项的特征向量。如果要全部地将这些向量的信息进行统计并直接用这种特征向量进行相似度的判定或分类,算法的计算复杂度相当大,算法的时效性会非常差。这样既提高了处理速度,又提高了准确率。特征项选择需要构建一个功能完善的评价函数,初始化向量中的每一个特征参数,并且对其进行评估,针对每一个特征计算值进行排序,然后按照网页过滤设置需求获取预订数目的特征子集。选取多少个特征最佳以及采用什么评价函数都需要针对具体问题通过实验来决定。目前,已经有了很多函数,并进行了深入的调研和比较,总结出每种方案的适用范围和效果,一些常用的特征评估函数有文档频率DF、互信息MI、信息增益IG、期望交叉熵CE、CHI统计、文本证据权和优势率、特征强度等。根据公式(4)所示,Sim(Di,Dj)表示文档之间相似度,其中Di代表文档库中的单个文档,Dj为查询文档,dki为文档库文档中的第k个特征的权重,同理,dkj为查询向量中的第k个特征的权重。其实相似度是一个很复杂的概念,在不同的具体应用中,其含义有所不同。我们可以把两篇文档的相似度定义为一个在[0,l]之间的数值,0代表两篇文档不相似,1代表两篇文档完全相似,两篇文档之间的相似度的值越大表示它们就越相似。

4 结束语

随着互联网技术的快速发展和进步,针对网络文档数据进行挖掘和分析已经成为当前搜索引擎、舆情监控的关键技术,向量空间模型可以采用多种相似性计算方法,将类似的文档划分到一起,提高了网页过滤的准确度,具有重要的作用。

参考文献

[1]代宽,赵辉,韩冬,等.基于向量空间模型的中文网页主题特征项抽取[J].吉林大学学报:信息科学版,2014,32(1):88-94.

[2]许琦.基于向量空间模型的个性化信息过滤系统研究与开发[J].计算机与数字工程,2014(10):1940-1944.

[3]亚力青・阿里玛斯,哈力旦・阿布都热依木, 陈洋.基于向量空间模型的维吾尔文文本过滤方法[J].新疆大学学报:自然科学版,2015(2):221-226.

[4]刘伟光,郭小丹,孔繁秀.一种基于改进向量空间模型的藏文主题网页采集方法[J].图书馆学研究,2014(16):55-62.

[5]李艳,贾君枝.基于向量空间模型的标签树构建方法研究[J].情报学报,2014, 33(3):277-283.

作者单位

惠州学院 广东省惠州市 516007

上一篇:体育教师提升教育魅力的方法与手段浅析 下一篇:团队导师制在地方高校研究生培养中的应用