网页网站相似度判别方法研究

时间:2022-04-29 03:41:38

网页网站相似度判别方法研究

【摘 要】当今时代是一个以信息技术为代表的知识经济时代,各种先进的科学技术迅猛发展,给人们的生活带来了深远的影响,它极大的改变了我们的生活方式。以计算机技术和网络通信技术为代表的信息科技改变着我们的生活。在这个信息高速传播的时代,互联网已经成为用户浏览信息,搜索信息的主要来源,然而搜索引擎再采集网页时会出现许多相同或者近似的网页,这样不仅降低了用户在检索中的效率,同事也增加哦了存储空间,并且减少了用户的体验。我们就这个问题进行了讨论。

【关键词】相似度;搜索引擎;算法

一、引言

现代搜索引擎中的爬行程序在巨大的网络中采集网页时会搜集到许多相同或者是近似的网页,这样不仅降低了用户在检索过程中的效率,同时也增加了存储空间,并且减少了用户的体验。因此,判别网站页面的相似度并在此基础上去除重复的网页已经成为搜索引擎领域目前所研究的热点和重点问题。本文所研究的是网站页面相似度判别的方法,文中第一章分析了研究该课题的目的和意义,然后在第二章简单介绍了当前最好的检测网站页面相似度的几种算法以及它们各自的优点和缺点,对前人的研究成果作进一步的分析和学习,接着在第三章提出了一种相对先进的相似网页检测的算法,这种比较先进的算法采用的是基于最长公共子序列的相似性度量方法去判别网站页面的相似度,它能够很好地去度量出网页之间的相似程度和它们的包含关系,并能够获得较为理想的准确度。这个方法中同时也设计了一个有效的检测过程框架,此框架包含有三个步骤,可以用来保证算法运行时候的效率。

二、目的与意义

互联网诞生到现在,从共享性和开放性等特点以及对人类社会生活和工作等方面的影响来说,它无可厚非地已经成为了新世纪最伟大的创造之一。但是在网络迅猛发展的同时也给人们带来了一系列难题,最明显的就是现在的网络中已经存在着很多经过转载的网页,即一篇网页文档的内容会以相同的或者是以近似的形式去出现在其他的网页文档当中。而在这些重复的网页文档中有的是没有经过任何改动的粘贴复制,有的在内容上稍微做了一些改动,而有的则仅仅只是网页文档的格式不同而已。因为这个缘故,搜索引擎在收集网页文档时肯定会收集到很多主题内容相同或者是内容近似的网页文档,对这些相同或近似的网页文档如果不去进行处理,不仅会造成大量的存储资源浪费、索引的效率降低,而且也会造成最终用户检索困难和阅读困难的不良后果。所以,判别网站页面的相似度并在此基础上去除重复的网页已经成为搜索引擎领域目前所研究的热点和重点问题。

在此,我们所指的“相似度”是指不同两个网页之间相同部分的代码字节数占两个网页总字节数的百分比。合理降低网页相似度是网站优化中重要的一步。网页相似度顾名思义就是不同网页的相似程度,如果你的网站转载了其他网站的文章,那么可以说你这个网页和之前原创文章的网页是“相似”的。而对于那些重复度相对比较低的网页文档,比如以聚类的形式去呈现给用户的同一主题的新闻资源,如腾讯资讯、Google资讯等,我们却可以根据用户的个人喜好去进行显示。所以,对那些在内容上相同或者是近似的网站页面作一定的处理是一项非常有实际意义和价值的工作。

三、算法的优点与缺点

在网络的发展历程中,关于如何检测那些相似网页的方法始终是学者们研究的一个热点问题。用于检测相似网站页面的方法在那些与Web信息有关系的应用方面长期来都扮演着非常重要的角色。也正是因为这样,这些年来有许许多多检测相似网页的方法不断被提出来,并且被应用于实践,还都得到了有关专家的评估。不过在这些诸多方法中,比较具有权威性的当属由美国人Broder所研究提出的shingling算法[3]和由Charikar所研究提出的simhash算法[4]以及由Chowdhury所研究提出的I-Match算法[10],这三个算法被人们公认是目前对相似的网站页面进行检测时比较实用的算法。虽然说是比较实用,但这三种算法中也都存在着这样或那样的不足:一方面,这三种算法都只是采用了基于语法和基于语义的方法去评估两篇网页文档之间的相似度,而不是采用基于文档内容的匹配;另一方面,虽然高的评估分数可以代表很高的相似率,但是它并不代表很高的相似程度。完全可以这样说,就算存在两个网页文档,它们的内容是一点都不相同的,但这两篇文档仍然有可能会被判定为相似的两个网页文档。针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化。实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。

四、先进算法

对于如何检测网络中存在的相似网页文档,这方面的研究早期只是针对那些比较大型的文件系统,但后来很快就被投入应用到搜索引擎领域,在这方面最典型的检测系统应该是美国斯坦福大学的SCAM检测系统。针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化。实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。到现在为止,许多研究人员对网页文档相似性的检测提出了大量的方法,而经过研究分析,这些诸多方法大致又可以被分为这样的两大类:从网页文档中去提取出网页文档特征的方法和由网页文档的这些被提取出的特征去计算网页文档签名的方法。

五、结论

总体来说,虽然判断网页网站的相似度被很多国内外学者所关注,所研究的兴趣点越来越多,研究成果也越来越丰富,但依然存在一些问题,比如说发表的相关论文总量偏少,而国内学者在实践上的欠缺更使得其成果没有经典技术的可用性高,因此,判断网页网站的相似度还需要经过多次周密的实践去进行严格的考证。

【参考文献】

[1]胡瑜,王立志.基于HTML结构特征的网页信息提取[J].辽宁石油化工大学学报,2009(03).

[2]宋明秋,张瑞雪,吴新涛,等.网页正文信息抽取新方法[J].大连理工大学学报,2009(04).

[3]董全中.当代搜索引擎存在的问题及其改进[J].图书馆理论与实践,2007(05).

[4]宋睿华,马少平,陈刚,等.一种提高中文搜索引擎检索质量的HTML解析方法[J].中文信息学报,2003(04).

[5]孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004(05).

[6]陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005(20).

上一篇:论新媒体技术与手机报发展 下一篇:试析体育科技与伦理