搜索引擎的文本聚类研究

时间:2022-09-26 02:25:05

搜索引擎的文本聚类研究

[摘 要] 近年来,随着信息技术的发展,越来越多的学者开始关注搜索引擎聚类。国内研究相比国外较晚,还处于发展的初级阶段,存在着数据库依附性过强、搜索速度缓慢、用户的个性化服务需要提升等问题。有关网站可建立自己独立的数据库或与专业搜索引擎公司合作,建立专有数据库或将Tag标签应用到网页中,以加快搜索引擎聚类的速度并满足不同用户的需要,以促进搜索引擎聚类在搜索引擎中可持续健康快速发展。

[关键词] 搜索引擎;文本聚类;发展局限;展望

[中图分类号] F27.4 [文献标识码] B

一、前言

2013年7月的CNNIC第32次互联网报告显示,截止2013年6月止,我国网民规模达5.91亿,半年共计新增网民2656万人。互联网普及率为44.1%,较2012年底提升了2.0个百分点。从2009年到2013年,互联网普及率逐年上升,从28.9%上升到44.1%。计算机的普及,使人们越来越依赖于询问互联网。面对浩瀚的信息海洋,如何获得用户真正有用的信息,成为了一个炙手可热的话题。从最早的门户网站方式到现在的谷歌、百度全文本搜索,对待信息的获取方式已经有了很大的改变。然而,随着互联网越来越普及,网络中存储的信息,出现很多冗杂信息,仅仅依靠传统的搜索方式,并不能满足用户的需要。从2000年开始,以Vivisimo为代表,越来越多的学者开始注意到,聚类能更准确的定位搜索结果。

二、聚类

聚类是指将抽象或物理对象组成集合,将集合中类似对象组成多个类的过程。由聚类所生成的簇可以看做是一组数据对象的集合,这些对象与同一个簇中的其他对象彼此相似,而与其他簇中的对象不同。聚类分析又被叫做群分析,是针对分类问题的一种统计分析方法。由一个度量的向量或多维空间中的一个点构成模式,再由多个模式构成聚类分析。聚类分析可以追溯于分类学,不过聚类并不是单纯的分类。聚类与分类最大的的不同之处是,划分为聚类的类是未知的。

聚类作为一种有效的分类方法,可以从庞大的消费者数据库区分属性、目标不同的消费群体,再概括出这些消费群体的消费模式也就是普通意义上的习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,在数据挖掘算法时,聚类算法可以作为对数据进行预处理,再用其他分析算法处理。聚类分析的算法可以分为层次法(Hierarchical Methods)、基于网格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、划分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。

三、搜索引擎聚类国内外发展进程

国外对于搜索引擎聚类方面的研究最早发生在1996年,HearstMA,PedersenJO学者研究开发的Scatter/Gather系统是世界上第一个将聚类引入搜索引擎的系统。2000年开发的Vivisimo元搜索引擎系统,采用自主开发的启发式算法来集合并聚类原文文献。这种算法吸收了传统人工智能思想,对检索结果进行更好描述和聚类。它的文献聚类技术首先将文本内容自动分类,划分为等级式排列的目录之后进行聚类。作为一种完全自动化的聚类技术,不需要人为干扰收集数据,也不需要进行数据维护。SnakeT在前者研究的基础上,开发了能完整将搜索引擎聚类化的系统,并且可以向用户展示带有明确标签的层次型结构。Grouper是利用后缀树聚类(STC,Suffix Tree Clustering)算法专门针对文档摘要进行聚类的搜索引擎系统。SHoc是首个面向文本信息进行聚类功的搜索引擎。Sergio系统应用改进过的k均值算法对两个搜索引擎结果进行聚类处理。在新闻处理方面,Nesrec系统提取Altzvista新闻的新闻摘要,短时间内进行层次聚类,并使之成为拥有良好可读性的类标签。而Newsblaster系统针对每天的新闻进行聚类处理,文本生成等处理之后,产生摘要文档。WhatsonWeb是应用拓谷驱动和图像聚类算法来构建搜索引擎聚类系统,具有良好的可视化效果,同时支持处理无效标签。

国内的研究要相对较晚,最早开始于20005年,但是随着科技发展,取得了很不错的优秀成果。2005年的PinkySearch利用后缀树算法和相同词聚类对多个搜索引擎的结果进行聚类处理,最后获得搜索结果。在2007年成立的国内首家搜索引擎聚类公司比比猫(Bbmao),采用先进的聚类和去重技术,不仅带给用户快捷、智能的体验经历,还引领创新了聚类技术。国内高水准的数据挖掘研究所论坛上,提出了web挖掘算法、分类聚类,应用方案等聚类应用技术。

四、搜索引擎聚类分析

搜索引擎形式从最早的目录式搜索到基于Robot搜索引擎,再到现在的聚类搜索引擎,其对象不仅仅是对资源进行搜索,也开始关注用户体验,如何使用户能更为便捷的找到自己所需内容。搜索引擎聚类发展已有十余年,通过对国内外相对比较成熟的聚类搜索引擎作为研究对象,从划分类型、基本功能、聚类算法角度分析。

1.划分类型分析

根据分类标准不同,搜索引擎聚类划分的种类也不同。根据提供的服务划分成社区型(比如贝壳网)和搜索型(如第易搜)。按照信息的来源即是否拥有独立的数据库,聚类搜索引擎能划分为寄生型(Vivisimo)和原生型(如CNKI搜索)。按照搜索引擎来源的数目,聚类搜索引擎可以划分为单一型来源搜索引擎(如TouchGraph)和多来源搜索引擎,即元搜索引擎(如Bbmao)。

2.基本功能分析

在对国内外具有代表性的搜索引擎聚类分析后,发现其搜索对象不仅仅为网页,更延伸到网页、新闻、目录、摘要、博客,可应用于商业、政府工作、新闻搜集等多种多样。另外,在提供个性化搜索的同时,用户还可根据自己的喜好,在游戏、旅游、博客等大类下选择的信息源,在右侧会自动呈现图片、新闻、购物等搜索结果。

3.聚类算法角度分析

目前的网页聚类算法根据其针对的方向分为3种,即基于链接分析、基于网页内容、基于用户搜索日志的聚类算法。

基于链接分析的聚类和传统的搜索引擎搜索有一定相似之处,对任一网页,必有本网页指向其他网页的链接和其他网页指向本网页的链接。若这些其他网页都包含有同一个网页的链接,则被认为同音关系,具有相似性,进而依次聚类。基于网页内容的聚类即是对网页的内容直接聚类,传统的聚类算法是对网页内容去标点、化复数形式为单数、去掉前后缀。然而这些方法是针对单个文字的聚类,并没有考虑词间含义,也不能真实的反映网页内容。于是出现了STC算法即后缀树算法,通过将网页进行处理,得到词组,再依赖于后缀树,辨别拥有相同词义的词组,将他们作为基本类,合并形成高层次的类,进行高效的聚类。随着搜索引擎的发展,研发者开始考虑到对用户行为分析,构建用户模型,出现了基于用户搜索日志的聚类算法。通过用户对搜索结果网页进行聚类。

上述三种聚类算法各有优缺点,基于用户搜索日志的算法注重用户体验,基于网络内容的算法注重搜索对象,而基于链接分析的聚类注重相似网页之间的链接。在以后聚类搜索引擎发展中,这三种方法将会结合使用。

五、发展局限及展望

国外的搜索引擎聚类最早开始于1996年,而国内的发展相对较晚。然而由于还处于发展的初始阶段,还存在一定的局限性。中国第一家元搜索聚类引擎公司是2007年的比比猫(Bbmao)公司,可以直接搜寻文档,搜索结果汇集各大搜索引擎结果,具有强大网络收藏夹等多元功能。然而由于局限性,只存在了较短的时间。必须综合考虑搜索引擎聚类的问题,才可能使之长远发展。

1.数据库依附性过强

目前的搜索引擎的聚类技术多是将已有的搜索引擎检索出的结果进行聚类分析,得到更准确的结果,呈现给用户。其存在形式多为衍生性搜索引擎,这就意味着需链接已有搜索引擎的数据库,然而搜索引擎本就是依靠搜索结果获得收入。对于第三方间接使用其搜索结果,原搜索引擎必然会采取限制,这也就造成数据的无法获得。国内成立的比比猫公司就是由于依附性太强,最后导致无法继续生存下去。建立自己独立的数据库不失为一个好的解决办法,然而由于独立数据库所需强大的技术支持,还可以与专业搜索引擎公司合作。

2.搜索速度缓慢

由于当前搜索引擎的聚类技术对搜索结果进行聚类,实质上也就是进行二次加工、聚类、排序,最后呈现搜索结果。势必影响其搜索速度。值得探讨的是直接建立转有数据库,是可以解决的方法之一;此外随着技术发展,越来越多的Tag标签应用到网页中,这也对准确了解网页内容、属性产生裨益,从而加速搜索引擎聚类的速度。

3.用户的个性化服务还需提升

搜索引擎的最终结果是为了使用户使用,即服务于用户。目前搜索引聚类还不够成熟,如何使搜索结果更加满足用户的个性化需要还有很大的研究空间。记录用户的搜索历史,在聚类时,返回符合用户个性的聚类。将聚类和用户行为结合起来,完美的实现聚类结果的个性化服务,满足用户需要。

总之,虽然针对搜索引擎的聚类分析还存在一定问题,可是基于聚类能更加精确、准确的提供搜索结果,能更好的反映用户需求,随着科技的发展,问题终将得到解决,搜索引擎聚类也势必是搜索引擎的大势所趋。

[参 考 文 献]

[1]第32次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2013

[2]Liu W, Xue G R, Huang Set al. Interactive Chinese Search Results Clustering for Personalization. Lecture Notes in Computer Science. 2005, 3739:676-681

[3]靖培栋,田亮.聚类在搜索引擎中的应用[J].信息系统,2006(4):493-496

[4]韩建福.文档聚类在搜索引擎结果中的应用研究[D].北京交通大学硕士论文,2006

上一篇:大学生就业观的引导与教育对策研究 下一篇:介电型EAP在引信上应用的可行性研究