基于网络搜索引擎的现状及发展分析

时间:2022-10-08 02:39:57

基于网络搜索引擎的现状及发展分析

【摘要】随着互联网和宽带上网的普及,搜索引擎在中国异军突起,并日益渗透到人们的日常生活中?很多人都会选择一种更方便、快捷、全面、准确的查阅方式。在整个互联网上快速地查找到目标信息的就是越来越被重视的搜索引擎。本文对目前搜索引擎现状进行了分析,并对未来发展进行了展望。

【关键词】搜索引擎 现状分析

随着互联网的快速发展,用户对信息的获得越来越迫切,网络搜索引擎因此日益受人关注。搜索引擎提供的导航服务己经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为 “网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。

一、网络搜索引擎的现状

(一)网络搜索引擎的分类

搜索引擎(SearchEn e)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎 (MetaSearchEn- gine)。

1全文搜索引擎

全文搜索引E-是大家最常用也最能体现技术的搜索引擎。它是通过从互联网上提取的各个网站的信息 (以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,是真正的搜索引擎。

2目录式搜索引擎

目录式搜索引擎以人工方式或半自动方式搜集信息,在编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,信息大多面向网站.提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大。这类代表是:Yahoo、LookSmart、GoGuide等。

3元搜索引擎

元搜索引擎在接受用户查询请求时,并不单单局限于自身力量上,同时在其他多个引擎上进行搜索,并将结果返回给用户。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组台。代表性有Infospace Dogpile、WebCrawler、InfoMarket等。

(二)搜索引擎的主要性能指标

通常衡量传统信息检索系统性能的参数有两个:一是召网率(RecMI)。它是检索fIJ的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全牢。二是精度(Pricision)。它是检索Ill的相关文档数与检索H|的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。召同牢高时,精度低,而精度高时,召回率低。

(三)搜索引擎的主要技术

一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。

1搜索器

搜索器的功能是在互联网中慢游。发现和搜集信息。它常常是个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息。

2索引器

索引器的功能是理解搜索器所搜索的信息.从中抽取出索引项.用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。

3检索器

检索器的功能是根据用户的查询在索引库中快速检出文档。进行文档与查询的相关度评价,对将要输出的结果进行排序.并实现某种用户相关性反馈机制。

4用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。

二、网络搜索引擎的发展动向

由于目前的搜索引擎提供给用户的附加信息太多,而真正对用户有价值的信息不会这么多,这无形中加剧了用户的信息负担。目前这方面的研究、开发十分活跃,并出现了很多值得注意的动向。

(一)提高信息查询精度及检索的有效性

用户在搜索引擎上进行信息查询时。并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档。用户不得不在结果中筛选。解决查询结果过多有几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途。包括坎用智能跟踪用户检索行为,分析用户模型;使用十日关度反馈机制,使用户告拆搜索引擎逐步求精。二是用正文分类(Categoriza―t-o1)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚,减少信息的总量。

(二)智能、个性化的搜索引擎

目前的搜索引擎,对于不同的用户,如果基于相同的关键词进行搜索,得到的结果基本是相同的,但事实上,由于用户的个人爱好、文化背景等的不同,虽然使用的是同样的关键词。但是想要的结果却是不一样的 。为了满足用户的个性化搜索需求,必须开发智能、个性化的搜索引擎。自然语言理解技术与智能化紧密相连,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。开发以自然语言理解技术为基础的搜索引擎.可以很好的满足用户个性化的需求。能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等,并能根据用户的搜索历史进行个性化分析,可以有效提高搜索引擎的服务质量和用户满意度。

(三) 采用分布式体系结构提高系统规模和性能

搜索引擎的实现可以采用集中式体系结构和分布式体系结构。两种方法各有千秋,但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法。以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布。搜索器可以在多台机器上相互台作、相互分工进行信息发现,以提高信息发送和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。

(四)XML搜索引擎

XML扩展标记语言,提供了一种标准化、可扩展的方法。将语义信息包含在描述半结构数据的文档内,XML解决了HTML的诸多问题,被认为是第二代因特网信息组织的格式标准。在XML文件中,标记内的数据都可以看作一个元素.而每一个元素都可以作为数据的索引.因此搜索结果可以只是一个文件的相关片断,这样结果就会更为精确。与传统搜索引擎相比。XML搜索引擎搜索的对象不再是无结构的纯文本.而是有结构或结构不甚规则的XML数据.返回的结果也可能不是整个文档,而是XML数据中的某个元素.通过充分利用XML文档的标签所带来的上下文信息。大幅度提高信息搜索的准确率,从而提高搜索引擎的效率。XML搜索引擎的研究前景将是十分广阔的。

(五)“趋众模式”的应用

DirectHit搜索引擎提出这样一种理念:多数人选择访问的网站就是最重要或重要的网站。因此,把比较著名的网站按被访问的次数和时问作为重要性排队,把访问人数最多的网站排在最前面,检索时,搜索引擎按排队顺序依次访问,这不仅可以节省时间而且有较好的客观性和公正性,实际效果也会更好。另一种相似的理念是:被访问人数越多的网页越重要,因而可以依此重要性之高低排队同样,查询时,搜索引擎根据用户的请求先访问重要性高的网页,并顺延往下访问,这可大大提高搜索速度,这种由大众确认的网站、网页重要性的方法,具有一定的客观性和公正性,实际效果也令人满意。

参考文献

[1]徐宝文.张卫峰搜索引擎与信息获取技术[M]. 北京:清华大学出版社,2003

[2]印鏊、陈忆群等.搜索引擎技术研究与发展Ⅱ[M].计算机工程,2005

作者简介:胡建华, 女,(1974.9.7------),1996年6月毕业于武汉水利电力大学,计算机信息管理系统专业,武警水电第一总队工程师, 从事网络管理及通信管理工作。

上一篇:关爱中学会分享,谦让中形成品质 下一篇:浅谈体育教学中摔跤运动