浅谈搜索引擎

时间:2022-08-24 01:47:08

浅谈搜索引擎

摘要:本文介绍了搜索引擎的分类及其工作原理,以及搜索引擎对比及现状。

关键词:搜索引擎;元搜索引擎;目录搜索引擎;全文搜索引擎

中图分类号:TP391 文献标识码:A文章编号:1007-9599 (2011) 19-0000-01

Talking on the Search Engine

Lin Liyun

(Jilin Business and Technology College,Changchun130062,China)

Abstract:This paper describes the classification of its search engine works,and compare and search engine status.

Keywords:Search engine;Meta search engine;Catalog search engine;Full-text search engine

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。其实就是使用动态网页程序自动到网站目录下的所有静态文件记录全文内容到数据库。在用户输入相关词语时,再自动调用相关内容返回,完成搜索。一般这些服务会对服务器资源占用较大,一般适合中小网站使用。

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,与全文搜索引擎相比,目录索引有许多不同之处。以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。元搜索引擎(META Search Engine)一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索,也叫Meta搜索,是指搜索引擎之后或之上的搜索引擎,即可以同时查询多个搜索引擎内容的网站。元搜索引擎,通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。元搜索引擎的优点:元搜索引擎是为弥补传统搜索引擎的不足而出现的一种辅助检索工具,有着传统搜索引擎所不具备的许多优势。但是,元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术和结果综合技术等。用户界面的改进、调用策略的完善、返回信息的整合以及最终检索结果的排序,仍然是未来元搜索引擎研究的重点。

搜索引擎工作原理:

全文搜索引擎:这种引擎它的特点是搜全率比较高。在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

目录搜索引擎:这种引擎的特点是找的准确率比较高。与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

元搜索引擎:我们可将元搜索引擎看成具有双层客户机/服务器结构的系统,用户向元搜索引擎发出检索请求。元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。当然,某些元搜索引擎具有略微不同的机制。

元搜索引擎与传统搜索引擎的区别:

搜索引擎与元摸索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联接界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各独立搜索引擎被称为"目标搜索引擎",或者"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。不过,有些元搜索引擎给出的全局外部模式不够完善。

目前搜索引擎越来越不能满足用户的各种信息需求,如收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。网络信息收集与整理是搜索引擎工作的重要部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度慢,遍历如此庞杂的网络时间花费非常庞大,这就是不能实时搜索的原因。

参考文献:

[1]Search Engines:Information Retrieval in Practice(美)W.Bruce Croft Donald Metzler Trevor Strohman

[2]Modern Information Retrieval:The Concepts and Technology behind Search(2nd Edition)(西班牙)Ricardo Baeza-Yates(巴西)Berthier Ribeiro-Neto

上一篇:巧用电教媒体开拓课改的新渠道 下一篇:网络拓扑自动发现系统设计与实现