如何使用Internet的查询工具

时间:2022-05-28 05:16:50

如何使用Internet的查询工具

internet就像一个浩瀚的知识海洋,里面蕴藏着取之不尽的信息宝藏。如何挖掘开采它,获得人们需要的东西,目前还存在着两方面的问题:首先,人们手头的查询工具太多,有/network/">网络地址,通常这类目录会很大,而且有按专题组织的地址表。这种情况下,我们一般喜欢用yahoo(地址:/)查找,它列出了8万个网络地址(包括web页、gophers、ftp地址以及usenet新闻组),顶层又按艺术、计算机、卫生、保健等分成14类子题目。用鼠标点一下就可以选定子题目表,反复地查找子表,直到你找到需要的信息为止。

除了yahoo一类人们普遍感兴趣的目录外,专题目录则覆盖了从古文物到青年工人等各方面的信息。找到这些专用目录的最佳途径是可以去密执根大学(地址:/gongxue/">科学专业的研究生对之感兴趣。

每一个查询引擎代表一个数据库,里面含有web页的url(universal resource locator或经专门格式化后的internet地址)地址以及其他网络资源。大多数查询引擎数据库是由crawler程序、漫游web的软件程序通过页与页的连接顺次查找新的地址搜集而来的。这里,crawler又被称为机器人或蜘蛛。当蜘蛛找到新的页时,就把新页增加到数据库中。

这些数据库存有成千上万个web页,在引擎头的位置每天都在增加新的页。其中,多数人感兴趣的引擎如lycos和excite覆盖面最广,其中每个数据库有150万个索引web页,其次是open text index,据称也有130万个web页。

每个数据库引擎的大小对查找是否成功起着很大的作用,例如,我们想用字符串recipewheat beer(酿啤酒秘诀)查询每一个引擎,其结果是:最大的lycos数据库引擎提供给我们437个匹配页(hit),infoseek和open text index数据库则每次提供200个页,用其他数据库则少于100页,有几种情况下,甚至查不到一个web页。通常的情形是,数据库越小,查到的web页就越少。

大多数数据库引擎严格限制其只能检索web本身,infoseek和excite则比其他引擎更进一步,它们增加了usenet新闻组索引。infoseek还允许用户查询就近的一组非internet数据库的信息。

索引中的信息

web的蜘蛛程序比url采集信息做得要多一些,它们还搜集有关每一页的信息,一旦你提交一个查询,查询引擎的backend软件就建立起一个你所需信息的索引。从一个引擎到另外一个引擎,其索引技术是各不相同的,你不要因此感到奇怪。

在每个引擎中,都有一个页的索引url地址和题目。多数引擎还有每一段的索引标题,其他的引擎则只是记录了频繁提到的词或者文本的头几行。在open text index数据库引擎中,页的每一个单词都有索引,甚至包括and一类别的引擎忽略的词也有。结果可想而知,它理所当然成了唯一能在查找过程中返回是或者不是的查询工具。即使不包含你所指定的关键字,excite基于概念的索引也能够帮助人们找到相关的页。

找到匹配页并不意味着查询成功。一方面,数据库的大小确定了它查到的匹配页的多少,另一方面,索引质量的好坏还要由有多少个匹配页与你的查询相关来确定。如我们通过每一个查询引擎查找北卡罗来纳三角地的房地产信息,然后算一算在chapel hill地区有多少个与之相关的匹配页数。据统计,web的crawler返回19个匹配页,我们从infoseek上获得200多个匹配页。但是实际上19个当中只有9页是我们所想要的东西。大多数infoseek的匹配页与房地产有关,但是又有许多东西与北卡罗来纳没有任何关系。

使用正确的工具

无论数据库有多大,待查数据库有多么复杂,查询引擎是你进行检索的独一无二的好工具。

有时需要进行词组的查询,不同的数据库处理词组的方式不尽相同。infoseek用词的主干部分来检索与该部分匹配的页,如欲查impressionism一词,只需查找与impression匹配的页即可。lycos则将查询项作为主干词来处理,所以在这种引擎中,metal一词就与metallic匹配。

有几种引擎允许用户检索所有的词组,而不只是检索被查询串的个别单词,它们检索串组合成词组的偶然搭配。有两种引擎可以查到一个词组的多种变化,这两个引擎是aliweb(地址:)和cui的w3 catalog(地址:)和metacrawler(地址:)便可助你一臂之力。

上一篇:气象办公网络设计与维护 下一篇:网络信息安全状况与可信计算