中小型校园网全文搜索引擎的研究与实现

时间:2022-07-25 04:57:24

中小型校园网全文搜索引擎的研究与实现

【摘要】目前校园网中的资源日益丰富,如何快捷高效地搜索校园网资源已成为亟需解决的重要问题。讨论了校园网中搜索引擎的特点,并提出了一种中小型校园网搜索引擎的实现方案。实践证明,该方案经济可行。

【关键词】校园网;OmniFind;搜索引擎

一、引言

随着信息技术的迅猛发展,学校的教育信息化建设取得了长足的进步,目前几乎所有的学校均建立了校园网,并建立大量的网上资源。这些资源大多分布在不同的管理系统和站点中,用户在查找资源时需要分别进入不同的系统进行搜索,操作繁琐,且搜索出的结果不是整个校园网中的相关资源,具有一定的局限性。因此建立一个校园网内的全文搜索引擎,使用户能够在所有校园网信息资源中,方便、高效地找到所需的信息,已成为各学校在信息资源建设过程中所面临的一个亟需解决的问题。本文分析了校园网的资源及应用特点,并提出了一种在中小型校园网中建立全文搜索引擎的解决方案。

二、搜索引擎简介

简单来说,搜索引擎是为用户提供检索服务的系统,即根据设定的策略、运用计算机程序在网络中搜索相关信息,对信息进行组织和处理后,将信息呈现给用户。根据工作机制的不同,搜索引擎分为四种基本类型[1]:

(一)机器人搜索引擎

机器人搜索引擎也称为全文搜索,由搜寻器程序(也称为“蜘蛛”或“爬虫”程序)以某种策略自动地在网络中搜集和发现信息,并建立相应的索引库,由检索器根据用户的查询关键词来检索该索引库,并将查询结果返回给用户。该类搜索引擎的优点是信息量大、更新及时、无需人工干预,缺点是返回信息过多且有很多无关信息,用户必须从结果中进行筛选。因特网中的Google和百度就属于这种类型。

(二)目录式搜索引擎

目录式搜索通过人工或半人工方式来获取网络中的文档,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎由于加入了人的智能,所以信息准确、导航质量高,但缺点是需要人工干预、维护量大、信息量少、信息更新不及时。目录式搜索中最具代表性的是Yahoo、新浪分类目录搜索。

(三)元搜索引擎

元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除和重新排序等处理后,作为自己的结果返回给用户,服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所各搜索引擎的功能,用户需要做更多的筛选。著名的元搜索引擎有Dogpile、Vivisimo等。

(四)垂直搜索引擎

垂直搜索引擎是近几年逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求,如旅游搜索、小说搜索、视频搜索等。相比通用搜索动辄数千台搜索服务器,实现垂直搜索所需的硬件成本较低。

在这几类搜索引擎中,机器人搜索引擎能很好地适应网络的分布式和形式多样性的特性,最适合用来实现校园网内的全文搜索功能。

三、校园网的特点及其对搜索引擎的要求

校园网的主要目的是用于学校的信息、辅助教学和办公管理,在网络结构、资源特点和使用对象等方面都有一些不同于因特网的特点。所以,在校园网中部署的搜索引擎首先要能够适应这些特点,又应该相对经济可行。具体来说,校园网中部署的搜索引擎要求能够适应以下这些校园网的特点:

(一)与广域网相比,校园网中的信息资源数量较少,用户使用搜索服务的频率较低,并且对搜索引擎的效率和服务器硬件性能的要求不像广域网那样苛刻,校园网搜索引擎应该更关注于搜索结果的全面性和精确性。

(二)校园网中的异构资源较多,除了常规的网页文本外,还包括大量其他类型的信息资源,如图书馆全文电子图书、期刊、课件等资源(通常是诸如Word、PDF、PowerPoint等格式的文件)。与网页文本相比,实现这些文件的全文检索具有一定的难度,而这些文件中的内容却往往是校园网用户的搜索目标。所以校园网搜索引擎应能够较好地支持这些异构资源的全文搜索[2]。

(三)校园网的网站之间链接较为稀疏,有时由于分工管理等原因,有些校园网内甚至存在信息孤岛,校园网搜索引擎应能自动定期对网上资源进行较为完全的检索,以便为用户提供更全面的搜索结果。

(四)有时校园网中网页的重要性与访问量不一定成正比。例如新闻和论坛类网站的网页数量多,链接密集且访问量较大,但这些内容的重要性相对较低;而类似于各部门网站的访问量通常较低,但却较为重要。所以校园网搜索引擎应能够对搜索结果的排序方式进行灵活定义,而不能单纯根据网页访问量来进行排序。

(五)虽然多数校园网都与因特网相连,但用户在执行校内搜索时,通常只是想获取校内资源,如校内新闻、通知公告、学科专业网站、课程资源等。在查找校外资源时,用户通常会使用更为专业和全面的因特网搜索引擎。所以校园网搜索引擎应能对搜索范围进行限定,使其只工作在校园网内部,以免在索引库中生成大量无用的外部资源信息而降低检索效率。

四、基于OmniFind实现校园网搜索引擎

(一)IBM OmniFind Yahoo!Edition简介

随着企业网络的发展和商业利益的驱动,很多厂商在企业网搜索技术方面做了大量的研究工作,推出了一些较为成熟的产品,如Google的面向小型企业的Google Mini、微软推出的Search Server 2008等,但这些产品大都售价不菲。近几年IBM公司也加入了局域网搜索的研发队伍,并推出了企业搜索软件OmniFind,该产品分为企业版和与Yahoo合作开发的入门级产品IBM OmniFind Yahoo!Edition,其中Yahoo!Edition是一个完全免费的产品,支持Windows和Linux平台,最多可支持50万个文档、5个搜索集合和200多种文件类型。对于中小型校园网来说,完全可以基于IBM OmniFind Yahoo!Edition,以零成本实现校园网的全文搜索。

(二)添加集合与站点

IBM OmniFind Yahoo!Edition的下载和安装都非常简单。安装完成后,使用浏览器打开网址.

作者简介:

孙志(1973—),男,硕士研究生,毕业于南京航空航天大学计算机网络专业,工程师,研究方向:网络安全,无线自组网路由技术。

张莉(1975—),女,大学本科,毕业于青岛大学,一级教师,研究方向:英语教学,信息化教学。

上一篇:高职模拟电子技术课程教学改革初探 下一篇:基于嵌入式的高速数据采集系统的设计