基于多Agent的搜索引擎设计与实现

时间:2022-10-26 01:14:10

基于多Agent的搜索引擎设计与实现

摘要:搜索引擎的出现改变了人们获取信息的方式,利用搜索引擎可以快速地找到需要的信息,为我们在Internet上获取信息提供了一种有效的手段。但随着Internet的发展和网上信息量的激增,人们在使用中却发现要准确、快速地查找自己所需的信息是越来越困难。文章依据搜索引擎、Agent技术,提出了基于多Agent技术的智能搜索引擎概念,能够有效地提高搜索引擎的搜索质量和用户服务,为解决当前搜索引擎存在的一些问题提供了一种新的有效的方法。

关键词:搜索引擎,Agent,智能特征,智能搜索

中图分类号:TP18文献标识码:A文章编号:1009-3044(2010)05-1186-03

Design and Reallization of Search Engine Based on Multi-Agent

YU La-sheng, TANG Xu-rong

(School of Information Science and Engineering of Central South University, Changsha 410083, China)

Abstract: The emergence of search engines has changed the way that people obtain to information.And search engines can quickly find the information needed for us on the Internet as an effective means. But with the Internet’s development and proliferation of the amount of information online, it was increasingly difficult that the information was found to accurately and quickly. Articles based on search engine, Agent technology, proposed the concept of intelligent search engines based on multi-Agent technology.It can effectively improve the search engine’s search quality and customer service, in order to resolve the current number of problems in search engine provides a new and effective method.

Key words: search engines; agent; intelligence features; intelligence search

随着信息科技的进步和互联网的日益普及,人类正在进行信息史上巨大的一项工程,将现实世界现有的信息,诸如报纸、期刊、书籍、专利文献等,都放到网络上去,同时也不停地在网络上生产出数不胜数的新信息。整个网络正在堆积成一个前所未有的超级大型数据库。但是它们却没有建立起一条有效的信息提供途径。网民对信息的需求越来越大,同时也越来越没有耐心。

搜索引擎的出现改变了人们获取信息的方式,利用搜索引擎可以快速地找到需要的信息。目前,搜索引擎是互联网核心技术之一,伴随互联网的普及和网上信息的爆炸式增长,它越来越引起人们的重视。搜索引擎的出现为我们在Internet上获取信息提供了一种有效的手段,但随着Internet的发展和网上信息量的激增,人们在使用中却发现要准确、快速地查找自己所需的信息是越来越困难。

为进一步提高搜索引擎的搜索质量和用户服务[1],将人工智能的成果引入到搜索引擎中也就成为一种趋势。智能Agent技术作为近年来AI领域的研究热点,因其自主性、反应性、适应性和社会性等特点正得到广泛的应用[2-3]。它不仅能作用于自身,而且还可以作用于环境,并能接受环境的反馈的信息,重新评估自己的行为[4-6],同时,它能与其他Agent协同工作。Agent技术的出现为这些问题的解决提供了一种新的有效的方法。

1 搜索引擎及Agent技术

1.1 搜索引擎技术

所谓搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。一个好的搜索引擎系统还应能够对用户提出的搜索请求进行处理,同时应能够将搜索的结果进行合理的组织,提交给用户。

1)搜索引擎分类:现在Internet上已有数千个能提供检索服务的站点,这些站点的搜索引擎在收录的范围、内容、检索方法上都各有不同,但总的来看,可以将其分成三大类型:基于robot的搜索引擎、目录和元搜索引擎。

基于robot的搜索引擎:基于robot的搜索引擎不是靠人工发现和甄别信息,而是由一个被称作“robot”的计算机程序在网页中爬行,依据一定的网络协议在Internet中发现、加工、整理信息,并为用户提供检索服务。

目录式搜索引擎:与基于Robot的搜索引擎所不同的是,目录的数据库是依靠专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。

元搜索引擎:又叫做Multiple Search Engine,它的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎采查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。

2)搜索引擎工作原理:

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。搜索引擎的原理,可以看作三步:

从互联网上抓取网页,利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠后。

1.2 Agent技术

Agent的概念来自于分布式人工智能(Distributed Artificial Intelligent),其定义如下:Agent是存在于某一环境中的实体,能够感知环境,接收来自环境的消息,并且做出反应,进而能够反作用于环境。从最终用户角度看,Agent是用户的和助手,代表和帮助用户实现其意图、完成某些任务。从系统角度看,Agent作为一个抽象实体,实现形式可以是软件,也可以是硬件(需要软件的控制),一般研究的是软件Agent。

上一篇:“搜索引擎”教学案例 下一篇:基于ASP.NET的管理信息系统安全性研究与实践