主题网络机器人系统结构研究

时间:2022-09-24 09:27:25

主题网络机器人系统结构研究

摘要:作为搜索引擎的重要组成部分,网络机器人能从Internet上自动获取网页,替搜索引擎在Internet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网络机器人不单单是充当一个获取网页的工具,还能够对链接以及页面内容进行主题相关性识别。主题网络机器人并不仅把目标定位覆盖率,还要提高获取主题相关网页的准确性,为搜索引擎提供一个主题相关的网页库。现在,主题网络机器人已经成为搜索引擎技术领域的一个研究热点,是搜索引擎的发展的重点方向之一。

关键词:网络;搜索;机器人

中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2010) 06-0000-01

Topical Web Robot Syetem Research

Tu Yuan

(PLA 61716 Troop,Fuzhou350003,China)

Abstract:As an important part of search engine,web robot can automatically download web pages from Internet.It helps search engine gather web pages.Web robot starts work with some seed links,and then it tranverse the whole web.However,topical web robot is not only a tool that downloads pages from web,but also can recognize topical relevece of links and the content of web pages.The main goal of topical web robot is not only to fulfill the recall rate,but also to improve the precision rate,providing search engine with a topical web warehouse.Nowadays, topical web robot,a important developing direction of search engine has become a research hot spot in the domain of search engine technology.

Keywords:Web;Search;Robot

一、主题网络机器人的主要结构

主题网络机器人(Topical Web Robot,也称聚焦网络机器人:Focused Web Robot)是对网络中搜集相关主题页面的技术,当网络信息量呈爆发性增长时,以特定主题为目标的垂直式搜索将会越来越可行及实用,并将与通用搜索引擎形成强大的互补。

为网络机器人提供了主题关键字,并在存储之前增加了一个主题相关性判断步骤,若页面与主题相关就存储,否则就丢弃。这样的网络机器人虽然能对主题资源进行搜集,但它依然要遍历整个网络,并没有提高搜集的效率,并且网页爬行的效果在相当大程度上依赖于种子站点的质量。同时无法避免的是,这样的网络机器人还会下载很多与主题无关的页面,对带宽和网络资源的造成了极大的浪费。

为了改进上述诸多的缺点,通过遍历各种算法和策略来保证网络机器人把搜集目标尽可能聚焦到相关主题页面。主要研究工作为如何将待爬行的URL按一定策略进行排序,使得与主题相关且质量高的URL优先爬行。

主题网络机器人包括以下三个主要模块:

(一)页面相关度评价模块:该模块主要特点是以文本分类的思想作为基础。在主题网络机器人爬行开始的时候,本模块根据用户输入的主题关键字和初始信息逐渐进行学习,训练一个页面相关度评价模型。每当搜集到一个页面,本模块将计算其主题相关度值,若该值大于或等于给定的阈值,则该页面就被存入页面库,否则丢弃。

(二)链接评价模块:该模块是主题网络机器人的最关键的模块,主要用于快速评价从页面提取出来的URL与主题的相关程度,并提供爬行策略用以指导网络机器人搜集页面。URL的超链接评价得分越高,其优先级就越高,即它就应该优先被爬取。反之,若发现某链接与主题无关,则将该URL去除,这个过程被称为剪枝。通过适当的剪枝,网络机器人就无需遍历与主题不相关的页面,从而在很大程度上保证了爬行效率与查准率。然而,剪枝也可能将潜在的与主题相关的页面也剪掉,从而牺牲了部分的查全率。所以,链接评价模块合理的选用评价机制对网络机器人的爬行效率以及爬行质量至关重要。

(三)页面搜集模块:该模块的主要作用是搜集网页,负责连接链接评价模块和页面相关度评价模块。首先,从待爬行URL队列中取出评价得分最高的URL,搜集URL对应的网页,其次再将该页面交给页面相关度评价模块处理。在主题网络机器人爬行过程中,爬行策略由链接评价模块提供。该模块是网络机器人的基本模块。

二、通用网络机器人与主题网络机器人比较

我们将搜集到的主题页面称为“回报”。通用网络机器人系统是在对互联网上的页面分布特性不做任何判断和策略调整的情况下进行的盲目爬行。对于用户的主题相关的检索需求来说,虽然通用网络机器人系统召回率较高,但通用网络机器人系统搜集的主题相关页面回报率是相当低的,同时大把浪费了网络与系统资源。例如,通过通用网络机器人在一个爬行周期(7天)能够爬行所有Web页面20%,而其中关于某个主题的资源为5%,则在一个爬行周期内,只能搜集到l%(20%×5%)的主题相关资源,而还剩下大量与主题无关的资源。

虽然在实现原理上主题网络机器人与通用网络机器人基本相同,但不同的是主题网络机器人的爬行过程是目标主题驱动的、有选择性的爬行页面。它根据给定的目标主题,在主题相关性策略的指引下有选择性的访问Web上的相关页面,搜集与主题相关的页面。

主题网络机器人主要目标并不在追求网络资源的查全率,而将主要目标锁定为搜集与某一特定主题内容相关的网页,为面向主题的查询准备网页数据库,追求网络资源的查准率。相比通用网络机器人,主题网络机器人需要在以下几个方面需要更进一步的工作:

(一)网页主题过滤。网络上的页面是海量的,但往往目标页面仅是其中很少一部分,而网络中大部分的页面却是与主题不相关或相关程度较低的页面。因此,主题网络机器人需要对网页进行主题过滤,过滤掉不相关网页或者相关度较低的网页。

(二)信息的定制。由于主题的搜索引擎是为用户提供某一特定主题或学科领域的信息。搜集的信息应该满足用户对特定主题的特殊要求。信息定制就是让用户定制自己想要查找的内容,通常有给出分类关系,关键词,初始网站和网页范例等形式。

(三)寻找高质量网页和关键资源。关键资源:是指一个包含许多指向特定主题的超链接的网页。高质量网页:是指内容与主题相关或高度相关的网页。通常,指定主题的关键资源总是链向高质量网页。由于网页信息分布通常呈现不均匀性,寻找和发现高质量网页和关键资源不但大大提高了主题网络机器人搜集Web页面的效率和质量,还可以为主题表示模型的优化和学习等应用提供支持。

(四)启发式搜索策略算法。WWW是一张巨大的信息网,如何引导主题网络机器人有目的,有选择的搜集与特定领域相关的Web页面是一个关键问题。通常,主题网络机器人通常采用某种启发式搜索策略算法,根据用户设置的主题词或者主题表示模型,以启发式函数计算每个URL的权值,进行URL排序,优先选择权值高的URL访问,放弃未达到要求的URL。

参考文献:

[1]何晓阳,吴强,吴治蓉.HITS算法与PageRank算法比较分析.情报方法,2004,2:85-90

[2]王建勇,单松巍,雷鸣等.海量Web搜索引擎系统中用户行为的分布特征及其启示.中国科学,2001,31(4):372-384

上一篇:浅谈如何有效提高中职计算机专业教学水平 下一篇:非计算机专业《计算机网络》教学改革研究