基于垂直搜索引擎的主题爬虫技术

时间:2022-06-01 09:08:39

基于垂直搜索引擎的主题爬虫技术

摘 要

由于信息技术的不断提升,互联网技术的发展也是日新月异,越来越多的人们开始体验互联网所能带来的一些福利的同时,也参与到其中,成为网络信息的者和传播者。所以,传统搜索引擎的局限性也将体现出来,针对与这一问题,垂直搜索引擎在特定的领域进行了细化和延伸,以此来弥补传统搜索引擎所带来的不足,它利用主题爬虫技术对网络上某个或者多个主题的相关信息进行爬取、信息整合并且索引,这样就可以有效的采集页面信息,与此同时也节省了网络资源和系统资源。

【关键词】垂直搜索引擎 主题爬虫 网络

1 主题爬虫概述

1.1 通用爬虫

网络爬虫是一个能够自动浏览WWW的网络机器人,主要目的是为了进行网络索引。网上的任何信息数据都是需要用爬虫来获得的,不论是用通用搜索引擎还是垂直搜索引擎。

1.2 主题爬虫

主题爬虫和通用爬虫有着本质的区别,通用爬虫不筛选主题等任何信息,全盘接受,而主题爬虫则需要有特定的目标,并进行与此目标相关的定向爬行,以此来对互联网上的网页进行筛选索引。在进行爬行之前,首先要对网页的主题进行相关性分析,若和指定的主题有一定的相关性,则将网页进行保存,再利用垂直搜索进行索引;否则放弃该网页。

1.3 主题爬虫的体系结构

主题爬虫系统是在一个繁杂的网络环境下,爬行尽可能多的与主题相关的一些资源信息,过滤删除无关的资源信息,以此来提高爬虫的性能、扩大资源的利用率并且能够更好地位垂直搜索引擎服务。

2 搜索引擎基本原理

搜索引擎是一个非常繁杂的系统,一般来说,现在的大规模搜索引擎都采用网页搜集、网页预处理和查询服务这三个阶段作为工作流程,如图1所示。

3 主题爬虫算法的理论基础

3.1 主题爬虫的工作原理

网络爬虫采集网络信息时,首先,从一个“种子集”(链接)出发;然后,将之前检索到的符合主题的网络信息提取它的子链接,并对其所在的页面进行信息提取;不断重复上述过程以此来实现遍历Web信息。

3.2 相关算法的研究比较

如表1所示。

4 总结

垂直搜索引擎是搜索技术目前比较火热的研究方向之一,其中,主题爬虫是垂直搜索引擎的数据来源,爬虫抓取速度是否够快、抓取的网页是否具有主题高相关度、去除重复网页的能力如何这些方面都对垂直搜索引擎起着重要的影响一,相比较通用网络爬虫,主题爬虫下载的网页质量更好,主题覆盖率更高,能有效的节约网络带宽。

参考文献

[1]Dawson,S.'Seeing' the learning community:An exploration of the development of aresource for monitoring online student networking[J].British Journal of Educational Technology,2010,41(05):736-752.

[2]彭涛,孟宇,左万利,王英,胡克.主题爬行屮的隧逍穿越技术[J].计算机研究与发展,2010,47(04):628-637.

[3]彭涛.面向专业搜索引擎的主题题爬虫技术研究[D].吉林大学(博士学位论文),2007.

作者单位

天津师范大学 天津市 300387

上一篇:计算机局域网综合布线的设计原则和方案 下一篇:CommVault软件在企业中的应用