主题搜索引擎中网络爬虫的实现研究

时间:2022-10-09 09:15:52

主题搜索引擎中网络爬虫的实现研究

摘 要:信息时代,互联网充斥着我们生活的方方面面,而搜索引擎的应用为我们的生活带来了极大的便利。对搜索引擎中网络爬虫的实现的研究,对于提升搜索引擎效率有着重要的意义。本文分析了面向主题的搜索引擎中网络爬虫的实现,并提出了相应的方法和手段。

关键词: 搜索引擎;网络爬虫;实现;设计;主题

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)17-0023-02

Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.

Key words: Search Engine; Web Crawler; Implementation; Design; Theme

1 概述

使用搜索引擎,人们可以方便快捷地在网上获取有用信息。随着大数据时代的到来,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。主题搜索引擎以提供分类精细、数据全面、更新实时的搜索服务为目标。网络爬虫是搜索引擎的基础模块,是搜索引擎的重要基础。

网络爬虫是一种能自动提取网页内容的程序,利用网页信息格式进行网页分析,也可以定期搜集某个或某些网站的内容,跟踪网站的发展历程。随着网络爬虫技术的快速进步,网络爬虫更加广泛地运用于网站结构分析、个性化信息获取以及用户兴趣挖掘等多种服务中。

2 主题搜索引擎简述

搜索引擎是一种用来在万维网上检索资源文件的计算机程序。搜索引擎根据用户输入的检索关键词推测出用户的查询意图,然后快速地返回相关的查询结果信息供用户使用。

大数据时代互联网数据爆炸性地增长,急切地需要一种快速、准确细致、全面深入且更新及时的信息检索方法。主题搜索引擎克服了传统搜索引擎的诸多困难,使信息检索变得更加精确细致,使搜索到的信息更加全面深入,同时使专题信息和学科信息的更新更加及时。

3 网络爬虫简述

网络爬虫从一个初始URL队列开始,从中获取一个URL,获取网页,从网页中提取所有的URL,并将新的URL添加到URL队列中。然后网络爬虫从队列中获得另一个URL,重复前面的过程,直到达到停止条件。这种爬取资源的方式存在着网络连接不稳定、网页特征多样化、URL不规范等一些问题。

4 网络爬虫分类

第一个网络爬虫是美国麻省理工学院的学生Matthew Grey于1993年写成,后来改进了爬虫程序并将其引入到搜索引擎中。随着搜索引擎技术的不断进步,爬虫程序也越来越复杂,后来产生了通用爬虫、限定爬虫和主题爬虫等几种不同类型的爬虫。

4.1通用爬虫

基本原理上文已分析,但爬取的范围过大,爬取顺序要求低,对爬取速度和存储空间要求较高。

4.2限定爬虫

限定爬虫是一种能爬取用户感兴趣的某一类网页的爬虫程序。但它不要求爬取所有的网页,只需爬取某些特定种类的网页即可。工作过程是:采用朴素贝叶斯方法用网页样本训练一个文本分类器,然后用这个文本分类器指导爬虫的偏好,从爬虫队列中选择出用户感兴趣的网页。

4.3 主题爬虫

主题爬虫先确定一个或多个主题,根据一定的分析算法过滤与主题无关的URL,保留与主题相关的URL并将其放入等待URLs队列中;然后使用某种搜索策略从等待队列中选择下一个要抓取的URL,并重复上述过程,直到达到某种停止条件。

首先主题爬虫需要判定当前抓取与设定的主题的相关性,其次主题爬虫采用按相似度大小抓取网页的策略来抓取网页。相比通用爬虫它极大地节约了硬件和网络资源,加快了爬取速度,还可以满足人们对特定领域的需求。

5 主题爬虫的爬取策略

主题爬虫以通用网络爬虫为基础,在此基础上进行优化和扩展,使其具备主题网络爬虫特有的功能,进而实现面向主题的网页信息提取。

主题爬虫尽可能搜集与主题相关的网页,减少下载无关网页的可能。主题爬虫与通用爬虫相比需要解决以下问题:主题的描述和定义、网页内容与主题相关性的判定、链接重要程度的判定、如何提高主题爬虫资源覆盖率。

面向主题的信息采集系统可分为4个部分,即主题集选取、Web信息提取、页面预处理、链接过滤。

5.1 主题集选取

主题网络爬虫中,为有效进行剪枝和过滤操作,需要对主题进行定义或描述,以此来确定采集的方向,主题集的好坏直接影响到了最终的采集效果。主题可以是几个关键词,还可以是自然语言。用户可以自己定制主题,对主题做进一步的描述。主题集的合理选择是主题爬虫的基础。

5.2 Web 信息提取

从采集起点开始,主题爬虫开爬取Web上的信息资源,通过各种Web协议自动爬取站点的有效信息。为了高效地获取信息,主题爬虫系统中大多都采用了多线程的方式来提取Web信息。

5.3 页面预处理

把主题爬虫抓取到的Web页面规范化,主要包括:页面语法分析,页面去噪等操作,提取网页中的有效信息,然后判定网页信息的主题相关性,过滤与主题无关的页面,从而提高主题爬虫的主题信息提取的准确性。

HTML网页内容可以从正文、标题、标记信息、链接信息等方面反映。因此,对网页信息的提取只需将这些特征信息提取出来。读取页面时,找到标记,将标记中间的内容中的所有标记去除,就得到了页面正文;标记中的内容就是网页的标题,它显示在标题栏中。

即使提取的URL通过了主题相关性判别,提取到的页面内容与设定的主题也可能有很大差距。所以,在页面提取之后应对页面信息进行与主题相关性判别,淘汰与主题无关页面。

5.4 链接过滤

要提高主题Web信息的提取速率和准确性,系统需对采集到的UI进行URL和主题的关系的判定,叫做链接过滤,或链接预测。

链接过滤常用的算法是EPR算法。在链接关系的基础上加入针对链接的相关主题的权重,再引入链接网页之间的主题相关度权重,使产生的重要页面是针对某一主题的,这形成了EPR算法。

6 结束语

网络爬虫的发展为搜索引擎的成功奠定了坚实的基础,然而随着互联网技术的迅速发展,人们对搜索引擎的需求越来越大,信息检索服务也在向着个性化、精细化的方向发展,人们对网络爬虫的进一步设计优化提出了更高的要求。

主题爬虫核心问题是主题页面群的采集和无关页面的过滤问题。网络爬虫具有重复性,如何将页面动态变化的规律与先前的搜索统计结果相结合,提高爬取效率是一个值得研究的问题。目前网络爬虫采用的搜索策略都较固定,缺乏适应性,如何提升爬虫的自适应性有待进一步研究。

参考文献:

[1] 刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29,47.

[2] 盛亚如,魏振钢,刘蒙.基于主题网络爬虫的信息数据采集方法的研究与应用[J]. 电子技术与软件工程,2016(7):168-169.

[3] 梁萍.搜索引擎中网络爬虫及结果聚类的研究与实现[D].中国科学技术大学,2011.

[4] 于娟,刘强. 主题网络爬虫研究综述[J].计算机工程与科学,2015,02:231-237.

[5] 杨文刚,韩海涛. 大数据背景下基于主题网络爬虫的档案信息采集[J].兰台世界,2015(20):20-21.

[6] 李勇,韩亮. 主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008(3):4-6+56.

上一篇:无形资产评估准则的应用研究 下一篇:对于发展PPP项目绩效评价的几点思考