基于垂直搜索技术的搜索引擎

时间:2022-07-04 04:21:43

基于垂直搜索技术的搜索引擎

摘要:随着网络迅速发展,Internet上的资源日趋丰富,搜索引擎被网民广泛使用,搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,本文介绍了基于垂直搜索技术的搜索引擎,并探讨了垂直搜索引擎的优势。

关键词:垂直搜索;因特网;信息检索;搜索引擎

中图分类号:TP391.3文献标识码:A文章编号:1007-9599 (2011) 05-0000-01

Search Engine Based on Vertical Search Technology

Wang Liang,Wang Xiuting

(Harbin Institute of Technology (Weihai)Institute of Computer Science and Technology,Weihai264209,China)

Abstract:With the rapid development of Internet,Internet resources growing more and more,widely used search engines for Internet users,search engine development for the emergence of vertical search engine provides a good market space,this paper based on vertical search technology,search engine discusses the advantages of vertical search engines.

Keywords:Vertical search;Internet;Information retrieval;Search engine

一、垂直搜索引擎的关键技术

垂直搜索引擎服务具有其自身的特性,其技术要求特点上与一般互联网搜索引擎(水平搜索)有很多不同之处,下面通过比较,列举出垂直搜索引擎的四大关键技术。

(一)垂直搜索对网页信息进行结构化信息加工。由于垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页定内容的提取。垂直搜索对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动排重,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术,虽然尚不够成熟,但有很大的发展潜力和空间,并且目前在一些海量信息处理的场合已经能够起到很好的应用效果。

(二)垂直搜索引擎支持全文深度搜索。垂直搜索带有专业性或行业性的需求和目标,其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。垂直搜索引擎还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。垂直搜索在信息的专业性和使用价值方面有更高的要求,能够支持全文检索和精确检索,并按需提供多种结果排序方式。在实际应用中,垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。

(三)正则表达式的应用。在内容提取中采用正则表达可以明显提高效能,正则表达式已在许多搜索程序中广泛应用。正则表达式是一种编程语言中使用的特殊代码模式,可用其验证、查找、替换与划分文本内容。聚焦爬虫往往通过对主题网页的学习提取主题特征的正则表达式,以指导爬虫过滤与主题不相符的网页文本正则表达式基本技巧如下:

(1)匹配多个字符之一。如匹配拼写错误的fac-tory,可用:f[ae]ct[ou]ry;

(2)匹配文本行开始与结束。如以c开始,a结束,可用:^a.*b$;

(3)匹配单词。如找dog,可用:\bdog\b;

(4)Unicode字母。如匹配中文,可用:[\u3400-\u4DB5\u4E00-\u9fa5];

(5)分组和捕获。如匹配年月日相同的日期,可用:\b\d\d(\d\d)-\1-\1\b,其中1表示捕获分组1,即(\d\d)中的内容,捕获分组可以表示临时存取的区域,用于引用和替换;

(6)重复匹配。完整HTML文件可用:.*?.*?.*?.*.*?

]*>.*>var _userid = '';var _siteid =2230;var _istoken = 1;var _model = 'Model03'; WebPageSpeed =203; UrchinTrack();.*?.其中:*表示一个或多个,?表示0个或一个,^表示否定。

Html文件也可使用NekoHTML做标签补偿,用HtmlParser等解析程序将网页转换成一个个串联的Node,用正则式过滤脚本、注释等标签,提取表格等结构化信息,实现网页去噪。其中包括为网页建立网站风格树和计算节点重要性来确定噪声元素。

二、垂直搜索引擎在政府网站的应用

(一)整合政务网络信息。政府网站搜索引擎实现了对全国省级以上政府网站的内容和服务的采集;实现了包括按信息分类、条件组合、文件类型、图片、区域等多种检索方式,同时实现了对多语种、多文种的检索。

(二)实时更新搜索信息。第一时间获取一手信息政府网站搜索引擎所提供的搜索内容,必须能够及时反映政府网站的内容变化,各级政府网站上新的政务信息和办事指南应能及时搜索。目前各级网站的新网页一般在30分钟之内就可在政府网站搜索引擎中搜索到。

(三)分类搜索方便用户。政府网站搜索引擎对公众提供了方便的政务信息、办事指南搜索,合理的分类可以方便用户的搜索过程。政府网站搜索引擎按照服务的类型将搜索内容细分为站内搜索、国务院公报搜索、图片搜索、文档搜索、政府网站搜索等几种类型。政府网站搜索引擎在采集到的搜索各个环节都需要进行细致的分类工作。

三、结束语

网络的多元化需求决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。可以说通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。

参考文献:

[1]汲业,陈燕,杨健.生活服务领域垂直搜索引擎的设计与实现[J].计算机工程,2010,36,24

[2]刘峰.垂直搜索中的数据清洗和排序算法研究[D].2009

[作者简介]王梁(1989-),男,山东济南人,哈尔滨工业大学(威海)计算机科学与技术学院信息安全专业08级。

上一篇:论计算机远程通信技术的应用 下一篇:物联网现状及发展趋势