搜索引擎的过程技术

时间:2022-07-06 03:48:12

搜索引擎的过程技术

【摘要】本文从搜素引擎的概念入手,详细分析了搜索引擎各个组成结构中过程技术的使用,并据此进行了简单的预测。

【关键词】搜索引擎;过程技术;绿色软件;信息分析

1.搜索引擎的特定概念与性能要素

1.1 搜索引擎的系统论概念

因为自身种类繁多,搜索引擎一直缺乏一个准确的定义。本文对搜索引擎的含义除了介绍三种较有代表意义的说法外,有时候还将搜索与搜索引擎并称,其原因一是因为简便的需要,但更主要的是因为搜索一词代表了搜索引擎的搜集、索引和检索三个主要过程。而所提供的搜索引擎的概念得当与否,仅供参考。

三种建设性的概念。一种是“网站网页论”,它将搜索引擎限定为搜索引擎所在的整个网站或者仅仅是其中的检索页面;另外一种“工具机制论”,主张搜索引擎是一种网络信息资源的标引与检索的工具或者机制;第三种“软件系统论”把搜索引擎看作网络服务系统或者信息查询软件。[1]三种观点都各有其支撑点。

本文所采用的系统论概念。根据系统论观点,系统是指由一定的要素所组成的、具有稳定的结构并能实现特定功能的集合体。[2]本文所要定义的搜索引擎,在理想状态上是指这样一种系统,它在组成要素上包括搜集器、控制器、索引器、检索器、用户接口、分析器、数据库、规则库、模型库、知识库等部件,在结构上是指以上述部件为核心而组成的技术及其应用整体,它的功能则是对网络信息及用户信息的管理(收集、存储、处理、显示、分析和应用等),即目标对象包括网络信息和用户信息;但在历史与现实环境中,凡是具有信息的搜集、索引与检索功能的系统,无论结构大小,不管功能完缺,都在本文论述与考察范围之内。

1.2 搜索引擎的性能要素

搜索引擎的性能要素主要有搜索广度、搜索深度、搜索速度、系统安全性和界面友好性五项,其中前四项每项都能分别从系统管理者和系统使用者两个角度进行考虑。搜索广度从系统管理者角度看主要是指搜集器所收集信息的覆盖范围(比如不同网站的主页),从系统使用者角度观察则是指针对用户检索要求,检索器向用户所发送信息(即用户检索到的信息)的数量,俗称查全;搜索深度以系统管理者的身份考察是指搜集器所收集信息在目标对象(网络信息和用户信息)组成要素上的深入程度(比如主页及其附属页),而对系统使用者而言则是指针对用户检索要求,检索器向用户所发送信息(即用户检索到的信息)中符合用户最终需求的数量,俗称查准;搜索速度也同时包括搜集器和检索器两者的响应时间;系统安全性和界面友好性两个指标虽然概念简单但地位重要。

2.搜索引擎涉及的主要过程技术

所谓搜索引擎涉及的过程技术是指它在运行过程中所涉及的各种微观的具体技术。[3]

2.1 搜集器涉及的主要技术:包括搜集判断技术和多道搜集技术

搜集判断技术。搜集判断技术有两方面作用:一是判断所搜集网页的重复与否。其解决技术之一是设立“已访问URL列表”和“未访问URL列表”,从而把新网页地址放入“未访问URL列表”但忽略旧网页除非旧网页已更新——有的搜索引擎甚至建立了网页内容摘要库以避免URL地址不同但网页内容大多相似甚至完全一样的情况出现。解决重复搜集的第二项技术是建立“域名与IP对应表”,以使域名不同但物理地址相同的网页不被再次搜集;二是判断所搜集网页的重要程度。这种判断所依据的技术普遍是设立“URL权值”,权值大则属于更热门网页,反之则是不重要的。

多道搜集技术。因为实际情况中搜索引擎都不只一个搜集器,比如多台机器情况下每台机器都有多个搜索器的情况,因此分布式并行处理技术与集中式并发处理技术常常用来解决多搜索器的并行与并发工作问题。具体的技术则分别由网络(多是局域网)操作系统和程序语言的多线程技术。

2.2 控制器涉及的主要技术:如信息摘要技术、网页净化技术、元数据提取技术

自动摘要技术。例如基于统计的自动摘要技术是依照关键词的词频统计数显示相关句子作为摘要;基于理解的自动摘要技术使用人工智能中的自然语言理解技术对目标文本进行语言分析后生成摘要;基于结构的自动摘要技术则在IBM?Intelligent?Miner for?text产品中有出色体现。

网页净化技术。它是用来识别并去除网页中的噪声内容的,比如清除广告、版权信息、导航条、调查问卷等对目标信息的干扰。具体净化方法比如“标签树净化法”,其过程是首先网页的注释、脚本、样式表等功能型标签构成标签树,其次把页面分为图片块、超链块和文本块等各种信息块,最后在各块中驱除广告、导航条等垃圾块。[4]

元数据提取技术。网页的元数据包括网页标识、网页类型、内容类型、标题、关键词、摘要、正文、相关链接等,其提取技术早期靠人工提取网页内容组织模式和系统根据此模式自动提取对应内容相结合的方法,后来有启发式规则法和视觉相似分析法等。

2.3 索引器涉及的主要技术:自动索引技术、中文自动分词技术、混合索引技术、倒排文件技术等

自动索引技术。有基于词汇分布特征的自动索引、基于语言规则与内容的自动索引和基于人工智能原理的自动索引等。基于词汇分布特征的自动索引技术又有包括词频统计索引和加权统计索引在内的统计索引技术、包括相关概率索引(根据包含相同索引词的提问与目标信息的相关概率来对目标信息建立索引)和出现概率索引(依靠索引词在目标信息中的出现频率所服从的概率分布特征建立索引)的概率索引技术。基于语言规则与内容的自动索引技术有语法分析索引技术和语义分析索引技术,前者根据词语的语法作用和词语之间的语法关系建立索引,后者词语在环境中的确切含义来建立索引。基于人工智能原理的自动索引技术又分基于产生式表示法(如果…那么…的形式)的智能索引技术、基于语义网络表示法(有向图形式)的智能索引技术和基于框架表示法(框架—槽—侧面形式)的智能索引技术。

中文自动分词技术。因为西文词语之间有空格符相区别,而中文词汇是连贯的,因此在建立中文索引的时候必然要涉及分词或称切词的技术。在搜索引擎中,主要依靠字符串匹配技术和统计抽取分词技术进行词语切分。字符串匹配技术将目标信息中与已构建词典中的词汇相匹配的字串作为索引词,统计抽取分词技术则是根据相邻字符共同出现的频率或者概率来确定是否词汇并按此选择索引词。实际应用的分词系统都是将二者结合起来以发挥各自的技术优势。

混合索引技术。混合索引技术是建立在自动分词技术基础上的、在建立倒排索引过程中所使用的一种索引词选择技术。它首先建立一个基本分词词典和一个扩展分词词典,然后在索引创建过程中对文档正文先后按基本分词词典和扩展分词词典选择索引词。扩展分词是对被索引文件进行统计之后识别出来的基本分词词典中所没有的分词。

倒排文件技术。倒排文件是搜索引擎使用最广泛的文件索引结构,而所谓“倒排”是指根据文件属性确定的顺序而非按文件内原有顺序来排列文件内容。倒排文件技术也是计算机科学(如数据结构和数据库)中的基本内容,此不赘述。

2.4 检索器涉及的主要技术:如链接分析技术和相关排序技术

链接分析技术,这种技术通过赋予各种相应权值来统计网页被链接次数。相关排序技术,主要有基于标签的排序技术、基于超链接的排序技术和基于被访次数的排序技术。基于标签的排序技术根据网页标签的提示(如大字体和有色显示等)排列文档信息的重要程度,使用者象Excite、Alta Vista、Infoseek、Inktomi等;基于超链接的排序技术按照网页的“入度”(指向自身网页的链接)和“出度”(指向它网页的链接)数量来衡量网页,其实现者如Google的PageRank技术和IBM?Clever小组的HITS(Hyperlink-Induced Topic Search)技术;基于被访次数的排序技术接下来将述及。

2.5 日志分析器涉及的主要技术:像用户行为统计分析技术和用户信息挖掘技术

用户行为统计分析技术。基于网页被访次数的排序技术就是此项技术之一——用户浏览网页次数统计技术在网站网页层面的一个应用。另外此技术还包括在用户接口层面,对显示结果各条目的用户点击数目的统计分析,这也可用来对网页进行排序。当然,用户的行为不只是浏览一种,其他的如检索行为等也是。

用户信息挖掘技术。这是应用数据挖掘技术(比如各种仿生技术以及可视化技术等)以及其他智能挖掘技术对用户信息进行的深层次挖掘与发现,而不仅限于统计分析。[5]

3.搜索引擎过程技术的未来

搜索引擎走过了光辉的过去,也无愧于这个腾飞的大时代,承载着光荣与梦想,它必将拥有更灿烂的未来。在过程技术本体上它可以采用绿色化等技术,形成绿色桌面搜索等。在过程技术的社会层次上它可以大量应用于信息分析等领域,比如百度和Google的信息分析应用拓深等。

参考文献

[1]苏新宁.信息检索理论与技术[M].北京:科学技术文献出版社,2004:364.

[2]钟义信,周延泉,李蕾.信息科学教程[M].北京:北京邮电大学出版社,2005:181.

[3]李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统[M].北京:科学出版社,2005:21,28.

[4]周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002(9):48?-50.

[5]刘亮.搜索引擎中搜索算法的进化轨迹[J].电子世界,2012(8).

上一篇:能看到未来的镜子 下一篇:交通十字路口的PLC模糊控制