Web挖掘植物信息搜索引擎设计思索

时间:2022-08-16 04:20:06

Web挖掘植物信息搜索引擎设计思索

万维网信息的爆炸性增长,使Web已经成为世界上最大的信息库,面对这个分散、无序、动态、海量的信息库,人们要从中快速查找出能够满足自己需要的信息,必须借助搜索引擎这种检索工具。目前,人们一般是通过综合搜索引擎来获取信息,著名的有雅虎、百度、谷歌等,这些搜索引擎主要在于全面的搜索,这对于某一特定专业领域的人员来说,要查询一个专业学科的网络信息,用此搜索引擎搜索出的内容多且杂乱,因此建立面对特定专业领域的专题性搜索引擎便显得非常迫切和必要,园林植物搜索引擎正是在这种背景下应运而生的。本文根据园林绿化专业人员的需要,对信息检索技术和园林植物信息搜索引擎的建立进行研究和探讨,希望建立一个能够体现园林学科专业词汇和用语及相应的标引和检索语言的专业搜索引擎。

1搜索引擎的组成及工作原理

搜索引擎(searchengine)是一种对因特网资源进行自动跟踪标引的技术,是最主要的互联网应用之一,广义上是指采用搜索引擎提供信息服务的系统,狭义上是指网络自动跟踪软件,它可以实现基于网页内容的全文检索…。搜索引擎概括起来主要由搜索器、索引器、检索器和用户接口4个部分组成:一是搜索器,主要完成从互联网上搜集网页,并对所搜集的网页进行分析处理;二是索引器,主要是理解搜索器所搜索到的网页,从中抽取出索引项,用于表示文档以及生成文档库的索引表;三是检索器,主要是根据用户的查询在索引库中快速检出文挡,进行文档与查询的相关度评价,对将要输出的结果进行排序,同时搜集用户信息,以改进检索质量;四是用户接口,主要是人机交互界面,输入用户查询,显示查询结果,提供用户相关性反馈机制。

2搜索引擎的设计目标和系统结构

2.1设计目标

园林植物信息搜索引擎的主要设计目标:一是实现能体现园林植物专题性、时效性的高性能信息搜索引擎系统。通过采用园林植物专业导向词导引、定点采集和定题采集等方法来保证较高的时效性。二是采用数据挖掘技术,实现精确文档的自动分类。本系统利用园林植物专业导向词的方法导引搜索器按照一定的顺序搜索整个网络,在最短的时间内得到较全面的跟园林植物主题相关的信息。在此基础上,通过对网站的目录结构、网页结构和网页内容的挖掘,利用VSM(矢量空间模型)方法实现网页的自动分类。

2.2系统结构设计

由于本系统主要面向园林绿化专业领域,主要只是对园林植物方面的网页进行收集,无论是信息的搜集、中文分词技术以及信息过滤方面,均只涉及到园林植物名称方面的一些专业术语,因而其实现过程比综合搜索引擎复杂。其系统结构设计如图1所示。

3园林植物信息搜索引擎的核心技术

如前所述网络搜索引擎涉及到4个部分:搜索器、索引器、检索器和用户接口。这些模块的建立涉及到网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、中文分词技术及全文检索技术等。本文结合园林植物信息搜索引擎的建立,介绍这些核心技术在本系统中的应用。

3.1网页数据的采集

网页搜索子系统,采用多线程Spider,利用园林植物主题导向词导引、定点采集和定题采集等方法,从站点同时抓取多个网页,具有较高的网页抓取速度;利用自动跟踪网页资源变化,删除重复网页和无效链接,进行及时更新。园林植物主题搜索策略,由于园林植物搜索引擎面向明确的主题,在搜索过程中可以采用主题导向词的方式实现快速定题采集。其具体做法是:对网站的索引网页进行扫描,若不出现指定的主题,则立即放弃对下属子目录及网页的采集;若出现指定的主题目录项,则采用宽度优先的方法对其进行搜索采集。

3.2索引数据库的建立索引数据库又称核心资源库,是用户获取信息的直接来源。本系统索引模块主要包括3个部分:网页特征的描述、网页特征项的提取、索引的建立。

3.2.1一网页特征的描述

网页特征的描述和抽取是实现正确分类的基础。与数据库中的结构化数据相比,Web文档具有有限的结构,或者根本就没有结构,即使具有一些结构,也是着重于格式,而非文档内容,不同类型文档的结构也不一致。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。所以,需要对文本进行预处理,抽取能够代表其特征的元数据(特征词条),并以结构化的形式保存,作为文件的中间表示形式。文本特征指的是关于文本的元数据,分为描述性特征,如文本的名称、日期、大小、类型等;语义性特征,如文本的作者、机构、标题、内容等。描述性特征易于获得,而语义性特征则较难得到。对于内容这个难以表示的特征,首先要找到一种能够被计算机所处理的表示方法。矢量空间模型(VSM)是近年来应用较多且效果较好的方法之一。在该模型中,文档空间被看作是由一组正交词条矢量所张成的矢量空间,每个文档d表示为其中的一个范化辛寺E矢量(d)=(tl,wl(d);……;ti,wf(d);……tn,wn(d)),其中ti为词条项,wi(d)为ti在d中的权值。可以将d中出现的所有单词作为ti,也可以要求ti是d中出现的所有短语,从而提高内容特征表示的准确性。wi(d)一般被定义为ti在d中出现频率(d)的函数,即wi(d)=(d))。常用的有:布尔函数平方根函数对数函数=log(0~(d)+1);TFIDF函数。其中,N为所有文档的数目,为含有词条ti的文档数目。

3.2.2网页特征提取

要表示文本首先要提取文本特征。文本的特征应该具有以下特点:特征是能够对文本进行充分表示的语言单位。要表示好文本,就要寻找最有代表性的文本特征。对于计算机来说,文本就是由最基本的语言符号组成的字符串。对于英文文本,是由字母(1etter)和标点符号组成的字符串,而且词汇之间有天然的分隔符(空格),所以特征提取比较容易。中文文本是由汉字和标点符号组成的字符串,在中文文本中,字构成词,词构成短语,进而形成句、段、节、章、篇等语言文字结构。文本挖掘中常用的文本特征有字、词或短语等。因此中文文本特征的提取比较复杂,必须采用中文分词技术,把没有词汇标识的中文句子,通过某种特殊的技术切分出词汇。目前,主要的中文分词技术有3种:一是基于字符串匹配的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个[充分大的]机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。二是基于理解的分词方法。这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。即在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处于试验阶段。三是基于统计的分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此,字与字相邻共现的频率或概率能够较好的反映成词的可信度。这种方法只需对语料中的字组频度进行统计,不需要切分词典,但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,并且对常用词的识别精度差,时空开销大。由于本系统文档的自动分类是建立在VSM基础之上的,而VSM要求所有的特征词条必须是保持语义上的相互独立。同时,本系统是面向园林植物进行信息搜索,涉及到的园林专业术语比较多,词典内容相对固定。因此,采用基于字符串匹配的分词方法即可满足系统的要求。

3.2.3索引的建立

对于收集到的园林植物信息方面网页的文本信息的索引通常涉及到两个方面:文档标引和关键词标引。文档标引是为每个网页分配一个唯一的ID号,根据ID标引出在该网页中出现wID的数量,每个wID出现的次数、位置、书写格式等,形成ID对应wID的数据列表;关键词标引是文档标引的逆标引,根据wID标引出这个词出现的网页,出现在每个网页的次数、位置、书写格式等,形成wID对应ID的列表,即所谓的倒排文档。同时,建立网站websiteID对应的ID列表。

3.3信息检索

信息检索是面向用户的模块,是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。在索引数据库中搜索排序,本系统采用余弦算法来计算各网页的相似度,即其中,ldl与q分别表示文档和查询串的长度,为q中的第i个词条的权重,wj为q中第i个词条在文档d中的权重。当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

3。4用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。本系统的用户主界面提供了一个表单,让用户填人要搜索的园林植物的关键字。另外,此页面还将搜索的记录大致进行了分类,将园林植物信息分成园林树木、花卉、地被植物、园林植物特性及配置4个部分,每一类下面还分成很多小类。例如,园林树木下面还分成常绿乔木、落叶乔木、常绿灌木、落叶灌木、藤本植物、竹类等子类。

4系统实现

建立这样一个搜索引擎,本系统采用的是ASP(ActiveServerPageS)技术,ASP使生成的网页动态交互强,具有来访者分析和联机支付处理功能,对用户的客户端输入做出及时的响应,能够实现对企业数据库的访问。在数据库的选择上,选择的是SOLserver数据库,SOLserver是一个优秀的数据库平台,可用于大型的联机事务、数据仓库和电子商务应用。因此,采用了ASP+SQLserver的结构模式。在运行的平台上,ASP不能被浏览器直接执行,它的运行需要一定的环境,一般情况下就是把IIs(InternetInformationServer)安装在NT服务器上,因此采用IIS+NT。对于采用的数据结构和详细算法,由于篇幅所限在此不作介绍。

5结束语

随着人们对Web服务种类和质量要求的越来越高,这种新型的搜索引擎将应运而生。为此,展开了基于Web挖掘的园林植物信息采集技术的研究。随着Web服务朝个性化方向的迈进、Agent技术的发展、迁移式思想的出现,单纯的为了检索的Web信息采集技术必将向着基于主题以及个性化主动信息采集服务方向全方位拓展。目前,本系统只实现了单层次的目录分类。为了适应园林专业网站的需求,需进一步细化,采用多层次分类的方法,以满足用户对信息多层次精确分类的要求。同时,分类规则有待于完善和细化。

上一篇:海鱼肽对哺乳母猪泌乳影响 下一篇:Web的植物保护咨询系统设计思索