基于语义Web的作物信息检索系统的分析与设计

时间:2022-07-17 12:07:09

基于语义Web的作物信息检索系统的分析与设计

摘要:针对传统作物信息检索中无法对语义关系进行检索与推理的问题,构建农作物本体。在对其语义推理与分析的基础上,设计了一个基于语义网的智能作物信息检索系统,该系统实现基于语义的对作物信息的查询,提高了在语义网上对异构数据信息检索和查询的智能性和准确度。

关键词:作物本体;信息检索系统;语义网;异构数据

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)01-0020-02

Analysis and Design of Crop Retrieval System Based on Semantic Web

ZHANG Yin-qiong, DAI Xiao-peng

(College of Information Science Technology, Hunan Agricultural University, Changsha 410128, China)

Abstract: Constructed crops ontology aiming at that semantic relationship cannot be retrieved and reasoned in conventional crops information retrieving. Designed an intelligent semantic crop information retrieval system based on crop ontology analysis and reasoning. This system implements semantic-based crop information query, and improves heterogeneous data information retrieval on semantic web and its’ query intelligence and accuracy.

Key words: crop ontology; information retrieval system; semantic web; heterogeneous data

互联网的迅速发展提供了信息资源共享环境,为用户查询提供了方便。伴随着用户对主题信息的需求越来越多,如何在领域内及时、准确地找到所需的信息成为当今的一个研究热点。农业是我国的主要产业,农作物信息是否丰富关系着农业的发展。专业的作物信息搜索引擎会给从事作物研究的人员提供准确可靠的参考信息,为我国农业的发展带来不可低估的作用。

目前Web上的作物信息资源大多是分散的半结构化(XML)或是非结构化(Html)的文档,即大部分的作物信息资源都没有按照语义网的标准进行语义标注,查准率低,查询的冗余度高。基于语义Web的作物信息智能检索系统正是针对这些杂乱无章的作物信息资源进行设计。创建作物信息知识库,通过对文档的结构化处理和对用户需求进行的语义分析来实现在语义关联层面上的信息检索。

1 语义网的概念及核心技术

1.1 语义网的含义及结构

初期语义网的结构[1],如图1所示。在最底层Layerl中,Unicode是通用字符集,它包括世界上所有的语言、字母和文字。URI可以标示抽象资源、物理资源。在Layer2中包括XML语法、NS(name space名称空间)和XML Schema(XML模式),它们都是自描述文档。在Layer3中包括RDF(resource description framework)资源描述框架和RDF模式,提供了用于描述Web资源的技术。Layer 4是本体论层,是语义网的基石。Layer5和Layer6分别是逻辑层和验证层,它们与XML数字签名一起构建所谓的可信网络。

1.2 语义网的关键技术

RDF和RDF Schema:RDF(资源描述框架)提供了描述元数据[1],而RDF Schema(RDFS)则是用来定义描述所用到的主体(subject)、谓词(predicate)及客体(object)的。用面向对象的思想来类比它们之间的关系,则RDF是用来完成实际工作的对象,RDFS就是用来定义对象的类。

本体论:本体论着眼于定义概念并表达概念间的关系,是由术语抽象而来的概念,它规范地阐明了从术语到概念的映射。一个完善的本体能够提供结构的主体和概念的关系,包括父类/子类/对象(superclass/subclass/instance)关系、属性值(property value)、时间关系以及其它依赖于所用的表达语言的关系等。本体通过比较逻辑概念结构来推理概念的含义。由于本体能通过概念间的关系来表示概念语义,从而能够提高检索的查全率和查准率。

2 基于语义网的作物信息检索系统的体系构建

基于语义Web的作物信息检索系统的资源获得来自于网络,使用本系统的用户也是大量使用网络进行查询的分散用户。而需要上网进行检索的大部分农民用户经济条件有限,很难达到C/S(客户端/服务器)模式对机器硬件的需求,系统将来的升级维护也有一定的难度。除此之外,要求每个用户使用相同的操作系统也是比较困难的事情。为方便用户使用、节约研发和后期维护的成本,本系统采用B/S模式。用户只要安装了任意一款浏览器,便可以非常方便的使用该系统。系统模式如图2所示。

该系统的目的是为了实现网络信息资源的共享,根据对系统功能的分析,按照高聚合、低耦合,数据冗余小及便于系统集成开发的系统开发原则,结合根据智能检索的流程可以将本系统分为五大模块组成:网页搜索与下载模块,网页分析模块,索引文件创建模块,作物知识库管理模块,控制和管理模块。各模块之间的关系如图3所示。

3 作物知识库的构建

在作物信息检索系统中,要提高检索的效率,作物知识库是关键。本系统所设计的作物知识库应该包含:作物学的专业术语,作物的遗传规律,育种技术,作物的生长发育,品质形成规律及其与环境的关系等各个方面。

该作物知识库的主要目标是有效的组织管理作物学相关知识。其功能主要包括:如何有效地存储和检索大量作物学相关数据(数据的输入和输出、数据编辑、按属性和关系名进行查询、更新数据库等)。为了提高作物信息检索系统的检索效率,该知识库还希望能有效地实现作物知识的表示和推理机制。其推理的知识规则和事实都以数据库的形式来存储。

该系统采用了基于关系数据库的产生式知识表示方法,利用Oracle数据库管理机制来组织作物知识库,这样组织的优点体现在:1)借助于数据库的管理机制,可以很方便地对知识库进行扩充、维护和修改,使今后无论做功能上的扩充,还是做性能上的改进都有可能。2)便于知识的运用和输入、输出,以及知识库内容的一致性和完整性检查及维护。3)实现了从规则文件到规则数据库的转变。在传统产生式规则表达中常常利用文件表达方式。用文件表达规则比较混乱,并且检索效率低,无法提供规则之间的语义约束,特别是当规则库较大时,这些缺点表现得更为明显。因此,将产生式规则移植到数据库系统中,利用数据库技术实现产生式规则的表达、检索和语义约束,既提高了知识表达的规范性,又提高了知识表达的灵活性。

由Oracle组织的该作物知识库比较庞大,由于文章篇幅有限,其图示在此省略。

4 基于语义网的作物信息检索系统的设计

由于在互联网上的大部分作物信息资源都是半结构化或者非结构化的文档,该系统针对目前Web上存在的主要的HTML文档形式提出了一种结构化处理的办法:在网页文档中用本体的概念集进行匹配搜索,找出文档中与本体概念集相交的概念集合,然后使用本体内部定义的属性关系进行推理判断,推断出这个文档是否属于作物学本体领域,如果属于此本体领域,则按照这个交集对文档施行半人工化标注。 将文档里的一些数据与领域概念联系起来,使得文档里的数据具有一定的语义。其设计的流程图如图4所示。

5 展望

该系统虽然实现了基于语义网的作物信息检索,但其技术还不够完善,还需要进一步的改进,归结起来主要有以下几点:

1)由于受实验条件的影响,本系统是在自写的压力测试程序下进行压力测试的,其实用性能如何还有待检验,还需要对系统作进一步的评估;2)当前,Web上存在的资源绝大多数都是非结构化的Html文档,而如果需要对这些文档进行元数据标注,则需要大量的人力资源进行手工或者半手工化处理。虽然在本研究中引入了本体的概念,但对大规模的文档的标注仍存在问题;3)本体的构建不完善,还需进一步完善;4)随着万维网的不断发展,该还需要进一步完善来适应互联网的发展。主要是下面几个方面:① 在提取网页属性和分析网页间的关系的时候,规则的定义是人为的,这就需要人为的观察和分析网页的特征,并构造规则,随着万维网的不断更新变化,这一工作要不断地进行;② 如何在深度搜索中提高初始页面的相关性,用以控制相关链接的数量,提高查询的效率;③ 如何保证提取的元数据的准确性,如何获得更多的元数据,以提高系统的实用性。

参考文献:

[1] Berners-Lee T, Hendler J, Lassila O. The semantic Web[J].Scientific American,2001,284(5):34-43.

[2] 官春云.农业概论[M].北京:中国农业出版社,2007:52-70.

[3] Rrigoris Antoniou.语义网基础教程[M].北京:机械工业出版社,2008:30-58.

[4] 崔运鹏.基于本体论的农业知识管理关键技术研究[D].北京:中国农业科学院,2007.

[5] Priya S.Shibasaki R. National spatial crop yield simulation using GIS-based crop production model[J]. Ecological Modeling, 2001,136 (2-3):113-129.

上一篇:校园网多出口策略路由的应用研究 下一篇:基于Web的图书档案管理系统的设计