石油地质领域知识服务系统研究

时间:2022-09-09 04:02:53

石油地质领域知识服务系统研究

摘要:信息服务主要使用检索词匹配的方式来返回检索结果,致使无法全面获取与语义知识相关的资源,因而检索结果无法准确地反映知识资源与用户检索需求之间的相似度。经研究,以本体技术和语义检索技术为基础的知识服务系统能够有效弥补传统信息服务系统的不足,改善由于地质资料标准化程度低、语义不一致而造成的检索效率低等现象。本文根据石油地质学科知识特点,提出了基于本体的石油地质领域知识服务框架,将本体技术和语义检索技术应用到石油地质学领域,形成包含资源层、知识层、产品层及服务层的石油地质领域知识服务系统。首先研究领域本体的构建技术方法,从领域资源中抽取知识,建立了结构化的、计算机可读的石油地质领域知识--领域本体;然后研究面向知识服务的信息资源组织方法,整合了石油地质领域多元、异构资源,形成了面向多类应用需求及层次的石油地质知识产品;最后,利用开源搜索引擎工具包Lucene和Jena本体解析工具包,建立了简单的语义检索原型系统,通过基于本体的语义扩展,实现了语义检索试验。试验结果表明,基于本体的石油地质领域知识服务系统能够准确地为用户提供检索结果,提高地质资料知识服务效果。

关键词:知识服务;本体;石油地质;语义检索

引言

目前的信息服务主要是依靠检索词匹配的方式来实现资源的查询与利用,因而检索词匹配的程度直接决定了资源的利用率和信息服务的效果。依靠检索词匹配方式的检索系统主要存在的问题是,由于忽略了知识资源的语义层面,因而造成了大量语义知识资源的确缺失,无法准确地反映知识资源与用户检索需求之间的相似度[1]。特别是面对海量、异构的地质资料数据,传统的信息服务系统很难满足用户的检索需求。具有语义匹配功能和本体知识技术的知识服务系统成为当前研究热点和难点。

1地质服务的知识框架

随着信息服务系统的不断发展,地质资料已从传统的借阅服务转变为知识服务,即按照知识结构和语义特征进行资料的组织、共享与服务已经成为必然趋势。本体能够构建出清晰的领域知识框架及脉络,继承已有的知识资源,避免重复工作,使得知识资源的高效快捷的重用及共享成为可能。在本体的基础上将行业内的标准规范、统计数据、学科知识脉络、研究进展和资源索引库等资源进行多元融合,就可以形成较为丰富完善的领域产品,以产品层作为数据支撑,就可以构建出个性化的领域知识服务系统。结合石油领域特点,本文提出了基于本体的石油地质领域知识服务框架,具体如图1所示。资源层:石油地质领域的原始资源来自于书籍、研究报告、各类原始数据和统计数据、地质图库、油藏模型以及网页上的资源等各种形式的已有工作成果。知识层:要实现地质领域的知识服务,首先要建立领域知识架构。地质本体能够提供包括石油地质领域、构造地质领域、古生物领域等各类地质领域知识的结构化描述、定义及属性[2]。产品层:知识服务需要有丰富多样的产品作为支撑,包括基于本体的学科知识脉络、数据产品、统计数据产品、研究进展报告及资源索引库等。这些知识产品一方面提高用户检索资源的命中率,找到用户真正需要的资源;,另一方面还能够为用户提供可能与检索需求相关的参考概念,以及相应的资源。服务层:学科知识服务的主要途径是用户主动检索。这种检索可以在机构内网,也可以通过互联网。知识检索的对象可以是结构化的领域本体,可以是基于知识网络索引的一般资源,服务层的目标就是为各种类型用户满足各种不同的需求,最终提供个性化服务。知识服务的根本目的就是能够直截了当的为用户提供真正需要的知识和资源,省去用户自己归纳总结筛选排除的过程。本文所提出的基于本体的地质领域知识服务框架,能够把松散地存放于各处的原始资料进行加工处理,形成系统的知识结构,将构建成的领域本体进一步开发形成知识产品,最后实现知识服务。结合石油地质领域的特点,本文构建了石油地质领域本体,并基于开源的全文搜索工具包Lucene等技术实现了石油地质领域知识检索系统试验[3]。

2构建石油地质领域本体

手工构建本体是一项耗时耗力的巨大工程,自动化构建本体技术尚不成熟[1,4],鉴于已有完善的《地质叙词表》和《石油主题词表》,因而本文提出一种基于叙词表的半自动化本体构建方法,具体方法如图2所示。地质叙词表又称为地质主题词表,包含了地质学科的词汇和词汇之间的各种关系。叙词表的语义关系分为“用、代、分、属、参”,分别用来表示词汇之间的等同、等级、相关等语义关系。叙词表包含较全面和权威的领域概念和重要的语义关系,为本体提供了较好的概念基础。很多研究尝试基于叙词表进行构建本体,研究重点在于叙词表向本体转换的方法。由叙词表构建本体的方法将叙词表的叙词作为本体中概念的来源,在叙词表概念关系的基础上,修改完善概念的属性、关系,并添加公理和函数。叙词表的相关关系没有更细的划分,包含了本体一般定义中除了层次关系和等同关系外的所有关系。所以要想建立更精确的领域本体,除了叙词的注释,还需要参考其他知识来源,如《石油地质》、《中国石油勘探开发百科全书》等,为本体的类添加需要的关系[4]。最终通过概念和概念层级的确定、定义概念的属性、对汉语拼音、叙词编号、英文译名、范畴号、注释项的处理及为概念添加实例等工作[5],构建了轻量级的石油地质领域本体,完成的面向知识服务的石油地质领域本体包含18278个概念,概念之间的关系达到16487个,概念的实例4137个。关系分为等同关系、等级关系和相关关系,其中相关关系除包含叙词表中固有的相关关系,还增加了相关领域学科,如信息技术及数学地质。实例涵盖了石油人物、书籍、机构以及重点区域等,具体如图3所示。

3石油地质语义检索原型系统设计与实现

3.1系统原型设计与实现

如图4所示,石油地质语义检索原型系统主要由解析模块、索引模块、检索模块、语义标引和本体模块五部分组成[6],其中索引模块中的语义标引、本体模块以及检索模块中本体搜索为本文在Lucene开源包基础上新增的部分,并且对原有的排序模块进行完善优化,形成新的基于权重的排序模块。各个模块的具体功能介绍如下。(1)解析模块:主要对各种类型的电子文档进行,目前能够解析的文档类型包括Doc、PDF、Xml和Html,在未来工作中将进一步扩展可解析的文档类型。(2)索引模块:基于Lucene已有的分词器进行文档预处理,去除停顿词,保留主题词。一方面将高频主题导入形成石油地质领域概念词库,另一方面将高频主题词作为每个文档的标引词汇,形成语义标引文档集。(3)本体模块:利用Jena实现了本体的解析与推理[7],将本体中的等级、等同和相关关系解析处理,并利用概念扩展算法实现了对检索词的语义扩展[8-9],形成新的检索词列表。(4)检索模块:将经过本体扩展后的全新检索词列表重新作为输入条件,在本体库和资源库中进行查询,匹配相应数据资源并返回至排序模块。(5)排序模块:根据本体中的概念与概念之间的距离,对匹配到数据资源进行重新排序,并将最终权重计算后的结果作为最终的系统检索结果返回给用户[10]。当用户输入检索词后,整个原型系统的工作流程如图5所示,Lucene基础层完成对文档的索引和标注,应用层通过Jena本体解析工具和语义扩展算法完成对用户输入查询词的扩展[1,11-13],并返回新的检索列表对应的结果,使用应用排序规则实现资源的综合排序,最终为用户提供准确的信息服务[14,15]。

3.2检索试验

地质知识检索系统实现了基于石油地质领域本体的语义查询,图6显示了输入“油气田”关键词并检索石油地质本体的查询结果页面[1]。(1)“油气田”相关概念:油气区、油气藏、油气田勘探、油气田开发等,其属性有“定义”,其实例有中原油田、长庆油田等。(2)通过扩展“油气田”的相关概念,可检索出标引为“油气藏”、“油气田勘探”、“油气田开发”、“油气田管理”等文档。(3)还可以对检索结果进行深一步的概念查找,如“油气生成”。

4总结

本文将知识服务应用到地质学领域,提出了基于本体的石油地质领域知识服务的框架和解决方案,该框架包括资源层、知识层、产品层和服务层,并实现了基于本体的石油地质语义检索原型试验,试验结果有力的验证了本文的论点。同时,由本文的研究可以看出,在大数据时代,数据和资源的结构化是实现数据管理和利用的必需手段。地质领域信息资源也面临着由异构、非结构化向共享化、知识化的发展。单就石油地质领域,建立覆盖范围更广、粒度更细的本体,还需要更多石油专业人才和信息科学人才的加入。并且,个性化的知识服务也是信息服务发展的必然趋势。个性化知识服务能够为用户提供更有针对性、更便捷的服务,当然同时提高了用户的学习和工作效率,必将开启地质领域知识服务的新篇章。

作者:闫东 单位:中国航天空气动力技术研究院

上一篇:食品质量安全管理分析 下一篇:石油工程安全管理策略