药学本体构建实践

时间:2022-03-21 05:28:53

药学本体构建实践

摘要:分析了药学本体构建的意义,介绍了药学本体构建工具和构建的原则,使用protégé本体编辑器,并借鉴七步法构建思路,详细阐述了药学本体每一步骤的构建过程,包括药学本体需求分析,复用现有本体的可能性分析,药学领域知识的结构化分析和核心概念集的获取,药学本体类、属性和实例的定义。本文的药学本体已应用在基于本体的中文元搜索引擎查询结果自动分类系统中,并能通过系统的运行实现本体的进化。

关键词:本体;领域知识;本体构建

中图分类号:TP311

文献标识码:A

文章编号:1009-3044(2007)12-20000-00

Practice of Pharmaceutical Ontology

WANG Mei-wen

(Library of Zhejiang Pharmaceutical College,Ningbo 315100,China)Abstract:Pharmaceutical ontology construct is signality. Firstly, the software and principle for ontology constructing are introduced. Then,follwing the construct method of‘seven steps’, every step to construct pharmaceutical ontology is described particularly. The process includes: requirement analysis, re-use possibility of existing ontology, to structural analyse for pharmaceutical domain knowledge, to acquire the core concepts and to design the class,property and instance of pharmaceutical ontology. The pharmaceutial ontology has applied in the Chinese meta search engine search result automatic classification system.The ontology can evolve with use process of this system.

Key words:ontology; domain knowledge; ontology construction

1 引言

在信息管理领域,越来越多的研究热点集中在对信息的理解、基于语义的整理和开发上。本体作为一种机器可理解的、形式规范的、可共享的领域知识表现方法,是实现语义网的关键技术。事实上本体的应用在智能检索、语义标注、自动分类等方面已有很多的实验项目,但是对于具体领域本体的构建实践并不多。而大量高质量的本体的构建,是本体技术获得良好应用效果的基础和前提。

本文对药学领域的本体构建进行了实践,并将它应用在了中文元搜索引擎检索结果的自动分类中。

2 本体构建工具

2.1 本体的形式化编码本体实质上是领域知识的形式化表达,因此需要一种形式化的描述语言,利用机器可读的形式对本体进行编码,使计算机可以存储、访问或修改本体,并将本体嵌入到各应用系统中,或在不同的系统之间进行互操作。目前有许多本体描述语言,如许多本体描述语言,如RDF(S)、OIL、DAML、OWL等。本文的药学本体采用的是RDF(S)本体描述语言[1]。

本体需要描述领域内的概念集及概念之间的关系,在RDF(S)中,用类(Class)描述概念(术语),属性(Property)描述概念间的关系。具体描述方式如以下例子:

rdfs:label="中枢神经兴奋药">

rdfs:comment="通常为药典名"

fs:label="中文正式名">

2.2 本体的形式构建

直接用RDF等本体描述语言编辑本体工作量非常大,而且概念与概念之间的关系不直观,所以在构建本体时一般会使用一种界面友好的可视化本体开发工具来辅助构建本体。

protégé[2]是由斯坦福大学医学院的医学信息研究小组(Stanford Medical Information research group)开发出来的本体和知识库编辑器,它有一个交互式的图形化开发环境,支持各种标准的存储格式,比较容易学习使用,提供大量的插件,基于这些优点,protégé成为最受欢迎的本体构建工具,本文的药学本体也采用它作为本体的开发平台。

3.1 已有的构建方法

选择一条合适的本体构建的方法路线对于保证本体的构建质量是至关重要的。由于各自的学科领域和具体工程的不同特点,构建本体的过程各不相同,目前尚没有一套经权威标准化机构认可的本体构建方法。从一般方法

论角度出发,1995年由Gruber提出的本体构建5条原则得到公认:明确性和客观性、完整性、一致性、最大单向可扩展性、最少约束从本体的概念和作用我们可以看出,共享和重用是其本质特征,因此相比于一般的软件,本体的建设更应该遵循工程化生产的路线。采用标准化的表达方式和规范化的工作步骤。事实上,已有的本体构建方法中都体现了工程化的思路。常用的本体构建方法有:企业建模法(Tove)、骨架法(Skeletal Methodology)、METHONTOLOGY 法、七步法等。

3.2 药学本体构建方法

综合分析已有的本体构建思路后,结合药学领域知识结构特征,本文的药学本体较多地借鉴了斯坦福大学医学院开发的七步法[3]。基本思路是:

第一步,确定本体的专业领域和使用需求。

第二步,考虑复用现有本体的可能性。

第三步,列出本体中的重要术语。

第四步,定义类(class)和类的等级体系(Hierarchy)。

第五步,定义类的属性(solts)。

第六步,定义属性的分面,如取值的类型(valueType)容许的取值(Allowed Values)等。

第七步,定义类的实例(Instances)。

以上七步并不是严格的循序渐进的次序,而是互有交织循环完善的过程。在这个过程中需要领域专家和IT技术人员的协作配合。领域专家需要领会本体描述领域知识的规则,并按此规则对知识进行重新整合。IT技术人员则需要将领域专家的知识描述转化为本体表现形式,并用本体描述语言进行形式化,进而嵌入到应用系统中发挥作用。

上一篇:IPSec与MPLS技术融合构建VPN 下一篇:层次分析法中判断矩阵一致性校验的C算法实现