基于形式概念分析的领域本体描述模型研究

时间:2022-10-15 03:43:22

基于形式概念分析的领域本体描述模型研究

[摘要]针对如何运用形式概念分析(FCA)协助完成领域本体的描述问题,先阐明基于FCA的领域本体描述原理,进而提出基于FCA的领域本体描述模型,最后以脊椎动物领域为例,给出一个基于FCA的脊椎动物领域本体描述的实例。

[关键词]概念格领域本体本体描述本体推理

[分类号]G350

领域本体描述是一切基于领域本体的知识工程活动的前提,提高领域本体描述的形式化与规范化程度、语义表达能力和本体知识推理能力就成为领域本体描述所一直追求的目标。形式概念分析(FCA)是应用数学的一个分支,它是建立在概念和概念层次的数学化基础之上的一种新的知识描述手段和数据分析工具,运用形式概念分析的方法,可以发现、构造和展示由属性和对象构成的概念及其之间的关系。

FCA和领域本体是两种形式化的知识表示方法,文献指出两者的差异主要体现在:本体的目的是对人能感觉到的现实世界建立共享的概念模型,提供一种共识以支持知识密集型应用。FCA不是为现实建模,而是为人工世界建模,目的是支持用户在给定数据的基础上进行领域分析和建模。FCA中概念的外延和内涵是同样重要的两方面,而本体则强调概念的内涵部分。

FCA已被尝试用于领域本体的描述,代表性的文献有[4-6]等,这为基于FCA的领域本体描述理论的产生提供新的契机。利用FCA可以完善领域概念的属性集和对象集,提高领域本体的语义完备性和形式化程度,自动分析领域的隐藏概念,并对领域概念进行聚类,从而为本体分类关系提供参考,帮助建立领域本体原型。另外,概念格可以帮助完善用描述逻辑进行本体推理的实际情境,为本体推理的公理和规则的编写提供便利。

本文旨在深入研究运用概念格协助完成领域本体描述的基本原理,并提出基于FCA的领域本体描述模型,为后续相关研究奠定基础和提供启发。

1

基于FCA的领域本体描述原理

基于FCA的领域本体描述基本原理可简述如下:领域本体的描述,必须自始至终贯彻工程化的指导思想、标准化的表达方式和规范化的工作步骤。在需求分析的基础之上,通过预处理过程,将领域的结构化、半结构化及非结构化数据转换为领域核心术语集(即核心词汇集),进而将领域核心词汇集依据“对象一属性”的二元关系转换为形式背景,用形式背景来表达领域背景知识。形式背景形成后,在对其优化处理的基础上,通过造格过程,将形式背景转换成概念格,并用相关工具将概念格显化,接着根据实际需求对概念格进行规范化的编辑操作,得出满足领域本体使用需求的合理概念格,此时,可视化的概念格可以良好地展现出概念层次模型,概念层次清晰地体现了概念间的分类关系。在上述过程的基础上,将概念格通过相关操作转换成领域本体原模型,并在领域专家的参与下对领域本体原模型进行属性、实例、关系和公理规则等多方面的充实,最终通过领域本体的形式化过程,用本体描述语言将领域本体表达出来。最后用领域本体推理过程,对领域本体进行检测,并推理出相关隐性知识。

2

基于FCA的领域本体描述模型

根据基于FCA的领域本体描述原理,本文将运用FCA描述领域本体的过程分为四个阶段:准备阶段、分析阶段、描述阶段和推理阶段。从实际操作的层面上来看,上述四个阶段每阶段都包涵着许多错综复杂、相互作用的要素和内容,这给理解和掌握基于FCA对领域本体进行描述这一过程的本质造成了一定的困难。因此,本文采用模型化的思路,抓住这四个阶段中的主要要素并摒弃次要要素,进而深入研究各主要要素间的关系,对基于FCA的领域本体描述过程进行抽象,构建了基于FCA的领域本体描述模型,如图1所示:

各模块的主要任务概述如下:

2.1 准备模块

该模块主要解决领域本体描述的前期准备问题。在知识工程专家、领域专家和领域本体用户三方面对所要建设的领域本体进行深入需求分析的基础上,搜集领域数据,并将其分为三类:结构化数据、半结构化数据、非结构化数据。随后使用相关技术(映射技术、NLP技术等)从各类数据中抽取出领域核心术语集,并将术语集的格式统一为“对象一属性”集,文献[7]阐述了具体的方法:①对结构化数据(一般为关系数据库表),利用逆向工程或映射技术将关系模型转换为E―R图,用数据库表的元组作为对象,而数据库表的属性作为属性,E―R模型的关系表述概念间的关系;②对非结构化数据(一般是领域纯文本)的处理比较复杂,一般是通过自然语言的解析器,将领域文本中的每一个句子转换成一棵语法树,由语法树来分析,将词汇关系分为动宾关系、并列关系、偏正关系、主谓关系等,进而将这些关系转换成“对象一属性”关系;③半结构化数据一般是大量的XML格式的网页以及它们遵循的文档类型定义(XML Schema或DTD)等具有隐含结构的数据。半结构化数据具有结构化数据和非结构化数据的特征,从半结构化数据中抽取需要运用映射技术和自然语言分析技术相结合的办法来获取领域中的“对象一属性”关系。

2.2 分析模块

该模块是整个过程的核心,主要完成四项任务:

・将准备模块得出的结果(即领域核心术语的“对象一属性”二元关系)纳入统一的形式背景下,并判断所形成的形式背景是否为标准形式背景,若不是,则分析原因(如多值背景、非净化背景等),并采取对应措施(如多值形式背景单值化,背景净化),将形式背景标准化。

・通过造格算法,将标准形式背景转换成概念格,并将所得概念格通过Hasse图的形式显化出来,由领域专家和知识工程专家在可视化基础上判断概念格是否合理,对不合理的概念格通过一定的规则进行对象、属性编辑,循环操作,直至出现较为满意完备的概念格为止。对概念格的编辑处理的基本操作包括:添加或移除对象;添加或移除属性;当两个对象有相同的属性时,要么合并成一个对象,要么给对象添加属性,以区别对象。概念格可以产生新的对象,它们不在概念表中,可以增加这些对象;整个过程不断循环重复,直到合理完善为止。

・将编辑后的完备概念格进行转换,主要包括节点转换(命名顶端节点,标示中间节点,删除底端节点)和节点关系转换(转换为概念及概念间的关系)两部分,转换的结果是得出领域本体原模型。

・在领域专家的参与下,将领域本体原模型进行属性扩充、实例扩充、公理扩充及关系扩充,对领域本体原型进行完善,最终形成扩充后的领域本体原型。其中,属性扩充和实例扩充分别用于完善本体概念的内涵和外延的两个方面,关系扩充的目的在于完善领域本体概念除分类关系外的其余关系,而对公理和推理规则的扩充可以帮助实现本体推理。

2.3 描述模块

该模块的主要任务是选择合适的本体描述工具和本体描述语言,对扩充后的领域本体模型进行形式化描述,即完成本体的编码过程,最终得到领域本体。本

体描述包括对领域概念、概念间关系、属性、实例、公理和推理规则等各个方面的描述。

本体描述的过程相当复杂,为方便和简化领域本体描述的具体过程,相关研究机构开发了一些有代表性的本体描述工具:JOE、OILed、OntoEdit、Prot6g6、WebOnto等。这些工具在描述领域本体的能力上各有特点和优势,因此要结合具体的情况来选择使用。

本体描述语言近年来也呈现出多样化(如OWL、DAML、RDF等)的趋势,在此背景下,本体描述语言的选择就成为一个需要关注的问题。本文的观点是,本体描述语言的选择并非是唯一的,而是需要与具体的项目结合起来,与选择的本体描述工具结合起来,综合考虑各方面的因素,然后做出选择。一般情况下,选择OWL描述语言对本体进行描述。

2.4 推理模块

该模块的主要任务是根据本体描述语言,选择相应的本体推理机来实现本体推理。描述逻辑是本体推理的基础,本模型将本体知识推理建立在具有数学理论支撑的概念格之上,利用概念格有效帮助知识工程师完成对领域知识的逻辑描述。本文将在后文3,5节中结合实例阐明如何运用概念格协助确立领域本体概念的逻辑关系。

本模型中,本体推理的内容有两方面:一是检测冲突,优化表达,本体建立者要想建立正确、一致的本体就需要借助推理;二是由给定的知识(即显性知识)推理获得隐含知识,也就是把隐含在显式定义和声明中的知识通过一种处理机制提取出来。本体推理一般由推理机来完成,文献[12]对当前主要本体推理工具进行了比较分析与研究,总结了三个典型的推理机系统(Pellet,Racer,FaCT++)的优劣,为如何选择推理机提供了参考。

3

一个实例:基于FCA的脊椎动物领域本体描述

3.1 脊椎动物领域简述

实例的目的旨在验证本文提出的基于FCA的领域本体描述理论的实际效果,因此,在应用领域的选择问题上,不必过于复杂化,以能阐明理论的正确性、可用性和易用性为准。基于此,本文拟选择一个简单且领域知识争议小的领域来阐述问题,在领域本体描述的具体应用中,也只取一个领域片段,进行领域本体描述。综合考虑后,本文选择百度百科中的“脊椎动物”这一词条作为领域非结构化数据,在此基础上进行脊椎动物领域本体描述。如图2所示:

3.2 步骤一:准备阶段

将“脊椎动物”词条中的文本进行整理,为避免形式背景过大不宜进行文字表示的弊端,对上述文本做适当简化,得到领域非结构化数据(文本)如下:

鱼类:用腮呼吸,生活在水中,卵生;

两栖类:能生活在陆地或水中,主要用肺呼吸,在水中水中用皮肤呼吸。卵生。常见动物:蛙等;

爬行类:皮肤表面有角质鳞片或甲,用肺呼吸,卵生,陆地生活。常见动物:陆龟等;

鸟类:体表有羽毛,卵生动物,用肺呼吸,有翼能飞翔。常见动物:鸽等;

哺乳动物类:胎生,哺乳,用肺呼吸。

从上述文本中析出领域核心术语集,包括属性集和对象集,原则上这一过程是由自然语言处理技术来完成的,但限于本文的实验条件有限,故采用人工析出的方式。脊椎动物领域的属性集为:{B.用腮呼吸;c.用肺呼吸;D.生活在水中;E.生活在陆上;F.卵生;G.胎生;H.甲或角质鳞片;I.有羽毛;J.有翼能飞翔;K.哺乳;L.水中用皮肤呼吸;M.有脊椎的}.脊椎动物领域的对象集为:{蛙,陆龟,鸽子}。

3.3 步骤二:分析阶段

在领域专家的指导下,由知识工程师将上述属性集和对象集纳入到形式背景中,确立背景中所有存在的“属性一对象”对应关系,最终形成如图3所示的初始形式背景。

由于此时形式背景不完善,属性B与属性K没有对象与之对应,且整个形式背景不是净化背景,因此,在领域专家的指导下对形式背景进行完善,添加对象老虎、草鱼,得出一个完善的形式背景,如图4所示:

利用造格工具concept Explorer,将上述形式背景转换成概念格,如图5所示:

在概念格中,每一个节点代表一个自动聚类产生的领域概念,此时,若领域专家认为该概念格不能完整准确地表述领域知识,则需要在知识工程师的协助下对概念格按照相关规则进行编辑,本例略过此步。图5中的概念格总共产生了11个节点。

得到完备的概念格后,就需要对概念格进行节点和节点关系两方面的转换,以得到领域本体原模型。节点转换的要点是进行节点标示,一是在领域专家的帮助下对节点命名,即取概念名;二是标示节点的所有属性(包括从上层节点继承的属性)和实例,即明确概念的内涵和外延。随后,节点关系可自动转换成相应概念间的关系。以下是3个有代表性的节点:

节点1:脊椎动物({草鱼,蛙,陆龟,鸽子,老虎},{有脊椎的})),该节点包含领域中所有的实例和所有实例共有的属性。

节点7:两栖动物({蛙},{有脊椎的,用肺呼吸,生活在水中,生活在陆上,卵生,水中用皮肤呼吸})。

节点Il:({},{用腮呼吸,用肺呼吸,生活在水中,生活在陆上,卵生,胎生,甲或角质鳞片,有羽毛,有翼能飞翔,哺乳,水中用皮肤呼吸,有脊椎的}),该节点是空概念,不存在,需删除。

完成概念格的转换后,可以得出如图6所示的领域本体原模型:

领域本体原模型中所表达的属性、实例、公理等内容可能出现不完善的情况,因此,需要在领域专家和知识工程师的合作下对领域本体原模型进行属性扩充、实例扩充及公理扩充等。

以概念7两栖动物为例进行领域本体原模型扩充:两栖动物({蛙},{有脊椎的,用肺呼吸,生活在水中,生活在陆上,卵生,水中用皮肤呼吸}),添加公理{两栖类(水中用皮肤呼吸,卵生动物)V(用肺呼吸,卵生动物)V(生活在陆地,卵生动物)V(生活在水中,卵生动物)}。

3.4 步骤三:描述阶段

选择Protege为本体描述工具,OwL领域本体描述语言,对扩充后的领域本体模型进行形式化描述。用Protege3.1.1描述后的脊椎动物领域本体概念及概念关系如图7所示:

本文构建的领域本体共包含领域概念15个,概念的属性17个,基本阐明了脊椎动物领域的概念和概念关系、概念的属性及实例。用Protege工具可自动将领域本体用OWL本体描述语言描述,得出脊椎动物领域本体的代码。

3.5 步骤四:推理阶段

本体推理是领域本体描述的最后一个阶段。本文是在Protege工具的基础上结合RacerPro推理机实现本体推理过程的。描述逻辑是本体推理的基础,因此,如何从领域本体原模型(或概念格)准确得出领域本体概念间的逻辑关系就显得尤为重要。结合图6,本文总结了运用概念格完善描述逻辑的实际情境,如表1所示:

4 结论与展望

本文所提出的基于FCA的领域本体描述模型,合理地将概念格运用到领域本体描述的过程中来,用完善的数学理论对领域本体的准备及分析阶段进行了支持,有效提高了领域本体描述的形式化程度、规范化程度、语义表达能力和本体知识推理能力。当然,本文的模型也具有其局限性,只适合于较小且简单的领域。不能有效处理大型领域或复杂领域的本体描述问题,因此,解决该方面的问题,将是本文后续的研究方向。

上一篇:一个RSS级别的网页主题内容抽取方法与系统 下一篇:院所协同机制下的专业领域知识环境建设