基于教材文本的本体学习方法研究

时间:2022-10-16 08:13:41

基于教材文本的本体学习方法研究

摘要:教材文本相对于普通文本有其独特性。通过分析教材目录的特征,获取领域词汇的种子概念。通过分析教材正文中知识点的特征,提取出知识点的特征值,然后利用决策树C4.5算法对知识点类型进行识别,实现了教材文本的本体学习。

关键词:教材文本;目录;知识点;决策树;本体学习

中图分类号:TP319文献标识码:A文章编号:1009-3044(2011)16-3986-02

A Method of Ontology Learning From Course Text

Telek Zhumasharip1, Ayben Kazitay2

(1.Software College, Shandong University, Jinan 250101, China; 2.Nationalities Publishing House, Beijing 100013, China)

Abstract: A course book text is different from other texts. The seed concept of the vocabulary in the field is to be obtained by making an analysis on the characteristic of the course book contents. Once the features of the element of knowledge points are extracted by analyzing, the decision tree C 4.5 method will be employed to identify the types of the knowledge point and the ontology learning on the text will be achieved.

Key words: course book text; vocabulary; knowledge point; decision tree; ontology learning

目前本体已被广泛应用于语义Web、信息集成、数字图书馆、智能信息检索等领域,备受关注。本体的建立也由实验室阶段向工程化阶段转变,很多本体构建工具如Protege-2000,WebODE,OilEd,OntoEdit等,为建立本体提供了方便,但这些工具还是要依靠手工来建立本体,对于工程化的需要仍然显得费时、费力,不能满足需要。

为了解决手工建立本体的困难,本体学习(ontology learning)技术应运而生,目前国外对该方向的研究非常活跃,其目标是利用机器学习和统计等技术自动或半自动地从已有的数据资源中获取期望的本体。

本体学习的数据源有很多种,例如纯文本以及XML,HTML,数据库等,但目前大多数信息还是以文本方式进行存储的,研究的重点仍集中在基于文本的本体学习[1]。要建立高质量的本体,学习数据源的质量至关重要。在目前的文本中,普通网络文本占据了相当大的比重,但普通网络文本错误较多,结构也不很严谨,不太适合作为文本学习数据源。相对其它文本来说,教材文本具有知识结构的系统性、领域词汇定义的权威性、句式结构的完整性等特点,非常适合于作为本体学习的数据源。

1 教材文本的研究

教材文本相对于其它类型文本来说,除知识内容严谨外,其呈现方式也有不同。详细系统的目录就是教材文本所特有的表现方式。

1.1 教材目录的组成结构

目录是教材的纲要,每一个目录又是一个知识点内容的概括,所以目录相对于正文来说,有其独特性--高度概括性。

为了解目录的组成结构,根据目录的组成,将目录分为五类:专业词汇、普通词汇、专业词汇+普通词汇、短句和句子。对若干本教材中3216个目录的实验结果如表1所示。

1.2 教材知识点的研究

教材中的知识都是以元知识点为最小单位进行表示的,所谓元知识点就是具有不能再分割的框架结构的知识点,所以对教材知识的理解可以归结到对元知识点的理解上。

对元知识点的理解又可以归结到元知识点的分类上,而目前还没有元知识点的详细分类方法。本文参照本体学习系统[2]中概念的分类,同时又根据元知识点中领域词汇间的关系,将元知识点分为上下位关系和非上下位关系两种,详细分类见图1。

2 基于教材文本的本体学习方法

目前领域概念获取的方法[3]一般有三种:1)通过专业词典,从中筛选出专业领域概念;2)根据领域概念的特殊词法结构或模板,寻找和抽取结构符合这些特定模板的字符串[4];3)对语料库中的词汇根据不同的统计特征进行统计分析,设置一定的阈值,从而区分普通词汇和领域词汇[5]。由于很多领域尚未有专业词典,第一种方法局限性很大。第二种方法的模板基本上都是和语言相关的,所以要针对具体的语言进行处理。第三种方法设计到一个分词问题,而中文分词一般都要结合上下文和词典以及词与词之间的同现几率来对汉字序列作分词,从而使处理问题的复杂度加大。

Moldovan等提出了种子概念 ( Seed Concept)[6],所谓种子概念就是领域中大部分知识都围绕在其周围组织的核心词汇。通过种子概念,可以获取与种子概念相关的大量专业词汇以及与专业词汇间的各种关系,利用专业词汇及其关系建立本体模型,从而实现本体学习。

2.1 种子概念的获取

教材目录中的领域词汇是教材知识内容的高度概括,教材内容基本上都是围绕着教材目录上的领域词汇展开的,所以教材目录中的领域词汇大部分都可以充当种子概念。

从教材的目录结构来看,“专业词汇”和“专业词汇+普通词汇”这两种类型的情况占据了目录的绝大部分,并且从这两种类型的目录中抽取出专业词汇的难度又不大。本文在中科院分词系统ICTCLAS的基础上,实现了教材目录领域词汇识别系统。

从得到的词汇集中,利用常用普通词汇库和专业领域词汇关系集来排除普通词汇,得到专业领域词汇集。

2.2 概念联系的获取

概念关系的获取,目前通常采用的方法[7-8]有:基于模板的方法、基于概念聚类的方法、基于关联规则的方法、基于词典的方法或者是这些方法的混合。基于模板方法的缺点是准确率低,基于概念聚类方法和基于关联规则方法相对比较复杂,基于词典方法对词库内容要求比较高。本文通过分析元知识点的特征,来发现元知识点中领域词汇间的内在关系,来实现本体学习。

2.2.1 元知识点的特征

通过对教材中元知识点的分析,发现每类的元知识点中,都存在有一些共有特征。

1)都隐含着领域词汇间的内在关系

例1:(定义)凡在地球表面30km高度以下的稠密大气层内飞行的各种飞行器,称之为航空器。

在定义类中,一般情况都是利用上位词来定义下位词。从本例中,可以获取“飞行器”是上位词,“航空器”是下位词。

例2:(等价)转子又称工作轮。

在等价类中,两个领域词汇表达的是同一个物体或现象。从本例中,可以获取“转子”和“工作轮”是同一概念。

例3:(结构)火焰筒内有喷油嘴、点火器等。

在结构类中,描述的是事物和其内部部件或部件与部件之间的位置信息。从本例中,可以获取 “喷油嘴”和“点火器”在“火焰筒”的中间。

2)都包含了一些常用的特征词

例如,在定义类知识点中,常用的特征词有:“称之为”,“称为”,“即为”,“就是”,“是指”,“叫做”,“统称”,“简称”,“俗称”等。在等价类知识点中,常用的特征词有:“又叫”,“又称”,“亦称”,“或称”等。

3)包含的句式都是有限的。

例如,定义类知识点主要包括两种句式,这两种模式包含了所有定义类知识点的96.86%。

句式1:DefinitionBody + DefinitionDeterminer + DefinitionRange + DefinitionWord + DefinitionName

句式2:DefinitionName + DefinitionWord + DefinitionBody + DefinitionDeterminer + DefinitionRange

注:DefinitionDeterminer为定义限定词,一般为“的”, DefinitionRange为定义的上位词,DefinitionName为定义的下位词。

4)各知识点还存在一些其它基本特征

① 领域词汇间关系的数目不同,例如:定义类知识点仅包含一组领域词汇关系,但分类知识点包含的关系数都大于1。

② 元知识点包含的短句个数不同,例如:等价类知识点一般为1,而比较类知识点一般都大于1。

③ 知识点存在的语态有差异,例如:定义类知识点有被动形式,但组成类知识点没有被动形式。

2.2.2 概念联系的发现

通过分析元知识点的特征,概念联系的发现可归结到知识点类型的确定上,一旦知识点类型确定了,不仅可以发现新的领域词汇,而且可以发现领域词汇间的关系。具体的实现算法如下:

1)利用决策树C4.5算法对知识点进行学习

根据元知识点所具有的特征,本文抽取了5个特征值来表征知识点:包含的特征词、知识点句式、领域词汇的个数、短句个数、是否包含被动语态。

领域词汇的初始集合为从目录中发现的所有种子概念。训练集合为人工识别出的324个各类元知识点。用决策树C4.5算法对训练集合进行学习,得到一颗决策树。

2)发现新知识点

对需要进行识别的元知识点进行特征的提取,然后利用学习得到的决策树对该知识点进行判断,得到一个决策结果。

3)扩充领域词汇集合和建立领域词汇间的各类联系

对各类知识点根据特征提取出领域词汇,加入到领域词汇集合中。建立领域词汇间的关系,并不断扩充领域词汇间的联系集合。

4)转2),利用扩充的领域词汇集合重新发现新知识点。

3 结束语

通过目录来获取种子概念,方法非常简单并且有效,绕开了复杂的分词过程。把领域概念及其之间联系的获得转化为对元知识点类型的判断上,从另一个角度解决了基于文本的本体学习问题。

参考文献:

[1] Chau R,Smith-Miles K,Yeh C.Ontology Learning from Text: A Soft Computing Paradigm[J].Lecture Notes in Computer Science,2006:295-301.

[2] Buitelaar P,Cimiano P,Magnini B.Ontology learning from text:An Overview[C]//Ontology learning from text:methods,evaluation and applications,2006:3-14.

[3] Buitelaar P,Cimiano P,Grobelnik M.Ontology Learning from Text[C].the ECML / PKDD 2005 W orkshop on:Knowledge Discovery and Ontologies,2005.

[4] Shamsfard M,Barforoush AA.Learning ontologies from natural language texts[J].Int'l Journal Human-Computer Studies,2004,60(1):17-63.

[5] Navigli R,Velardi P,Gangemi A.Ontology learning and its application to automated terminology translation[J].IEEE Intelligent Systems,2003,18(1):22-31.

[6] Moldovan D,Girju R,Rus V.Domain specific knowledge acquisition from text[EB/OL].www.acl /anthology/A0021037

[7] Hacene M R.Napoli, A.Valtchev,et al. Ontology Learning from Text Using Relational Concept Analysis[C].e-Technologies,2008 International MCETECH Conference,2008(1):154-163.

[8] Navigli R,Velardi P,Gangemi A.Ontology learning and its application to automated terminology translation[J].IEEE Intelligent Systems,2003,18(1):22-31.

上一篇:一种改进的IS图像分割算法 下一篇:SQL查询在Visual FoxPro数据库中的应用