基于领域本体的信息抽取系统的设计与实现

时间:2022-09-29 04:48:20

基于领域本体的信息抽取系统的设计与实现

摘要: 为了实现提高信息抽取过程中的准确率与覆盖率,在信息抽取检索系统中,引入了领域本体。本文介绍了本体、领域本体的一些基本概念,同时并讨论了领域本体与信息抽取存在的一些映射关系。在本信息抽取原型系统中实现了手机领域本体,并将该领域本体应用到信息抽取中去。

Abstract: In order to enhance the rate of accuracy and coverage fraction in the information extraction process,it has introduced the domain main body in the information extraction retrieval system. This paper introduced some basic concepts about main body,domain main body and discussed some mapping relations between the domain main body and the information extraction and has realized the handset domain main body in this information extraction prototype system and has applied this domain main body in the information extraction.

关键词: 概念;本体;信息抽取;领域本体

Key words: concept;main body;information extraction;domain main body

中图分类号:TP391 文献标识码:A文章编号:1006-4311(2010)14-0158-02

0引言

最近几年来,为了使人们能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,把本体广泛应用于各个信息领域中,同时已经成为目前信息科学研究的一个热点和难点,备受世界很多国家的重视。在信息检索和抽取[1]等领域中,本体发挥着越来越不可缺少的作用。信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。基于领域本体的信息抽取系统,可以实现让用户得到具有个性化的信息服务,同时通过领域本体为信息源提供相应的语义标注,这样可使系统对本领域内的概念以及概念之间的联系有统一高度的认识,从而在一定程度上提高信息服务的查准率和召回率,实现为用户更有针对的信息服务。

1领域本体与信息抽取

1.1 本体的基本概念本体论(ontology)是一个哲学上的概念,是指哲学中研究世界的本原或本性的部分。不少哲学家把本体论看作是西方传统哲学思想(从柏拉图到黑格尔)的主干或”第一哲学”。从本体论的基本概念出发,哲学上把本体论定义为”对世界上客观事物所进行的系统描述”。

1.2 领域本体的概念领域本体(Domain ontology)是用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述[2]。

1.3 领域本体[3]在信息抽取中的应用基于领域本体信息抽取是新型的信息抽取方式,它利用领域本体而不是扁平结构的辞典与词表来识别抽取信息,领域本体信息抽取可以在语义层而理解抽取信息,同时可以通过领域本体实例对抽取信息内容进行语义标注,从而提高了信息抽取的查准率和召回率。

1.4 信息抽取检索系统中领域本体的构建知识工程中的本体是人为设计的关于某个领域的概念模型的一种表示。目前己有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导人们构造本体的目的,从实践出发,提出了不少有益于构造本体的标准。

2领域本体的构建

2.1 领域本体的设计原则通过分析总结,本体的设计原则可以概括如下[4]:①明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定义。②完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。③一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾。④最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其己有的内容。⑤最小承诺:即对待建模对象给出尽可能少的约束。⑥最小编码偏差:本体的建立应尽可能独立于具体的编码语言。⑦使用多样的概念层次结构实现多继承机制。⑧尽可能使用标准化的术语名称。

2.2 领域本体的构建步骤在实际的构建过程中,根据问题领域和具体工程的不同,形成多种构建本体的方法。目前,知识工程界比较成型的建模方法主要有:如骨架法[5]、企业建模法[6]等。参照这些构建领域本体的方法,结合信息抽取中的具体情况,并参考软件工程中的某些思想,领域本体的构建步骤如下所示。

具体如下:①确定领域本体的范围:明确构建的本体将覆盖的专业领域、应将本体的目的、作用以及本体的用户范围。②列出领域中的重要术语:列举出本系统想要陈述的或要向用户解释的所有概念。③建立本体框架:这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。④设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。⑤对领域本体编码、形式化。⑥领域本体的检验评价。

3信息抽取在手机领域本体的实现

根据以上关于领域本体的设计原则和实施步骤,本文在开发领域信息抽取原型系统时,主要使用手工和半手工的方式实现了手机领域本体,在系统的销售领域中起了很大作用。

3.1 手机领域本体的框架设计基于领域本体的web页面信息抽取主要是利用本身的描述信息进行抽取,因此对网页结构的依赖较少。采用这种方法进行信息抽取,预先需要领域专家采用手工方式书写某一应用领域的本体(其中包括对象的常值、关键字的描述信息)。根据领域本体的概念、概念属性以及属性之间的关系需要建立相应的关系数据库。然后根据本体中常值和关键字的描述信息产生抽取规则。对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取出的目标信息放入根据领域本体的描述信息生成的数据库中。那么,下面对比较重要的数据表及其作用进行各个说明如下。

①实体概念数据表用于保存手机领域中可能相关的实体概念。刚刚建成时,可以通过人工查找、识别出领域实体的一些概念,并保存到数据库中。在此以后,可通过计算机辩别出领域实体概念,并把它追加到数据库中手工进行检验。②实体概念特征词数据表,该表存储每个实体概念在文本中又可能出现的近义形式或术语。例如实体概念“手机”而言,在文档中有可能变成为“大哥大”、“手提”、“mobile”、“mobilephone”。③属性概念数据表用于存储手机领域中可能存在的属性概念。该表主要用于保存属性概念中在真实文本中有可能出现的近义术语或形式。④属性值概念数据表用于保存领域中可能的属性值概念。该表主要用于保存每个属性值概念在文本中出现的术语或形式。⑤概念关系表主要描述手机领域的实体概念之间存在的种种关系。

3.2 领域本体中概念间关系的实现手机领域本体中概念间的关系的表示通过几个概念关系表和各数据表之间的关系来实现。该领域本体由多个数据表组成,它们不仅描述该领域的实体概念、属性概念、属性值和相对应的特征词,而且对实体概念之间的关系、实体概念、属性、属性值之间的关系进行描述。而实体概念关系表描述的是实体概念表中的两个实体概念之间的关系。实体概念、属性、属性值关系表描述的是实体概念、属性、属性值之间的相互关系,如表1所示。

3.3 手机领域本体的具体应用本文的信息抽取原型系统的命名实体识别、实体关系抽取和任务抽取3个抽取任务,对显示器领域本体都有大量的应用,主要集中在如下几方面。

①命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。在命名实体识别阶段,领域本体可以提供许多语义信息。利用这些语义信息对本体中的实例进行实体和关系的抽取有非常重要的意义。基于领域本体的抽取检索系统可以利用本体中的实例进行实体和关系的抽取,并不试图运用规则来发现新实例,不对知识库进行丰富,其目标是抽取的精准率和效率。②信息抽取系统基本上主要采用机器学习算法来实现抽取任务,其目标是最大程度地实现关系的抽取。它实现的关键是算法在关系识别任务中的正确率和效果,适合应用于精粒度的信息抽取。③信息抽取系统基本上都是基于模式匹配的,即首先从文本中学习出事件抽取模式,然后再用抽取模式去发现新的事件。而领域本体的语义信息能够用于抽取模式的获取过程事件抽取模式的自扩展过程,能够对已有的抽取模式进行语义扩展。④此外,在进行文本或某些网页的段落中的一些重要概念提取时,领域本体起了非常重要的作用。

参考文献:

[1]万捷,滕至阳.本体在基于内容信息检索中的应用[J].计算机工程,2003,29(4):122-123.

[2]张志刚.领域本体构建方法的研究与应用[D].大连:大连海事大学,2008.

[3]肖敏.领域本体的构建方法研究[J].情报杂志,2006(2):70-72.

[4]郭嘉琦.领域本体的构建及其在信息检索中的应用研究[D].北京:北京邮电大学,2007.

[5]丁晟春,李岳盟,甘利人.基于顶层本体的领域本体综合构建方法研究[J].情报理论与实践,2007,30(2):236-240.

[6]马志斌,王刚.基于OWL建模语言实现分布式企业建模的研究[J].管理技术,2006(12):2-3.

上一篇:谈班级博客的实践与体会 下一篇:新时期高职院校学生教育管理工作的思考