基于本体的信息抽取研究

时间:2022-03-20 01:50:43

基于本体的信息抽取研究

【摘要】介绍了信息抽取技术的基本概念和开源软件GATE及其在信息抽取方面的应用,分析了本体的应用和类型,提出了一种基于本体和规则的信息抽取设计思路。

【关键词】GATE;信息抽取;本体

随着计算机技术和网络的迅速发展,信息成指数级增长。如何从浩瀚的信息海洋中迅速有效的找到自己所需的信息,成为目前信息技术研究的热点。信息抽取(IE,Information Extraction)研究正是在这种背景下产生的。

1.信息抽取

信息抽取指的是以无结构的自然语言文本文档为输入,产生并输出固定格式的、无歧义的数据的过程。根据MUC定义,信息抽取一共有5种类型,分别是:命名实体识别(NE),识别人名、地名等并且进行分类;模板元素构建(TE),为命名实体识别结果添加描述信息;模板关系构建(TR),在TE的基础上,在实体之间找出关系;情景模板建立(ST),把TE和TR的结果放到相应的具体事件情景下;共指消解(CO),鉴别文本中的实体之间的恒等关系式,是TE和ST的基础。其中,NE是最简单,也是最有使用价值的一种类型,可以采用基于规则和基于统计这两种方法来实现。本论文的研究采用基于规则的方法。

2.本体

本体(Ontology)的概念最早起源于哲学领域,是客观存在的一个系统的解释或说明。1993年,Studer等学者对本体提出了一个比较明确的概念,即本体是“共享概念模型的明确的形式化规范说明”。目前,本体作为语义基础得到了广泛的应用,如语义网、信息检索、软件工程等领域。

3.基于本体的信息抽取研究

本文采用基于规则和本体的抽取技术,用GATE建立规则库来完成信息抽取,用Protégé构建领域本体表示实体及实体关系。语料库采用计算机配件的相关信息。

3.1 数据收集和文本预处理

首先通过爬虫软件收集大量样本文件,然后选定中科院的ICTCLAS作为中文分词组件,完成对采集文本的中文分词以及词性标注,并将ICTCLAS 的输出结果进行处理,使之成为GATE可以接受的输入格式,然后发送给GATE组件。

3.2 领域本体的构建

Protégé是美国斯坦福大学医学院开发的本体编辑工具,具有图形化的用户界面,使用简单,有详细友好的帮助文档,能支持中文,比较适合本体构建的概念化和形式化阶段。本文采用protégé建立计算机配件领域本体。

3.3 信息抽取

在充分调研国内外的系统之后,本文选定开源项目GATE作为信息抽取的开发框架。GATE项目与1995年英国的Sheffield大研究开发的,其全称是General Architecture for Text Engineering,目前已经被广泛应用于数字图书馆、语义网、知识管理等的研究和工程项目中。GATE框架采用了基于组件的软件开发方式,以及面向对象的编程方式,是基于规则的信息抽取框架。GATE使用的编码方式是 Unicode,可以支持多种语言编码,可以支持XML、HTML、RTF、Email、SGML以及纯文本文件等文档类型。

1)词表查询

GATE中的词表是一组包含了事物名词的集合,比如数字、日期、地名、姓氏等等,采用Gazetteer程序添加词表,用*.lst文件表示,每个Gazetteer词典可以添加多个词表,但需要同一文件夹下的索引文件(*.def)进行控制。首先要收集充足的词表,将上一步分离出来的词和词表进行匹配。匹配时,若待标注文本中含有词表中的某个词,则Gazetteer将其标注为 Lookup 类型。由上看出,词表的丰富程度直接关系着语料训练和命名实体识别效果的好坏。

GATE中主要提供了3个中文索引文件,分别是实现special gazetteer的special lists 文件、实现 gazetteer的lists 文件和实现inferred gazetteer 的lists 文件。这些词表文件中虽然包括了大量的词汇,但仍然不够完备,例如,digit.lst中,只有一、二、三等中文数字,因而无法识别阿拉伯数字。因此本研究结合实际情况,对GATE原有词表进行了扩充和完善。比如digit.lst中增加了0~9的阿拉伯数字,使得500、123等数字得到很好的识别。

同时,结合计算机配件方面的实际,增加了若干词表文件,比如cpu_type.lst存放常见CPU型号的词条;Cap_unit.lst存放兆,吉,B,KB,MB等表示容量单位的词条;brand_computer.lst存放了英特尔、华硕、戴尔、联想、神州等表示电脑配件品牌的词条。

2)规则修改和定义

利用领域本体中的概念和关系,根据本文研究内容,建立规则。本文采用 JAPE书写规则。存储容量、配件尺寸和价格、传输速率等等是计算机配件中常见数据,用数字加单位来进行识别。以存储容量为例,有的表示成500G,有的表示成400兆,是数字加容量单位组成的。主要 JAPE规则如下:

Macro:DIGIT

({Token.kind== igit})

Macro:NUMBER

(({Lookup.majorType==number})+)

Rule:Capa

((DIGIT|NUMBER)

{Lookup.majorType==cap_unit}

):tag

-->:tag.Capacity={rule=Capa}

配件的品牌也是选购时重要关注的方面,本文增加了相应的规则如下:

Rule: brand_computer

({Lookup.majorType==organization,Lookup.minorType==brand_computer}

):tag

-->:tag.Brand={rule=brand_computer}

3)实验结果

本文对收集的120篇相关文本进行了实验。从结果来看,本文的方法对实体命名识别具有较好的效果。

4.结论

GATE是一款优秀的信息抽取开源软件,本文对中文信息抽取系统框架和细节进行了深入的思考,提出了基于本体和规则进行中文信息抽取的技术研究,并选取了相关语料,进行了实验分析。从实验结果看,本文提出的方法能有效地进行命名实体的识别和抽取,丰富了本体实例。由于个人研究精力有限,仍然存在一些问题以待解决。

参考文献

[1]程显毅,等.中文信息抽取原理及应用[M].北京:科学出版社,2010.

[2]Hamish Cunningham.Information Extraction-a User Guide(Second Edition)[R].http://www.dcs.shef.ac.uk/~hamish/IE/userguide/Gri96[2006-1-3].

[3]陈兰,等.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157,170.

基金项目:南通大学校级自然科学类科研基金项目(12Z039)。

作者简介:张洁(1979―),女,硕士,讲师,主要研究方向:信息检索。

上一篇:解析电力营销管理中存在的问题及措施 下一篇:中职学校微机控制教育的现状分析与对策探讨