面向文本的信息提取概述

时间:2022-07-31 05:47:00

面向文本的信息提取概述

【摘要】 本文从中文信息处理着手,阐述了文本信息提取在现代计算语言学中现状,信息提取的发展,信息提取在中文信息处理中的关键技术及评价方法,从而说明了信息提取研究的重要价值,并展望了信息提取技术的发展。

【关键词】 信息提取;中文信息处理;计算语言学

信息提取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。这样人们可以对自己感兴趣的信息进行提取,对文本信息进行结构化的“理解”。信息提取是计算语言学中的一个富有挑战性的、引人入胜的课题,近年来逐渐受到了人们的关注和研究。

1 信息提取的发展

从自然语言文本中获取结构化的信息的研究最早开始于20世纪60年代中期,这个时期被看作是信息提取技术的初始研究。到了80年代末期,在美国国防部先进研究计划局等机构的推动下,计算语言学应用研究中心出现了一个新的分支,就是信息提取。此时,信息提取研究逐步开展起来,这也得益于消息理解系列会议(MUC,Message Understanding Conference)的召开。也正是MUC系列会议使信息提取发展成为自然语言处理(NLP Natural Language Processing)领域一个重要分支,并一直推动这一领域的研究向前发展。MUC对信息提取的发展起到了很大的推动作用。从1987年到1998年共举行了7届。MUC除了进行学术论文交流以外,还组织对世界各地不同单位的信息提取系统进行评测。组织者首先向参加者提供样例消息文本和任务说明,然后参加者根据任务开发出信息提取系统。会议前,参加者运行各自的信息提取系统处理给定的测试消息文本集合,输出的结果与手工标注的标准答案结果相对照得到最终系统的评测结果,主要是准确率、召回率等。之后才是会议,由参加者交流。其中在第六、七届MUC上还增加了中文系统的评测项目。这样的评测驱动的模式极大的推动了信息提取研究的方向确立和发展。

近几年,正在推动信息提取进一步发展的是美国国家标准技术研究所组织的自动内容提取评测会议(ACE,Automatic Content Extraction)。自2000年开始启动,已经举办过3次评测。目前,信息提取技术的研究和应用更为活跃。

2 信息提取系统

信息提取系统是这样一个系统,这个系统的输入是非受限的文本,系统按照用户的预期,从文本中提取出用户预先指定的某些类型的信息,供用户查询使用的过程。信息提取系统进行的工作是从非结构化的文本中提取结构化的信息。在信息提取系统中,结构化信息一般用模板结构来表示,模板由若干槽组成,和数据库中的字段类似,槽用来记录目标信息的各个方面。信息提取系统通过对非结构化文本进行分析,最后按照预先定义的模板格式,将有关信息填写在模板的各个槽中。例如:从一篇有关绑架事件的新闻报道中摘录出有关恐怖活动的信息:事件类型、时间、地点、肇事人、肇事组织、受害人、受害人数等;或从某汽车的新闻语料中提取该汽车的各种感兴趣的指标,如:汽车类型、品牌型号、动力、操控、外观、内部、安全防护、舒适性、经济性、工艺性、市场、环保等。

由此我们可以明确,信息提取涉及到两个方面的因素,首先要有用户指定感兴趣的信息和等待分析的文本集(大部分文本集是由信息检索而得到的);其次系统过滤文本集并以一定的格式输出匹配的信息。

3 信息提取中的关键技术

3.1 命名实体识别。命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。

3.2 句法分析。通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计算机理解自然语言的基础。

3.3 篇章分析与推理。为了准确而没有遗漏地从文本中抽取相关信息,信息提取系统必须能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此,篇章分析、推理能力对信息提取系统来说是必不可少的。

3.4 知识获取。作为一种自然语言处理系统,信息提取系统需要强大知识库的支撑。在不同的信息提取系统中知识库的结构和内容是不同的,但一般来说,都要有:一部词典,存放通用词汇以及领域词汇的静态属性信息;一个抽取模式库,每个模式可以有附加的(语义)操作;一个概念层次模型,通常是面向特定领域或场景的,是通用概念层次模型在局部的细化或泛化。除此之外,还有篇章分析和推理规则库、模板填充规则库等。

4 信息提取系统的评价

评价指标在信息提取技术的评测主要采用了经典的信息检索(IR)评价指标,即召回率(Recall)和查准率(Precision),但稍稍改变了其定义。经修订后的评价指标可以反映IE可能产生的过度概括现象,即数据在输入中不存在,但却可能被系统错误地产生出来。

就IE而言,召回率可粗略地被看成是测量被正确提取的信息的比例,而查准率用来测量抽出的信息中有多少是正确的。计算公式如下:

P=抽出的正确信息点数 / 所有抽出的信息点数×100%

R=抽出的正确信息点数 / 所有正确的信息点数×100%

两者取值在0和1之间,通常存在反比的关系,即P增大会导致R减小,反之亦然。

5 信息提取系统的应用价值

信息提取研究自20世纪90年代以来一直受到来自学界、产业界、军界等的多方关注,信息提取系统处理的对象是语言上不受限的自然语言文本,对关键信息的提取完全自动进行,在现实生活中将会发挥重要作用。下面仅仅列举几个信息提取系统可能产生重要作用的应用领域。

(1)情报搜集。情报部门通常需要监控收集有关敌对国家、恐怖组织活动情况的各种文献资料。如果引入信息提取将有利于自动化部分情报监控工作,便于情报的归类、检索,节约大量的人工阅读、分析工作,节省人力财力。

(2)科技文献监控。信息提取系统也可以提取某学科的研究进展情况,辅助进行科技文献的监控任务。

(3)医疗保健服务。利用信息提取系统提取某种疾病的特征、病人的症状、诊断情况、化验结果及治疗情况,方便医疗保健机构更好的提供医疗服务,方便健康保险部门更好的提供保险服务。

(4)商业信息提取。可以对某类商品信息进行提取,进行同类之间的对比分析,作出产品的褒贬评价,为产品发展的决策提供依据。

6 信息提取技术展望

信息提取经过最近十多年的迅速发展,已经成为自然语言处理领域一个重要的分支,其独特的发展轨迹--通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,都极大地推动了自然语言处理研究的发展,迫使NLP研究人员面向实际的应用重新考虑他们的研究重点,开始重视解决以前曾被忽视的一些深层问题。

参考文献

[1] 俞士汶.《计算语言学概论》[M].北京:商务印书馆,2003年9月

[2] 孙斌. 信息提取技术概述[J]. 术语标准化与信息技术; 2002,(3)

[3] 李保利,陈玉忠,俞士汶. 信息提取研究综述[J]. 计算机工程与应用,2003,(10)

收稿日期:2008-3-01

上一篇:论特别行政区行政长官的法律地位 下一篇:校本教研纪事