语言学组合特征在语义关系抽取中的应用

时间:2022-10-01 04:41:49

语言学组合特征在语义关系抽取中的应用

摘要:语义关系抽取是信息抽取中的一个重要的研究领域。目前基于特征向量的语义关系抽取已经很难通过发掘新的特征来提高抽取的性能。本文提出了一种特征组合方法,通过在各种词法、语法、语义的基本特征内部及特征之间进行合理的组合形成组合特征,使用基于支持向量机的学习方法,使得关系抽取的准确率和召回率得到了提高。在ACE 2004语料库的7个关系大类和23个关系子类抽取实验中F值分别达到了66.6%和59.50%。实验结果表明通过对基本语言学特征进行组合所得到的组合特征能够显著地提高语义关系抽取的性能。

关键词:计算机应用;中文信息处理;语义关系抽取;支持向量机;组合特征

中图分类号:TP391 文献标识码;A

1 引言

信息抽取就是从文本中抽取特定的事实信息。在大多数的信息抽取系统中,不但要识别文本中的实体,而且还要根据上下文确定和抽取这些实体之间的各种语义关系,即关系抽取。关系抽取已经日益成为自然语言处理研究的一个热门课题。和其他自然语言处理问题的解决方法一样,人们最初也试图使用基于知识库的方法来进行关系抽取。但这种方法需要专家构建大规模的知识库,既费时又费力。因此现在人们转向基于统计的机器学习方法。目前在关系抽取中所使用的机器学习方法一般分两类:基于特征向量的学习方法和基于核函数的学习方法。近期的机器学习方法主要基于特征向量,并取得了较好的成效。

在关系抽取中,典型的基于特征向量的方法包括最大熵模型(MaxEnt)和支持向量机(SVM)。但是基于特征向量的关系抽取的研究重点不在于机器学习方法本身,而在于如何获取各种有效的词法、语法、语义等特征,并把它们有效地集成起来,从而产生描述实体对象关系的各种局部和简单的全局特征。Zhou等系统地研究了如何把包含基本词组块在内的各种特征广泛结合起来,探讨了各种语言特征对关系抽取的贡献,在ACERDC2003基准数据上5个关系大类和24个子类的抽取中F指数分别达到了68.0和55.5。Wang等则又进一步加入了句子的简化谓词语义属性(SQLF),在ACE RDC 2004基准数据的7个关系大类和23个关系小类的抽取中F指数分别达到了65.2和56.8。

与基于特征向量的方法不同,基于核函数的方法不需要构造固有的特征向量空间。在关系抽取中,基于核函数的方法直接以结构树为处理对象来计算它们之间的相似度。Zhang等通过聚类算法,探讨了基于树核函数的非指导性关系抽取。虽然核函数可以充分搜索长距离特征和结构化特征,但也导致了基于核函数的方法有一个致命的缺点,即训练和预测的速度太慢,不适于处理大量的数据。目前基于特征的语义关系抽取在选取特征时,对于词法、句法、语义等各部分的特征单独选取,没有考虑到各个部分特征之间的联系,本文并未通过发掘新的特征来提高语义关系抽取的性能,而是在各种基本特征内部以及它们之间对其进行有效的组合,从而产生出很多组合特征,实验证明这些组合特征对提高语义关系抽取性能作出了很大的贡献。

文章第2部分介绍了基于特征向量的关系抽取的基本概念及方法。在第3部分中,介绍了语义关系抽取中的特征选取以及特征之间的组合。第4部分给出了实验的结果以及对结果的分析。最后一部分是本文的结论及展望。

2 基于特征向量的关系抽取

在本文中,关系抽取问题被转化为一个使用机器学习方法的分类问题,和大多数需要人工指导的机器学习方法一样,本文所采取的基于特征向量的关系抽取需要一个较大规模的标注语料库,在本文中我们使用的是ACE2004的英文标注语料库。首先我们将经过标注的命名实体对转化为一个特征的集合:f1,f2,f3…,fn,然后将其映射到一个n维的特征向量空间。在训练时,分类器学习算法使用标注的关系实例来学习得到一个分类器;测试时,又利用学习所得的分类器判断待测试的关系实例所属的关系类别。我们可以将关系抽取的任务表示为如下公式:(Cpre,E1,Cmid,E2,Cpst)r,E1,E2分别代表实体1和实体2,Cpre,Cmid,Cpst分别代表实体1之前实体对中间以及实体2之后的上下文,r代表语义关系类别。

一般的分类器学习算法有最大熵(MaxEnt)和支持向量机(SVM)。研究显示,支持向量机在性能上优于最大熵。在本文中,我们使用的是二元分类学习器SVMlight。SVM是一种基于统计学习理论驱动的有指导的机器学习方法。基于统计学习理论中的结构风险最小化原则,SVM通过寻找一个最佳分类超平面将训练数据分成两类,然后利用从训练集中挑出有效的实例作为支持矢量(SVC)作为决策的依据。由于SVM是一个二元分类器,为了使它能适合我们的多元分类任务,比如说ACE RDC任务,我们需要将其扩展成一个多元分类器,本文中我们采取“一对多”的分类方法。与“两两”分类方法相比,对于K类分类任务,“一对多”的方法只需要构造K个二元分类器,而“两两”的方法则需要构造K×(K-1)/2个二元分类器。

3 关系抽取征的选取及组合

由于实体间的语义关系表达的复杂性和可变性,使得关系抽取成为信息抽取中的一个薄弱环节。由于语法结构在关系识别中起着重要的作用,而语法结构的多样性和复杂性使我们较难提取有效的语法特征,因此关系抽取的成功在于能否有效地集成各种有效的语言特征,包括结构化特征。目前关系抽取研究的最大挑战在于训练数据不足,而且各语义关系的分布很不平衡,而关系小类的问题尤为突出。对于基于特征向量的关系抽取,特征主要选择词法、句法、语义以及结构化信息,词法特征的提取相对简单,而句法、语义以及结构化特征的提取需要对原始语料进行句法分析、短语块标注等预处理工作,受制于这些预处理工作的性能,目前我们无法提取出更多准确而有效的新特征。

本文利用现有的基本语言学特征,通过对各部分特征进行合理的组合,主要有三种组合:词法特征内部的组合;语义特征内部的组合;句法特征和词法特征的组合,并使用机器学习的方法进行训练和预测。本文以ACE 2004标注语料库为实验对象,具体阐述如何提取实体之间的特征,以及如何将这些特征有效地集成起来。

3.1 实体词语及其上下文特征

词法特征代表了命名实体对最基本的特征,也是目前我们能够提取的最简单而最准确的特征。在 词语及其上下文的特征提取中,上下文窗口不宜设置得过大,否则会引入噪声,导致关系抽取性能的下降,本文中将上下文窗口设为2-3-2,通过对基本词法特征的组合形成组合特征,如图1所示。

基本特征:WM1:实体1的提及(mention);HM1:实体1的核心词;WM2:实体2的提及;HM2:实体2的核心词;WBF:实体间第一个词;WBL:实体间最后一个单词;WBO:实体间除了第一个和第二个其他的单词;BM1F:实体1前的第一个单词;BM1L:实体1前的第二个单词;AM2F:实体2后的第一个单词;AM2L:实体2后的第二个单词。

组合特征:HM12:HM1+HM2;WB2L:WBF+WBL;BWM1:BM1F+BM1L;AWM2:AM2F+AM2L。

3.2 实体类别及其组合特征

实体类别特征属于浅层语义特征,目前的实验表明单独加入实体的大类或者子类特征对于关系抽取的作用并不明显,但是通过对这些基本语义特征进行组合形成了更丰富的语义特征。因此本文中提取的实体类别特征主要是组合特征。

ET1ET2:实体1实体2所属的大类(entitytype)及GPE角色(GPE-role)的组合;

EST1EST2:实体1实体2所属的大类、子类(entity subtype)以及GPE角色的组合;

ET1ET2X:如果实体对之间存在其他实体,则将其大类子类特征与ETIET2进行组合;

EC1EC2:实体1实体2参考类别(entityclass)的组合。

3.3 实体参照方式

实体参照方式(mention level)和参照类别(mention type)属于句法信息,对于每一个实体,我们会记录它所有的提及(mention)。而实体提及往往是嵌套的,即它们可能会包含其他实体的提及。实体参照方式和参照类别正是反映这一类信息的。

ML1ML2:实体1实体2参照方式的组合;

MSL1MSL2:实体1实体2参照方式及参照类别的组合。

3.4 交叠特征

实体的交叠特征主要反映实体之间的位置关系,属于结构化信息,实体对之间位置不仅是前后关系,还可能出现包含关系。但是,由于这些交叠特征单独使用并不能起到很好的效果,所以它们必须和别的特征组合起来使用,比如说和实体的类别进行组合。

基本特征:#MB:实体之间其他提及(men

don)的数目,0表示没有;

#WB:实体间词语的数目,-1表示实体之间是包含关系;

组合特征:OPNPM1:ETlET2+<+HM1;OPNPM2:ETlET2+>+HMl;(“<”表示实体1包含实体2,“>”表示实体2包含实体1);OPNP:ETIET2+能体现实体1实体2之间从属关系的名词;OPO:ETlET2+。实体1实体2上下文中的情态动词,BE动词;OPPP:ETlET2+实体1之前的修饰语;OPVP:ETlET2+实体1实体2之间的动词成分。

3.5 基本短语块及其组合特征

基本短语块特征的提取与词法特征类似,在提取出实体对上下文中的基本短语块后,再进行组合,形成组合特征。

基本特征:CPF:实体之间第一个短语块;CPL:实体之间最后一个短语块:CPO:实体之间其他的短语块;WM1、WM2:与词语特征中相同;CPNULL:实体之间不存在短语块;BCIF:实体1前第一个短语块;BCIL:实体1前最后一个短语块;AC2F:实体2后第一个短语块;AC2L:实体2之后第二个短语块。

组合特征:CPFL:CPF+CPL;BC1FL:BC1F+BC1L;AC2FL:AC2F+AC2L。具体组合见图2。

4 实验结果及分析

4.1 实验步骤及评测指标

(1)本文使用了ACE 2004评测的英文标注语料库作为实验数据进行关系抽取实验。该语料库包含了从广播、新闻、报纸等收集的317篇文章。本文中的关系抽取仅考虑在同一个句子内的命名实体对。表1列出了所有实例的统计信息。包含7个大类和23个子类。

(2)数据预处理阶段主要分以下几个步骤:(图3是一个具体的特征抽取实例)

1、将ACE2004语料文件转化为XML格式;抽取出已标注的命名实体以及实体关系实例并进行编号。

2、对文本进行语句切分,使用Charniak对语句进行句法分析产生句法树。

3、使用chunklink.p1工具将句法树转化为短语块序列,然后再从中抽取出各种基本特征并进行组合。

在图3的实例中,“jim SCiutto(实体1-PER),abc news(实体2-ORG),postville iowa。”中实体1和实体2之间存在雇佣(EMP-ORG)关系。

(3)使用SVMlight6.01进行训练和分类,在进行关系探测,大类抽取,子类抽取时参数c分别设为0.078,0.15,0.203。

(4)对于语义关系抽取的性能评测,本文中使用准确率(Precision),召回率(Recall),F值(F-score)作为评测指标。设T为测试数据中实例总数,S为识别出的正例数目,C为正确识别出的正例数目。

4.2 实验结果及分析

利用本文中抽取出的基本特征及组合特征,使用SVMlight进行训练和预测,在关系探测,关系大类抽取,关系子类抽取的最终结果及与wang等的比较如表2所示。表3、表4分别表示了本文系统以及wang等的系统的各个部分特征对语义关系抽取所作的贡献。

由表2的比较可以发现,通过加入组合特征,本文在关系探测、大类抽取、子类抽取任务中的性能均比未加入组合特征的wang等的高。在本文的实验中,加入基本特征后的子类抽取的F值为57.07,而加入了组合特征后F值提高了近2.5个百分点,说明本文所提取的组合特征能够显著地提高语义关系抽取的性能。由表3和表4比较看出,在加入了词法特征后,本文的关系抽取的F值达到了43.29,而Wang等的F值为33.38,词法组合特征的加入使得本文的系统性能有较大的提高。实体类型特征的加入使得F值提高了13个百分点,而在Wang等的系统中基本实体类别特征的加入使得F值也提高了近13个百分点,因此实体类别特征对于语义关系抽取的影响较大,而本文中实体类别组合特征的加入对语义关系抽取的影响并不显著。引用层次特征的加入使得F值提高了2.3个百分点,而交叠信息和短语块特征分别使得F值提高了0.5个百分点。

实验结果表明句法特征的加入没有显著提高系统的性能,这是因为命名实体对的句法结构比较相 似,多为复合名词词组,而词法特征及表征实体语义的实体类别特征则因为具有较高的区分度,因此对语义关系抽取的性能提高比较有效。实验表明本文中所提取的词法组合特征非常有效,这是因为词法特征具有较好的区分度,能够很好地表征命名实体对,因此词法特征的提取在整个特征提取过程中占有很重要的位置,直接影响了关系抽取的性能好坏。而其他类型的组合特征加入并未产生显著的效果,这是因为这些基本特征已经包含了比较丰富的信息,而组合特征是对这些基本特征进行组合,因此包含了很多冗余信息,不具有较好的区分度。

与Zhou等在ACE2003中的实验结果不同的是,我们发现在ACE2004中实体类别特征对关系抽取性能的贡献最大,而在ACE2003中基本短语块特征比实体类别特征更加有效,这是因为在ACE2003数据中,实体类型特征仅包含实体的大类及子类信息,而在ACE2004数据中,实体类型信息中不但包含类别信息,还包含了实体的参考类别、实体的GPE角色等其他信息,因此具有更高的区分度。Zhou等和Wang等的实验结果均显示,解析树、依存树等结构化信息的加入对关系抽取性能的提高并不明显,而从理论上来说语法结构信息在关系抽取中有着重要的作用。导致以上情况的原因可能是:一方面,在ACE的关系抽取任务中,其所定义的大多数关系实例中两个命名实体之间距离较短,而对于这种短距离的关系实例,我们可以通过加入一些简单的词语信息、类别信息就可以进行有效的关系抽取,而结构化信息对于长距离的关系实例的抽取的效果更加明显。另一方面,在我们进行语法结构分析时所提取出的解析树和依存树信息还比较简单,而且准确性也不高,它们不能很好地表征语法结构信息,因此在关系抽取中的作用并不大。为了使结构化信息在语义关系抽取中发挥更大的作用,我们必须深入挖掘隐藏在完全句法树中的各种有效的结构化特征,并尝试将语义信息与结构化信息结合。

5 结束语

本文介绍了信息抽取领域中的语义关系抽取任务,并使用基于SVM的机器学习方法在ACE 2004语料库上进行了关系抽取实验。在选取特征时,通过对基本特征进行组合形成了组合特征,从而提高了语义关系抽取的性能,其中词法组合特征能够显著地提高抽取性能,而其他类型的组合特征的影响则不太明显。同时我们还研究了各种特征在关系抽取中所作的贡献,实体类别特征相对于其他特征而言更加有效。基于特征的语义关系抽取的关键是构造特征丰富的特征向量,而目前无法获取更多有效的新特征,因此利用现有的基本特征进行合理组合,从而产生出区分度较高的组合特征会是一条比较有效的提高关系抽取性能的途径。

目前关系抽取研究的最大挑战是训练数据不足的问题。同时由表1可以看出,各语义关系的分布很不均匀,严重影响了关系抽取的性能。因此我们下一步的工作就是探索弱指导的机器学习方法,自己产生大规模较高质量的标注语料库,减轻对大规模手工标注语料库的依赖。

上一篇:网管玩转分身术,本职兼职两不误 下一篇:gov的思考