基于维基百科的领域实体上下位关系抽取

时间:2022-06-20 08:15:58

基于维基百科的领域实体上下位关系抽取

摘要:针对维基百科中旅游领域词条的结构特点,本文提出利用结构特点自动获取特定结构的领域命名实体和层次结构。首先,我们利用维基百科的结构特点抽取候选领域命名实体,并利用条件随机场抽取剩余实体;其次,利用维基百科的层次结构构建层次结构;然后,使用模式对层次结构中的实体对进行验证,并利用模式匹配已获取的候选实体对来补充层次结构;最后,使用特征和支持向量机相结合获取剩余语料中的领域命名实体上下位关系对,并添加到层次结构中对其进行补充。

Abstract: Aiming at the structure characteristics of tourist area entry in Wikipedia, this paper proposed a method to obtain the domain named entity and hierarchy of specific area automatically based on the structure of Wikipedia. First, we extract the candidate domain named entity by using the structure characteristics of Wikipedia and extract the others by the CRF. Secondly, we extract the hyponymy entity pairs by using the hierarchical structure of Wikipedia to construct hierarchy. Then, the pattern is used to verify the entity pairs of hierarchical structure, and the entity of hierarchy structure is supplemented by pattern matching. Finally, we obtained the rest of the domain hyponymy entity pairs by fusing the features and support vector machine (SVM), further, the entity pairs are added to the hierarchy structure.

关键词:条件随机场;模式匹配;支持向量机

Key words: CRF;pattern matching;SVM

中图分类号:TP391.1 文献标识码:A 文章编号:1006-4311(2016)18-0160-04

0 引言

由于维基百科页面有着良好的结构和可信度,有全面准确的信息,由网友共同完成[1],内容包括地理、社会、科学、历史及教育等多个领域,由多种语言编写,所以无论在国内还是国外,它一直被当做信息抽取、知识库和知识图谱构建的重要数据来源。并且专家曾针对维基百科和大英百科全书做了42项比较测试[1],发现维基百科仅有4处不准确的地方,而大英百科全书也出现了3处不准确的地方[2],所以维基百科的质量很有保障。在自然语言处理领域,它有很多应用,如:实体消歧,实体识别和关系抽取等。下面我们针对维基百科在关系抽取领域的应用和处理方法,基于中文和英文两方面进行介绍。

在英文方面,Nguyen等人[3]不使用命名实体识别器,也不使用指代消歧工具,提出从web结构抽取实体类型特征,从文本句法结构挖掘子树特征,并和支持向量机相结合来分类实体对的关系构成结构化知识。Kuroda等人[4]针对为什么维基百科离不开WordNet进行了详细的分析介绍,并基于此抽取上下位关系。Oh等人[5]通过两个协同训练算法同时对不同的源文本和训练数据进行操作,其中一个针对半结构化文本(维基百科),另一个针对非结构化文本,并不停地进行上下位关系知识的交换,实现上下位关系的识别。

在中文方面,李斌等人[6]先利用维基百科中的超链接进行实体识别,然后用向量空间模型表示实体的特征,最后计算待测实体对与训练实体对的相似度得到待测实体对的类别。张苇如等人[7]使用知网到维基百科的实体映射来抽取关系实例,然后在显著性和关键词假设的基础上,基于关键词选择、关键词过滤和编辑距离的泛化构建模式,并利用模式聚类提升抽取性能。

针对以上研究的优缺点,本文将利用维基百科中超链接和领域命名实体结构特征进行实体识别,并基于层次结构进行上下位关系抽取。

1 领域命名实体抽取

1.1 抽取页面中的领域命名实体

通过观察维基百科的HTML页面我们发现:①通常内部链接和外部链接中的名词短语都是一个领域命名实体,并且根据HTML页面源代码的语法我们可以直接抽取这些名词短语(如图1所示,蓝色和红色的都是词条,可以作为领域命名实体);②分类(category)框中名词短语通常也是领域命名实体,我们同样抽取这些名词短语;③通过观察研究我们可以看出:特别是针对旅游领域,当一个无序列表下面的内容的形式是每行只有一个名词短语的时候(如图2所示),这个名词短语往往是一个领域命名实体,我们可以在HTML中通过源代码的特殊缩进抽取这类名词短语。以上获取的名词短语,我们都将它当做候选领域命名实体。

1.2 利用CRF抽取页面中的领域命名实体

我们利用已获取的领域命名实体,对包含待识别领域命名实体的句子进行标注,并使用CRF对剩余语料中的领域命名实体进行识别,识别方法和文献[8]中一样,本文不再赘述。

2 构建并完善层次结构中的上下位关系实体对

2.1 构建层次结构

我们可以看出,每个词条条目的页面都是层次化结构,并且词条名在顶层。根据上面对维基百科页面的观察,我们可以看出,标题一般是一块内容的主题。在层次关系中,标题在自己相应的列表上部,层次结构如图3所示。但是我们发现,不是所有的层次关系都是正确的上下位关系。例如:黄山和地理/文化/黄山四绝等都不是上下位关系,但是黄山和黄山四绝下面的命名实体是上下位关系,可以通过传递表达找到其中的上下位关系。例如:黄山和黄山四绝下面的奇松,怪石,云海,温泉和冬雪都是上下位关系。所以本文根据Wikipedia的结构特征和HTML源代码的语法特征抽取具有层级关系的实体对,并构建层级关系图,如图4所示。

2.2 利用模式过滤层次结构

在2.1中我们提到,构建的层次结构中很多实体对不具有上下位关系,为了过滤掉这些非上下位关系,我们先在当前页面对每个实体对进行搜索,并对返回的结果进行模式匹配。如果匹配不成功,则在搜索引擎中搜索,并对搜索结果进行模式匹配。如果实体对模式匹配成功,我们将保留这对实体对。如果实体对模式匹配失败,我们将过滤掉这对实体对。此处用到的模式利用bootstrapping方法获取,如表1所示。其中,输入的种子集是具有上下位关系的实体对。

2.3 扩充层次结构

对1.1和1.2中得到的实体对,我们同样先在当前实体对所在的维基百科页面搜索,并对返回的结果进行模式匹配。如果模式匹配不成功,我们在搜索引擎中搜索,并对返回的结果进行模式匹配。如果模式匹配成功,我们利用当前的实体对对当前层次结构进行扩充。如果模式匹配不成功,我们将不考虑这对实体对。

3 利用支持向量机完善上下位关系

本文将领域命名实体间的关系分为两类:上下位关系和其他关系。本文选取一些能识别出实体对间上下位关系的特征集,将其和实体对的类别组成特征向量,并把这些特征向量转变成SVM能识别的数值特征向量。我们所爬取的语料一部分作为训练数据,一部分作为测试数据,把训练数据输入SVM得到上下位关系实体对识别模型,然后把测试数据输入基于SVM的上下位关系实体对识别模型,从而验证本文得到的上下位关系实体对识别模型的识别效果。

本文使用基于特征向量的方法来进行分类,所以特征的选择直接关系着分类的结果。下面将对需要用到的特征进行说明。

需要验证关系的两个实体对称为一个实例,实体又称为变元。我们用E1和E2表示关系中的两个变元,用HE1和HE2表示E1和E2的中心词。

3.1 词特征选取和规则标记

通过对汉语的了解可知,当我们研究两个实体间的关系时,往往实体的语境(上下文信息,也就是在实体前后的词语)能帮助我们判断实体关系。因此,我们把这些信息抽取出来作为其中一个特征。根据他们的位置,我们可以把这类特征分为4种:①E1和E2之间没有词语,②E1和E2之间的词语,③E1前面的词语,④E2后面的词语。另外,实体的中心词能表达更重要的信息,所以一般也将中心词作为特征。下面我们举例说明本文标注,以“普米族是泸沽湖的世居民族”为例,其中实体为“普米族”和“泸沽湖”,特征标记规则如表2所示。

3.2 词性特征选取和规则标记

只加入词特征的话,在特征分析的时候只能分析出相同的词的同类关系,而不能分析出同类词性的词的同类关系,所以我们还要加入词性特征对训练语料进行分析。例句的词性标注为:普米族/nz 是/v 泸沽湖/ns 的/u 世/n居/v 民族/n。词性特征标记规则如表3所示。

3.3 知网概念特征选取和规则标记

知网的英文名称是HowNet,它是一个常识知识库,把英语和汉语的词语代表的概念作为一个描述对象,以此来揭示两个概念之间以及概念本身的属性之间的关系作为基本内容。知网中描述了很多关系,其中包括上下位关系。

利用知网可以得到词语在知网中对应的概念,可以把对应的概念描述当做在知网中的概念信息特征返回值。知网中概念信息特征返回值如表4所示。

4 实验与分析

4.1 数据准备和预处理

本文使用实验室自主开发的网络爬虫,对维基百科中旅游相关词条进行爬取,本文使用爬取的984个词条的语料进行实验分析。其中的总实体对的数量的划分标准是把一个句子中的每两个实体当做一个实体对进行试验分析。另外,我们将语料分为两部分,其中4/5当作训练语料,剩下的1/5当做测试语料。

本文实验使用LIBSVM工具包,实验步骤如下:

第一步:从维基百科爬取旅游领域词条的HTML页面作为语料;第二步:通过分析HTML页面获取候选领域命名实体,并使用条件随机场抽取剩余语料中的领域命名实体;第三步:通过分析HTML页面获取实体对的层次结构;第四步:利用模式对已有层次结构进行验证,并利用模式匹配候选领域命名实体,在层次结构中添加模式匹配成功的实体对;第五步:使用支持向量机抽取剩余语料中的实体上下位关系。

4.2 评价标准

为了评估本文所用方法的效果,用准确率(P),召回率(R)和F值来评估领域上下位关系实体对的抽取结果。A代表所用方法正确识别的具有上下位关系的领域命名实体对的总数,B代表所用方法标注为具有上下位关系的领域命名实体对总数目,C代表语料库中具有上下位关系的领域命名实体对的总数。

P=■×100%(1)

R=■×100%(2)

F=■×100%(3)

根据以往经验发现,当用不同语料进行训练和测试的时候,实验结果会有不同。为了使实验结果更有代表性,本文随机分配训练语料和测试语料进行20次试验,取其平均值作为实验结果。

4.3 实验设计和结果分析

为了验证本文提出的基于维基百科抽取领域命名实体和具有上下位关系领域命名实体对的方法的效果,我们设计了2组实验对本文中每个方法进行验证。实验一是对本文提出的半结构化文本中抽取领域命名实体的方法的结果展示和对比。实验二是对抽取具有上下位关系的领域命名实体对的实验结果进行对比。

实验一:为了验证领域命名实体的抽取效果,我们先利用1.1中提到的领域命名实体的结构特征进行领域命名实体抽取,然后使用1.2中提到的构建条件随机场领域命名实体抽取模型对领域命名实体进行抽取。抽取结果如表5所示。

表5展示了领域命名实体的抽取结果。从上面的实验结果我们可以看出,利用维基百科的结构信息能很好的抽取页面中的领域命名实体,利用条件随机场领域命名实体抽取的方法能帮助抽取剩余语料中的领域命名实体。

实验二:为了验证领域命名实体上下位关系实体对的抽取效果,我们先使用2.1中的方法抽取层次结构中的实体对,然后利用模式匹配的方法过滤层次结构中的实体对并抽取剩余语料中的上下位关系领域命名实体对,最后我们用支持向量机领域命名实体上下位关系抽取模型抽取剩余句子中的上下位关系领域命名实体对。实验结果如表6所示。

表6展示了上下位关系领域命名实体对的抽取结果。实验结果表明,利用维基百科的结构信息可以帮助层次结构的初步构建,基于模式匹配的过滤和补充能帮助更好的识别上下位关系实体对,利用特征和支持向量机相结合的方法能更好的抽取剩余语料中的上下位关系实体对。

5 总结

本文为了利用现有资源更有效的抽取维基百科半结构化文本中的领域命名实体和上下位关系领域命名实体对,提出了充分利用HTML的源代码书写规则,初步抽取特定结构中的领域命名实体和领域命名实体对的层次结构,然后利用CRF对领域命名实体的抽取进行补充,最后利用模式匹配和SVM抽取上下位关系领域命名实体对的方法。根据对实验结果的分析,可以看出本文提出的利用HTML结构、CRF、模式匹配和SVM相结合的方法抽取上下位关系领域命名实体对具有一定的效果。

参考文献:

[1]赵飞,周涛,张良,等.维基百科研究综述[J].电子科技大学学报,2010,39(3):322.

[2]Giles J. Internet encyclopaedias go head to head[J]. Nature, 2005, 438(7070): 900-901.

[3]Nguyen D, Matsuo Y, Ishizuka M. Subtree mining for relation extraction from Wikipedia[C]//Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Companion Volume, Short Papers. Association for Computational Linguistics, 2007: 125-128.

[4]Kuroda K, Bond F, Torisawa K. Why Wikipedia needs to make friends with WordNet[C]//The 5th International Conference of the Global WordNet Association (GWC-2010). 2010: 9-16.

[5]Oh J H, Yamada I, Torisawa K, et al. Co-STAR: a co-training style algorithm for hyponymy relation acquisition from structured and unstructured text[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 842-850.

[6]李斌,马宁,蒋平,等.维基百科中的实体关系抽取研究[J]. 信息系统工程,2011(5):142-144.

[7]张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[J].中文信息学报,2012,26(2):75-82.

[8]莫媛媛,郭剑毅,余正涛,等.基于CCRF的领域本体概念上下位关系抽取[J].计算机工程,2014,40(6):138-141.

上一篇:“教”学生“用”语言 下一篇:浅谈小学生足球训练兴趣培养