基于决策树的中文指代消解

时间:2022-10-10 05:36:57

【前言】基于决策树的中文指代消解由文秘帮小编整理而成,但愿对你的学习工作带来帮助。指代消解技术对于自然语言处理中的自动文摘、信息抽取等都具有非常重要的意义。解决指代消解的关键技术是词性标注、命名实体识别、名词短语识别等相关技术。 中文指代消解采用的特征,相关研究中主要有:李国臣、罗云飞利用决策树方法[1]提出将距离属性和反映指代相似...

基于决策树的中文指代消解

摘要:指代消解是自动文摘的重要技术,中文指代消解的重要手段是名词短语特征向量的确定和选取。将名词向量构建成决策树,训练得到中文指代消解测试结果。

关键词:指代消解;名词短语;决策树

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2014)003-0031-02

1 中文指代消解采用的特征

指代消解技术对于自然语言处理中的自动文摘、信息抽取等都具有非常重要的意义。解决指代消解的关键技术是词性标注、命名实体识别、名词短语识别等相关技术。

中文指代消解采用的特征,相关研究中主要有:李国臣、罗云飞利用决策树方法[1]提出将距离属性和反映指代相似性的频次属性相结合的优先选择策略,主要通过明显的性别特征词来识别;北京大学的王厚峰[2]提出的采用特征中可以借鉴的有:性别、单复数;哈尔滨工业大学的郎君、刘挺和秦兵[3]提出了16个特征来构建特征向量,尽管提出16个特征,但在构建决策树时,只采用了其中的6个特征,所以不是特征选择的越多,就表示指代消解的结果越理想。根据语言学经验选定适合决策树方法的特征属性,才能够保证识别的正确率。

2 名词短语特征向量

通过参考前述国内外文献中选用的特征向量,以及对中文语法和句法的分析,我们选定6个特征来构建特征向量。

2.1 专有名词属性

每个名词短语本身的属性。先行词一般是名词短语,人名(Human Name)、地名(Place Name)、机构名(Organization Name)、时间(Time)、代词(Pronoun Name)和一般名词(General),分别用符号H、P、O、T、D和G 表示。不同类型的先行词对应的照应语类型不同。

分组例句:{代表/v(n-Vg)}Q宁夏/ns }P{530万/m}Q {各族/r}D{ 人民/n }Q{ 深情厚意/i 的/u(d-Ng-u) 5万/m 公斤/q 优质/b}Q{ 大米/n}G{ 在/p(d-p-v)}Q{ 银川/ns}P{火车站/n }G{装运/v 上/v(f-Ng-v) }Q{ 车/n(n-q-v) }G ,{/w 紧急/ad 运往/v }Q{灾区/n}g 。/w {(/w 新华社/nt )}O{ 记者/n }G{ 刘/nr 泉龙/nr }H{ 摄/v(v-Vg)}Q。

2.2 性别属性

先行词和指代词的性别属性值为男性、女性和不确定,分别用符号M(Male) 、F(Female) 和U(Unknown)表示。人称代词和相应的先行词的性别必须是一致的;性别不一致,应绝对排除。人称先行词的性别信息不明确时,不能排除。

确定一个名词短语的性别有多种方法。指示词或代词如“他”、“她”、“它”等可以用来确定性别。汉语中针对性别的判断有如下方式:

(1)男性判断方式:①短语中出现“他”、“哥”、“爸”、“父亲”、“弟”、“爷”、“叔”或者“伯”就认为性别为“男性”;②名词中出现表示男性的词的集合如“丈夫”、“先生”、“侄子”、“孙子”、“外孙”、“外甥”、“长子”等;③一个名词的第一个字或者前面有“男”字均记作M。

(2)女性判断方式:①如果短语中含有“她”、“妈”、“姐”、“妹”、“姊”、“母亲”、“奶”、“姑”或者“姨”就认为性别为“女性”;②表示女性的词的集合如“妻子”、“太太”、“丫头”等;③汉语通常用表示女性的代词“她”、“母亲”等来表示祖国。如“2009年10月1日,我们伟大祖国迎来了她的60岁生日”。

以上是确定性别的方式,其他情况均可视为“不确定”,如出现“你”、 “我”、 “你们”、“我们”等。

根据上述对句法和语法的分析可以看出,像“他”这类表示男性的代词应该指代表示男性的命名实体,而“她”这类表示女性的代词应该指代表示女性或国家的命名实体。

2.3 单复数属性

先行词和指代词的单复数属性分为单数、复数和不确定,分别用符号S(Single)、P(Plural)和U(Unknown)表示。“数”是判定指代关系的重要依据。

(1)单数情况:主语为人名、机构、地点、距离、时间、长度等表示单一概念的名词;短语是“他”、“我”、“她”、“它”等;独立性名词,如“王老师”、“李校长”等都可以看作单数。

(2)复数情况:如果短语中含有“们”、“和”、“与”等;出现如下量词,如“帮”、“群”、“班”、“批”、“家”、“伙”、“拨”、“堆”、“代”、“对”等;出现“父母”、“夫妇”等均被认为是复数。以上是确定单复数的方式,其他情况均可视为“不确定”。在分词工具ICTCLAS中对量词也进行了标注,m表示数词,mq 表示数量词。

2.4 距离属性

反映先行词和指代词之间的距离,i和j在同一句内为0,相邻句内为1,间隔一句为2,以此类推。

2.5 缩略匹配属性

两个名词短语如果完全相同或者具有缩略关系,二者具有共指关系,可能值为“真”(T)或“假”(F)。情况有以下几种:

(1)I与J 完全相同则为 True,否则为False。

(2)J是I 的子串缩略则为 True ,否则为False(I为ABCDE,J为BCD)。如例句:“作为香港某国际贸易公司代表的身份在越南搞股份公司[I],我的体会是,本公司[J]牵线在越南拍摄一部国际性题材的电影,准备到世界各国放映,预计可获得两倍利润。”

(3)I、J的抽取缩略。J是I的抽取缩略(I为ABCDE,J为ACE),如例句:“总书记在庆祝人民政协成立60周年大会上的重要讲话,内涵丰富,思想深邃,论述精辟,是指导新时期人民政协工作的纲领性文献。学习胡总书记讲话精神,为政协不断增强履行职能的能力指明了方向”,其中“总书记”和“胡总书记”共指同一个实体。

2.6 指示一致性属性

当指示语是人称代词,相应的先行语也是人称代词时,他们必须是一致(相同)的。可能值为“真”(T)或“假”(F)。定义了 6种语义类,分别是人、组织、地点、时间、代词和名词。

3 基于决策树的指代消解

3.1 决策树算法简介

决策树[4](Decision Tree)一般都是自上而下生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。

决策树方法的起源是概念学习系统CLS,比较有代表性的是J R Quinlan提出的著名的决策树生成方法ID3算法,ID3主要是利用信息增益来构建决策树。有名的决策树方法还有CART 和Assistant。后来J R Quinlan在ID3 的基础上加入了“规则后剪枝”,提出C4.5 算法[5],C5.0 算法则在C4.5的基础上加入了Boosting的机器学习思想[6]。

Function ID3(R:一个非类别属性集合,C:类别属性,S:一个训练集)返回一个决策树。C4.5是从ID3演变而来,除了原有算法外,增加了以下功能:使用增益比例的概念;合并具有连续值的属性;可以处理缺少属性值的训练样本;通过使用不同的修剪技术以避免树的过度拟合;k次迭代交叉验证;规则的产生方式等。

使用决策树进行指代消解,首先将照应词I之前的所有名词短语组合构成一个先行词候选集,通过照应词和指代词之间的向量值,判断二者是否具有指代关系。设其中X为先行词候选集,Y{+,-}为实例类别,其中“+”表示正例,二者有指代关系;“-”表示负例,二者没有指代关系。

3.2 构建决策树和实验结果分析

采用 C5.0算法从所有训练样例中生成一棵决策树,学习得到的决策树,如图1所示。

通过实验进行语料标注,选择《人民日报》2008年1月份和2009年4月份新闻版的文章作为语料,共计4 287 149个文字,我们选用120个样本作为名词短语识别后的手工样本。其中代词总数9 850个,第一人称980个,第二人称269个,第三人称5 216个,“这/那”的代词3 385个。

通过上面6个属性确定建立的决策树,选用进行名词短语识别后的120个手工样本语料,从中随机抽取了50个样本进行实际文档的指代消解,通过实验得到测试结果,该算法的准确率和召回率如表2。

从表2可以看出,在封闭测试下,得出的准确率比较理想,但开放测试时召回率不太理想,主要原因是指代消解针对名词短语全匹配的情况可以很好地进行,但是针对文章中的“这/那”等代词的消解还是有一定的混淆。同时,测试样本中的代词中有不指代名词实体的情况,即有些代词不能被系统认定为是名词短语,从而导致了召回率的降低。要想提高准确率还需要引入规则和统计相结合的方式,这也是今后研究的目标。

参考文献:

[1] 李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30.

[2] 王厚峰,何婷婷.汉语中人称代词消解的研究[J].计算机学报,2001,24(2): 136-143.

[3] 郎君,刘挺,秦兵.基于决策树的中文名词短语指代消解[C].第二届全国学生计算语言学研讨会论文集,2004:155-157.

[4] HOBBS J R.Pronoun resolution[R].New York:City College,City Unvercity of New York,1976.

[5] J R QUINLAN.C4.5:Programs for machine learning[M]San Mateo,CA:Morgan Kaufmann Publishers,Inc,1993.

[6] 邵峰晶,于忠清.数据挖掘[M].北京:中国水利水电出版社,2011:136-140.

上一篇:基于内容过滤的网络招聘双向推荐系统研究 下一篇:互动学习工具与探究教学支持平台及信息化教育...