基于范例的汉语主谓短语的自动标注

时间:2022-10-08 05:16:13

基于范例的汉语主谓短语的自动标注

摘要:提出了一种基于范例的汉语短语标注方法,通过对大量语料的人工标注,提供了自动标注的前提。经过对熟语料的统计分析,利用基于范例的方法实现短语自动标注,为自然语言的计算机处理提供基础研究服务。

关键词:基于范例;短语标注;词性序列

中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)26-1812-03

The Automatic Tagging of Subject-predicate Phrases by the Method of Case-based Chinese Phrase-Tagging

TU Yun-Jie

(Information and Science Department, HuLunBeiEr College, HaiLaEr 021008, China)

Abstract: A case-based method used for Chinese phrase-tagging is introduced. Tagging large-volume corpus by hand has provided the basis for automatic tagging. Through the analysis of mature corpus, the automatic phrase-tagging is carried out by the method of case-based Chinese phrase -tagging and provides basic research service for natural language processing.

Key words: case-based; phrase-tagging; order of part of speech

1 前言

基于范例的汉语短语标注是将基于范例的方法应用于汉语的短语标注中,利用相似性来进行短语标注的一种策略,也就是先根据人工标注语料建立范例库,然后通过待分析的短语词性序列与已有的范例库中的范例进行比较,利用相似性公式得出两者的相似值,从而推导出待分析短语词性序列的标注结果。

2 短语分类与统计

现代汉语中,对短语分类一般采用下面两种标准:内部结构、外部功能。按照内部结构,短语可分为联合短语,定中短语,状中短语,动宾短语,述补短语,主谓短语,连谓短语,兼语短语,同位短语等几类;而按照外部功能,短语则一般可分为名词短语,动词短语,形容词短语和副词短语等几类。我们标注的语料容量近8万字,其中从短语功能上统计得出如下数据:名词短语np共4515个,动词短语vp共6982个,形容词短语ap共750个,副词短语dp共138个,物量短语mp共744个,动量短语wp共34个,介词短语pp共646个,主谓短语jp共2820个。

3 主谓短语的标注及范例库的建立过程

本文主要介绍主谓短语的标注过程,人工标注主谓短语组成及结构分为以下几种情况:

从标注好的语料中抽取短语范例建立范例库,关于范例库我们做一些必要的解释:设:cxxl:词性序列;

jg: 标注结果;

w1: 第一个词的词性标记;

w2: 第二个词的词性标记;

w3: 第三个词的词性标记;(可以为空)

t1: 第一个词在所处短语中出现的次数;

t2: 第二个词在所处短语中出现的次数;

t3: 第三个词在所处短语中出现的次数;(当w3为空时取0)

et1:第一个词的词性总共出现次数;

et2:第二个词的词性总共出现次数;

et3:第三个词的词性总共出现次数(当w3为空时取0)。

范例库中范例结构:

cxxl-jg;

w1-w2-w3;

t1-t2-t3;

et1-et2-et3。

经统计,在近8万的真实语料中,其中主谓短语共2820个,共17种不同范例。n vt,rh vt,rw vt,rd vt,vt vt,mp vt只是其中的6种不同范例。

对于初建的范例库,应通过归并相似性计算公式对其中的范例进行归并。

归并相似性计算公式:

dij [0,1] ,其中,n是属性总数(n=1,2,3);

n=1:初建范例库中每个范例的第一个词词性;

n=2:初建范例库中每个范例的第二个词词性;

n=3:初建范例库中每个范例的第三个词词性;

aih 初建范例库中第i个范例的第h个属性的值(i,j=1,2,…,k);

ai1 :初建范例库中第i个范例的第一个词词性出现的频率;

ai2 :初建范例库中第i个范例的第二个词词性出现的频率;

ai3 :初建范例库中第i个范例的第三个词词性出现的频率;(可以为0)

经计算,n vt与rh vt两个范例的相似值为0.457463。

我们统计阶段主谓短语共出现了2820次,利用归并相似性计算公式计算后,所得部分范例间的相似值如表4所示:

其中,colcase :初建范例库中第i个范例;

rowcase:初建范例库中第j个范例;

simzhi :第i个范例与第j个范例的相似值,同时simzhi={min(dij|j=1,2,…)}。

选取阈值为0.2时,依据表4中部分范例的相似值,经归并运算后所建立的范例库部分范例如表5所示:

最后17种不同范例则归并为10种不同范例。

4 短语自动标注

基于范例的短语自动标注用下图加以描述。

5 结束语

本文的标注系统可以解决部分歧义问题,但需要语义信息的介入才可以解决的歧义问题,使用我们的系统却无能为力,今后的工作中需要进一步完善。

参考文献:

[1] ,黄昌宁.汉语短语规则的自动构造方法研究[J].中文信息学报,1997,12(3):1-7.

[2] 张斌.现代汉语短语[M].上海:华东师范大学出版社,2000.

[3] 刘开瑛,郭炳炎.自然语言处理[M].北京:科学出版社,1991.

[4] 石纯一,黄昌宁.人工智能原理[M].北京:清华大学出版社,2000:185-236.

[5] 杨沐昀,赵铁军,于浩.自底向上的汉语短语标注体系设计与实践[A].黄昌宁,张普.自然语言理解与机器翻译[C].北京:清华大学出版社,2001:160-166.

上一篇:基于S3C2410的启动代码的研究 下一篇:DIV+CSS布局可视化尝试