浅析汉语语言处理中的句法分析方法

时间:2022-07-27 10:13:54

浅析汉语语言处理中的句法分析方法

摘要: 在自然语言处理中,句法分析属于深层的分析处理。目前,其下层的词法分析技术已经基本成熟,其上层的语义分析则建立在句法分析的基础之上的,其位置及其关键,已经成为当前自然语言处理的一个瓶颈。本文对汉语的句法分析方法进行了简单的评述。

Abstract: In natural language processing, syntactic analysis is the analysis of deep processing. The lexical analysis technology has been basically mature, semantic analysis based on the basis of syntactic analysis. Therefore, the syntactic analysis’s position is very important. At present, parsing of natural language processing becomes a bottleneck. This paper gives a simple comment about the method of syntactic analysis.

关键词: 汉语自然语言处理;句法分析

Key words: Chinese natural language processing;parsing

中图分类号:G202文献标识码:A文章编号:1006-4311(2010)17-0162-02

0引言

自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。自然语言理解是指机器能够执行人类所期望的某些语言功能,如回答问题、文摘生成、释义、翻译等。由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等众多因素,使得对自然语言的理解成为非常困难的研究课题[1]。

语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。自然语言的分析理解和处理过程也应当是一个层次化的过程。许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次,分别完成音素区分、词素划分、句子或短语的结构分析、确定语言所表达的真正含义或概念以及语言在特定环境中所产生的影响等分析工作。句法分析师自然语言处理的一个基本问题,是在句法分析的基础之上的语言层次结构分析。其目的是确定句子所包含的谱系结构和句子各组成成分之间的关系。关于汉语语言处理中的句法分析方法的研究,从20世纪80年代初以来,一直都没有停止过,先后出现了大量的分析方法。

1汉语句法分析方法及演变过程

1.1 汉语句法分析的基本理论自然语言处理中,按照处理深度的不同,大致可以将自然语言处理中的语言分析技术划分为浅层分析和深层分析两大类[2]。深层分析技术是对语言进行语法、语义和语用的分析,包括句法分析、语义角色标注等。与浅层的词法分析不同,深层的分析需要对句子进行全局分析才能得到正确的结果。句法分析在深层分析技术中处于十分关键的位置。

所谓句法分析,就是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单位和这些语法单位之间的关系,将线型的句子转化成一种结构化、层次化的结构,是自然语言理解的一个关键组成部分。句法分析的主要作用是消除单词的歧义,为后续的语义分析提供层次结构上的技术支撑,其结果可直接用于及其翻译、问答系统、信息挖掘、信息抽取等应用。

1.2 汉语句法分析方法句子是由词构成的。从结构上来说,汉语句子中的词是词根词,词内没有专门表示语法意义的附加成分,而且,汉语还缺少英语语句里面的形态变化,因此,汉语句子中词与词的语法关系依靠词序和虚词来表示。

句法分析的研究大体分为两种途径:基于规则的方法和基于统计的方法[3]。基于规则的方法是以知识为主体的理性主义方法,以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则行事描述或解释歧义行为或歧义特征。基于统计的句法分析则以某种方式对语言的形成和语法规则进行描述,形成句法分析模型。汉语语言的句法分析方法自研究以来,先后出现了中心词分析法与层次分析法相结合的方法、配价分析法、语义指向分析法等多种汉语句法分析方法[4]。

1.2.1 中心词分析法与层次分析法的结合中心词分析法也称为句子成分分析法,是汉语句法分析中传统的分析方法。该方法将句子分成主、谓、宾、定、状、补六大成分。该方法能很容易地分析出句子的格局,确定句子的句型,但无法体现出句子的结构层次。层次分析法则是基于句子语法结构的一种句法分析方法,它不注重句子成分,而是在层次的控制下切分句法结构的直接成分。该方法很容易显示和分析句子的结构层次,但却不能很好地显示句法结构的格局。将中心词分析法与层次分析法结合起来,就形成了一种优势互补的分析方法。

1.2.2 短语结构句法分析与西方语言中长句非常常见的情况不同,汉语句子以短句为主。从汉语的句法上来说,短语是不会跨越句子的分界的。因此,汉语这种句子短小的特点为提取句子中的短语减轻了难度。

短语体系的句法分析是在汉语数库(Chinese Penn Treebank:CTB)上开展的。CTB与英文Penn Treebank属于同一语法体系。汉语的短语结构句法分析方法在改进后的CTB的基础上进行,并进一步地通过EM算法获取树库中的规则来进行。由于语言上的差异,在CTB上的汉语句法分析水平与英文Penn Treebank上的分析结果还存在一定的差距。

1.2.3 基于依存关系的句法分析统计句法分析方法中需要解决的关键问题是如何发现和利用具有强消岐能力的语言特征姿势,同时保证语言知识的应用不会使模型的参数急剧膨胀而导致严重的数据稀疏问题。

在汉语的基本句型中,绝大多数句子的中心语是由动词或动词短语来担当的,而句子的中心语则支配着句子中的其他成分。通过对动词、名词和形容词等各种词的语义知识进行分析并加以分类,进而从中总结出中心词与各被支配成分之间的语义依存关系,利用这种依存关系来很好地解决上述问题。

1.2.4 基于语法功能匹配的句法分析方法一般的词性标注都是对单词或短语的词性进行标注。然后,通常情况下,一个词类是具有很多种语法功能的,并且,同一词类的不同词的语法功能的差异有可能非常大,而有的情况下,不同词类的词,其语法功能却有可能相同。基于语法功能匹配的汉语句法分析方法通过使用词和短语的语法功能集来代替现有的词类标记和短语标记,以语法功能匹配(Grammar Function Match:GFM)作为句法分析的基本方法来实现汉语的句法分析[5]。

1.2.5 基于句法语义特征的句法分析方法所谓语义特征分析法,是一种借用语义学分解语义特征的方法来解释在汉语语句中,某个格式为什么可以用这一类词语而不能用另一类词语的原因,其主要目的是解释歧义现象产生的原因。基于句法语义特征的句法分析方法通过在句法分析中加入语义信息,将句法分析与语义分析综合起来进行,从而解决句法分析中的歧义消解问题。

此外,变换分析法、配价分析法、语义指向分析法等也是比较典型的汉语句法分析方法。

1.3 汉语句法分析方法的演变过程及原因汉语句法分析的方法主要是通过国外语言学理论引进而来的,20余年来,汉语句法分析方法随着汉语语法研究的发展而不断发展。

汉语语言自然处理研究中最早的句法分析方法是上文所述的中心词分析法。这种分析法来源于西方的传统语法。后来,熙先生率先采用了变换分析法来进行汉语的句法分析。语义特征分析则是对变换分析法的改进和弥补。语义指向分析法也是随着人们开始对语义平面研究的重视而产生的一种句法分析方法,它根据句中某个成分或词语的语义指向来研究与它相关成分或词语之间的语义联系,从而将句法分析和语义分析结合起来。

相对于英语等分析语型的西方语言来说,汉语是一种孤立型的语言,两者的内部结构存在着很大的差异。从上述汉语句法分析的发展不难看出,汉语的句法分析方法的发展一直都受着西方语言学的影响。而简单地套用西方语言学的分析方法是不可取的。最近几十年来,我国的专家和学者开始将西方语言学与汉语语法研究相结合,走符合汉语自身特点的道路。

2总结

汉语自然语言处理中的句法分析是一种层次结构上的深层分析。汉语语言句法分析研究一直是汉语自然语言处理中的一个热点问题,出现了众多的分析方法。早期的句法分析器大多是简单的符号推理,然而,句法分析不是简单的符号推理,而是一种实体推理,汉语句法分析方法在汉语自身特有的孤立型特点和分析方法本身的局限性的影响下不断发展演变,使得汉语语言处理及汉语语法的研究正不断地深化,对汉语语言的分析方法也提出了更高的要求。总的来说,汉语语言的句法分析方法越来越精密、细致和科学。同时,语义分析和语法分析的结合也越来越紧密,这是汉语语法学朝着现代化科学化方向发展的必然趋势。

参考文献:

[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,(12):250.

[2]刘挺,马金山.汉语自动句法分析的理论与方法[J].当代语言学,2009,(02):100-112.

[3]袁里驰.基于依存关系的句法分析统计模型[J].中南大学学报(自然科学版),2009,(06):1630-1635.

[4]邓文彬.最近20年来汉语句法分析方法研究述略[J].西南民族大学学报(人文社科版),2004,(06):342-348.

[5]卢俊之,陈小荷,王东波,陈锋.基于语法功能匹配的汉语句法分析算法[J].计算机工程与应用,2008,(16).

上一篇:大口径三通管翻边成形工艺参数优化 下一篇:高校公共选修课的定位与教学质量控制