词法分析在自然语言处理中的地位和作用

时间:2022-07-05 12:41:48

词法分析在自然语言处理中的地位和作用

摘要: 本文从词法分析的特点和难点角度分析了词法分析在自然语言处理中的作用和地位,并介绍了中文词法分析中一些典型的自动分词算法。

Abstract: This paper analyzes the role and status of morphological analysis in natural language processing from the view of the features and difficulties. Then, the author lists some typical automated segmentation algorithm in Chinese lexical analysis.

关键词: 自然语言理解;词法分析;自动分词算法

Key words: natural language understanding;morphological analysis;automatic segmentation algorithm

中图分类号:TP27 文献标识码:A文章编号:1006-4311(2010)10-0157-01

0引言

自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。计算机的出现使得自然语言研究成为可能。语言是以词为基本单位的,词汇在语法的支配下构成有意义的和可理解的句子则进一步地按一定的形式再构成篇章。词法分析是理解单词的基础,因而也是自然语言理解和处理的基础,其主要目的是从句子中切分出单词,找出词汇中的词素,从中获得单词的语言学信息并由此确定单词的词义。

1自然语言理解的难点及处理层次

自然语言也就是人类本身所使用的语言。广义上讲,自然语言理解是指机器能够执行人类所期望的某些语言功能,如回答问题、文摘生成、释义、翻译等。由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等众多因素,使得对自然语言的理解成为非常困难的研究课题[1]。语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。因此,自然语言的分析理解和处理过程也应当是一个层次化的过程。许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次。

2词法分析的在自然语言理解中的地位和作用

2.1 词法分析的特点和任务词法分析是理解自然语言中最小的语法单位――单词的基础。语言是以词为基本单位的,而词又是由词素构成的,即词素是构成词的最小的有意义的单位。词法分析包括两方面的任务[2]:第一:要能正确地把一串连续的字符切分成一个一个的词;第二:要能正确地判断每个词的词性,以便于后续的句法分析的实现。以上两个方面的处理的正确性和准确度将对后续的句法分析产生决定性的影响,并最终决定语言理解的正确与否。

2.2 不同自然语言中词法分析的特点和难点不同的语言对词法分析有不同的要求。例如,英语和汉语在词法分析处理方面就存在着很大的差异。英语语言中,由于单词之间是以空格自然分开的,而汉语则不具备英语以空格划分单词的特点,其单词的切分是非常困难的,不仅需要构词的知识,还需要解决可能遇到的切分歧义。对于词性分析和判断,由于英语单词有词性、数、时态、派生、变形等繁杂的变化,再加上英语的单词往往有多种解释,词义的判断非常困难,仅仅依靠查词典常常是无法实现的。而汉语中的每个字就是一个词素,所以找出词素是相当容易的。可见,在自然语言理解的词法分析处理中,汉语、日语、韩语等语言的词法分析的难点在于分词切词,而英语、法语等语言的难点则是词素区分。汉语自动分词是汉语语言处理和理解中的关键技术,也是中文信息处理发展的瓶颈,其困难主要在“词”的概念缺乏清晰的界定、未登录词的识别、歧义切分字段的处理三个方面。

2.3 典型的中文自动分词算法汉语连续书写导致了汉语自动分词中的歧义问题将始终存在。在汉语自动分词算法的研究中,歧义字段的处理是各种算法研究的重点。至今专家学者们研究出了一系列的自动分词算法,如:最大匹配法(Maximum Matching Method:简称MM)[3]、基于标记法[4]、约束矩阵法[5]、句模切分法[6]、基于统计语言模型(Statistical Language Models:简称SLM)的中文自动分词算法[7]、神经网络分词算法、专家系统分词算法、基于词典的中文分词算法等。MM法是最早出现的自动分词算法,是一种机械分词方法。该算法首先建立词库,将所有可能出现的词都事先存放在词库中,对于给定的待分词汉字串,采用某种策略进行匹配分词。策略有两种:一是最大匹配法,每次匹配时优先考虑长词;另一种则是最小匹配法,每次匹配时优先考虑短词。在机械分词的基础上,利用各种语言信息(如规则、语法、语义、标点、数字等)进行歧义校正,从而提高其分词的正确性。上文中提到的基于标记法、约束矩阵法、句模切分法等就属于机械匹配与切分歧义处理方法相结合的算法。基于SLM的中文自动分词方法又称为无词表分词算法。所谓无词表是指分词匹配的词表并不是事先建立的,而是利用机器学习手段从生语料库中直接获取分词所需要的某些适用知识作为分词依据的重要补充手段。该算法的核心思想是:词是稳定的汉字的组合,上下文中汉字与汉字相邻出现的概率能够较好地反映成词的可信度,因此,将相邻共现的汉字组合的频率进行统计并将其统计信息作为分词的依据。神经网络分词算法和专家系统分词算法都属于基于人工智能技术的自动分词方法。该类方法应用人工智能中的神经网络和专家系统来进行中文自动分词。周程远等人提出的基于词典的中文分词算法是在机械分词算法基础上的改进。他们综合TRIE树和逐字二分分词的特点提出分层逐字二分算法,以较小的开销来实现较快的匹配速度,从而提高自动分词的综合性能,其本质还是机械分词。

3总结

词法分析是自然语言理解的基础。本文在介绍自然语言理解处理层次的基础上,讨论了词法分析的重要性和难点,特别是汉语的词法分析中切词的难度,并列举了一些著名的自动分词算法。

参考文献:

[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,12:250.

[2]田霓光.自然语言的词法分析[J].咸宁学院学报,2008,(06):70-73.

[3]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,(03):175-177+182.

[4]亢临生,张永奎.基于标记的分词算法[J].山西大学学报(自然科学版),1995,17(3).

[5]雷西川,余靖维,卢晓铃.基于相邻知识的汉语自动分词系统研究[J].情报科学,1994,(2).

[6]张滨,晏蒲柳,李文翔等.基于汉语句模的中文分词算法[J].计算机工程,2004,(1).

[7] 刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1997,(1).

上一篇:集合竞价问题研究 下一篇:对高职机电维修专业教学模式的构想