自然语言处理技术综述

时间:2022-03-07 06:30:46

自然语言处理技术综述

【摘要】自然语言处理技术的发展,最终导致计算机拥有了客观的信息处理功能。本文主要介绍了自然语言处理与中文信息处理发展情况。介绍了自动分词技术的发展概况,一些常用的中文自动分词方法以及目前已经实现的一些分词系统。探讨了自然语言处理技术,特别是自动分词技术,在对外汉语教学的实践中应用的可能性。

【关键词】语言处理;自动分词技术;信息技术

一、自然语言处理

自然语言处理(Natural Language Processing,简称NLP)是主要研究人与计算机交际中的语言问题的一门学科。“自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算机框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”(Manaris, 1999)更简单直观的说法,就是采用计算机技术来研究和处理自然语言。

自然语言是指人们口常使用的语言,如汉语、英语、口语、法语等,它是人类进行学习和互相交流的工具。“在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用语言,据统计用于数学计算仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。

所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。采用计算机技术来研究和处理自然语言是20世纪40年代末,50年代初才开始的,经过50多年的发展,这项研究取得了长足的进展,形成了计算机学科中一门重要的新兴学科—自然语言处理。

在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。同时自然语言处理技术作为自然语言理解这一能够开启人机交流的高层次技术的基础,也一直是人工智能界所关注的核心课题之一。显然,如果计算机能够理解自然语言,人机间的信息交流就能够以人们所熟悉的本族语言来进行。这不仅将成为计算技术的一项重大突破,将有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识,对于语言的教学与学习将会有巨大的指导意义。

二、自然语言处理发展概况及其成就

从20世纪50年代的机器翻译和人工智能研究算起,自然语言处理已有长达半个多世纪的发展历程。与应用语言学的其它分支相比,自然语言处理只能算是后起之秀。虽然发展的历史不长,但是自然语言处理在过去的几十年中,尤其是近二十年中所取得的丰硕成果和长足进展是语言学家们有目共睹的。有专家认为,几十年来自然语言处理研究学界发表过“大量灿烂成果,有词汇学、语法学、语义学的,有句法分析算法的,还有许多著名的自然语言应用系统”。

由于自然语言处理是一个多边缘的交叉学科,除语言学外还涉及计算机科学、数学、统计学、电子工程、心理学、哲学以及生物学等知识领域,它是在各个相关学科的交融和协作中逐渐成长起来的。在历史上,自然语言处理曾经在计算机科学、电子工程、语言学和心理认知语言学等不同的领域分别进行过研究。从20世纪40年代到50年代末是自然语言处理的初创期。

这个领域的研究最早可以追溯到第二次世界大战刚刚结束的时候,那时计算机才刚诞生不久。在这一时期,有两项基础性的研究特别值得注意:一项是自动机的研究。20世纪50年代提出的自动机理论来源于Turing(1936)算法计算模型,这个模型是现代计算机科学的基础;另一项是Shannon概率或信息论模型的研究。这是属于语音和语言处理的概率算法的研究,Shannon把通过通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道(noisy channel)或者解码(decoding)。Shannon还借用热力学的术语“炳”(Centropy)作为测量信道的信息能力或者语言的信息量的一种方法,并且用概率技术首次测定了英语的炳。

从20世纪50年代末开始到60年代中期,自然语言处理逐渐由初创期向发展期过渡。在此期间自然语言处理研究明显地分裂成两个阵营:一个是符号派(symbolic),一个是随机派(stochastic)。虽然研究的方向和参与的人员有所不同,但是他们都为自然语言处理的发展做出了巨大的贡献。这也是自然语言处理由萌芽期向发展期过渡的时期。

进入21世纪以来,由于计算机网络的迅猛发展以及国际互联网的普及,自然语言的计算机处理成为了从互联网上获取信息的重要手段,生活在信息网络时代的现代人,几乎每天都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视有关的研究,投入了大量的人力、物力和财力。这必将会对此领域的发展产生巨大的推动作用。

三、中文信息处理

中文信息处理技术是我国重要的计算机应用技术。随着信息时代的到来,计算机在人们生产生活的各个方面将起着越来越大的作用。对于以汉语为母语的我国来说,中文信息处理技术已经在我国信息化建设中占据了一个非常重要的地位

“什么是汉语信息处理?它是语言信息处理的一个分支。”“我国的中文信息处理就是依据自然语言处理原理,利用计算机对汉语的书面形式和口头形式进行信息处理,是自然语言处理技术在汉语文字应用研究中的体现。

中文信息处理,是用计算机对中文(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理技术是一门与计算机科学、数学、声学、语言学、心理学、抓考制论、信息论、自动化技术等多种学科相联系的边缘交叉性学科。随着科学技术的发展,中文信息处理技术已渗透到社会生活的各个方面,它包括汉字信息处理和汉语信息处理两个部分。

汉字信息处理,也就是我们通常所说的“字处理”,是中文信息处理的关键和基础,其难点是汉字编码问题。目前,我国已研制出了数百种汉字编码方案,其中部分方案已通过了上机试验,或已被采用。除此之外,我国还研制出了各种汉字输入键、汉字字库、仿真汉字终端以及汉字打印机。汉字内码有效地解决了中西文兼容的问题,计算机激光汉字照排系统也已研制成功;同时,手写体和印刷体汉字识别的研究工作已取得了一定成绩。

在我国,中文信息处理的历史可以追溯到1959年的俄汉机器翻译试验。1974年,汉字处理系统工程列入国家科技发展计划。1980年,我国公布了第一个汉字编码国家标准,奠定了中文信息处理的基础。上世纪七八十年代的主要工作是汉字处理,国家陆续公布了汉字字符集的基本集和几个辅助集,社会上推出了各式各样的汉字输入法,汉字键盘输入的问题基本解决。进入九十年代词的处理成为了主要的工作,自动分词和词性标注技术逐渐成熟,建成了有几万词的语法信息词典和语义词典。汉语语料库发展迅速,粗加工汉语语料库的规模达到了百万甚至千万词级,但是语料库的种类还不够齐全。

在词处理技术的支持下,汉字识别、汉语语音识别、语音合成、信息检索等技术已经达到实用水平。这一时期,汉语语句自动分析的研究已经展开,在分析策略、分析算法等方面取得了初步成果,但是如何消除句法歧异,仍然在探索中。如果语句分析这一问题不解决,纪以来自动校对,自动文摘和机器翻译等应用技术就难以取得根本性的突破。进入21世句子处理和篇章处理已经逐渐成为中文信息处理的重点。

四、自动分词技术

中文信息处理技术是我国重要的计算机应用技术。在计算机产业中,唯有中文信息处理技术是我国的专长,在国际上享有得天独厚的优势。这是任何国家所不能比拟的。国务院制定的国家中长期科技发展纲领中明确指出:“中文信息处理技术是高新技术发展的重点”。我国软件产业发展的重点是中文信息处理软件,中文信息处理的发展己经受到国家的重视。

自动分词是自然语言处理的基础,自然语言处理是智能计算机技术的基础。简单的说,智能计算机就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。在我们人类的语言中,词是最小的能够独立活动的有意义的语言成分,所以对于中文来讲,将单词确定下来是理解自然语言的第一步,只有实现了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。

参考文献:

[1]揭春雨等.汉语自动分词实用系统CASS的设计和实现「J].中文信息学报,1990,(4)

[2]陆俭明.汉语走向世界的一些思考[J].上海财经大学学报,2005,(1)

[3]吕必松.语言教育与对外汉语教学[M],北京:外语教学与研究出版社,2005

[4刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,(3)

作者简介:

妮鲁帕尔·艾山江 (1985-),女,新疆财经大学统计与信息学院信息管理教研室助教。

上一篇:文化管理学校建设和谐校园 下一篇:浅析变压器的常见故障及其维护