中文信息处理中若干关键技术的研究

时间:2022-06-29 11:20:39

中文信息处理中若干关键技术的研究

【摘 要】: 文章分析了中文信息处理的主流技术,尤其是几个重要的部分,即N元模型、语音识别和句法分析技术。近十几年来,对外汉语教学发展迅速,汉语在世界范围内逐渐成为继英语之后的强势语言,中文信息处理在对外汉语教学中日渐发挥重要作用。本文对中文信息处理和中文信息处理的其他工作对对外汉语教学产生的作用予以归纳阐述,并对这一领域的科研成果以及学术活动情况做简要介绍,最后对在对外汉语教学实践中中文信息处理所面临的挑战给予展望。

【关键词】:对外汉语教学 中文信息处理 研究综述

中图分类号:H1文献标识码: A

一、我们都知道,英语在计算机信息处理方面的优势就是其字母数量有限,因而可以很容易的进行输入输出以及信息的加工和处理,而中文的汉字则数量庞大,且字形相对复杂,这就给汉字的编码带来了不小的困扰。因此我们根据汉字信息处理过程中的不同要求对汉字进行了不同形式的编码,总结来说有以下几种方案,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。

计算机技术应用于对外汉语教学与研究最基本的条件是中文信息处理环境,也就是中文信息平台。中文信息平台是指具有对汉字进行编码、处理、传输的能力并且具有中文输入、输出界面的操作系统。多文种平台,是指能同时处理两种或两种以上语文的操作系统。[2]中文信息平台极为重要的指标是支持什么样的汉字编码标准,编码系统混淆必定会产生乱码。汉字编码,本质上是把无须的、开放的汉字集合变成相对封闭的有序集合,以数字化形态实现汉字信息的处理、储存和传输。1981年国家标准局公布的《信息交换用汉字编码字符集・基本集》收录了6763个汉字和682个非汉字图形字符,目前大量的对外汉语教学软件和电子资料都建立在这个基础之上。其后陆续出台的几个国际标准,最多包含了27000个汉字,为汉语教学、双语处理提供了方便。

在对外汉语教学中建设现代汉语语料库是一项基础的工程。汉代汉语语料库可以辅助制定教学大纲、编写教材、查找例句、编写教案、编出试题等等,为对外汉语教学工作提供极大的帮助。现代汉语语料库的建立要经历原始预料收集、提取粗语料、提取精语料几个过程。

二、中文信息处理与对外汉语教学

中文信息处理技术的大力发展对对外汉学教学也有积极的作用。中文信息处理技术在技术资源建设、理论方法研究和具体技术应用开发方面对对外汉语教学的发展都起到了积极的作用。

1.基础资源建设

语言资料库在是对外汉语教学的一个重要工具,它包括语料库、词汇知识库和语法语义辞典等。语言资料库构成了不同层面上的自然语言处理得以实现的基础。1979年,武汉大学建设了527万字的汉语现代文学作品语料库;1983年,2000万字的现代汉语语料库在北京航空航天大学建成;同时在北京师范大学还建成了106万字的中学语文教材语料库,北京语言大学建成了182万字的现代汉语词频统计语料库。近20多年来,北京大学、清华大学、教育部语言文学应用研究所、山西大学、哈尔滨工业大学、北京语言大学、东北大学、中科院自动化所、科技部中信所、中国传媒大学、台湾中央研究院和香港城市大学等相当一批的大学和研究机构都对汉语资源库建设做了大量工作。其中,北京大学计算语言学院研究所开发的“综合型语言知识库”、董振东等开发的“知网”(HowNet)是两项有代表性的成果,而中文语言资源联盟(Chinese Language Data Consortium,缩写:Chinese LDC)则是为推动我国语言资源共享所建立的第一个联盟性学术组织。

(1)综合型语言知识库

北京大学计算语言学研究所的语言资源建设工作始于1986年,从研制《现代汉语语法信息词典》起步。该词典曾获1998年度教育部科技进步奖二等奖。在此成果的基础上,于1995年提出建立综合型语言知识库的规划,经过十多年的努力,综合型语言知识库取得了阶段性成果,并于2007年获教育部科技进步奖一等奖。

申报奖励之前,综合型语言知识库通过了教育部组织的技术鉴定:“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。”该项成果为推动以汉语为核心的多语言信息处理技术的发展做出了重要的贡献,并取得了显著的经济效益。作为单项技术成果,在北京大学创下了转让次数最多的记录。

综合型语言知识库在汉语计算语言学理论、汉语语言知识形式化描述、语言知识库构建技术以及多语言知识融合技术等方面都有所创新。目前它包含的语言资源包括现代汉语语法信息词典、现代汉语语义词典、中英文概念词典、汉语短语结构知识库、现代汉语大规模基本标注语料库、汉英双语对齐语料库以及多个专业领域的术语库。在对外汉语教学实践中,综合型语言知识库以其完整的语言知识网络、快捷的信息处理技术发挥着不可替代的作用。同时,综合型语言知识库仍在继续发展,研制中的综合型语言知识库系统不仅把现有的语言知识资源集成为一个有机的整体,各个成员知识库可以互相参照,互相印证,而且进一步挖掘深层的语言知识,发展概率型汉语词汇知识库,让语言知识库建设更上一层楼。

(2)知网

知网(HowNet)是董振东教授提出并创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以解释概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网是一个构思严密的知识系统也是一个名副其实的意义网络,它主要反映的是概念的共性和个性。在知网中,义原是一个很重要的概念,指最基本的、不易于再分割的意义的最小单位。知网体系的基本设想是,所有的概念都可以分解成各种各样的义原,义原又组合成一个无限的概念集合。董振东教授认为,中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。因此,知网从大约6000个汉字中提取了这个有限的义原集合。知网是在线的,修改和增删都很方便,因此其规模是动态的。目前,知网已作为中文信息处理技术研究和系统开发重要的基础资源,被广泛的应用于词汇语义相似性计算、词义消歧、名词实体识别和文本分类等许多方面。其中词汇语义相似性计算和名词实体识别在对外汉语教学中对词语相似性辨析有很大的作用。

2.理论方法研究

概念层次网络理论的提出是中文信息处理研究中的一个有益探索。进入20世纪80年代以后,汉语分词与词性标注方法研究得到了快速的发展。全切分分词方法、最短路径分词方法、N-最短路径分词方法、基于隐马尔可夫模型(HMM)或n元语法的分词方法等一系列分词方法相继提出。1992年,《信息处理用现代汉语分词规范》被国家技术监督局批准(GB13715),并于1993年5月1日在全国实行。20世纪90年代,面向机器翻译提出的SC文法,从某种意义上拓展了复杂特征集理论和合一文法,而《现代汉语语法信息词典》和“知网”是我国学者结合汉语特点和规律对词汇主义思想的进一步发展和应用。

【结语】

中文信息处理技术有着重要的意义,它是语言学与信息技术的有机融合,旨在对中文的音、形、义等输入计算机,进而进行必要的信息加工与处理,在这一过程中涉及到了计算机科学、信息学、声学等大量学科的交叉知识。具体来说,语言信息处理是将自然语 言的各个部分,包括词语、句子、段落以至篇章进行文本、声音和图像各种方式的信息化加工,然后对这些信息进行输入输出、压缩、存储以及检索等等各项处理。 我们都知道,自然语言是我们日常最重要的交流沟通工具,是人类进行思维活动、文化传播的有效载体,因此语言信息处理这种技术有着重要的意义,本文专门分析 了利用计算机处理中文信息,即汉语信息处理技术,希望本文能够对同行们有所启示,还望能够多多交流学习,更好的完善这项技术。

【参考文献】

[1]曹邦伟,高传善.计算机与信息处理[M].上海:复旦大学出版社,2001.

[2]陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002,(1).

上一篇:中小城市公交场站发展对策及实施保障研究 下一篇:智能停车场管理系统设计方案