维吾尔族人名识别系统的设计与实现

时间:2022-05-17 05:18:37

维吾尔族人名识别系统的设计与实现

摘要:众所周知,维吾尔族是一个勤劳勇敢的民族,在我国的发展建设中做出了突出贡献。研究维吾尔族人名对于了解维吾尔族,维护祖国统一和民族团结具有重要意义。本文就维吾尔族人名识别系统的设计和实现展开了一系列研究,首先从对维吾尔语黏着性特点的分析入手,研究总结了维吾尔族人名的构成特点,实现了以词性,词干,后缀等特征来找出维吾尔族人名识别方法,并设计了选最佳特征模板算法。实验结果表明,该方法可行而且更有效,达到了预期的目标。

关键词:维吾尔 人名识别 人名词缀 名词词缀

1 概述

近年来,随着计算机软硬件技术的迅速发展,计算机已经进入到了人们生活中的每一个角落。而语言文字是人们生活中不可缺少的交流工具。维吾尔文信息处理技术的发展和维吾尔语研究的成果为开展维吾尔语人名识别研究。随着我国信息化水平的不断提高,互联网技术的不断发展完善,人们越来越渴望使用本民族的语言与计算机进行实时交流。同时,自然语言作为人与机器交流的主要符号载体,在语言处理与组合中承担着重要责任。

随着社会经济,计算机技术和互联网的飞速发展,网络成为了人们日常生活中的必要内容,网络的规模也开始渐渐扩大,大量的数据以电子形式加速膨胀,出现在广大人们的前面,根据有关资料的统计,80%以上信息是以语言文字为载体传播的,而且这些数据的规模开始越来越变大了,这给人们带来了一些不必要的麻烦并对信息的有效获取也带来了挑战。在这种时代,为了帮助人们从大量的数据源中快速找到自己所需要的资料和数据,采用自动化技术来帮助信息的处理是至关重要的。

目前,少数民族自然语言处理越来越成为中文信息处理的重要组成之一,受到了众多学者的广泛关注。而维吾尔族人名识别则是维吾尔自然语言处理的重要领域,目前尚未建立起系统完善的识别系统。本文就维吾尔族人名识别系统的设计与实现进行了研究和分析,为今后的研究工作提供了良好借鉴。

2 研究现状

通过研究国内外相关的人名识别研究,再结合维吾尔语自身的特点对基于规则的维吾尔语人名分析方法进行讨论,由于维吾尔语作为一种自然语言,具有自然语言所共有的一些规则,发现国外经典的人名识别方法同样适合于维吾尔语的人名识别研究。这些工作将为维吾尔语人名处理提供有效的方法和新的思路。

目前,虽然我国已有很多学者研究维吾尔族人名识别,并取得了阶段性成果,但研究出来的人名识别方法和手段无法满足当前维吾尔族人名识别工作的需要。与中文名字相比,维吾尔族人名具有其独特性,因此其识别和处理难度较大。针对这一问题,有关学者设计了研究问卷,并采用统计与规则有机结合的方式,初步实现了人名的自动识别,符合语言规则和要求。

目前有关国外英语人名识别已取得了显著成果,并确定了较为系统的研究和分析方法,其准确度较高。该方法利用建立统计模型的方式对语料库进行统计分析,最终实现识别目的。但有关维吾尔族人名识别工作尚未展开阶段性研究。

3 维吾尔族人名识别系统的设计

维吾尔语简称维语,是一种广泛使用于我国西北地区的少数民族语言,它属于阿尔泰语系突厥语族西匈语支,在结构语法上属于黏着语类型,现行的维吾尔文字是阿拉伯文字基础的拼音文字。

要想设计出一整套完善的维吾尔族人名识别系统,首先就要分析和研究维吾尔族人名的构成特点。本文在充分了解和掌握维吾尔族人名构成结构和特点的基础上,提出了维吾尔族人名识别系统的设计构想。

3.1 系统分析 系统开发的总体任务是实现对维吾尔文本中的人名识别提高准确率。可是维吾尔人名识别是比较复杂的一个过程,在识别过程中不能保证百分之百的识别出来,这是因为:

①粘着性导致太多的派生词:一个维吾尔单词通过链接词缀可产生新的单词和派生词。如一个人名“ ”(阿力木)有以下几种形成:

②维吾尔人名在句子中位置自由:单词顺序没有太大的限制,人名可以出现在句子中的任何位置。比如以下包含维吾尔人名 (阿力木)的句子:

(阿力木没来)

(他是阿里木的哥哥)

(他叫阿力木)

③可用资源缺少:目前维吾尔语中尚缺少大型人名标注语料,人名词典等可利用资源。

④维吾尔人名结构类型也比较复杂。

对这种复杂性高的维吾尔人名来说,本系统遇到粘着性导致太多的派生词情况时,首先本系统取掉名词构型词尾。遇到维吾尔人名在句子中位置自由情况时从人名词典里查找,进行识别,识别出来的维吾尔人名保存到数据。

3.2 系统模块介绍及功能流程图

本系统主要是由文本处理模块和人名识别模块两部分组成的。维吾尔人名识别系统的大致流程图如图1所示。

3.2.1 文本处理模块。此模块的主要任务是调整文本和分词,分词原理是文本文档中的空格和标点符号来分词。

3.2.2 人名识别模块。识别模块是维吾尔族人名识别系统最核心的一个模块。他的任务就是本系统的任务。分好的词首先通过名词词缀进行取掉构型词词缀,然后通过人名词典,如果存在是人名,不存在进入非人名词典,非人名词典内存在,进行排除,不存在进入人名词缀进行识别并保存。

维吾尔人名单词由词干和词缀组成,其结构为:

维吾尔语单词=前缀+词干+后缀1+后缀2+…。

如人名“ ”(阿里木的)由词干“ ”和后缀“ ”组成。在文本中和句子按从右到左的方式书写。所以本系统利用了4个词典:

①人名词典。本词典内有纯维吾尔族人名。

如:

②名词词缀。

如:

③非人名词典。

如:

④人名词缀。

如:

人名识别模块功能流程图如图2所示。

4 总结

维吾尔族人名识别是维吾尔语自然语言处理、机器翻译中的一项重要工作,是自然语言处理中具有挑战性的任务之一。本文介绍了一种维吾尔族人名识别系统的设计方法,从实验结果表明,该系统对维吾尔族人名的识别成功率跟数据库里的资源成正比,数据库语料越多识别率就越高,通过丰富语料库,可以实现维吾尔族人名识别的100%的效果。

维吾尔语/汉语机器翻译中,首先识别句中的人名、机构名等对机器翻译的正确性有一定的帮助,本文介绍的维吾尔族人名的识别系统的设计与实现对维吾尔语机器翻译奠定基础。

参考文献:

[1]高士杰.维吾尔语语法[M].中央民族大学出版社,1998.2.

[2]程适良.现代维吾尔语语法[M].新疆人民出版社,1996.9.

[3]玉素甫,阿不都热依木,阿依木古丽.论现代维吾尔语词性标注系统[D].新疆师范大学.

[4]玉素甫,潘伟民,热孜万.笔式维吾尔文识别中的文字切分研究[A].民族语言文字信息技术研究[C].2007.

基金项目:本文承新疆师范大学优秀青年教师科研启动基金项目(项目编号:XJNU1216)和新疆师范大学“计算机应用技术”重点学科招标课题(课题编号:12XSXZ0607)的资助。

上一篇:基于Pro/E的计算机辅助设计研究 下一篇:浅议大学生恋爱观