基于规则的维吾尔语命名实体识别研究

时间:2022-08-02 07:37:39

基于规则的维吾尔语命名实体识别研究

【摘 要】命名实体(Named Entity, NE)是指文本中承载着人名、地名、组织机构名等重要信息的词语。命名实体识别(Named Entity Recognition, NER)是指在正确理解文本意义的基础上,对文本中的命名实体进行识别,并按照其类型进行归类。本次主要是基于对维吾尔语中的人名、地名进行研究,通过此次的研究,能够使更多的人了解到维吾尔语,同时对了解维吾尔族人民的文化也起到积极的作用。维吾尔族语言中的人名、地名等都有相关的特征词,通过特征词能够迅速而有效的找出文本中的人名、地名等信息,所以此次研究的方法主要依据基于规则的方法。

【关键词】命名实体 命名实体识别 特征词

1 引言

从研究范围方面来说,早期的命名实体识别研究主要集中在西方国家,以研究英文为主。1995年后学者开始了对中文、德文、日文等语言的研究。中国在中文命名实体识别研究上取得了较好成绩,并且展开了对少数民族语言如维语、蒙语等语言的命名实体的研究。

本次的研究目的在于通过该软件对我国少数名族中的维语能够起到一个推动的作用,使更多的人能够了解维语,同时在阅读维语文章中能够快速找到该文章的人名,地名,组织机构等重要信息,对阅读者起到一个非常重要的帮助。

2系统的设计与实现

2.1系统设计功能及实现原理

命名实体识别过程中,通过信息检索,在一篇文章中能够快速找到有用的信息。此次研究,主要针对数字,人名,地名等信息,由此,该系统的设计功能主要分为以下七大模块:

(1)分词功能:通过分词功能,把读取的文本数据进行分词,方便取词和查找人名地名时进行词与词之间的比对。

(2)数字识别:通过程序的控制,对数字进行直接的判断,从而找出文本信息中出现的数字以及数字出现的位置;

(3)人名识别:在维语命名中,人们习惯把名字命名为具有一定寓意的词语。因此,在人名中,我们提前建立一个人名数据词库,通过查找那些具有一定寓意的词语,把它们总结起来进行录入,然后通过分词功能把文章中的每个词语进行读取和比对,再加上句子的语法构成结构,从而判断该词是否属于人名,如果文章中出现过的人名不在数据库中,那么我们需要手动录入该词,使该词保存到数据库中,以便在下次使用中出现该词语时会自动识别为人名。

(4)地名识别:地名识别的方法类似于人名的识别方法,不同的是,地名的词语组成种类比较多,可分为以下四种:①单个词语组成地名;②由地名首词语+规则词共同组成地名;③由地名首词语+中间词+规则词共同组成地名;④多个连续地名组成一个特定地名;

通过程序的判断,得出该词属于哪一种地名构成的结构,从而得出一个较为完整和准确的地名。

(5)词语添加:在使用的期间,用户会发现有的人名或是地名在数据库中没有存在,那么为了下次使用时能够判断该词属于人名或是地名,我们需要手动的进行录入,因此该软件系统具有添加信息的功能。

(6)文本读取:在如此多的文本格式中,需要对多种文本格式的支持,例如.txt,.doc等;

(7)编辑功能:编辑为文本提供常见的文本编辑功能,例如字号、颜色的设置、查找、选择、导入/导出等功能。

2.2系统技术支持

后台技术:通过Java语言的控制与判断,实现对文本的读取,同时找出文本中的所要的信息,包括数字、人名、地名等。

前台技术:通过Java中的Swing组件与AWT组件,完成对前台可视化的编辑,从而有一个更好的用户体验。

数据库技术:MySql数据库是一个小型的,用户数量最多、最广的数据库,因此,此系统通过MySql数据库进行数据存储,同时还能够方便、快捷的对数据进行操作。

3系统识别结果与分析

对系统的识别性能评估,我们用:准确率(P),召回率(R),综合指标(F)值3个评测指标,其识别结果如表1,表2所示。

通过数据可以看出,我们这次完成的软件系统对维语识别的正确率是很高的,但是还有好多的没有识别出来,原因是数据库中所存储的人名、地名有限,我们不能完完整整的把所有数据都保存在数据库中,只能通过后期的不断应用,不断的添加数据,完善自己的数据。对于这些问题,我们今后会对其改进,使正确率更高,更能有效地帮助人们在阅读维语文章中找到有用的信息。

4 结语

通过此次实验研究,我们不但完成了软件系统的功能实现,还对维吾尔语的语言特点以及人名、地名构成规则进行了深入研究,总结出维语人名、地名中的规则。与此同时,我们还建立了维语人名词典库和地名词典库,通过词典库中的信息,能够在使用软件时,快速而有效地找出文本中存在的人名、地名。

参考文献:

[1] 刘群.机器翻译研究新进展[J].当代语言学,2009,02:147-158+190.

[2] 邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报术,2006

[3] 张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997

[4] Dimitra Farmakiotou, Vangelis Karkaletsis, et al. Rule-based named entity recognition for Greek financial texts[C]//Proc. of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000). 2000: 75-78.

上一篇:基于仿向阳植物的聚光式球体太阳能电池的采光... 下一篇:宽带波导器件的高功率设计