数据库在词频统计中的应用

时间:2022-05-30 03:29:08

数据库在词频统计中的应用

摘 要:由于语言信息具有大数据量、随机性等特征,在语言学研究中常引进统计学方法来定量分析,以确定语言现象的基本特征,通过揭示数量关系来帮助判定语言系统之间的关系。本文选用现代维吾尔语中常用的发生语音弱化的词汇,建立一个语料库(弱化规则库),利用传统语言学,计算语言学和统计学相结合的方法对语料进行统计分析,实现了维吾尔语中生活常用词的词频统计分析,考察了维吾尔语词汇中的弱化情况和词频统计。

关键词:现代维吾尔语;词频统计;语音弱化

中图分类号:TP391.1

维吾尔语是属于阿勒泰语系突厥语族语言之一,现代维吾尔文有32个字母,其中元音字母8个,辅音字母24个,是粘着性语言。每个字母按词中出现的位置分为独立式、词前式、词中式和词尾式等多种字体形式。维吾尔文字母大都有各自的基本笔画和结构符号,用来表示语音和字形。国际上一些语言在自动分词方面的成就和相关理论非常值得我们的参考与借鉴。例如,英语在书写过程中,词与词之间用空格来分开,于是空格就可作为自动分词中的界限,而维吾尔语是以词为单位自右至左连体书写,自然折行,词之间也以空格来区分,这与英语相类似。维吾尔语中词可由单个或多个字母组成,且字母在书写时必须按照文字书写规则以词为单位联体书写,标点符号的方向为从右向左,与汉,英文的方向相反。词与词之间用空格分开,在本文的研究中是以空格分开的词为单位进行词频统计和分析的。

1 词频统计分析方法

词频(word frequency)是在一定范围内的语料中词语的实际使用情况统计,词频有绝对频度和相对频度之分。绝对频度是词语出现的次数,相对频度是该次数与整个语料所包含的词例总数之比。词语的领域通用度是用来衡量词语在各流通领域内的通用程度,即词语常用程度的量化指标。

维吾尔语作为一种自然语言,具有自然语言所共有的一些规则,发现国内外的经典词频统计方法同样适合于维吾尔语的词频统计。

本文以数据库技术为基础对维吾尔语句法分析的数据进行处理,解决实际应用中的一些问题。比如说:现代维吾尔语中最常见的语音的弱化现象等。

在现代维吾尔语里,当在原来带有 等低位性元音的很多名词词根或词干后头缀加一些词缀或词尾,原词根或词干内的 等低位性元音提升为 等高位性元音。这种低位性元音提升为高位性元音的的音系现象,不仅仅发生在词根和词干后面缀加词缀后的词干上,也同样发生在词根和词干后面缀加词尾后形成的各类语法形式上。也就是说,低位性元音提升为高位性元音的音系现象同样发生在名词或动词的构形词尾内的低位性元音上。

本文主要用维吾尔词汇中最常见的这种语音弱化现象而归纳出来的规则库表来处理海量的维吾尔语词汇并对它进行词频统计。以通过词频统计的结果来提供用户维吾尔语言中元音间发生弱化的词和哪些词中词频最高的词等相关的信息。

2 语音弱化处理分析

在人工处理维吾尔语的常用词语音弱化现象过程中遇到的主要问题就是归纳出弱化规则。准备语料的时候首先确定每个词的词长,然后找出这个词有几个弱化现象,这个弱化现象发生在哪一个语音上,出现在第几个音节,在语料库里面共有几种弱化现象等问题。由于要处理的词汇较多,工作量也较大,因此迫切需要寻找一种更高效的方法,来找出弱化规则和处理复杂现象,降低语音弱化分析所花费时间,这是一项有意义的工作。

存储在Excel表中的维吾尔语音数据,虽然用手工可以抽取出“维吾尔语弱化规则”,但是比较困难而且费时易出错。比如,不同的32个字母之间存在68种弱化现象,每一种弱化现象还能给我们显示出第几音节发生弱化,并指出它的弱化频率等等,这些规则可以组成多重条件来抽取数据,因此难免涉及到大量复杂的数据处理问题,使用Excel方法处理数据不仅效率低,用那些弱化规则来判断要处理的语料分类的时候是因为一个一个地比较,容易判断出错或漏判,误判。如果数据有变动,整个计算过程必须重新来。现有的弱化规则仅仅是通过处理有限个(一万多个)词而得出来的,如果再用更大的词库(如是原来的数十倍),就会因数据的变动而使整个计算过程必须重新进行一次,费时费力。如果对于这种含大量数据的任务采用数据库系统的操作功能来处理分析会方便、快捷和准确的多。

在多种数据处理方法中引入数据库的处理方法,通过数据库的操作指令进行数据的各种比较运算、查询和统计分析,高效省力。本文根据采集的数据,所得到的规则也有可能跟现在的弱化规则不完全一样,从文本中提取任意个词比较已有的弱化规则,并补充一些规则,会容易的多。为了提高工作效率,更好的应用数据库的整体性和共享性特点,本文用Access数据库来处理这些问题。

3 数据操作实现――应用实例

数据库和高级程序设计语言C#结合起来,可以构建分布式的网络操作平台以解决很多实际问题。比如,数据资源共享、数据远程传递的实现、通信开销的降低等,利用C#实现分布式数据库查询给我们带来很多方便。

下面的实例是根据维吾尔语弱化规则和语料分类在Access数据库里面的处理情况。

本数据库系统共有3个基本表:弱化数据表,查找成功数据表found words和未登录或未找到的数据表not found words(从弱化数据库找不到的词放在这个数据表中),如果查找成功则增加频次(第一个词语添加,从第二个开始查找。不成功的话添加新纪录)。首先把人工处理好的Excel表中的“弱化规则”导入到Access数据库里面。

图1 已人工处理的弱化规则表

图1所示是已导入到Access里面的要参考的维吾尔语弱化规则表。将已知的语料先进行分词,然后对本词在变次,音节位,弱化字母等方面进行统计。待处理本文的研究就是按这种规则来处理语料分类的。

为了方便,跟“弱化规则”比较把语料分类的词汇表格文件也导入到Access数据库,目的是将待处理的表中的词汇以与已建立的“弱化规则”表来进行比较、分析,通过两表之间进行关联,利用数据库处理指令进行操作处理,结果存入到查找成功数据表。本文通过以下的代码来实现了Access数据库的连接和查询。

运行步骤如下:

(1)待处理语料分类的文本中提取词语。

(2)将本从词弱化数据库中查找,如果查找成功读取弱化规则数据库中的记录。

(3)读取的该记录新数据库中查找,如果查找成功增加该记录的频次,如果不成功添加新记录。同时显示该记录。结果如图2所示。

图2 以弱化规则来处理的词汇表

图2表示数据链接成功以后从待处理的语料分类表中提取某个词,跟归纳出来的弱化规则库表中查找、匹配并读取弱化规则数据库中的记录,被提取的词从已人工处理的弱化规则表中查找成功了就增加该记录的频次。

(4)从待处理的文本中再提取新词并分别进行查找和比较弱化规则表和已找到的词汇表中。

(5)如果本词在弱化数据库中查找不成功就寻找,若还是查不找就本次记载并读取未登录数据库表中。

(6)如果查找成功就本词的词长,频次,词中有几个弱化现象,弱化发生在第几个音节等方面进行比较。如果这几方面都一样就增加了本词的频次。

4 结束语

本文用已人工处理的现代维吾尔语中最常见的低位性元音提升为高位性元音的音系现象,即原来带有 等低位性元音的很多名词、词根或词干后头缀加一些词缀或词尾,使原词根或词干内的低位性元音提升为 等高位性元音的语音弱化现象来组成的常用词汇,建立了一个弱化规则库表,并对待处理的语料按这个规则来进行词频统计,效果良好。

上述讨论仅仅是给出了一个实例,并不是数据库(Access数据库)在数据处理中的全部应用,但是从以上的例子可以看出利用数据库和数据库技术,可以缩小处理海量信息的时间和工作量,通过程序代码来处理大量的同类的信息。从最简单的数据表到能够进行海量数据存储的大型数据库系统,都在各个方面得到了广泛的应用。

参考文献:

[1]玉素甫・艾白都拉.基于网站用词调查的现代维吾尔语词长研究[J].计算机应用与软件,2012(05).

[2]苗雪兰,刘瑞新,宋歌.数据库系统原理[M].北京:机械工业出版社,2007.

[3]赵青松,郑阿奇,时跃华.C#使用教程[M].北京:电子工业出版社,2008.

[4]哈米提・铁木尔.现代维吾尔语语法[M].北京:民族出版社出版,1987.

[5]曹秀英,朱毅华.利用C#实现分布式数据库查询[M].北京:电子工业出版社,2004.

[6]段红光,罗一静.Excel表在数据库中的应用[M].北京:人民邮电出版社,2006.

[7]力提甫・托乎提.维吾尔语语法参考[M].北京:民族出版社,2012.

作者简介:努尔比亚・买买提(1987.12-),女,维吾尔族,文学院2012级硕士研究生,研究方向:计算语言学,主要从事自然语言处理方面的研究;栾静(指导老师),女,硕士生导师,计算机科学技术学院,主要从事计算机教学工作。

作者单位:新疆师范大学,乌鲁木齐 830054

基金项目:本文部分受到新疆师范大学重点实验室课题《高中维吾尔语数学教材用词定量研究(项目编号:WLYQ201304)》的资助,部分受到新疆大学文学院研究生科技创新项目《现代维吾尔作家和著作搜索系统的研究(项目编号:ZYW2013002)》的资助。

上一篇:高校公共机房的管理与维护探索 下一篇:视频技术在多媒体课件中的应用