中小学课本中藏文文字结构及统计频率

时间:2022-06-29 03:50:52

中小学课本中藏文文字结构及统计频率

摘要:每种文字创制之初都不可能十分完善,需要在运用中不断总Y经验,逐渐规范,日益完善,藏文同样有一个发展过程。“藏文”一词写作,意为“藏族的文字”。藏文作为藏族人民的书面交际工具,历史之悠久。该文中着重介绍了中小学课本中藏文字的常用频率,使教育者能够基本了解每一阶段藏文文字掌握程度。

关键词:中小学藏文;文字Y构;字频

中图分类号:G642文献标识码:A文章编号:1009-3044(2011)27-6771-03

藏文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1984年代开始,藏文信息处理进入了快速发展阶段,并极大地提高了藏文信息处理效率。藏文信息处理分为藏字信息处理与藏语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。藏文字频统计是藏文信息处理的基础性工作,通过对藏文字的部件、音节、Y构和字的频度与通用度等定量统计与定性分析,为藏文信息处理提供基础数据。

藏语作为藏字形成的基础,具有强大的历史意义,而吞米•桑布扎大师作为藏族文化的创始人,具有不可磨灭的贡献。大师在创造了文字的同时,还有八部藏语文论著,现只有《文法根本三十颂》和《音势论》一直传流至今,而其它著作在历史的演变和政局的变化过程中被毁。《文法根本三十颂》是藏语的愈发著作,重点讲虚词和词格助词。我们在研究字频时语法也很重要,藏语语法的严谨使语言在发展过程中起到很重要的作用。因而藏语语法在文字中占据的比例是很大的,尤其在字频方面出现频率高,每个语句基本上离不开语法限制。

藏文的频度统计不仅可以为藏文的语料库研究提供极有用的数据.而且对于藏文教学和藏文信息处理的研究也有重要的指导和参考价值。研究藏文使用在各个专业范围内的分布情况、藏文构件频率的统计,可以为设计更加合理的藏文语料库打下很好的基础,特别是藏文词频的统计,使使用者能够很好的设计好词频排序。这样能给使用者带来查找方便、快速、节约等效率。藏文字频统计中不仅要统计出整字频度信息还需统计出构成藏文字的各构件的频度信息,由于构成藏文字的构件Y构复杂形式变化灵活多样在藏文信息处理中必须分解其构件。本文通过对中小学藏文课本中的藏文进行统计。

1 中小学课本中藏文文字Y构

藏文文字是由多个字符构成,最多是七个字符构成,而少则一个字符构成。其Y构有:

1)只有一个基字,例如:

2)基字带后加字,例如:

3)基字带后加字和重后加字,例如:

4)基字带下加字,例如:

5)基字带双下加字,例如:

6)基字同时带下加字和后加字,

7)基字带下加字和后加字以及重后加字,例如:

8)基字带前加字,例如:

9)基字带前加字和后加字,例如:

10)基字带前加字和后加字以及重后加字,例如:

11)基字带前加字和下加字,例如:

12)基字带前加字、下加字和后加字,例如:

13)基字带前加字、下加字、后加字和重后加字,例如:

14)基字带上加字,例如:

15)基字带上加字和后加字,例如:

16)基字带上加字、后加字和重后加字,例如:

17)基字带上加字和后加字,例如:

18)基字带上加字、下加字和后加字,例如:

19)基字带上加字、下加字和后加字以及重后加字,例如:

20)基字带前加字和上加字,例如:

21)基字带前加字、上加字和后加字,例如:

22)基字带前加字、上加字和后加字以及重后加字,例如:

23)基字带前加字、上加字和后加字,例如:

24)基字带前加字、上加字、下加字、后加字,例如:

25)基字带前加字、上加字、下加字、后加字以及重后加字,例如:

从以上Y构中可以看出有些Y构在应用中出现的频率较多,而有些则出现的较多。其中出现较少的Y构与出现较多Y构之间相差一千倍以上。在其中,基字带后加字的、基字和基字带前加字和后加字的最多,占藏文文字的一半以上,其他Y构的藏文文字所占的比例较小。

2 中小学课本中字切分特征和难点

2.1 从藏文的文字特征来看,可利用的切分特征主要有以下几点

1)是音节特征,藏文是拼音文字,她由30个辅音字母、4个元音字母以及基字、前加字、上加字、下加字、后加字、后后加字组成。藏文字以音节为单位,每个音节最少可由一个辅音字母构成(元音和上、下加字不能独立成字),最多可由7个字母拼合而成,各音节间用音节点分隔。

2)是拼写特征,藏文自左向右书写,组成音节时以基字为中心分为前加字、后加字、后后加字,基字可横向和纵向双向拼写,而前加字、后加字、后后加字只能横向拼写。

3)是形态特征,藏文由确定的10个辅音字母作后加字,既:其形态特征都发生在这10个确定的后加字上。

4)是标点符号特征,藏文有一套独立而完整的标点符号体系,主要在篇章、段落、句子和字之间起“分界符”的作用,

2.2 难点

在研究中发现有一些藏文字在句末时不以等Y束,具有特殊的性质,如:基字或后加字有时,不加Y束符号。

3 中小学课本中藏文字的频度

藏文字和其他文字一样是在社会历史发展中形成的,每个字都有其一定的意义。藏文字大多以为分隔符,来区别字与字之间。我们常用的多以它们来区分字与字之间。

3.1 藏文文字的频度算法分析

藏文文字频度算法如下:

1)首先定义两个数组A和数组B;

2)把待分析的文本置入str 中;

3)切分str中的文本,并保存到A中;

4)初始化动态数组B;

① 循环读取数组A中的文本

a 若不满足条件

② 循环读取数组B中的字节

a 若数组A中的字与数组B中字相同,而且满足条件,则字数加1;

③ 定义一个变量K,读取B中的字

a 若不确定,初始化B,B中的字数为1;

b 读取A中的字,放到B中;

5)按字数的大小来排列字

6)输出字和字频数。

以上算法统计藏文文字的频率,在其实验中我们发现,藏文字中一些字在应用中频率很高,其中虚词占有很大的比例。

3.2 小学课本中藏文字的频率

我们都知道,小学是教育的启蒙阶段,具有很重要的意义,是掌握藏文文字的基础教育。实验发现小学课本大概106218字中,其中常用频率较高的50字为如表1。

3.3 初中课本中藏文字的频率

初中是教育发展的阶段,是走向成熟的关键。实验发现初中课本中频率高的常用50个字如表2所示。

4 Y束语

藏语言文字虽然复杂,但不是没有痕迹可循。在研究藏文中小学课本字频的统计,发现我们平常说的口头禅也是我们在语言中经常出现的高频词,代表我们的语言风格,因此对藏文字频进行统计,要从社会语言进行研究有其特定意义。

参考文献:

[1] 江荻,龙从军.藏文字符研究(字母读音编码字频排序图形拉丁字母转写规则研究)[M].北京:社会科学文献出版社,2010.

[2] 毛尔盖•桑木旦.藏文文法概论(藏文)[M].西宁:青海民族出版社,2005.

[3] 扎得仁钦端智.扎得文法(藏文)[M].西宁:青海民族出版社,2007.

[4] 陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003(4).

上一篇:数据挖掘在数字图书馆个性化服务中的研究与应... 下一篇:网络信息安全中加密算法的研究与实现