统计缅汉词典本词词条缅文符号的构成

时间:2022-07-25 01:36:40

统计缅汉词典本词词条缅文符号的构成

作者简介:张东强(1990―),男,彝族,云南人,在读研究生,云南民族大学东盟学院,外国语言学及应用语言学缅甸语方向。

方玉琼(1984―),女,白族,云南人,在读研究生,云南民族大学东盟学院,亚非语言文学缅甸语言文学方向。

摘 要:缅汉词典的词条具有很大的研究价值。由于缅甸文字的特殊性和缅文计算机技术发展的限制,想要统计缅文符号的使用频率几乎是不可能的事情,刚好着手的项目已完成了缅汉词典的数据录入,便利用这一数据统计缅汉词典本词词条缅文符号的构成。

关键词:缅汉词典;本词词条;缅文符号

缅汉词典在缅语界使用是非常广泛的,几乎人手一部。缅汉词典是缅语界资深前辈,吸收了常用的基本词目,参考了中缅多部权威字词典、百科全书、词汇集,收录古今缅文原著中的新旧语词,花费大量的精力编纂的一本收录六万多词条,含金量很大工具书。因此,缅汉词典的词条有很大的研究价值。

缅文是一种拼音文字,书写自左向右,但拼音符号不都是按照线性方式排列。因此想要对词典中大量缅文词条的辅音、复辅音、元音进行统计是很难做到的。这里我们只统计分析缅文单一符号在缅汉词典本词词条中的占比。

缅汉词典中的本词排在同一词条内的词、不同词性分别标示罗马数字的词,分别算作一个独立词,不合并统计。

本次统计录入本词词条采用unicode的编码。查询缅文unicode编码符号发现其包含图片所示符号,其中有缅文、巴利文和缅甸少数民族文字符号。统计如下图。

通过统计得出整部词典本词词条共63145条,包含字符571743个(中文标点符号计在内),由于部分与上加、下加符号相拼的符号有自适应性,软件无法精确统计而放弃,这部分包括中文标点符号、巴利文和少数民族文字,占总符号数的0.059%。

从以上统计可以看出,整本词典本词词条缅文符号的词条占比和符号占比相近。其中词条占比和符号占比最大的是编码编号103A,符号占比高达10.4%,其次是编码编号1038、编码编号1000和编码编号102C,因此搞清楚缅文编码编号102B和102C正确的拼写规则是非常重要的,关于这一点详见我的另一篇论文《统计修正中翻缅文字翻译工作中的几个易错点》。统计中占比最少的符号是数字符号,除数字符号以外是104F。另外,缅文的33个辅音字母占总比高达44.51%。

做以上统计有助于缅文输入法键盘符号设计,知道哪些符号是常用的而放置在最易敲击的位置,哪些符号出现的频率是一致的而应该放置在临近的位置。但是只凭一部词典的统计是不够说明什么的,要统计缅文符号在媒体、社交、教育等日常接触领域中的占比才更科学,但就目前的缅文计算机发展水平来做这件事情是不可能的,因此对现有本词典数据做以上简单统计,让大家了解本词典的本词词条缅文符号的构成。(作者单位:云南民族大学)

参考文献:

[1] 北京大学东方语言文学系缅甸语教研室.缅汉词典[M].商务印书馆,2000

[2] 汪大年.缅甸语汉语比较研究[M].北京:北京大学出版社,2012.3

[3] 岳麻腊.十二世纪以来的缅甸语语音研究[M].北京:民族出版社,2010.6

上一篇:浅析《汉字英雄》与《中国汉字听写大会》 下一篇:复合词语义透明度的影响因素